AIボットによるコンテンツ収集が引き起こす著作権問題と新たなライセンス基準RSL

AIモデルはウェブコンテンツを大量に収集します。GPTBotやGooglebotなどのボットが活躍します。この記事では、訴訟増加と解決策RSLを解説します。

AIボットは何をするのか？

AI企業は独自のボットを使います。OpenAIはGPTBotを、GoogleはGooglebotを、AnthropicはClaudeBotを展開します。

これらのボットはscrapingを実行します。数百万のウェブページを巡回します。

HTMLをダウンロードし、テキストを抽出します。リンクを保存して追跡を続けます。

モデルがトレーニング後、検索ツールを呼び出します。最新情報が必要な場合に使います。

新しいボットがウェブからコンテンツを抽出します。AIの回答を補完します。

過去3年で著作権訴訟が急増しました。New York TimesがMicrosoftとOpenAIを提訴しました。

数百万の記事をChatGPTのトレーニングに使用したと非難します。

アーティスト集団がStability AIとMidjourneyを訴えました。

AI企業はコンテンツをライセンスします。OpenAIがNews Corpと5年契約。2億5千万ドル。

Associated Press、Condé Nast、Axel Springerとも提携。

MetaはNews CorpとReutersと契約。GoogleとOpenAIはRedditに支払い。

OpenAIがDisneyと提携。SoraがMarvelやStar Warsを使用。

AIがコンテンツを再生成すると、ウェブ訪問が減ります。トラフィックと収益が失われます。

ボットの過剰アクセスが問題です。iFixitでAnthropicボットが100万回/日訪問。

Freelancerは4時間で400万リクエスト。サーバー負荷増大。

2025年、RSL CollectiveがRSL（Really Simple Licensing）を開始。オープン基準です。

Yahoo、Reddit、Medium、Quoraが支援。robots.txtで制御します。

ページごとにアクセスを定義。引用のみ、または支払い必須に設定します。

Doug Leeds（創設者）が説明。「ウェブにインフラを提供します。利用規約を設定可能」。

Eckart Walther（RSS共同創作者）が関与。

例：OpenAIがリポジトリ全体をライセンス。固定料金で使用。利用分を分配。

利点	詳細
ウェブ側	公正な支払い
AI側	計算コスト削減

ライセンスが数万契約必要で非現実的。

コンテンツ混合は法的リスクと低品質。Leeds氏「最高回答とコスト削減が可能」。

レシピ例：複数ソース混合で不正確。単一ソースで正確に。

AI Crawl Controlでボット識別。

AI Labyrinthでトラップ。偽リンクでループ誘導。

heuristicaと機械学習で検知。AkamaiやFastlyも類似ツール。

2025年、ボットが総トラフィックの51%超。Imperva報告。