Redditは最近、プラットフォーム上のコンテンツをスクレイピングするAI企業を制限したり課金したりするために、robots.txtファイルを調整した。この動きにより、AI企業とコンテンツ所有者の間でデータ使用権とビジネスモデルに関する議論が巻き起こった。 Redditの動きは特殊なケースではなく、AIによる大規模なデータ収集と知的財産権保護の必要性について、ますます多くのWebサイトが懸念していることを反映している。この記事では、Redditの戦略とその背景について詳しく説明します。
Redditは、AI企業がそのコンテンツをクロールするのを阻止するか、少なくとも支払いを要求する措置を講じている。
今週初め、Reddit は、robots.txt ファイルとしても知られるロボット排除プロトコルを変更すると発表しました。この一見退屈な編集は、AI 企業が言語モデルのトレーニングに使用したいと考えているコンテンツ所有者間の大規模な交渉/戦いの一部です。

「Robots.txt」は、Web サイトがサイトがどのようにクロールされたかを第三者に伝える方法であり、その典型的な例は、検索結果に含めるために Google がクロールできるサイトです。
人工知能の場合、価値交換はそれほど明白ではありません。 Web サイト運営のビジネス モデルがクリックや注目を集めることに関係している場合、AI 企業にコンテンツを吸い取られてトラフィックを送信しない (場合によっては、あなたの作品を完全に盗用する) ことは魅力的ではありません。
そこでRedditは、robots.txtファイルを変更し、未知のボットやクローラーを評価付きで制限しブロックし続けることで、Perplexity AIのような企業がそのやり方で批判されるのを防ごうとしているようだ。
ハイライト:
- Redditは、AI企業がコンテンツをクロールするのを阻止するか、少なくとも支払いを要求する措置を講じている。
- Robots.txt は、Web サイトがサイトがどのようにクロールされたかを第三者に伝える方法です。典型的な例は、検索結果に含めるために Google がクロールできるサイトです。
- Redditはrobots.txtファイルを変更し、Perplexity AIのような企業がこの慣行で批判されるのを防ぐために、レーティング制限と未知のボットやクローラーのブロックを継続した。
Redditの今回の動きは、今後、コンテンツプラットフォームとAI企業の間でデータ使用権を巡る争いがさらに増えることを示唆するとともに、AI技術の発展と知的財産権の保護のバランスをどう取るかという新たな課題も提起している。 これにより、AI企業はデータを取得するためのより持続可能な方法を模索し、コンテンツプラットフォームとAI企業がより公平で合理的な協力モデルを確立することを促進するでしょう。