最近、TrilegangersのCEOであるOleksandr Tomchukは、彼の会社のeコマースのウェブサイトが突然麻痺したという緊急警告を受けました。詳細な調査の後、彼は問題のルートが、ウェブサイト全体のコンテンツを容赦なくrawっているOpenaiロボットにあることを発見しました。 TrilegangersのWebサイトには65,000を超える製品があり、それぞれに詳細なページと少なくとも3つの画像があります。 Openaiのロボットは、数十万の画像とその説明を含め、すべてをダウンロードしようとするために、数万のサーバーリクエストを送信しました。
Tomchukは、OpenaiのCrawlerがウェブサイトに深刻な影響を与え、分散型サービス拒否(DDOS)攻撃にほぼ同等のウェブサイトに大きな影響を与えたと指摘しました。 Trilegangersの主なビジネスは、3Dオブジェクトファイルと画像を3Dアーティスト、ビデオゲーム開発者、および実際の人間の特性をデジタルで再現する必要がある他のユーザーに提供することです。これらの文書には、手から髪、皮膚、全身への詳細なスキャンデータが含まれています。
TrilegangersのWebサイトはそのビジネスの中心にあります。同社は、ネットワーク上の最大の「ヒューマンデジタルスタンドアロン」データベースの建設を10年以上費やしており、すべて実際の人体の3Dスキャンからです。 Tomchukのチームはウクライナに本社を置いていますが、米国フロリダ州タンパでもライセンスされています。 Webサイトには、許可されていないロボットクローリングを明示的に禁止する利用規約ページがありますが、これはOpenaiのロボットを効果的にブロックしていません。

ロボットクロールを効果的に防ぐために、このファイルのタグは、Webサイトにアクセスしないように明確に指示することができます。 BOT除外プロトコルとも呼ばれるRobot.txtは、検索エンジンにインデックスを作成してはならないかを検索エンジンに通知するように設計されています。 Openaiは、公式ページで、Webサイトがクロールを禁止されているタグで構成されている場合にファイルを尊重していると述べましたが、ロボットが更新されたrobot.txtファイルを認識するのに最大24時間かかる場合があると警告しています。
Tomchukは、ウェブサイトがrobot.txtを正しく使用しない場合、Openaiや他の企業は自由にデータをcraうと考えるかもしれないと強調しました。これはオプションのシステムではなく、Webサイトのコンテンツを保護するために必要な尺度です。さらに悪いことに、トリレガンガーは米国の勤務時間中にオープンライのロボットによってオフラインにされただけでなく、トムチュクもロボットの大規模なCPUとダウンロードアクティビティにより、AWS請求書が大幅に増加することを期待していました。
ただし、robot.txtは完全なソリューションではありません。 AI企業が本契約に準拠しているかどうかは、自主的に完全に依存しています。昨年の夏、別のAIのスタートアップである困惑は、Robot.txtプロトコルに準拠しなかった疑いがあると主張して調査され、広範囲にわたる注目を集めました。
トムチュクは、Openaiに連絡してそれについて尋ねる方法を見つけることができないと言いました。 Openaiは、TechCrunchのコメントの要求にも応じませんでした。さらに、Openaiはこれまでのところ、オプトアウトツールの長期的なコミットメントを提供できなかったため、問題はさらに複雑になりました。
これは、トリレガンガーにとって特に難しい問題です。 Tomchukは、彼らが従事しているビジネスには、実際の人々のためにスキャンしているため、深刻な権利の問題が関係していると述べました。ヨーロッパのGDPRおよびその他の法律では、許可なくオンラインでライブ写真を使用することは違法です。

皮肉なことに、Openaiロボットの貪欲な行動により、トリレガンガーはウェブサイトの脆弱性を認識させました。トムチュクは、ロボットがより穏やかな方法でデータをrawった場合、彼は問題に気付かないかもしれないと言いました。
「これらの企業がデータに対する脆弱性を活用しているように見えるので、それは怖いです、そして、彼らは「私たちのタグでrobot.txtを更新すれば、あなたはオプトアウトできます」と言います」とトムチュクは言いました。しかし、これは実際にビジネスオーナーに責任を負わせ、これらのロボットを止める方法を理解するように頼みます。
Tomchukは、他の小規模なオンラインビジネスが、AIボットがウェブサイトで著作権資産を盗んでいるかどうかを発見する唯一の方法が積極的にそれを求めることであることを認識することを望んでいます。 AIロボットに悩まされているのは彼だけではありません。他のウェブサイトの所有者は、Openaiのボットがどのようにウェブサイトを破壊し、AWS料金を引き上げる方法をBusiness Insiderに明らかにしました。
2024年までに、この問題はさらに悪化すると予想されます。デジタル広告会社Doubleverifyによる新しい研究では、AIクローラーとクローラーが実際のユーザーではなくボットのアクティビティから生じる「一般的な無効なトラフィック」が86%増加したことがわかりました。