最近、Downcodes の編集者は、ソーシャル メディア プラットフォーム Bluesky で大規模なデータ スクレイピング事件が発生し、広く注目を集めたことを知りました。機械学習ライブラリアンのダニエル・ヴァン・ストライエン氏は、Bluesky の API インターフェースを通じて 100 万件以上の公開ユーザー投稿を収集し、AI 企業 Hugging Face にアップロードしました。プラットフォームがそのような行為を明示的に禁止していなかったにもかかわらず、Bluesky ユーザーがコンテンツがこの方法で使用されることに同意しなかったため、この動きは論争を引き起こしました。この事件は、オープン プラットフォーム上のデータ セキュリティとユーザーのプライバシー保護の間の矛盾を浮き彫りにしました。
最近、ソーシャルメディアプラットフォームBlueskyは大規模なデータスクレイピング事件に直面しました。機械学習の図書館員であるダニエル・ヴァン・ストリアン氏は、Bluesky の API から 100 万件を超える一般ユーザーの投稿を収集し、そのデータを AI 企業 Hugging Face にアップロードしました。

データセットには、ユーザーの分散型識別子 (DID) とユーザー固有のコンテンツの検索を可能にする一連の機能が含まれています。 Van Stirling氏は、このデータセットの主な目的は、ソーシャルメディアのトレンド分析、コンテンツモデレーション、出版パターンの研究に加えて、言語モデルと自然言語処理の開発にあると述べた。
Bluesky ユーザーがコンテンツのそのような使用に同意しなかったため、データ スクレイピング操作は広く懸念を引き起こしました。プラットフォームはこの動作を明示的に禁止していませんが、Fire API は、投稿、いいね、フォロー、アカウントの変更、その他の情報を含む「集約された時系列のパブリック データ ストリーム」を提供します。したがって、Bluesky コンテンツは理論的にはサードパーティ開発者に公開されています。
これに対し、Bluesky の代表者は次のように述べています。「Bluesky は、インターネット上の他のサイトと同様、オープンかつパブリックなソーシャル ネットワークです。
robots.txt ファイルは外部企業によるこれらのサイトのクロールを常に阻止するわけではありませんが、状況は同様です。私たちは、Bluesky ユーザーがデータの使用に同意するかどうかを外部組織/開発者に伝え、外部組織がユーザーの同意を尊重することを期待する方法を見つけたいと考えており、この目標を達成する方法について積極的に議論しています。 」
この事件はユーザー、特に競合プラットフォーム X の新しい AI トレーニング ポリシーのために Bluesky に切り替えた多くのユーザーに懸念を引き起こしました。注目すべきことに、Van Strain はレポートが公開された直後に Hugging Face からデータセットを削除しました。

同氏はBlueskyで「このリポジトリからBlueskyデータを削除した。プラットフォームのツール開発をサポートしたいが、この行為がデータ収集における透明性と同意の原則に違反していることは認識している。このことを深く遺憾に思う。申し訳ない」と述べた。 」
この事件は、オープン プラットフォームのデータ使用権とユーザーのプライバシー保護に関する議論のきっかけとなり、Bluesky はオープン性とユーザー データ セキュリティの関係をより適切にバランスさせるためのソリューションを積極的に模索していると述べました。これは、ユーザーの権利と利益をより適切に保護するために技術レベルとポリシーレベルでの共同努力を必要とする他のオープンプラットフォームにとっても参考となる重要性を持っています。