社群媒體Bluesky用戶資料被抓取：一百萬公開貼文被用於AI 訓練

作者：Eve Cole 更新時間：2025-03-08 00:25:02

近日，Downcodes小編獲悉，社群媒體平台Bluesky發生一起大規模資料擷取事件，引發廣泛關注。機器學習圖書館員Daniel van Strien透過Bluesky的API接口，抓取了超過一百萬條公開用戶帖子，並上傳至AI公司Hugging Face。此舉引發爭議，因Bluesky用戶並未同意其內容被如此使用，儘管平台並未明確禁止此類行為。此事件凸顯了開放平台資料安全與使用者隱私保護之間的矛盾。

最近，社群媒體平台Bluesky 面臨了一次重大的資料抓取事件。一位機器學習圖書館員丹尼爾・範斯特林（Daniel van Strien）從Bluesky 的API 介面上抓取了超過一百萬條公開的用戶帖子，並將這些資料上傳至AI 公司Hugging Face。

此資料集包含了使用者的去中心化識別碼（DID）以及一系列可以搜尋特定使用者內容的功能。範斯特林表示，這個資料集的主要目的是用於語言模型和自然語言處理的開發，此外還包括社群媒體趨勢分析、內容審查及發布模式的研究。

這項資料抓取行動引發了廣泛關注，因為Bluesky 的用戶並未同意將其內容用於此類用途。雖然平台並沒有明確禁止這種行為，但它的火災API 提供了一個“聚合的、按時間順序排列的公共資料流”，包括貼文、按讚、追蹤、帳號變更等資訊。因此，Bluesky 的內容在理論上是對第三方開發者開放的。

對此，Bluesky 的一位代表表示:「Bluesky 是一個開放和公共的社交網絡，就像互聯網上的其他網站一樣。

雖然robots.txt 檔案並不能總是阻止外部公司抓取這些網站，但情況是類似的。我們希望能夠找到一種方式，讓Bluesky 使用者可以向外部組織/ 開發者傳達他們是否同意使用其數據，並希望外部組織尊重使用者的同意，我們正在積極討論如何實現這一目標。」

這起事件引起了用戶的擔憂，特別是許多用戶是因競爭平台X 的新AI 訓練政策而轉投Bluesky 的。值得注意的是，在該報導發布後不久，範斯特林從Hugging Face 上刪除了這個資料集。

他在Bluesky 上表示：「我已從該倉庫中刪除Bluesky 數據。雖然我想支持該平台的工具開發，但我意識到這種做法違反了數據收集中的透明度和同意原則。對此，我深感抱歉。

這次事件引發了關於開放平台資料使用權限和用戶隱私保護的討論，Bluesky 也表示正在積極尋求解決方案，以更好地平衡開放性和用戶資料安全之間的關係。這對於其他開放平台也具有借鏡意義，需要在技術和政策層面共同努力，才能更好地保護使用者權益。