近日,Downcodes小編獲悉,社群媒體平台Bluesky發生一起大規模資料擷取事件,引發廣泛關注。機器學習圖書館員Daniel van Strien透過Bluesky的API接口,抓取了超過一百萬條公開用戶帖子,並上傳至AI公司Hugging Face。此舉引發爭議,因Bluesky用戶並未同意其內容被如此使用,儘管平台並未明確禁止此類行為。此事件凸顯了開放平台資料安全與使用者隱私保護之間的矛盾。
最近,社群媒體平台Bluesky 面臨了一次重大的資料抓取事件。一位機器學習圖書館員丹尼爾・範斯特林(Daniel van Strien)從Bluesky 的API 介面上抓取了超過一百萬條公開的用戶帖子,並將這些資料上傳至AI 公司Hugging Face。

此資料集包含了使用者的去中心化識別碼(DID)以及一系列可以搜尋特定使用者內容的功能。範斯特林表示,這個資料集的主要目的是用於語言模型和自然語言處理的開發,此外還包括社群媒體趨勢分析、內容審查及發布模式的研究。
這項資料抓取行動引發了廣泛關注,因為Bluesky 的用戶並未同意將其內容用於此類用途。雖然平台並沒有明確禁止這種行為,但它的火災API 提供了一個“聚合的、按時間順序排列的公共資料流”,包括貼文、按讚、追蹤、帳號變更等資訊。因此,Bluesky 的內容在理論上是對第三方開發者開放的。
對此,Bluesky 的一位代表表示:「Bluesky 是一個開放和公共的社交網絡,就像互聯網上的其他網站一樣。
雖然robots.txt 檔案並不能總是阻止外部公司抓取這些網站,但情況是類似的。我們希望能夠找到一種方式,讓Bluesky 使用者可以向外部組織/ 開發者傳達他們是否同意使用其數據,並希望外部組織尊重使用者的同意,我們正在積極討論如何實現這一目標。 」
這起事件引起了用戶的擔憂,特別是許多用戶是因競爭平台X 的新AI 訓練政策而轉投Bluesky 的。值得注意的是,在該報導發布後不久,範斯特林從Hugging Face 上刪除了這個資料集。

他在Bluesky 上表示:「我已從該倉庫中刪除Bluesky 數據。雖然我想支持該平台的工具開發,但我意識到這種做法違反了數據收集中的透明度和同意原則。對此,我深感抱歉。
這次事件引發了關於開放平台資料使用權限和用戶隱私保護的討論,Bluesky 也表示正在積極尋求解決方案,以更好地平衡開放性和用戶資料安全之間的關係。這對於其他開放平台也具有借鏡意義,需要在技術和政策層面共同努力,才能更好地保護使用者權益。