เมื่อเร็ว ๆ นี้ บรรณาธิการของ Downcodes ได้เรียนรู้ว่าเหตุการณ์การขูดข้อมูลขนาดใหญ่เกิดขึ้นบนแพลตฟอร์มโซเชียลมีเดีย Bluesky ซึ่งดึงดูดความสนใจอย่างกว้างขวาง บรรณารักษ์การเรียนรู้ของเครื่อง Daniel van Strien คัดลอกโพสต์สาธารณะของผู้ใช้มากกว่าหนึ่งล้านรายการผ่านอินเทอร์เฟซ API ของ Bluesky และอัปโหลดไปยังบริษัท AI Hugging Face การเคลื่อนไหวดังกล่าวก่อให้เกิดความขัดแย้งเนื่องจากผู้ใช้ Bluesky ไม่ยินยอมให้มีการนำเนื้อหาของตนไปใช้ในลักษณะนี้ แม้ว่าแพลตฟอร์มจะไม่ได้ห้ามพฤติกรรมดังกล่าวอย่างชัดเจนก็ตาม เหตุการณ์ดังกล่าวเน้นย้ำถึงความขัดแย้งระหว่างความปลอดภัยของข้อมูลบนแพลตฟอร์มแบบเปิดและการปกป้องความเป็นส่วนตัวของผู้ใช้
เมื่อเร็ว ๆ นี้ Bluesky แพลตฟอร์มโซเชียลมีเดียเผชิญกับเหตุการณ์การขูดข้อมูลครั้งใหญ่ Daniel van Strien บรรณารักษ์การเรียนรู้ของเครื่องได้คัดลอกโพสต์สาธารณะของผู้ใช้มากกว่าหนึ่งล้านรายการจาก API ของ Bluesky และอัปโหลดข้อมูลไปยังบริษัท AI Hugging Face

ชุดข้อมูลประกอบด้วยตัวระบุการกระจายอำนาจ (DID) ของผู้ใช้และชุดคุณลักษณะที่ช่วยให้สามารถค้นหาเนื้อหาเฉพาะของผู้ใช้ได้ Van Stirling กล่าวว่าวัตถุประสงค์หลักของชุดข้อมูลนี้คือเพื่อการพัฒนาแบบจำลองภาษาและการประมวลผลภาษาธรรมชาติ นอกเหนือจากการวิเคราะห์แนวโน้มโซเชียลมีเดีย การกลั่นกรองเนื้อหา และการวิจัยเกี่ยวกับรูปแบบการเผยแพร่
การดำเนินการขูดข้อมูลทำให้เกิดความกังวลอย่างกว้างขวาง เนื่องจากผู้ใช้ Bluesky ไม่ยินยอมให้ใช้เนื้อหาดังกล่าว แม้ว่าแพลตฟอร์มจะไม่ได้ห้ามพฤติกรรมนี้อย่างชัดเจน แต่ Fire API ก็มี "สตรีมข้อมูลสาธารณะแบบรวบรวมตามลำดับเวลา" รวมถึงโพสต์ การถูกใจ การติดตาม การเปลี่ยนแปลงบัญชี และข้อมูลอื่น ๆ ดังนั้นเนื้อหา Bluesky จึงเปิดกว้างสำหรับนักพัฒนาบุคคลที่สามในทางทฤษฎี
ในการตอบกลับ ตัวแทนของ Bluesky กล่าวว่า "Bluesky เป็นเครือข่ายโซเชียลที่เปิดกว้างและเป็นสาธารณะ เช่นเดียวกับเว็บไซต์อื่นๆ บนอินเทอร์เน็ต
แม้ว่าไฟล์ robots.txt ไม่ได้ป้องกันบริษัทภายนอกจากการรวบรวมข้อมูลไซต์เหล่านี้เสมอไป แต่สถานการณ์ก็คล้ายคลึงกัน เราต้องการหาวิธีสำหรับผู้ใช้ Bluesky ในการสื่อสารกับองค์กร/นักพัฒนาภายนอกว่าพวกเขายินยอมให้ใช้ข้อมูลของตนหรือไม่ และคาดหวังให้องค์กรภายนอกเคารพความยินยอมของผู้ใช้ และเรากำลังพูดคุยกันอย่างจริงจังถึงวิธีการบรรลุเป้าหมายนี้ -
เหตุการณ์นี้ทำให้เกิดความกังวลในหมู่ผู้ใช้ โดยเฉพาะอย่างยิ่งหลายคนที่เปลี่ยนมาใช้ Bluesky เนื่องจากนโยบายการฝึกอบรม AI ใหม่ของแพลตฟอร์ม X ที่แข่งขันกัน โดยเฉพาะอย่างยิ่ง Van Strain ได้ลบชุดข้อมูลออกจาก Hugging Face ไม่นานหลังจากที่รายงานถูกเผยแพร่

เขากล่าวใน Bluesky: "ฉันได้ลบข้อมูล Bluesky ออกจากพื้นที่เก็บข้อมูลนี้แล้ว แม้ว่าฉันต้องการสนับสนุนการพัฒนาเครื่องมือสำหรับแพลตฟอร์ม แต่ฉันตระหนักดีว่าแนวทางปฏิบัตินี้ละเมิดหลักการของความโปร่งใสและความยินยอมในการรวบรวมข้อมูล ฉันเสียใจอย่างสุดซึ้ง ขออภัย ”
เหตุการณ์นี้กระตุ้นให้เกิดการอภิปรายเกี่ยวกับสิทธิ์การใช้ข้อมูลแพลตฟอร์มแบบเปิดและการปกป้องความเป็นส่วนตัวของผู้ใช้ Bluesky ยังระบุด้วยว่ากำลังค้นหาวิธีแก้ปัญหาเพื่อสร้างสมดุลระหว่างความสัมพันธ์แบบเปิดกว้างและความปลอดภัยของข้อมูลผู้ใช้ สิ่งนี้ยังมีความสำคัญในการอ้างอิงสำหรับแพลตฟอร์มแบบเปิดอื่น ๆ ซึ่งต้องใช้ความพยายามร่วมกันในระดับเทคนิคและนโยบายเพื่อปกป้องสิทธิ์และผลประโยชน์ของผู้ใช้ให้ดียิ่งขึ้น