Baru-baru ini, editor Downcodes mengetahui bahwa insiden pengikisan data berskala besar terjadi di platform media sosial Bluesky, yang menarik perhatian luas. Pustakawan pembelajaran mesin Daniel van Strien mengumpulkan lebih dari satu juta postingan pengguna publik melalui antarmuka API Bluesky dan mengunggahnya ke perusahaan AI Hugging Face. Langkah tersebut memicu kontroversi karena pengguna Bluesky tidak mengizinkan konten mereka digunakan dengan cara ini, meskipun platform tersebut tidak secara eksplisit melarang perilaku tersebut. Insiden tersebut menyoroti kontradiksi antara keamanan data pada platform terbuka dan perlindungan privasi pengguna.
Baru-baru ini, platform media sosial Bluesky menghadapi insiden pengikisan data yang besar. Daniel van Strien, seorang pustakawan pembelajaran mesin, mengambil lebih dari satu juta postingan pengguna publik dari API Bluesky dan mengunggah datanya ke perusahaan AI Hugging Face.

Kumpulan data berisi pengidentifikasi terdesentralisasi (DID) pengguna dan serangkaian fitur yang memungkinkan pencarian konten khusus pengguna. Van Stirling mengatakan tujuan utama kumpulan data ini adalah untuk pengembangan model bahasa dan pemrosesan bahasa alami, selain analisis tren media sosial, moderasi konten, dan penelitian pola penerbitan.
Operasi pengikisan data menimbulkan kekhawatiran luas karena pengguna Bluesky tidak menyetujui penggunaan konten mereka. Meskipun platform tidak secara eksplisit melarang perilaku ini, Fire API-nya menyediakan "aliran data publik kronologis gabungan" termasuk postingan, suka, mengikuti, perubahan akun, dan informasi lainnya. Oleh karena itu, konten Bluesky secara teoritis terbuka untuk pengembang pihak ketiga.
Sebagai tanggapan, perwakilan Bluesky berkata: “Bluesky adalah jejaring sosial terbuka dan publik, sama seperti situs lain di Internet.
Meskipun file robots.txt tidak selalu mencegah perusahaan luar merayapi situs-situs ini, situasinya serupa. Kami ingin menemukan cara bagi pengguna Bluesky untuk berkomunikasi dengan organisasi/pengembang eksternal apakah mereka menyetujui penggunaan data mereka dan mengharapkan organisasi eksternal menghormati persetujuan pengguna, dan kami secara aktif mendiskusikan cara mencapai tujuan ini. "
Kejadian ini menimbulkan kekhawatiran di kalangan pengguna, terutama banyak yang beralih ke Bluesky karena kebijakan pelatihan AI baru dari platform pesaing X. Khususnya, Van Strain menghapus kumpulan data dari Hugging Face segera setelah laporan tersebut dipublikasikan.

Dia berkata di Bluesky: "Saya telah menghapus data Bluesky dari repositori ini. Meskipun saya ingin mendukung pengembangan alat untuk platform, saya menyadari bahwa praktik ini melanggar prinsip transparansi dan persetujuan dalam pengumpulan data. Saya sangat menyesali hal ini. Maaf. ”
Insiden ini memicu diskusi tentang hak penggunaan data platform terbuka dan perlindungan privasi pengguna. Bluesky juga menyatakan bahwa pihaknya secara aktif mencari solusi untuk lebih menyeimbangkan hubungan antara keterbukaan dan keamanan data pengguna. Hal ini juga memiliki arti penting bagi platform terbuka lainnya, yang memerlukan upaya bersama di tingkat teknis dan kebijakan untuk melindungi hak dan kepentingan pengguna dengan lebih baik.