Récemment, l'éditeur de Downcodes a appris qu'un incident de grattage de données à grande échelle s'était produit sur la plateforme de médias sociaux Bluesky, ce qui avait attiré une large attention. Le bibliothécaire en apprentissage automatique Daniel van Strien a récupéré plus d'un million de publications d'utilisateurs publics via l'interface API de Bluesky et les a téléchargées sur la société d'IA Hugging Face. Cette décision a suscité une controverse car les utilisateurs de Bluesky n'ont pas consenti à ce que leur contenu soit utilisé de cette manière, même si la plateforme n'a pas explicitement interdit un tel comportement. L’incident a mis en évidence la contradiction entre la sécurité des données sur les plateformes ouvertes et la protection de la vie privée des utilisateurs.
Récemment, la plateforme de médias sociaux Bluesky a été confrontée à un incident majeur de récupération de données. Daniel van Strien, bibliothécaire en apprentissage automatique, a récupéré plus d'un million de publications d'utilisateurs publics de l'API de Bluesky et a téléchargé les données vers la société d'IA Hugging Face.

L’ensemble de données contient l’identifiant décentralisé (DID) d’un utilisateur et un ensemble de fonctionnalités permettant de rechercher du contenu spécifique à l’utilisateur. Van Stirling a déclaré que l'objectif principal de cet ensemble de données est le développement de modèles linguistiques et le traitement du langage naturel, en plus de l'analyse des tendances des médias sociaux, de la modération du contenu et de la recherche sur les modèles de publication.
L'opération de grattage de données a suscité de nombreuses inquiétudes car les utilisateurs de Bluesky n'ont pas consenti à une telle utilisation de leur contenu. Bien que la plateforme n'interdise pas explicitement ce comportement, son API Fire fournit un « flux de données publiques agrégées et chronologiques » comprenant les publications, les likes, les suivis, les modifications de compte et d'autres informations. Le contenu de Bluesky est donc théoriquement ouvert aux développeurs tiers.
En réponse, un représentant de Bluesky a déclaré : « Bluesky est un réseau social ouvert et public, tout comme les autres sites sur Internet.
Même si le fichier robots.txt n’empêche pas toujours les sociétés extérieures d’explorer ces sites, la situation est similaire. Nous aimerions trouver un moyen pour les utilisateurs de Bluesky de communiquer aux organisations/développeurs externes s'ils consentent à l'utilisation de leurs données et s'attendent à ce que l'organisation externe respecte le consentement de l'utilisateur, et nous discutons activement de la manière d'atteindre cet objectif. "
Cet incident a suscité l'inquiétude des utilisateurs, en particulier de ceux qui sont passés à Bluesky en raison de la nouvelle politique de formation en IA de la plateforme concurrente X. Notamment, Van Strain a supprimé l'ensemble de données de Hugging Face peu de temps après la publication du rapport.

Il a déclaré sur Bluesky : « J'ai supprimé les données Bluesky de ce référentiel. Bien que je souhaite soutenir le développement d'outils pour la plateforme, je me rends compte que cette pratique viole les principes de transparence et de consentement dans la collecte de données. Je le regrette profondément. Désolé. »
Cet incident a déclenché des discussions sur les droits d'utilisation des données de la plateforme ouverte et la protection de la vie privée des utilisateurs. Bluesky a également déclaré qu'elle recherchait activement des solutions pour mieux équilibrer la relation entre l'ouverture et la sécurité des données des utilisateurs. Cela revêt également une importance de référence pour d’autres plateformes ouvertes, qui nécessitent des efforts conjoints aux niveaux technique et politique pour mieux protéger les droits et les intérêts des utilisateurs.