Recientemente, el editor de Downcodes se enteró de que se produjo un incidente de extracción de datos a gran escala en la plataforma de redes sociales Bluesky, que atrajo una atención generalizada. El bibliotecario de aprendizaje automático Daniel van Strien recopiló más de un millón de publicaciones de usuarios públicos a través de la interfaz API de Bluesky y las subió a la empresa de inteligencia artificial Hugging Face. La medida generó controversia porque los usuarios de Bluesky no dieron su consentimiento para que su contenido fuera utilizado de esta manera, a pesar de que la plataforma no prohibía explícitamente tal comportamiento. El incidente puso de relieve la contradicción entre la seguridad de los datos en plataformas abiertas y la protección de la privacidad del usuario.
Recientemente, la plataforma de redes sociales Bluesky enfrentó un importante incidente de extracción de datos. Daniel van Strien, un bibliotecario de aprendizaje automático, extrajo más de un millón de publicaciones de usuarios públicos de la API de Bluesky y cargó los datos en la empresa de inteligencia artificial Hugging Face.

El conjunto de datos contiene un identificador descentralizado (DID) de un usuario y un conjunto de funciones que permiten buscar contenido específico del usuario. Van Stirling dijo que el objetivo principal de este conjunto de datos es el desarrollo de modelos de lenguaje y procesamiento del lenguaje natural, además del análisis de tendencias de las redes sociales, la moderación de contenido y la investigación de patrones de publicación.
La operación de extracción de datos causó preocupación generalizada porque los usuarios de Bluesky no dieron su consentimiento para dicho uso de su contenido. Aunque la plataforma no prohíbe explícitamente este comportamiento, su API Fire proporciona un "flujo de datos públicos cronológicos agregados" que incluye publicaciones, me gusta, seguimientos, cambios de cuenta y otra información. Por lo tanto, el contenido de Bluesky está teóricamente abierto a desarrolladores externos.
En respuesta, un representante de Bluesky dijo: “Bluesky es una red social pública y abierta, al igual que otros sitios en Internet.
Aunque el archivo robots.txt no siempre impide que empresas externas rastreen estos sitios, la situación es similar. Nos gustaría encontrar una manera para que los usuarios de Bluesky comuniquen a organizaciones/desarrolladores externos si dan su consentimiento para el uso de sus datos y esperan que la organización externa respete el consentimiento del usuario, y estamos discutiendo activamente cómo lograr este objetivo. "
Este incidente causó preocupación entre los usuarios, especialmente entre muchos que cambiaron a Bluesky debido a la nueva política de capacitación en IA de la plataforma competidora X. En particular, Van Strain eliminó el conjunto de datos de Hugging Face poco después de la publicación del informe.

Dijo en Bluesky: "He eliminado los datos de Bluesky de este repositorio. Si bien quiero apoyar el desarrollo de herramientas para la plataforma, me doy cuenta de que esta práctica viola los principios de transparencia y consentimiento en la recopilación de datos. Lo lamento profundamente. Lo siento. "
Este incidente desencadenó debates sobre los derechos de uso de datos de la plataforma abierta y la protección de la privacidad del usuario. Bluesky también afirmó que está buscando activamente soluciones para equilibrar mejor la relación entre la apertura y la seguridad de los datos del usuario. Esto también tiene un significado de referencia para otras plataformas abiertas, que requieren esfuerzos conjuntos a nivel técnico y político para proteger mejor los derechos e intereses de los usuarios.