Recentemente, o editor do Downcodes soube que ocorreu um incidente de coleta de dados em grande escala na plataforma de mídia social Bluesky, que atraiu atenção generalizada. O bibliotecário de aprendizado de máquina Daniel van Strien coletou mais de um milhão de postagens públicas de usuários por meio da interface API do Bluesky e as carregou para a empresa de IA Hugging Face. A medida gerou polêmica porque os usuários do Bluesky não consentiram que seu conteúdo fosse usado dessa forma, embora a plataforma não proibisse explicitamente tal comportamento. O incidente destacou a contradição entre a segurança dos dados em plataformas abertas e a proteção da privacidade dos usuários.
Recentemente, a plataforma de mídia social Bluesky enfrentou um grande incidente de coleta de dados. Daniel van Strien, bibliotecário de aprendizado de máquina, coletou mais de um milhão de postagens públicas de usuários da API da Bluesky e carregou os dados para a empresa de IA Hugging Face.

O conjunto de dados contém um identificador descentralizado (DID) do usuário e um conjunto de recursos que permitem a busca por conteúdo específico do usuário. Van Stirling disse que o objetivo principal deste conjunto de dados é o desenvolvimento de modelos de linguagem e processamento de linguagem natural, além de análise de tendências de mídia social, moderação de conteúdo e pesquisa sobre padrões de publicação.
A operação de coleta de dados causou preocupação generalizada porque os usuários do Bluesky não consentiram com tal uso de seu conteúdo. Embora a plataforma não proíba explicitamente esse comportamento, sua API Fire fornece um “fluxo de dados públicos cronológico e agregado”, incluindo postagens, curtidas, seguidores, alterações de conta e outras informações. Portanto, o conteúdo do Bluesky está teoricamente aberto a desenvolvedores terceirizados.
Em resposta, um representante da Bluesky disse: “Bluesky é uma rede social aberta e pública, assim como outros sites na Internet.
Embora o arquivo robots.txt nem sempre impeça que empresas externas rastreiem esses sites, a situação é semelhante. Gostaríamos de encontrar uma maneira para os usuários do Bluesky comunicarem às organizações/desenvolvedores externos se eles consentem com o uso de seus dados e esperam que a organização externa respeite o consentimento do usuário, e estamos discutindo ativamente como atingir esse objetivo. "
Este incidente causou preocupação entre os usuários, especialmente muitos que mudaram para o Bluesky devido à nova política de treinamento de IA da plataforma concorrente X. Notavelmente, Van Strain removeu o conjunto de dados do Hugging Face logo após a publicação do relatório.

Ele disse no Bluesky: "Removi os dados do Bluesky deste repositório. Embora queira apoiar o desenvolvimento de ferramentas para a plataforma, percebo que esta prática viola os princípios de transparência e consentimento na coleta de dados. Lamento profundamente isso. Desculpe. ”
Este incidente desencadeou discussões sobre os direitos de uso de dados em plataformas abertas e a proteção da privacidade do usuário. A Bluesky também afirmou que está buscando ativamente soluções para equilibrar melhor a relação entre abertura e segurança dos dados do usuário. Isto também tem um significado de referência para outras plataformas abertas, que exigem esforços conjuntos a nível técnico e político para melhor proteger os direitos e interesses dos utilizadores.