Недавно редактор Downcodes узнал, что в социальной сети Bluesky произошел масштабный инцидент со сбором данных, который привлек всеобщее внимание. Библиотекарь по машинному обучению Дэниел ван Стрин собрал более миллиона общедоступных сообщений пользователей через интерфейс API Bluesky и загрузил их в компанию Hugging Face, занимающуюся искусственным интеллектом. Этот шаг вызвал споры, поскольку пользователи Bluesky не давали согласия на использование их контента таким образом, хотя платформа явно не запрещала такое поведение. Инцидент подчеркнул противоречие между безопасностью данных на открытых платформах и защитой конфиденциальности пользователей.
Недавно платформа социальных сетей Bluesky столкнулась с серьезным инцидентом со сбором данных. Дэниел ван Стрин, библиотекарь по машинному обучению, собрал более миллиона общедоступных сообщений пользователей из API Bluesky и загрузил данные в компанию Hugging Face, занимающуюся искусственным интеллектом.

Набор данных содержит децентрализованный идентификатор пользователя (DID) и набор функций, позволяющих искать пользовательский контент. Ван Стирлинг сказал, что основная цель этого набора данных — разработка языковых моделей и обработка естественного языка, а также анализ тенденций в социальных сетях, модерация контента и исследование моделей публикации.
Операция по сбору данных вызвала всеобщую обеспокоенность, поскольку пользователи Bluesky не давали согласия на такое использование своего контента. Хотя платформа явно не запрещает такое поведение, ее Fire API предоставляет «агрегированный хронологический поток общедоступных данных», включая публикации, лайки, подписки, изменения в учетной записи и другую информацию. Таким образом, контент Bluesky теоретически открыт для сторонних разработчиков.
В ответ представитель Bluesky заявил: «Bluesky — это открытая и публичная социальная сеть, как и другие сайты в Интернете.
Хотя файл robots.txt не всегда препятствует сторонним компаниям сканировать эти сайты, ситуация аналогичная. Мы хотели бы найти способ, с помощью которого пользователи Bluesky могли бы сообщать внешним организациям/разработчикам, согласны ли они на использование их данных, и ожидают ли они, что внешняя организация будет уважать согласие пользователя, и мы активно обсуждаем, как достичь этой цели. "
Этот инцидент вызвал беспокойство среди пользователей, особенно среди тех, кто перешёл на Bluesky из-за новой политики обучения ИИ конкурирующей платформы X. Примечательно, что Ван Стрейн удалил набор данных из Hugging Face вскоре после публикации отчета.

Он сказал о Bluesky: «Я удалил данные Bluesky из этого репозитория. Хотя я хочу поддержать разработку инструментов для платформы, я понимаю, что такая практика нарушает принципы прозрачности и согласия при сборе данных. Я глубоко сожалею об этом. Извините. »
Этот инцидент вызвал дискуссии о правах на использование данных открытой платформы и защите конфиденциальности пользователей. Bluesky также заявила, что активно ищет решения, позволяющие лучше сбалансировать отношения между открытостью и безопасностью пользовательских данных. Это также имеет справочное значение для других открытых платформ, которые требуют совместных усилий на техническом и политическом уровнях для лучшей защиты прав и интересов пользователей.