Kürzlich erfuhr der Herausgeber von Downcodes, dass es auf der Social-Media-Plattform Bluesky zu einem groß angelegten Data-Scraping-Vorfall kam, der große Aufmerksamkeit erregte. Daniel van Strien, Bibliothekar für maschinelles Lernen, hat über die API-Schnittstelle von Bluesky mehr als eine Million öffentliche Benutzerbeiträge gecrackt und sie zum KI-Unternehmen Hugging Face hochgeladen. Der Schritt löste Kontroversen aus, da Bluesky-Nutzer einer solchen Nutzung ihrer Inhalte nicht zustimmten, obwohl die Plattform ein solches Verhalten nicht ausdrücklich verbot. Der Vorfall verdeutlichte den Widerspruch zwischen der Datensicherheit auf offenen Plattformen und dem Schutz der Privatsphäre der Nutzer.
Kürzlich kam es auf der Social-Media-Plattform Bluesky zu einem großen Daten-Scraping-Vorfall. Daniel van Strien, ein Bibliothekar für maschinelles Lernen, kratzte mehr als eine Million öffentliche Benutzerbeiträge aus der API von Bluesky und lud die Daten zum KI-Unternehmen Hugging Face hoch.

Der Datensatz enthält die dezentrale Kennung (DID) eines Benutzers und eine Reihe von Funktionen, die die Suche nach benutzerspezifischen Inhalten ermöglichen. Van Stirling sagte, der Hauptzweck dieses Datensatzes sei die Entwicklung von Sprachmodellen und der Verarbeitung natürlicher Sprache sowie die Analyse von Social-Media-Trends, die Moderation von Inhalten und die Erforschung von Veröffentlichungsmustern.
Der Daten-Scraping-Vorgang löste weitverbreitete Besorgnis aus, da Bluesky-Benutzer einer solchen Nutzung ihrer Inhalte nicht zustimmten. Obwohl die Plattform dieses Verhalten nicht ausdrücklich verbietet, stellt ihre Fire-API einen „aggregierten, chronologischen öffentlichen Datenstrom“ bereit, der Beiträge, Likes, Follower, Kontoänderungen und andere Informationen umfasst. Daher stehen Bluesky-Inhalte theoretisch Drittentwicklern offen.
Als Antwort sagte ein Bluesky-Vertreter: „Bluesky ist ein offenes und öffentliches soziales Netzwerk, genau wie andere Seiten im Internet.“
Obwohl die robots.txt-Datei externe Unternehmen nicht immer daran hindert, diese Websites zu crawlen, ist die Situation ähnlich. Wir möchten für Bluesky-Benutzer eine Möglichkeit finden, externen Organisationen/Entwicklern mitzuteilen, ob sie der Verwendung ihrer Daten zustimmen, und erwarten von der externen Organisation, dass sie die Zustimmung des Benutzers respektiert, und wir diskutieren aktiv, wie dieses Ziel erreicht werden kann. "
Dieser Vorfall sorgte bei den Benutzern für Besorgnis, insbesondere bei vielen, die aufgrund der neuen KI-Trainingsrichtlinie der konkurrierenden Plattform X zu Bluesky wechselten. Bemerkenswert ist, dass Van Strain den Datensatz kurz nach Veröffentlichung des Berichts aus Hugging Face entfernte.

Er sagte auf Bluesky: „Ich habe die Bluesky-Daten aus diesem Repository entfernt. Obwohl ich die Tool-Entwicklung für die Plattform unterstützen möchte, ist mir klar, dass diese Praxis gegen die Grundsätze der Transparenz und Einwilligung bei der Datenerfassung verstößt. Ich bedauere dies zutiefst. Entschuldigung.“ ”
Dieser Vorfall löste Diskussionen über die Datennutzungsrechte offener Plattformen und den Schutz der Privatsphäre der Benutzer aus. Bluesky gab außerdem an, aktiv nach Lösungen zu suchen, um das Verhältnis zwischen Offenheit und Benutzerdatensicherheit besser auszubalancieren. Dies hat auch Referenzbedeutung für andere offene Plattformen, die gemeinsame Anstrengungen auf technischer und politischer Ebene erfordern, um die Rechte und Interessen der Nutzer besser zu schützen.