Reddit hat kürzlich seine robots.txt-Datei angepasst, um KI-Unternehmen für das Scraping von Inhalten auf seiner Plattform einzuschränken oder ihnen Gebühren in Rechnung zu stellen. Der Schritt löste Diskussionen zwischen KI-Unternehmen und Inhaltseigentümern über Datennutzungsrechte und Geschäftsmodelle aus. Der Schritt von Reddit ist kein Einzelfall und spiegelt die Bedenken von immer mehr Websites hinsichtlich der groß angelegten Datenerfassung durch KI und der Notwendigkeit wider, geistige Eigentumsrechte zu schützen. In diesem Artikel werden die Strategie von Reddit und die Gründe dafür ausführlich erläutert.
Reddit ergreift Maßnahmen, um KI-Unternehmen am Crawlen seiner Inhalte zu hindern oder sie zumindest zur Zahlung aufzufordern.
Anfang dieser Woche gab Reddit bekannt, dass es sein Roboter-Ausschlussprotokoll, auch bekannt als robots.txt-Datei, ändern wird. Diese scheinbar langweilige Änderung ist Teil einer größeren Verhandlung/Kampf zwischen Inhaltseigentümern, die KI-Unternehmen gerne zum Trainieren ihrer Sprachmodelle nutzen möchten.

„Robots.txt“ ist eine Möglichkeit für Websites, Dritten mitzuteilen, wie die Website gecrawlt wurde. Das klassische Beispiel sind Websites, die es Google ermöglichen, sie für die Aufnahme in Suchergebnisse zu crawlen.
Bei künstlicher Intelligenz ist der Werteaustausch weniger offensichtlich. Wenn das Geschäftsmodell des Betreibens einer Website darin besteht, Klicks und Aufmerksamkeit zu erregen, ist es nicht attraktiv, wenn ein KI-Unternehmen Ihre Inhalte aussaugt und keinen Traffic sendet (und in manchen Fällen einfach Ihre Arbeit plagiiert).
Indem Reddit seine robots.txt-Datei ändert und weiterhin unbekannte Bots und Crawler mit Bewertungen einschränkt und blockiert, scheint es so zu sein, dass es verhindert, dass Unternehmen wie Perplexity AI für ihre Praktiken kritisiert werden.
Höhepunkte:
– Reddit ergreift Maßnahmen, um KI-Unternehmen am Crawlen seiner Inhalte zu hindern oder sie zumindest zur Zahlung aufzufordern.
- Robots.txt ist eine Möglichkeit für Websites, Dritten mitzuteilen, wie die Website gecrawlt wurde. Das klassische Beispiel sind Websites, die es Google ermöglichen, sie zur Aufnahme in Suchergebnisse zu crawlen.
– Reddit hat seine robots.txt-Datei geändert und die Bewertungseinschränkungen sowie die Blockierung unbekannter Bots und Crawler fortgesetzt, um zu verhindern, dass Unternehmen wie Perplexity AI für diese Praxis kritisiert werden.
Dieser Schritt von Reddit deutet darauf hin, dass es in Zukunft mehr Spiele um Datennutzungsrechte zwischen Content-Plattformen und KI-Unternehmen geben wird, und stellt auch neue Herausforderungen dar, wie die Entwicklung der KI-Technologie und der Schutz geistiger Eigentumsrechte in Einklang gebracht werden können. Dies wird KI-Unternehmen dazu veranlassen, nachhaltigere Wege zur Datenbeschaffung zu erkunden und Content-Plattformen und KI-Unternehmen zu fördern, um ein faireres und vernünftigeres Kooperationsmodell zu etablieren.