Reddit ajustó recientemente su archivo robots.txt en un esfuerzo por limitar o cobrar a las empresas de inteligencia artificial por extraer contenido de su plataforma. La medida provocó debates entre empresas de inteligencia artificial y propietarios de contenidos sobre los derechos de uso de datos y los modelos de negocio. La medida de Reddit no es un caso aislado y refleja las preocupaciones de cada vez más sitios web sobre la recopilación de datos a gran escala por parte de la IA y la necesidad de proteger los derechos de propiedad intelectual. Este artículo explicará en detalle la estrategia de Reddit y las razones detrás de ella.
Reddit está tomando medidas para impedir que las empresas de inteligencia artificial rastreen su contenido, o al menos exigirles que paguen.
A principios de esta semana, Reddit anunció que estaba cambiando su protocolo de exclusión de robots, también conocido como archivo robots.txt. Esta edición aparentemente aburrida es parte de una negociación/batalla más amplia entre propietarios de contenido que las empresas de inteligencia artificial están ansiosas por utilizar para entrenar sus modelos de lenguaje.

"Robots.txt" es una forma que tienen los sitios web de comunicar a terceros cómo se ha rastreado el sitio; el ejemplo clásico son los sitios que permiten a Google rastrearlos para incluirlos en los resultados de búsqueda.
En el caso de la inteligencia artificial, el intercambio de valor es menos obvio. Cuando el modelo de negocio de administrar un sitio web implica atraer clics y visitas, que una empresa de inteligencia artificial absorba su contenido y no envíe tráfico (y en algunos casos, simplemente plagiarán su trabajo) no es atractivo.
Entonces, al cambiar su archivo robots.txt y continuar limitando y bloqueando bots y rastreadores desconocidos con calificaciones, Reddit parece estar trabajando para evitar que empresas como Perplexity AI sean criticadas por sus prácticas.
Reflejos:
- Reddit está tomando medidas para impedir que las empresas de inteligencia artificial rastreen su contenido, o al menos exigirles que paguen.
- Robots.txt es una forma que tienen los sitios web de comunicar a terceros cómo se ha rastreado el sitio; el ejemplo clásico son los sitios que permiten a Google rastrearlos para incluirlos en los resultados de búsqueda.
- Reddit cambió su archivo robots.txt y continuó calificando las restricciones y el bloqueo de bots y rastreadores desconocidos para evitar que empresas como Perplexity AI sean criticadas por esta práctica.
Esta medida de Reddit indica que habrá más juegos sobre los derechos de uso de datos entre plataformas de contenido y empresas de IA en el futuro, y también plantea nuevos desafíos sobre cómo equilibrar el desarrollo de la tecnología de IA y la protección de los derechos de propiedad intelectual. Esto impulsará a las empresas de IA a explorar formas más sostenibles de obtener datos y promoverá plataformas de contenido y empresas de IA para establecer un modelo de cooperación más justo y razonable.