Reddit a récemment ajusté son fichier robots.txt dans le but de limiter ou de facturer aux sociétés d'IA la récupération de contenu sur sa plate-forme. Cette décision a déclenché des discussions entre les sociétés d’IA et les propriétaires de contenu sur les droits d’utilisation des données et les modèles commerciaux. La décision de Reddit n’est pas un cas isolé et reflète les inquiétudes de plus en plus de sites Web concernant la collecte de données à grande échelle par l’IA et la nécessité de protéger les droits de propriété intellectuelle. Cet article expliquera en détail la stratégie de Reddit et les raisons qui la sous-tendent.
Reddit prend des mesures pour empêcher les sociétés d'IA d'explorer son contenu, ou du moins de leur demander de payer.
Plus tôt cette semaine, Reddit a annoncé qu'il modifiait son protocole d'exclusion de robots, également connu sous le nom de fichier robots.txt. Cette modification apparemment ennuyeuse fait partie d'une négociation/bataille plus large entre les propriétaires de contenu que les sociétés d'IA sont impatientes d'utiliser pour former leurs modèles de langage.

"Robots.txt" est un moyen permettant aux sites Web de communiquer à des tiers comment le site a été exploré, l'exemple classique étant les sites qui permettent à Google de les explorer pour les inclure dans les résultats de recherche.
Dans le cas de l’intelligence artificielle, l’échange de valeurs est moins évident. Lorsque le modèle commercial de gestion d'un site Web implique d'attirer des clics et des regards, demander à une société d'IA d'aspirer votre contenu et d'envoyer aucun trafic (et dans certains cas, elle plagiera simplement votre travail) n'est pas attrayante.
Ainsi, en modifiant son fichier robots.txt et en continuant à limiter et à bloquer les robots et robots d'exploration inconnus avec des évaluations, Reddit semble s'efforcer d'empêcher des entreprises comme Perplexity AI d'être critiquées pour leurs pratiques.
Points forts:
- Reddit prend des mesures pour empêcher les sociétés d'IA d'explorer son contenu, ou au moins de leur demander de payer.
- Robots.txt est un moyen permettant aux sites Web de communiquer à des tiers comment le site a été exploré, l'exemple classique étant les sites qui permettent à Google de les explorer pour les inclure dans les résultats de recherche.
- Reddit a modifié son fichier robots.txt et a maintenu les restrictions de notation et le blocage des robots et robots d'exploration inconnus pour empêcher des entreprises comme Perplexity AI d'être critiquées pour cette pratique.
Cette décision de Reddit indique qu'il y aura davantage de jeux sur les droits d'utilisation des données entre les plateformes de contenu et les sociétés d'IA à l'avenir, et pose également de nouveaux défis sur la manière d'équilibrer le développement de la technologie de l'IA et la protection des droits de propriété intellectuelle. Cela incitera les entreprises d’IA à explorer des moyens plus durables d’obtenir des données et à encourager les plateformes de contenu et les entreprises d’IA à établir un modèle de coopération plus juste et raisonnable.