Reddit недавно скорректировал свой файл robots.txt, чтобы ограничить или взимать плату с компаний, занимающихся ИИ, за сбор контента на своей платформе. Этот шаг вызвал дискуссии между компаниями, занимающимися искусственным интеллектом, и владельцами контента о правах использования данных и бизнес-моделях. Шаг Reddit не является единичным случаем и отражает обеспокоенность все большего числа веб-сайтов по поводу крупномасштабного сбора данных с помощью ИИ и необходимости защиты прав интеллектуальной собственности. В этой статье подробно объясняется стратегия Reddit и ее причины.
Reddit принимает меры, чтобы помешать компаниям, занимающимся искусственным интеллектом, сканировать его контент или, по крайней мере, потребовать от них платить.
Ранее на этой неделе Reddit объявил, что меняет протокол исключения роботов, также известный как файл robots.txt. Это, казалось бы, скучное изменение является частью более масштабных переговоров/битвы между владельцами контента, которые компании, занимающиеся искусственным интеллектом, стремятся использовать для обучения своих языковых моделей.

«Robots.txt» — это способ веб-сайтов сообщить третьим лицам о том, как сайт был просканирован. Классическим примером являются сайты, которые позволяют Google сканировать их для включения в результаты поиска.
В случае с искусственным интеллектом обмен ценностями менее очевиден. Когда бизнес-модель управления веб-сайтом предполагает привлечение кликов и просмотров, компания, занимающаяся искусственным интеллектом, поглощает ваш контент и не отправляет трафик (а в некоторых случаях они откровенно занимается плагиатом вашей работы) непривлекательно.
Таким образом, изменяя файл robots.txt и продолжая ограничивать и блокировать неизвестных ботов и сканеров с помощью рейтингов, Reddit, похоже, работает над тем, чтобы такие компании, как Perplexity AI, не подвергались критике за свою практику.
Выделять:
- Reddit принимает меры, чтобы помешать компаниям, занимающимся искусственным интеллектом, сканировать его контент или, по крайней мере, потребовать от них платить.
- Robots.txt — это способ веб-сайтов сообщать третьим лицам о том, как сайт был просканирован. Классическим примером являются сайты, которые позволяют Google сканировать их для включения в результаты поиска.
- Reddit изменил свой файл robots.txt и продолжил ограничения рейтингов и блокировку неизвестных ботов и сканеров, чтобы предотвратить критику таких компаний, как Perplexity AI, за эту практику.
Этот шаг Reddit указывает на то, что в будущем будет больше споров о правах на использование данных между контент-платформами и компаниями, занимающимися искусственным интеллектом, а также ставит новые задачи в отношении того, как сбалансировать развитие технологий искусственного интеллекта и защиту прав интеллектуальной собственности. Это побудит компании, занимающиеся искусственным интеллектом, искать более устойчивые способы получения данных, а также способствовать созданию контент-платформ и компаний, занимающихся искусственным интеллектом, более справедливой и разумной модели сотрудничества.