Reddit 近期调整了其 robots.txt 文件,旨在限制或收费 AI 公司对其平台内容的抓取行为。此举引发了 AI 公司与内容所有者之间关于数据使用权和商业模式的讨论。 Reddit 的举动并非个例,反映了越来越多网站对 AI 大规模数据采集的担忧,以及对知识产权的保护需求。本文将详细解读 Reddit 的策略及其背后的原因。
Reddit 正在采取行动阻止 AI 公司爬取其内容,或者至少要求它们付费。
本周早些时候,Reddit 宣布正在更改其机器人排除协议,也称为其 robots.txt 文件。这个看似枯燥的编辑是 AI 公司渴望用于训练其语言模型的内容所有者之间的一场更大的谈判 / 战斗的一部分。

“Robots.txt” 是网站向第三方通信网站如何被爬取的方式,经典的例子是允许 Google 爬取它们以便包含在搜索结果中的网站。
就人工智能而言,价值交换就没那么明显了。当您运行的网站的商业模式涉及吸引点击和眼球时,让 AI 公司吸取您的内容并且不发送任何流量(在某些情况下,他们会直接剽窃您的工作)并不具有吸引力。
因此,通过更改其 robots.txt 文件,并继续对未知机器人和爬虫进行评级限制和阻止,Reddit 似乎正在努力防止像 Perplexity AI 这样的公司被批评的做法。
划重点:
- Reddit 正在采取行动阻止 AI 公司爬取其内容,或者至少要求它们付费。
- Robots.txt 是网站向第三方通信网站如何被爬取的方式,经典的例子是允许 Google 爬取它们以便包含在搜索结果中的网站。
- Reddit 更改其 robots.txt 文件,并继续对未知机器人和爬虫进行评级限制和阻止,以防止像 Perplexity AI 这样的公司被批评的做法。
Reddit 的这一举动预示着未来内容平台与 AI 公司之间将展开更多关于数据使用权的博弈,也为如何平衡 AI 技术发展与知识产权保护提出了新的挑战。 这将促使 AI 公司探索更可持续的数据获取方式,并推动内容平台与 AI 公司建立更公平合理的合作模式。