最近,Trilegangers 的首席执行官 Oleksandr Tomchuk 收到了一条紧急警报,称其公司的电子商务网站突然瘫痪。经过深入调查,他发现问题的根源在于 OpenAI 的一个机器人,该机器人正在不懈地抓取其整个网站的内容。Trilegangers 的网站拥有超过 65,000 种产品,每种产品都配有详细的页面和至少三张图片。OpenAI 的机器人发送了数万个服务器请求,试图下载所有内容,包括数十万张图片及其描述。
Tomchuk 指出,OpenAI 的爬虫程序对网站造成了严重的影响,几乎等同于一次分布式拒绝服务(DDoS)攻击。Trilegangers 的主要业务是向 3D 艺术家、视频游戏开发者以及其他需要数字重现真实人类特征的用户提供 3D 对象文件和图片。这些文件包括从手部到头发、皮肤乃至全身的详细扫描数据。
Trilegangers 的网站是其业务的核心。该公司花费了十多年的时间,建立了网络上最大的“人体数字替身”数据库,这些数据均来自真实人体的 3D 扫描。Tomchuk 的团队总部位于乌克兰,但也在美国佛罗里达州的坦帕市获得了许可。尽管网站上有一个明确禁止未经授权的机器人抓取的服务条款页面,但这并未能有效阻止 OpenAI 的机器人。

为了有效阻止机器人抓取,网站必须正确配置 robot.txt 文件,该文件中的标签可以明确告诉 OpenAI 的 GPTBot 不要访问网站。Robot.txt,也称为机器人排除协议,旨在告知搜索引擎哪些内容不应被索引。OpenAI 在其官方页面上表示,当网站配置了禁止抓取的标签时,它会尊重这些文件,但也警告说,其机器人可能需要长达 24 小时才能识别更新后的 robot.txt 文件。
Tomchuk 强调,如果网站没有正确使用 robot.txt,OpenAI 和其他公司可能会认为他们可以随意抓取数据。这并不是一个可选的系统,而是保护网站内容的必要措施。更糟糕的是,Trilegangers 不仅在美国工作时间内被 OpenAI 的机器人强制下线,Tomchuk 还预计,由于机器人的大量 CPU 和下载活动,AWS 账单将大幅增加。
然而,robot.txt 也并非万全之策。AI 公司是否遵守这一协议完全取决于它们的自愿。去年夏天,另一家 AI 初创公司 Perplexity 因被指控未遵守 robot.txt 协议而受到《Wired》的调查,这一事件引起了广泛关注。
Tomchuk 表示,他无法找到联系 OpenAI 并询问此事的方式。OpenAI 也未对 TechCrunch 的置评请求作出回应。此外,OpenAI 至今未能提供其长期承诺的选择退出工具,这使得问题更加复杂。
对于 Trilegangers 来说,这是一个特别棘手的问题。Tomchuk 指出,他们从事的业务涉及严重的权利问题,因为他们扫描的是真人。根据欧洲的 GDPR 等法律,未经许可在网上使用真人照片是违法的。

讽刺的是,OpenAI 机器人的贪婪行为让 Trilegangers 意识到了其网站的脆弱性。Tomchuk 表示,如果机器人以更温和的方式抓取数据,他可能永远不会察觉到这一问题。
“这很可怕,因为这些公司似乎利用了一个漏洞来抓取数据,他们说‘如果你用我们的标签更新你的 robot.txt,你可以选择退出’,”Tomchuk 说道。然而,这实际上将责任推给了企业主,要求他们了解如何阻止这些机器人。
Tomchuk 希望其他小型在线企业能够意识到,发现 AI 机器人是否在窃取网站的版权资产的唯一方法就是主动寻找。他并不是唯一一个被 AI 机器人困扰的人。其他网站的所有者也向《商业内幕》透露,OpenAI 的机器人如何破坏他们的网站并增加他们的 AWS 费用。
到 2024 年,这一问题预计将进一步恶化。数字广告公司 DoubleVerify 的最新研究发现,AI 爬虫和抓取工具导致“一般无效流量”增加了 86%,这些流量并非来自真实用户,而是来自机器人的活动。