Meta 涉嫌版权侵权:使用 LibGen 数据集训练 AI 并删除版权信息 - AI文章

作者：Eve Cole 更新时间：2025-02-18 12:32:01

Meta公司近日陷入一起备受瞩目的版权侵权诉讼，原告方指控其首席执行官马克·扎克伯格亲自批准使用盗版电子书和文章数据集来训练其Llama AI模型。这一案件不仅将Meta推上了风口浪尖，也引发了业界对科技巨头在AI模型训练中版权使用问题的广泛关注。值得注意的是，这是针对多家科技公司的众多版权诉讼之一，这些公司均被指控在未经授权的情况下使用受版权保护的作品进行AI模型训练。

根据最新提交给美国加利福尼亚北区地方法院的文件，原告方引用了Meta去年年底的证词，其中明确提到扎克伯格批准使用名为LibGen的数据集进行Llama模型的训练。LibGen作为一个"链接聚合器"，提供了大量受版权保护的学术出版物。尽管该网站因侵犯版权多次遭到起诉和关闭，但它依然持续提供来自Cengage Learning、McGraw Hill等大型出版商的作品，这为Meta的侵权行为提供了便利。

全息投影机器人设计 (3)

文件进一步披露，Meta内部员工承认LibGen是一个"已知的盗版数据集"，并意识到其使用可能对公司与监管机构的谈判地位产生不利影响。更令人震惊的是，Meta工程师Nikolay Bashlykov被指控编写脚本，专门删除LibGen电子书中的版权信息，包括"版权"和"致谢"等字样。此外，Meta还被指控从科学期刊文章中删除了版权标记和源元数据，这些行为都旨在掩盖其侵权行为。

案件中最具争议的指控是Meta通过torrenting方式下载LibGen内容，并帮助传播这些被盗版权的文件。Torrenting作为一种网络文件分发方式，下载者在上传文件的同时也在共享内容。原告律师指出，Meta通过参与torrenting实际上实施了另一种形式的版权侵权行为。尽管Meta工程师对此提出保留意见，认为这一行为不合法，但在生成AI负责人Ahmad Al-Dahle的支持下，Meta依然继续进行这一行为。

这些指控与《纽约时报》去年4月的报道相吻合，该报道暗示Meta在收集人工智能数据时采取了偷工减料的做法。据报道，Meta曾雇佣非洲承包商汇总书籍摘要，并曾考虑收购出版商西蒙舒斯特。然而，Meta高管认为谈判版权许可需要过长时间，合理使用原则成为了他们的主要辩护理由，这一态度引发了业界对科技公司商业伦理的质疑。

目前，案件的审理尚未有定论，且仅涉及Meta早期的Llama模型。尽管法院曾在2023年驳回了与AI相关的几项版权诉讼，认为原告未能证明侵权行为，但本案中的指控仍然可能对Meta产生重大影响。主审法官文斯·查布里亚在周三的命令中指出，他驳回了Meta请求删除大部分文件的请求，表示这些文件的删除显然是为了避免负面宣传，而非保护敏感商业信息，这一表态对Meta来说无疑是一个重大打击。

此次案件不仅对Meta构成了严峻挑战，也引发了关于科技公司如何使用版权作品训练AI模型的广泛讨论。特别是在合理使用与版权保护之间的界限问题上，本案可能会成为未来类似案件的重要参考。随着AI技术的快速发展，如何在创新与版权保护之间找到平衡点，将成为科技公司和法律界共同面临的重要课题。