Meta公司近日陷入一起备受瞩目的版权侵权诉讼,原告方指控其首席执行官马克·扎克伯格亲自批准使用盗版电子书和文章数据集来训练其Llama AI模型。这一案件不仅将Meta推上了风口浪尖,也引发了业界对科技巨头在AI模型训练中版权使用问题的广泛关注。值得注意的是,这是针对多家科技公司的众多版权诉讼之一,这些公司均被指控在未经授权的情况下使用受版权保护的作品进行AI模型训练。
根据最新提交给美国加利福尼亚北区地方法院的文件,原告方引用了Meta去年年底的证词,其中明确提到扎克伯格批准使用名为LibGen的数据集进行Llama模型的训练。LibGen作为一个"链接聚合器",提供了大量受版权保护的学术出版物。尽管该网站因侵犯版权多次遭到起诉和关闭,但它依然持续提供来自Cengage Learning、McGraw Hill等大型出版商的作品,这为Meta的侵权行为提供了便利。

文件进一步披露,Meta内部员工承认LibGen是一个"已知的盗版数据集",并意识到其使用可能对公司与监管机构的谈判地位产生不利影响。更令人震惊的是,Meta工程师Nikolay Bashlykov被指控编写脚本,专门删除LibGen电子书中的版权信息,包括"版权"和"致谢"等字样。此外,Meta还被指控从科学期刊文章中删除了版权标记和源元数据,这些行为都旨在掩盖其侵权行为。
案件中最具争议的指控是Meta通过torrenting方式下载LibGen内容,并帮助传播这些被盗版权的文件。Torrenting作为一种网络文件分发方式,下载者在上传文件的同时也在共享内容。原告律师指出,Meta通过参与torrenting实际上实施了另一种形式的版权侵权行为。尽管Meta工程师对此提出保留意见,认为这一行为不合法,但在生成AI负责人Ahmad Al-Dahle的支持下,Meta依然继续进行这一行为。
这些指控与《纽约时报》去年4月的报道相吻合,该报道暗示Meta在收集人工智能数据时采取了偷工减料的做法。据报道,Meta曾雇佣非洲承包商汇总书籍摘要,并曾考虑收购出版商西蒙舒斯特。然而,Meta高管认为谈判版权许可需要过长时间,合理使用原则成为了他们的主要辩护理由,这一态度引发了业界对科技公司商业伦理的质疑。
目前,案件的审理尚未有定论,且仅涉及Meta早期的Llama模型。尽管法院曾在2023年驳回了与AI相关的几项版权诉讼,认为原告未能证明侵权行为,但本案中的指控仍然可能对Meta产生重大影响。主审法官文斯·查布里亚在周三的命令中指出,他驳回了Meta请求删除大部分文件的请求,表示这些文件的删除显然是为了避免负面宣传,而非保护敏感商业信息,这一表态对Meta来说无疑是一个重大打击。
此次案件不仅对Meta构成了严峻挑战,也引发了关于科技公司如何使用版权作品训练AI模型的广泛讨论。特别是在合理使用与版权保护之间的界限问题上,本案可能会成为未来类似案件的重要参考。随着AI技术的快速发展,如何在创新与版权保护之间找到平衡点,将成为科技公司和法律界共同面临的重要课题。