MetaAI模型侵权争议:扎克伯格批准使用盗版数据集

Meta近期卷入版权侵权诉讼,原告律师指控Meta首席执行官马克·扎克伯格批准使用未经授权的电子书和文章数据集来训练Llama AI模型。这起诉讼是针对科技巨头的一系列版权诉讼之一,这些公司被指在未经授权的情况下利用受版权保护的作品进行AI模型训练。

在美国加利福尼亚北区地方法院提交的文件中,原告重申了Meta去年年底的证词,证词显示扎克伯格批准使用名为LibGen的数据集进行Llama相关训练。LibGen被视为一个“链接聚合器”,提供大量受版权保护的学术出版物。尽管该网站因侵犯版权多次被起诉和关闭,但仍然持续提供来自Cengage Learning、McGraw Hill等大型出版商的作品。

文件指出,Meta内部员工承认LibGen是一个“我们知道是盗版的数据集”,并表示其使用可能对Meta与监管机构的谈判地位产生负面影响。Meta工程师Nikolay Bashlykov被指控编写脚本,删除LibGen电子书中的版权信息。此外,Meta还涉嫌从科学期刊文章中删除版权标记和源元数据,以掩盖侵权行为。

更有争议的是,Meta被指控通过torrenting下载LibGen内容,并帮助传播这些被盗版权的文件。原告律师表示,Meta通过参与torrenting实际上实施了另一种形式的版权侵权行为。尽管Meta工程师对此提出异议,但Meta在AI负责人Ahmad Al-Dahle的支持下继续进行这一行为。

这些指控与《纽约时报》去年4月的报道相符,后者曾暗示Meta在收集人工智能数据时采取了不正当手段。据报道,Meta曾雇佣非洲承包商汇总书籍摘要,并考虑收购出版商西蒙舒斯特。然而,Meta高管认为谈判版权许可需要过长时间,合理使用原则成为了他们的主要辩护理由。

目前,案件的审理尚未有定论,且仅涉及Meta早期的Llama模型。尽管法院曾在2023年驳回了与AI相关的几项版权诉讼,但本案中的指控仍可能对Meta产生不利影响。主审法官文斯·查布里亚在周三的命令中指出,他驳回了Meta请求删除大部分文件的请求,表示这些文件的删除显然是为了避免负面宣传,而非保护敏感商业信息。

此次案件将继续引发关于科技公司如何使用版权作品训练AI模型的广泛讨论,特别是在合理使用与版权保护之间的界限问题上。

相关推荐

暂无评论

发表评论