近日,随着Meta公司在一宗集体版权诉讼中公开的文件曝光,公司使用名为Library Genesis(LibGen)的盗版电子书库来训练其最新的AI聊天机器人Llama3的消息引起了公众的极大关注。据文件披露,Meta的工程师曾就使用LibGen这一“影子图书馆”可能存在的风险进行讨论,尤其是在版权和数据所有权问题日益严峻的当下。尽管此举可能带来负面影响和舆论风险,Meta的首席执行官马克·扎克伯格仍批准了这一决定。
中间插入图片
图源备注:此图由AI生成,图片授权服务商为Midjourney。
根据法庭要求公开的Meta内部关于使用LibGen数据集的私密对话记录显示,Meta的高管在讨论中明确表示,LibGen的数据“我们知道是盗版的”,并同意使用这些数据以提升Llama3的性能。在一封邮件中,Meta的产品管理总监Sony Theakanath指出,尽管使用LibGen的决定存在舆论风险,但其他AI公司也在使用类似数据,这让Meta团队认为并非独此一家。
更令人担忧的是,Meta员工还讨论了如何处理和过滤LibGen中的文本,以去除版权标识,如ISBN和版权声明。内部备忘录称,LibGen提供的内容“质量高且文档较长,非常适合学习专业知识”。这似乎表明Meta试图隐蔽其使用未经授权的内容。
此外,Meta员工在邮件中还提到,直接使用公司IP地址进行种子下载可能不妥,并对这种行为表示担忧。但在扎克伯格“高层推动”下使用LibGen数据集的情况下,Meta在AI竞赛中的竞技心态显露无疑。这一事件再次引发外界对大型科技公司在版权问题上的关注与质疑。
此版权诉讼的结果可能会对其他类似案件产生重要影响,特别是涉及图像、音乐和文学等创作作品的使用问题。随着科技公司对原创内容需求的增长,原创内容创作者的权益将成为关注的焦点。
暂无评论