近期,Meta公司在人工智能训练领域的做法引起了广泛关注。据一项诉讼指控,Meta在未获授权的情况下,下载了大量盗版电子书和文章,用于AI模型的训练。此事的核心证据是几封泄露的电子邮件,揭示了Meta的不当行为。

版权,盗版

邮件内容显示,Meta承认下载了名为LibGen的大型数据集,该数据集包含数千万本盗版书籍。原告提交的法庭文件指出,Meta通过名为Anna's Archive的网站,从多个影子图书馆下载了至少81.7TB的数据,其中包括来自Z-Library和LibGen的至少35.7TB数据。此外,Meta此前还从LibGen下载了80.6TB的数据。这些数据量反映出Meta在非法行为上的规模之大。

邮件还透露,Meta员工对其行为的法律风险表示担忧。2023年4月,研究工程师尼古拉・巴什利科夫曾表示:“用公司的笔记本电脑下BT感觉不妥。”到了2023年9月,巴什利科夫的反对声音更加激烈,并咨询了法律团队。他指出,“使用Torrents意味着对文件进行‘播种’,即对外共享内容。这在法律上是不允许的。”尽管有这些警告,Meta似乎仍决定隐瞒其下载和共享活动,并通过编辑设置尽量减少“播种”行为的可追溯性。

据悉,Meta还试图通过将数据集下载到非Meta服务器上,降低被追溯到其服务器的风险。这一系列行为引发了外界对Meta公司在数据使用和版权方面的深刻反思。

重点:

📚 Meta公司被指控非法下载81.7TB盗版书籍,涉嫌用于AI训练。

⚖️ 员工对法律风险表示担忧,曾警告下载行为可能触犯法律。

🔍 Meta试图通过隐瞒和使用非公司服务器来规避法律责任。