近日,《纽约时报》(The New York Times)与《每日新闻》(Daily News)联合向 OpenAI 提起诉讼,控诉该公司在未经授权的情况下使用其作品进行人工智能模型的训练。

此案件的进展引发了广泛关注,特别是原告律师在最新的法庭文件中提到,OpenAI 的技术团队在处理相关数据时意外删除了可能对案件至关重要的证据。

版权

据了解,OpenAI 在今年秋季曾同意提供两台虚拟机器,以便原告的律师团队可以检查其训练数据中是否包含受版权保护的内容。虚拟机器是一种运行于计算机操作系统内的虚拟计算机,常用于测试、数据备份和应用程序运行。从11月1日起,来自《纽约时报》和《每日新闻》的法律顾问及聘请的专家已在 OpenAI 的训练数据上工作超过150小时。

然而,11月14日,OpenAI 的工程师意外清除了其中一台虚拟机器上的搜索数据。根据原告律师所描述,尽管 OpenAI 试图恢复丢失的数据并在大多数情况下获得成功,但因文件夹结构和文件名“无法恢复”,因此恢复的数据无法用于确立新闻原告的文章是如何被用于训练 OpenAI 模型的。

原告的法律顾问表示,他们并不认为此次数据删除是蓄意的,但此事件表明,OpenAI“在寻找潜在侵权内容方面处于最佳位置”。这意味着 OpenAI 应当更有效地利用其自身工具查找相关侵权内容。

在此案及其他类似案件中,OpenAI 一直主张,使用公开可获取的数据进行模型训练符合合理使用(fair use)的定义。这意味着 OpenAI 认为其无须为使用这些素材支付版权费用,尽管其从相关模型中获得了盈利。

值得注意的是,OpenAI 已与越来越多的新媒体签署了合作协议,如美联社、商业内幕及金融时报等,然而,对于这些协议的具体内容,OpenAI 并未公开。据悉,内容合作伙伴 Dotdash 每年从 OpenAI 获得至少1600万美元的报酬。

尽管法律问题仍存在争议,OpenAI 并未确认或否认在未获得许可的情况下使用特定版权作品进行 AI 训练。

关键要点:

🌐 OpenAI 被指控在版权诉讼中误删了潜在重要证据。  

🕒 原告律师表示,恢复数据耗费了大量人力和时间。  

💼 OpenAI 坚持主张其训练模型使用的公开数据属于合理使用。