哈佛大学在本周四宣布,将向公众免费提供一份包含近百万本公共领域图书的高质量数据集,供人们用于训练大型语言模型和其他人工智能工具。这一数据集由哈佛大学新成立的机构数据倡议(Institutional Data Initiative)创建,并得到了微软和OpenAI的资金支持。所收录的图书均为Google图书项目扫描的、已不受版权保护的作品。
该数据集的大小约为训练AI模型如Meta Llama所用的著名Books3数据集的五倍。它涵盖了多种类型、不同年代和语言的作品,包括莎士比亚、查尔斯·狄更斯、但丁的经典著作,以及鲜为人知的捷克数学教科书和威尔士语袖珍词典。机构数据倡议的执行主任格雷格·莱珀特指出,该项目的宗旨是通过让小型AI企业和个人研究者等公众群体,能够获取通常只有大型科技企业才能组装的高度精炼和精选的内容库,从而实现“竞争公平”。他强调:“该项目经过了严格的审核。”
图源备注:图片由AI生成,图片授权服务商Midjourney
莱珀特认为,这个新的公共领域数据库可以与其他许可材料结合,用于构建人工智能模型。他说:“这就像Linux如何成为全球多个领域的基础操作系统一样。”他补充道,公司仍需使用额外的训练数据来使自己的模型与竞争对手的区别开来。
微软知识产权副总裁兼副总法律顾问伯顿·戴维斯强调,微软对该项目的支持符合其致力于为AI初创公司创建“可访问数据池”的广泛价值观,这些数据池以“公共利益为导向”。换句话说,微软并不打算将其AI模型训练中使用的所有数据替换为哈佛新数据库中的公共领域图书。“我们使用公开可用的数据来训练我们的模型,”戴维斯说。
在数十起关于使用版权保护数据训练AI的诉讼待审之际,AI工具的未来构建方式也变得不确定。若AI公司胜诉,它们将继续从互联网抓取数据,而无需与版权所有者签订许可协议;若败诉,AI公司可能需要彻底改变其模型制作方式。哈佛数据库等项目正以前所未有的速度推进,它们预设了一个前提——无论结果如何,人们都会对公共领域的数据集产生需求。
除了大量的图书,机构数据倡议还与波士顿公共图书馆合作,扫描数百万篇来自不同报纸的公共领域文章。该机构表示,未来愿意建立更多类似的合作关系。关于图书数据集的具体发布方式尚未确定,机构数据倡议已邀请Google参与公共分发,尽管哈佛大学对此表示乐观,但这家搜索巨头尚未公开同意托管该数据集。(Google未对WIRED的置评请求作出回应。)
无论IDI的数据集如何发布,它都将加入一系列类似的项目、初创公司和倡议,这些项目旨在为公司提供大量高质量的AI训练材料,同时避免版权问题。Calliope Networks和ProRata等公司已经出现,它们发布许可证并设计补偿计划,旨在让创作者和权利持有者因提供AI训练数据而获得报酬。
此外,还有其他新的公共领域项目。去年春天,法国AI初创公司Pleis推出了自己的公共领域数据集Common Corpus,据项目协调员皮埃尔-卡尔·朗莱斯称,该数据集包含约300万到400万本图书和期刊。在法国文化部的支持下,Common Corpus本月仅在开源AI平台Hugging Face上的下载次数就超过60,000次。上周,Pleis宣布将发布首批使用该数据集训练的大型语言模型,朗莱斯告诉WIRED,这些模型是“有史以来首批完全使用开放数据训练并符合[欧盟]AI法案的模型”。
目前,创建类似图像数据集的工作也在进行中。AI初创公司Spawning今年夏天发布了名为Source.Plus的数据集,其中包含来自Wikimedia Commons以及各种博物馆和档案馆的公共领域图像。长期以来,一些重要的文化机构(如大都会艺术博物馆)也以独立项目的形式向公众开放了自己的档案馆。</
暂无评论