哈佛大学近日宣布,将推出一个包含近100万本公共领域书籍的数据集,该数据集可供任何人用于训练大型语言模型和其他人工智能工具。
这一项目由哈佛大学新成立的机构数据计划(Institutional Data Initiative)领导,并得到了微软与OpenAI的资助。数据集中包含了来自谷歌Books项目的书籍扫描,涵盖了莎士比亚、狄更斯、但丁等文学巨匠的经典作品,以及一些鲜为人知的捷克数学教科书和威尔士词典等。
图源备注:图片由AI生成,图片授权服务商Midjourney
“Books3数据集”的大小是前者的五倍,其目的是为人工智能领域提供一个公平的竞争平台,让公众,尤其是小型AI公司和个人研究者,能够获取到通常只有大型科技公司才能收集的高质量数据。格雷格•莱珀特(Greg Leppert)指出,该项目经过严格筛选,内容策划精心。
微软副总裁伯顿·戴维斯强调,微软支持该项目是为了构建一个“可访问数据池”,确保数据以“公共利益为原则”进行管理。OpenAI的知识产权主管汤姆·鲁宾也表示,他们很高兴能够支持这一项目。
在AI使用版权数据的法律诉讼日益增多的情况下,哈佛大学这样的公共领域数据集项目正成为AI训练数据的重要来源。尽管发布细节尚未明确,但预计该数据集将为企业提供大量高质量数据,同时规避版权问题。
哈佛大学的“机构数据倡议”不仅限于书籍,还与波士顿公共图书馆合作,扫描了数百万篇公共领域的报纸文章,并计划未来与更多合作伙伴展开合作。同时,哈佛也在与谷歌探讨数据集的公共分发方式。
该项目将与众多类似倡议共同推进,这些倡议也承诺提供高质量的AI训练材料,并避免版权风险。随着更多公共领域数据集的出现,AI公司将拥有更多选择来训练模型,同时降低版权相关的法律风险。
暂无评论