哈佛大学发布百万本公共领域书籍数据集助力AI训练创新

2024-12-13

哈佛大学近日宣布，将推出一个包含近100万本公共领域书籍的数据集，该数据集可供任何人用于训练大型语言模型和其他人工智能工具。

这一项目由哈佛大学新成立的机构数据计划（Institutional Data Initiative）领导，并得到了微软与OpenAI的资助。数据集中包含了来自谷歌Books项目的书籍扫描，涵盖了莎士比亚、狄更斯、但丁等文学巨匠的经典作品，以及一些鲜为人知的捷克数学教科书和威尔士词典等。

AI助教机器人

图源备注：图片由AI生成，图片授权服务商Midjourney

“Books3数据集”的大小是前者的五倍，其目的是为人工智能领域提供一个公平的竞争平台，让公众，尤其是小型AI公司和个人研究者，能够获取到通常只有大型科技公司才能收集的高质量数据。格雷格•莱珀特（Greg Leppert）指出，该项目经过严格筛选，内容策划精心。

微软副总裁伯顿·戴维斯强调，微软支持该项目是为了构建一个“可访问数据池”，确保数据以“公共利益为原则”进行管理。OpenAI的知识产权主管汤姆·鲁宾也表示，他们很高兴能够支持这一项目。

在AI使用版权数据的法律诉讼日益增多的情况下，哈佛大学这样的公共领域数据集项目正成为AI训练数据的重要来源。尽管发布细节尚未明确，但预计该数据集将为企业提供大量高质量数据，同时规避版权问题。

哈佛大学的“机构数据倡议”不仅限于书籍，还与波士顿公共图书馆合作，扫描了数百万篇公共领域的报纸文章，并计划未来与更多合作伙伴展开合作。同时，哈佛也在与谷歌探讨数据集的公共分发方式。

该项目将与众多类似倡议共同推进，这些倡议也承诺提供高质量的AI训练材料，并避免版权风险。随着更多公共领域数据集的出现，AI公司将拥有更多选择来训练模型，同时降低版权相关的法律风险。

标签：人工智能 · 公共领域书籍 · 哈佛大学 · 数据集 · 训练模型

暂无评论

发表评论取消回复

要发表评论，您必须先登录。