哈佛大学公开百万本公共领域图书数据集，助力AI模型训练创新

哈佛大学在本周四宣布，将向公众免费提供一份包含近百万本公共领域图书的高质量数据集，供人们用于训练大型语言模型和其他人工智能工具。这一数据集由哈佛大学新成立的机构数据倡议（Institutional Data Initiative）创建，并得到了微软和OpenAI的资金支持。所收录的图书均为Google图书项目扫描的、已不受版权保护的作品。

该数据集的大小约为训练AI模型如Meta Llama所用的著名Books3数据集的五倍。它涵盖了多种类型、不同年代和语言的作品，包括莎士比亚、查尔斯·狄更斯、但丁的经典著作，以及鲜为人知的捷克数学教科书和威尔士语袖珍词典。机构数据倡议的执行主任格雷格·莱珀特指出，该项目的宗旨是通过让小型AI企业和个人研究者等公众群体，能够获取通常只有大型科技企业才能组装的高度精炼和精选的内容库，从而实现“竞争公平”。他强调：“该项目经过了严格的审核。”

图书馆书房阅读 (2)

图源备注：图片由AI生成，图片授权服务商Midjourney

莱珀特认为，这个新的公共领域数据库可以与其他许可材料结合，用于构建人工智能模型。他说：“这就像Linux如何成为全球多个领域的基础操作系统一样。”他补充道，公司仍需使用额外的训练数据来使自己的模型与竞争对手的区别开来。

微软知识产权副总裁兼副总法律顾问伯顿·戴维斯强调，微软对该项目的支持符合其致力于为AI初创公司创建“可访问数据池”的广泛价值观，这些数据池以“公共利益为导向”。换句话说，微软并不打算将其AI模型训练中使用的所有数据替换为哈佛新数据库中的公共领域图书。“我们使用公开可用的数据来训练我们的模型，”戴维斯说。

除了大量的图书，机构数据倡议还与波士顿公共图书馆合作，扫描数百万篇来自不同报纸的公共领域文章。该机构表示，未来愿意建立更多类似的合作关系。关于图书数据集的具体发布方式尚未确定，机构数据倡议已邀请Google参与公共分发，尽管哈佛大学对此表示乐观，但这家搜索巨头尚未公开同意托管该数据集。（Google未对WIRED的置评请求作出回应。）

无论IDI的数据集如何发布，它都将加入一系列类似的项目、初创公司和倡议，这些项目旨在为公司提供大量高质量的AI训练材料，同时避免版权问题。Calliope Networks和ProRata等公司已经出现，它们发布许可证并设计补偿计划，旨在让创作者和权利持有者因提供AI训练数据而获得报酬。

此外，还有其他新的公共领域项目。去年春天，法国AI初创公司Pleis推出了自己的公共领域数据集Common Corpus，据项目协调员皮埃尔-卡尔·朗莱斯称，该数据集包含约300万到400万本图书和期刊。在法国文化部的支持下，Common Corpus本月仅在开源AI平台Hugging Face上的下载次数就超过60,000次。上周，Pleis宣布将发布首批使用该数据集训练的大型语言模型，朗莱斯告诉WIRED，这些模型是“有史以来首批完全使用开放数据训练并符合[欧盟]AI法案的模型”。

目前，创建类似图像数据集的工作也在进行中。AI初创公司Spawning今年夏天发布了名为Source.Plus的数据集，其中包含来自Wikimedia Commons以及各种博物馆和档案馆的公共领域图像。长期以来，一些重要的文化机构（如大都会艺术博物馆）也以独立项目的形式向公众开放了自己的档案馆。</

标签：AI训练数据集 · 公共领域图书 · 哈佛大学

哈佛大学公开百万本公共领域图书数据集，助力AI模型训练创新

美国阅读率下降：近半数人一年未读书，AI时代书籍价值探讨

2024甲子引力年终盛典落幕，金柚网入选科技出海潜力榜

暂无评论

发表评论取消回复

美国阅读率下降：近半数人一年未读书，AI时代书籍价值探讨

2024甲子引力年终盛典落幕，金柚网入选科技出海潜力榜

相关推荐

暂无评论

发表评论 取消回复

搜索

哈佛大学公开百万本公共领域图书数据集，助力AI模型训练创新

发表评论取消回复