非营利性AI研究机构Ai2最近推出了全新的OLMo2系列,这是该机构推出的“开放语言模型”(OLMo)系列的第二代模型。OLMo2的发布不仅为AI社区提供了强大的技术支持,还因其完全开放源代码的特性,代表了开源AI的最新发展方向。

与市场上其他“开放”语言模型如Meta的Llama系列相比,OLMo2严格遵循开放源代码倡议。这意味着其开发所需的训练数据、工具和代码都是公开的,任何人均可访问和使用。根据开放源代码促进会的标准,OLMo2满足了该机构对“开源AI”标准的要求,这一标准已于今年10月最终确认。

QQ20241127-140659.png

在博客中,Ai2强调,其OLMo2的开发过程中,所有训练数据、代码、训练方案、评估方法及中间检查点均处于开放状态,旨在通过共享资源来促进开源社区的创新与发现。“通过共享我们的数据、方案和成果,我们期望为开源社区提供寻找新方法和创新技术的机会。”Ai2表示。

OLMo2系列包含两个版本:一个是拥有70亿参数的OLMo7B,另一个则是130亿参数的OLMo13B。参数的数量直接影响模型的性能,参数越多的版本通常能够处理更复杂的任务。在常见文本任务中,OLMo2展现出色,能够完成回答问题、总结文档和编写代码等多种任务。

大模型 代码 互联网

图源备注:图片由AI生成,授权服务商为Midjourney

为了训练OLMo2,Ai2使用了包含五万亿个token的数据集。Token是语言模型中的最小单元,100万个token大约相当于75万个单词。训练数据涵盖来自高质量网站、学术论文、问答讨论论坛及合成数学练习册的内容,这些数据经过严格筛选,以确保模型的高效性和准确性。

Ai2对OLMo2的表现抱有信心,称其性能已与Meta的Llama3.1等开源模型相媲美。Ai2指出,OLMo27B在表现上甚至超越了Llama3.18B,成为目前最强的完全开放语言模型之一。所有OLMo2模型及其组件均可通过Ai2官网免费下载,并遵循Apache2.0许可,这意味着这些模型不仅可用于研究,也可用于商业应用。