加州大学伯克利分校发布低成本推理AI模型

近期，加州大学伯克利分校的Sky Computing Lab团队发布了Sky-T1-32B-Preview，这是一款开源的推理型人工智能模型，使得推理型AI的研发变得更加便捷和经济。该模型在多个关键基准测试中表现出色，甚至能够与OpenAI早期版本的o1相媲美。

Sky-T1的训练成本引人注目，仅需450美元，这表明高水平推理能力的复制变得更加经济高效。虽然450美元的费用看似不低，但与几年前动辄数百万美元的训练成本相比，已经实现了显著下降。通过使用合成训练数据，即由其他模型生成的训练数据，成本得到了显著降低。AI公司Writer最近发布的Palmyra X004几乎完全依赖合成数据，开发成本也仅为70万美元。

大脑大模型 AI

图源说明：该图片由AI生成，图片授权服务商为Midjourney

与大多数AI不同，推理模型能够有效地自我核查，这使得它们在处理一些常见问题时更加可靠。推理模型通常在得出解决方案时需要更多时间，可能需要几秒到几分钟，但在物理、科学和数学等领域，其可靠性优势显著。

NovaSky团队利用另一种推理模型——阿里巴巴的QwQ-32B-Preview，为Sky-T1生成初始训练数据，并对数据进行“策划”，之后使用OpenAI的GPT-4o-mini将数据重新整理成更可操作的格式。训练32亿参数的Sky-T1只需约19小时，使用的是一组8个Nvidia H100GPU。参数数量与模型的解决问题能力大致相关。

据NovaSky团队表示，Sky-T1在包含“竞赛级”数学挑战的MATH500集合上表现超越了o1的早期预览版本。此外，Sky-T1在LiveCodeBench中遇到的难题上也超过了o1的预览版本。然而，在涉及物理、生物和化学等领域的问题上，Sky-T1在GPQA-Diamond测试中的表现却略逊于o1预览版。

需要指出的是，OpenAI的GA版本o1比预览版更为强大，且OpenAI预计将在未来几周内发布更为优秀的推理模型o3。不过，NovaSky团队表示，Sky-T1仅是他们开发具备先进推理能力的开源模型旅程的开始。

“展望未来，我们将致力于开发更高效的模型，以保持强大的推理性能，并探索进一步提升模型效率和准确性的高级技术，”团队在博客中写道。“敬请期待我们在这些激动人心的项目上的进展。”

加州大学伯克利分校发布低成本推理AI模型

LG电子进军人形机器人市场，Q9智能体引领AI技术革新

AI编程迭代提升：从优化到反思

暂无评论

发表评论取消回复

LG电子进军人形机器人市场，Q9智能体引领AI技术革新

AI编程迭代提升：从优化到反思

相关推荐

暂无评论

发表评论 取消回复

搜索

加州大学伯克利分校发布低成本推理AI模型

发表评论取消回复