随着北京智谱华章科技有限公司年度总结的到来,公司发布了首个基于扩展强化学习技术训练的推理模型——GLM-Zero的先行版本GLM-Zero-Preview。此模型致力于加强人工智能的推理功能,特别是在数理逻辑、编程以及复杂问题的深度推理处理上有着卓越表现。相较于基座模型,GLM-Zero-Preview在维持通用任务能力的同时,专家任务能力有了显著进步,其在AIME2024、MATH500和LiveCodeBench评测中的表现与OpenAI o1-preview相媲美。

用户现在可以免费在智谱清言平台的“Zero推理模型”智能体中体验GLM-Zero-Preview,该平台支持文字及图片上传,并能展示推理的完整过程。同时,开发者也可以通过智谱开放平台的API调用该模型。

微信截图_20241231095302.png

尽管GLM-Zero-Preview与OpenAI的o3模型仍有差距,但智谱华章科技计划不断优化强化学习技术,并即将推出正式版GLM-Zero,将深度思考的能力从数理逻辑扩展至更广泛的通用技术领域。

在模型性能方面,GLM-Zero-Preview展示了强化学习在提升模型深度推理能力方面的重要性。随着训练数据的增加,模型在深度推理方面的表现持续提升。模型在推理阶段的scaling law也得到了验证,即随着模型处理token数和计算量的增加,其输出结果的质量也稳步提高。GLM-Zero-Preview能够自主决策、分解问题,并尝试多种解决方案,这与人类思考决策过程相似。

在实际应用案例中,GLM-Zero-Preview在逻辑推理方面展示了识别逻辑漏洞和模拟多种假设的能力。在数学领域,该模型展现了强大的归纳和演绎能力,能迅速处理复杂数学运算,并在2025年考研数学一的测试中达到优秀研究生的水平。在编程方面,GLM-Zero-Preview熟练运用多种编程语言,并助力开发者快速编码。

智谱清言:

https://ChatGLM.cn/main/gdetail/676411c38945bbc58a905d31?lang=zh

智谱开放平台:

https://bigmodel.cn/dev/api/normal-model/glm-zero-preview