通义灵码Qwen2.5-Max推理模型：编程数学能力领先

2025年3月3日，通义灵码正式发布其最新推理模型Qwen2.5-Max，为开发者提供强大的编程及数学能力支持。Qwen2.5-Max基于超过20万亿token的预训练数据，并采用精心设计的后训练方案，展现了卓越的性能。

在多项基准测试中，Qwen2.5-Max表现优异。比如，在Arena-Hard、LiveBench、LiveCodeBench和GPQA-Diamond等测试中，Qwen2.5-Max的成绩超越了包括DeepSeek V3、GPT-4o和Claude-3.5-Sonnet在内的业界领先模型。此外，在MMLU-Pro等评估中，Qwen2.5-Max也表现出强劲的竞争力。

微信截图_20250303214041.png

在与其他基座模型的对比中，Qwen2.5-Max与DeepSeek V3、Llama-3.1-405B以及Qwen2.5-72B等进行了全面比较。结果显示，通义千问的基座模型在多数基准测试中都表现出了显著优势。

值得注意的是，Chatbot Arena发布的三方基准测试平台最新大模型盲测榜单中，Qwen2.5-Max超越了DeepSeek-V3、Open AI o1-mini和Claude-3.5-Sonnet等模型，以1332分位列全球第七，成为中国非推理类大模型的领军者。在数学和编程单项能力上，Qwen2.5-Max排名第一，硬提示（Hard prompts）能力排名第二。Chatbot Arena官方评价指出，阿里巴巴的Qwen2.5-Max在多个领域表现卓越，特别是在编程、数学和硬提示等专业技术领域。

目前，Qwen2.5-Max已集成至通义灵码，用户可通过下载通义灵码插件来体验其强大的编程功能。

通义灵码Qwen2.5-Max推理模型：编程数学能力领先

智谱10亿融资，国产GLM大模型技术升级

中信特钢接入DeepSeek-R1大模型，推动智能制造转型

暂无评论

发表评论取消回复

智谱10亿融资，国产GLM大模型技术升级

中信特钢接入DeepSeek-R1大模型，推动智能制造转型

相关推荐

暂无评论

发表评论 取消回复

搜索

通义灵码Qwen2.5-Max推理模型：编程数学能力领先

发表评论取消回复