国产Skyworko1大模型开启内测,推理能力大幅提升

出乎意料,技术发展的速度如此之快。最近,人们已经开始憧憬 AI 时代后的生活。

上周末,摩根大通的首席执行官杰米·戴蒙(Jamie Dimon)表示,因人工智能技术的发展,未来几代人每周可能只需工作三天半,而人均寿命将达到一百岁。


(adsbygoogle=window.adsbygoogle||[]).push({});

有些研究认为,像生成式 AI 这样的技术可以实现自动化,减少目前占用人们工作时间 60-70% 的任务。这些技术的突破来自于革命性的 AI,有人汇总了业内大佬对通用人工智能(AGI)出现时间的预测。DeepMind 的哈萨比斯认为,距离 AGI 的到来还需两到三个重大技术创新。

-1

OpenAI 的 CEO 山姆·奥特曼甚至认为 AGI 明年就会出现。如此自信的原因,或许是近期人们找到了一种方法,让大模型具备了“推理”的能力。

在 9 月份,OpenAI 正式推出了前所未有的复杂推理大模型 o1。这是一项重大突破,新模型具备通用能力,能够解决比以前的科学、代码和数学模型更具挑战性的问题。实验结果显示,o1 在绝大多数推理任务中的表现明显优于 GPT-4o。

 

OpenAI 为大模型的能力开辟了新的方向:“是否能像人类一样思考与推理”已经成为评判其能力的重要标准。如果厂商发布的新模型不具备思维链,恐怕都不好意思拿出来展示。

然而,至今 o1 的正式版仍未发布。AI 社区,特别是国内的大模型公司,正在向 o1 的市场地位发起挑战,并在一些权威评测中逐渐取得领先。

今天,国内首款具备中文逻辑推理能力的 o1 模型诞生了,它是昆仑万维推出的“天工大模型 4.0”o1版(英文名:Skywork o1)。这也是该公司在过去一个月内的第三次重大行动,之前“天工 AI 高级搜索”和“实时语音对话 AI 助手 Skyo”先后亮相。

 

从即日起,Skywork o1 将启动内测,想要体验的朋友们可以尽快申请。

申请地址:www.tiangong.cn

三款模型齐发力

争夺推理新领域

此次,Skywork o1 包含了三款模型,既有回馈开源社区的开放版本,也有更强的专用版本。

开放版本的Skywork o1 Open参数为 8B,在各项数学和代码指标上有显著的提升,并将 Llama-3.1-8B 的性能推至同生态位 SOTA,超越了 Qwen-2.5-7B instruct。此外,Skywork o1 Open 还能解决 GPT-4o 等大型模型难以实现的数学推理任务(如 24 点计算),这为推理模型在轻量级设备上的部署提供了可能性。

 

 

此外,昆仑万维还将开源两款针对推理任务的过程奖励模型(Process-Reward-Model, PRM),分别为Skywork o1 Open-PRM-1.5BSkywork o1 Open-PRM-7B。此前开源的 Skywork-Reward-Model 仅能对模型的整体回答进行评分,而 Skywork o1 Open-PRM 则可以对模型回答中的每一个步骤进行细化打分。

相比于现有的开源 PRM,Skywork o1 Open-PRM-1.5B 在效果上相当于 8B 模型,例如 RLHFlow 的 Llama3.1-8B-PRM-Deepseek-Data 和 OpenR 的 Math-psa-7B。Skywork o1 Open-PRM-7B 更为强大,在大多数基准上接近或甚至超越了 10 倍量级的 Qwen2.5-Math-RM-72B。

据介绍,Skywork o1 Open-PRM 还是第一款适配代码类任务的开源 PRM。下表展示以 Skywork-o1-Open-8B 为基础模型,使用不同 PRM 在数学和代码评测集上的评估结果。

 

 

注:除 Skywork-o1-Open-PRM 外,其他开源 PRM 均未对代码类任务进行专门优化,故不进行代码任务相关对比。

详细技术报告也将在不久后发布。目前模型和相关介绍已在 Huggingface 开源。

开源地址:https://tinyurl.com/skywork-o1

Skywork o1 Lite具备完备的思考能力,推理与思考速度更快,尤其在中文逻辑、推理和数学等问题上表现突出。Skywork o1 Preview是此次完整版推理模型,结合自研的线上推理算法,与 Lite 版本相比,展示了更丰富和深入的思考过程,实现了更全面和高质量的推理。

也许你会问,当前对 o1 模型的复现工作主要集中在推理层面,那 Skywork o1 有何不同之处?

昆仑万维指出,该系列模型在输出上内生了思考、规划和反思等能力,通过逐步推理、反思和验证,解锁了“深思熟虑”等更高级的复杂人类思考能力,确保了回答的质量和深度。

当然,Skywork o1 的实际效果如何,还需通过实战检验。

实际测试

Skywork o1 在推理方面展现优势

我们提前获得了测试资格,对 Skywork o1 系列模型,尤其是 Lite 和 Preview 版本的推理能力进行了全面评估。下图为 Skywork o1 Lite 的界面展示。

 

我们首先让 Skywork o1 Lite 自我介绍,可以看到模型没有直接给出答案,而是将包括问题定位、自我能力分析等在内的完整思考过程直观展示给用户,并且会显示思考时间,这是当今推理模型的一大特点。

 

接下来进入测试环节,我们收集了各种类型的推理问题,看看 Skywork o1 是否能够应对自如。

比大小、数“r”问题不再失误

之前大模型在面对一些看似简单的比大小、数数问题时,往往会出现错误。如今这些问题对 Skywork o1 Lite 来说已不再是挑战。

在比较 13.8 与 13.11 的大小时,Skywork o1 Lite 提供了完整的思维链,明确解题的关键在于小数位的大小。同时,模型还进行了自我反省,二次检查得出的结论,并提醒可能的错误点。

-10

同样,在正确回答“Strawberry 中有多少个‘r’?”时,Skywork o1 Lite 也展现了思考、验证和确认的完整过程。

-11

当问题中含有干扰项时,Skywork o1 Lite 同样能够迅速理清思路,不受干扰因素的影响。

-12

轻松应对脑筋急转弯,避免语言陷阱

大模型有时会被中文语境下的脑筋急转弯问题搞糊涂,导致答案错误。但这次 Skywork o1 Lite 能够轻松解决这类问题。

-13

-14

例如,在“两对父子只钓到三条鱼,却每人都分到了一条”的问题上,Skywork o1 Lite 能够理解其中的逻辑。

-15

掌握常识,告别智障行为

大模型在常识推理层面能否接近人类水平,成为提高可信度、增强决策能力和拓展多领域应用的重要标志。Skywork o1 Lite 和 Preview 在这方面的表现都非常不错。

例如,在长短(英寸、厘米、码)与质量单位(公斤)的区分上。

-16

例如,盐水冰块为什么比纯水冰块更容易融化。

-17

再如,一个人站在完全静止的船上,向后跳跃时船向前运动。Skywork o1 Lite 能清楚解释这一现象背后的物理原理。

-18

轻松应对高考题

数学推理是解决复杂任务的基础能力,具备强大数学推理能力的大模型帮助用户高效解决跨学科复杂问题。

在求解序列问题“2, 6, 12, 20, 30... 这个序列的第 10 项是多少?”时,Skywork o1 Lite 观察数字的排列特征,找到了规律,并验证了这个规律,最终得出正确答案。

-19

在求解组合问题(从 10 人中选出 3 人组成一队,共多少种选择)时,Skywork o1 Preview 在全面思考后也得出了正确答案。

-20

当我们给 Skywork o1 Lite 提出一道动态规划问题(硬币面值为 1、3、5,最少几枚硬币凑出 11?),它也给出了最优解。

-21

接下来我们对 Skywork o1 Lite 提升难度,考它两道高考数学题,题目来自 2024 年高考全国甲卷数学(文)。

第一道是有关概率的题目(甲、乙、丙、丁四人排成一列,丙不在排头,且甲或乙在排尾的概率是多少),Skywork o1 Lite 很快给出了正确答案。

-22

第二道是函数题(),Skywork o1 Lite 一气呵成地展示了解题思路与答案。

-24

心思缜密,逻辑推理能力强

大模型的逻辑推理能力是实现更强通用人工智能的核心能力之一,Skywork o1 Lite 在解决此类问题上表现突出。比如在经典的说谎问题中,Skywork o1 Lite 从逻辑自洽的角度辨识出谁说实话,谁在说谎。

-25

对于悖论问题,Skywork o1 Lite 也未被困惑。

-26

在道德困境中保持公正

伦理决策在很大程度上关乎人工智能的安全发展、社会道德规范的遵循、增强用户的信任与接受度,大模型也需谨言慎行。

在“救老婆还是救老妈”的经典难题中,Skywork o1 Lite 并未给出绝对答案,而是权衡了利弊,提出了合理的建议。

-27

在“救多救少”的两难选择中,Skywork o1 Preview 也未轻易下定论,而是提供了更深层次的思考。

-28

隐性智力考验也轻松应对

这些问题常用来测试大模型的智力水平,Skywork o1 Lite 能轻松应对,例如高考满分 750 与考上 985 的区别。

-29

又比如“午餐肉能否在晚上吃”,Skywork o1 Lite 显然也没有被食物名称的误导。

 

解决代码问题也不在话下

Skywork o1 Lite 可以处理一些代码问题,比如 LeetCode 上的“孤岛数量”问题。

题目为“给定一个 2 维网格图,其中 ‘1’(陆地)和 ‘0’(水),计算岛屿的数量。岛屿被水包围,通过水平或垂直连接相邻的陆地形成,你可以假设网格的四边都被水包围。”

 

总而言之,我们可以得出以下结论:一方面,以往许多大模型经常失误的小问题,在拥有推理能力的 Skywork o1 面前都显得轻而易举。另一方面,通过完整的思考与规划、自我反思及自我验证链路,Skywork o1 在复杂问题场景下同样展现了周密的思考能力,能够更准确、更高效地输出结果。

如此一来,相较于以往更强大的推理能力,也将激励 Skywork o1 在更多样化的垂直任务和领域中展现出更大的应用潜力,尤其是在容易失误的逻辑推理以及复杂的科学、数学任务方面。同时,在“天工”上线后,必将在创意写作和高质量内容生成及深度搜索领域的任务效果上有进一步优化。

国产 o1 模型

自研技术驱动

我们已经见证了昆仑万维在生成式 AI 垂直应用领域的多项成果,包括但不限于搜索、音乐、游戏、社交以及 AI 短剧等方向。在此过程中,昆仑万维在大模型基础技术的研发上早有布局。

自 2020 年起,昆仑万维持续加大 AI 大模型的投入,ChatGPT 刚推出一个月时,该公司便发布了自己的 AIGC 模型系列。目前,昆仑万维已在多个垂直领域推出应用,包括全球首个 AI 流媒体音乐平台 Melodio、AI 音乐创作平台 Mureka、AI 短剧平台 SkyReels 等等。

在基础技术层面,昆仑万维已经构建起“算力基础设施 — 大模型算法 — AI 应用”的全产业链布局,其中“天工”系列大模型是其核心。

去年 4 月,昆仑万维发布了自主研发的“天工 1.0”大模型。今年 4 月,天工大模型升级至 3.0 版本,采用 4 千亿级参数 MoE 混合专家模型,并同步选择开源。目前,天工 4.0 版本又基于智能涌现的方法,实现了逻辑推理任务的能力提升。

在技术层面,Skywork o1 在逻辑推理任务上的性能显著提升,得益于天工系列的自研训练方案,包括以下几个方面:

一是推理反思能力训练。Skywork o1 通过自研的多智能体体系构建了高质量的分步思考、反思和验证数据,并结合高质量、多样性的深思数据对基座模型进行进一步预训练和监督微调。

二是推理能力强化学习。Skywork o1 团队研发了最新的适应分步推理强化的 Skywork o1 过程奖励模型(PRM),能够有效捕捉复杂推理任务中各个步骤和思考步骤对最终答案的影响,配合自研的分步推理强化算法进一步增强模型的推理和思考能力。

三是推理规划。基于天工自研的 Q* 线上推理算法,模型在线思考并寻找最佳推理路径。这也是全球首次公开实现 Q* 算法,在 MATH 等数据集上显著提升了 LLM 的推理能力,并降低了计算资源的需求。

 

在 MATH 数据集上,Q* 帮助 DeepSeek-Math-7b 提升至 55.4% 的准确率,超越了 Gemini Ultra。

Q* 算法论文地址:https://arxiv.org/abs/2406.14283

可以看出,昆仑万维的技术已达到业界领先水平,在竞争激烈的生成式 AI 领域逐渐站稳了脚跟。

相较于如今生成式 AI 应用的百花齐放,基础技术的研究已开始走入“深水区”。只有那些经过长期积累的公司,才能构建起改变我们生活的新一代应用。

期待昆仑万维未来带来更多、更强大的技术。

相关推荐

暂无评论

发表评论