K1视觉思考模型发布：超越GPT-4o，融合图像理解与基础科学能力

今日，月之暗面推出了一款全新的视觉思考模型——k1。该模型基于强化学习技术，不仅实现了端到端的图像理解，还融合了思维链技术，将应用范围扩展至数学以外的更多基础科学领域，如物理和化学。在基准能力测试中，k1模型的表现超越了国际领先的模型，包括OpenAI的o1、GPT-4o以及Claude3.5Sonnet。

这款新一代模型通过激励生成更细致的推理步骤，形成了高质量的思维链，大幅提高了解决复杂任务的成功率。Kimi的k1模型在图像理解与思考能力上的结合，为用户带来了更加流畅的交互体验，能够直接处理用户输入的图像信息并给出答案，无需依赖OCR或其他视觉模型。

微信截图_20241216100218.png

k1模型的训练过程分为两个阶段：首先是预训练以获得基础模型，然后在此基础上进行强化学习训练。基础模型在OCRBench上取得了903分的高分，并在MathVista-testmini、MMMU-val和DocVQA等基准测试集中表现优异。强化学习训练在数据质量和学习效率方面进行了优化，实现了规模化新突破。

此外，Kimi还自主研发了一个涵盖不同难度数理化图片题目的标准化测试集——Science Vista，并将向全行业开放使用。虽然k1模型在内部测试中存在一些局限性，例如在分布外泛化、复杂问题解决率等方面有待提高，但其在视觉噪声场景下的表现优于其他模型，展现了卓越的视觉识别能力。

Kimi智能助手的k1视觉思考模型不仅在数学领域表现卓越，还成功拓展到了物理和化学领域，展示了广泛的基础科学能力。k1模型还具备通用能力，能够解释和推理非数学问题，如科学家手稿的内容和背景故事。

现在，k1新模型已经上线，用户可通过最新版的Kimi智能助手手机APP或网页版体验这一创新功能，与Kimi智能助手一起探索更广阔的世界。

K1视觉思考模型发布：超越GPT-4o，融合图像理解与基础科学能力

Chrome浏览器F12工具新增AI功能，助力开发者高效调试网页代码

美图公司AI设计产品表现亮眼，摩根士丹利预测2024年收入翻倍增长

暂无评论

发表评论取消回复

Chrome浏览器F12工具新增AI功能，助力开发者高效调试网页代码

美图公司AI设计产品表现亮眼，摩根士丹利预测2024年收入翻倍增长

相关推荐

暂无评论

发表评论 取消回复

搜索

K1视觉思考模型发布：超越GPT-4o，融合图像理解与基础科学能力

发表评论取消回复