今日,月之暗面推出了一款全新的视觉思考模型——k1。该模型基于强化学习技术,不仅实现了端到端的图像理解,还融合了思维链技术,将应用范围扩展至数学以外的更多基础科学领域,如物理和化学。在基准能力测试中,k1模型的表现超越了国际领先的模型,包括OpenAI的o1、GPT-4o以及Claude3.5Sonnet。
这款新一代模型通过激励生成更细致的推理步骤,形成了高质量的思维链,大幅提高了解决复杂任务的成功率。Kimi的k1模型在图像理解与思考能力上的结合,为用户带来了更加流畅的交互体验,能够直接处理用户输入的图像信息并给出答案,无需依赖OCR或其他视觉模型。
k1模型的训练过程分为两个阶段:首先是预训练以获得基础模型,然后在此基础上进行强化学习训练。基础模型在OCRBench上取得了903分的高分,并在MathVista-testmini、MMMU-val和DocVQA等基准测试集中表现优异。强化学习训练在数据质量和学习效率方面进行了优化,实现了规模化新突破。
此外,Kimi还自主研发了一个涵盖不同难度数理化图片题目的标准化测试集——Science Vista,并将向全行业开放使用。虽然k1模型在内部测试中存在一些局限性,例如在分布外泛化、复杂问题解决率等方面有待提高,但其在视觉噪声场景下的表现优于其他模型,展现了卓越的视觉识别能力。
Kimi智能助手的k1视觉思考模型不仅在数学领域表现卓越,还成功拓展到了物理和化学领域,展示了广泛的基础科学能力。k1模型还具备通用能力,能够解释和推理非数学问题,如科学家手稿的内容和背景故事。
现在,k1新模型已经上线,用户可通过最新版的Kimi智能助手手机APP或网页版体验这一创新功能,与Kimi智能助手一起探索更广阔的世界。
暂无评论