AI工具已成为大众日常,我们见证了其不断成长,早期我们仅能与它们通过文字交流,心中不禁遐想:若能对图片进行深入思考该多好。
深入研究了众多AI后,试用Kimi,其推理能力令人印象深刻。
(adsbygoogle=window.adsbygoogle||[]).push({});
当时便想,它的能力能否扩展至多模态,一张图片和一段视频也能进行反思推理,并给出可靠的答案。
Kimi迎来更新,新增了强大的图片识别功能,一试之下,连文字识别也令人惊喜。
Kimi智能助手再次更新!自上次介绍数学版以来不久,Kimi基于此版升级并推出了实用有趣的K1模型,对应产品为Kimi——戴眼镜版!

真名「Kimi视觉思考版」
这个模型能识别复杂的图片内容,进行深入的“数理化解答与逻辑推理”,多项测试超过了OpenAI的o1模型,且在识别手写内容方面表现卓越,能识别各种场景拍摄的图片。
它的文字识别能力令人印象深刻,Kimi甚至能识别复杂的数学符号,而中文识别则显得更加简单。以下图片为例,它轻松应对。

Kimi的识别结果
常见的截图工具如PixPin也能进行文字识别,但上半段识别存在困难,且正确率也有待提高。

截图工具的识别
虽然与同类工具相比存在差距,但Kimi并非简单的识别工具!它甚至能对原图文字内容进行修正和“事实检测”,真正实现了对每个像素的分析。

下框为Kimi改正的

下框为Kimi改正的

正确的立正姿势
这无疑是对OCR工具的降维打击。
除了文字识别,Kimi在问题解答方面也表现出色。
先来做一个简单的图片推理题,在下图中找出规律,选择正确的选项。这是一道公考行测图形推理例题,让我们来挑战一下。

红框里的是答案,不发给Kimi
对不熟悉这类问题的人来说,可能需要思考一会儿,而Kimi对这个题目进行了详细分析,每一步都给出了详细过程,最终给出了正确答案。
答案中提到的点:直线和曲线,图形是否封闭,Kimi也有相应的思考。
基础的推理难不倒它,接下来尝试一些需要计算的内容。
Kimi的回答速度很快,结果也是正确的,而且为了严谨,它三次确认了自己的回答,并思考了其他可能出错的地方。在解题时,我们可以参考Kimi的思路,看看自己的错误反思逻辑是否与它一致。
这类内容对Kimi来说相对简单。
再来看一个进阶的。
而Kimi在处理代码题目时更是得心应手,在力扣上找到一个题目,直接截屏给Kimi。
关于这个题目的吐槽
Kimi的回答:
最终结果通过了检验,现在遇到不会的题,就可以让Kimi教你如何解题,顺便学习它的思路。真人击败5%的提交就自黑“很强”了,而Kimi一上手就是77%。
除了用来解题,日常生活中遇到的各种表格也可以交给Kimi分析。
像上图这样的问题,大家不要认为太简单,其他AI可能一问一个不吱声。
这次的Kimi视觉思考版没有任何使用限制,以后大家手中的图片数据都可以交给Kimi解锁更多信息。
从Kimi的更新来看,它更像是在一件事情做到优秀后,再去解锁新的技能,而不是做一大堆都不好用的东西,这让人对后续更强的产品充满期待,比如生成视频和操作软件的工具等等。
暂无评论