2025年1月15日,北京月之暗面科技有限公司正式推出全新多模态图片理解模型——moonshot-v1-vision-preview。该模型对moonshot-v1系列的多模态功能进行了升级,有助于Kimi更深入地理解世界。

Vision模型在图像识别方面表现出色,能够精准识别图像中的复杂细节和细微差异。无论是食物还是动物,Vision模型都能准确区分相似但不同的对象。例如,面对16张相似程度极高,人眼难以区分的蓝莓松饼和吉娃娃图片,Vision模型仍能精确地进行识别。

Vision模型在图像识别方面具有国内领先的高级能力,在OCR文字识别和图像理解场景中表现出色。其识别精度高于普通文件扫描和OCR识别软件,能够识别收据单、快递单等潦草的手写内容。

微信截图_20250115135433.png

Vision视觉模型支持多轮对话、流式输出、工具调用、JSON Mode、Partial Mode等特性。不过,目前不支持联网搜索,无法创建包含图片内容的Context Cache。但用户可以使用已创建的Cache调用Vision模型,仅支持使用base64编码的图片内容,不支持URL格式的图片。

模型计费

模型 计费单位 价格
moonshot-v1-8k-vision-preview 1M tokens ¥12.00
moonshot-v1-32k-vision-preview 1M tokens ¥24.00
moonshot-v1-128k-vision-preview 1M tokens ¥60.00