阿里云Qwen2.5-VL开源，视觉AI超越GPT-4o

阿里云宣布其通义千问项目开源了最新的视觉模型Qwen2.5-VL，并提供了3B、7B和72B三个不同规模的版本。

在13项权威评测中，Qwen2.5-VL-72B版在视觉理解领域取得了领先，超越了GPT-4o和Claude3.5。阿里云官方指出，新模型能更精确地分析图像，并具备解析超过一小时视频内容的能力。它能帮助用户在视频中查找特定事件，对视频的不同阶段进行要点总结，迅速提取关键信息。

阿里云通义开源Qwen2.5-VL：最强视觉AI 超越GPT-4o

Qwen2.5-VL无需微调即可成为具备操控手机和电脑能力的AI视觉智能体，能够执行如发送祝福、电脑图像编辑、手机订票等复杂操作。此模型不仅擅长识别花卉、鸟类、鱼类和昆虫等常见物体，还能分析图像中的文本、图表、图标、图形和布局。阿里云还提升了Qwen2.5-VL的OCR识别能力，增强了其在多场景、多语言和多方向上的文本识别和定位功能。

阿里云通义开源Qwen2.5-VL：最强视觉AI 超越GPT-4o

此外，Qwen2.5-VL在信息抽取能力上也有了显著提升，以满足资质审核、金融商务等数字化和智能化领域的日益增长需求。

划重点:

🌟 阿里云通义千问开源Qwen2.5-VL，提供3B、7B和72B三个版本。

📈 Qwen2.5-VL-72B在视觉理解评测中领先于GPT-4o与Claude3.5。

👀 Qwen2.5-VL支持超1小时视频理解，OCR识别能力增强。

阿里云Qwen2.5-VL开源，视觉AI超越GPT-4o

宇树科技机器人春晚首秀：秧Bot亮相央视舞台

DeepSeek登顶苹果应用商店，英伟达股价暴跌16.86%

暂无评论

发表评论取消回复

宇树科技机器人春晚首秀：秧Bot亮相央视舞台

DeepSeek登顶苹果应用商店，英伟达股价暴跌16.86%

相关推荐

暂无评论

发表评论 取消回复

搜索

阿里云Qwen2.5-VL开源，视觉AI超越GPT-4o

发表评论取消回复