Cohere发布AyaVisionAI模型,引领多模态技术突破

人工智能初创企业Cohere的非营利研究实验室近期推出了一款名为Aya Vision的多模态“开放”AI模型。该实验室自豪地宣称,该模型在行业内处于领先地位。

Aya Vision模型具备执行多种任务的能力,包括撰写图片说明、解答与照片相关的问题、文本翻译以及生成23种主要语言的摘要。Cohere公司通过WhatsApp平台免费提供Aya Vision,旨在方便全球研究人员获取这一技术突破。

Cohere在其博客中指出,尽管人工智能在近年来取得了显著进展,但在不同语言之间的模型表现仍存在较大差距,尤其是在涉及文本和图像的多模态任务中。Aya Vision的目标正是帮助缩小这一差距。

Aya Vision模型分为两个版本:Aya Vision32B和Aya Vision8B。其中,Aya Vision32B被誉为“新边界”,在视觉理解基准测试中超越了体量为其两倍的模型,包括Meta的Llama-3.290B Vision。而Aya Vision8B在某些评估中表现也优于体量为其十倍的模型。

这两个模型已在AI开发平台Hugging Face上以Creative Commons4.0许可证的形式提供,用户需遵守Cohere的可接受使用附录,且不可用于商业应用。

Cohere表示,Aya Vision的训练采用了一种“多样化的”英语数据集,实验室将这些数据集翻译后,使用合成标注进行训练。合成标注是指由AI生成的标注,有助于模型在训练过程中理解和解释数据。尽管合成数据存在潜在缺点,但像OpenAI等竞争对手也在越来越多地使用合成数据来训练模型。

Cohere指出,使用合成标注训练Aya Vision使得他们能够减少资源的使用,同时仍能取得竞争力的表现。这展示了他们对效率的重视,利用更少的计算资源实现更多成果。

为了进一步支持研究界,Cohere还发布了一套新的基准评估工具——AyaVisionBench,旨在考察模型在视觉与语言结合任务中的能力,如识别两张图像的差异和将屏幕截图转换为代码。

当前,人工智能行业正面临所谓的“评估危机”,这主要源于流行基准的广泛使用,这些基准的总分与大多数AI用户关心的任务的能力相关性较差。Cohere声称,AyaVisionBench为评估模型的跨语言和多模态理解提供了一个“广泛且具有挑战性”的框架。

官方博客:https://cohere.com/blog/aya-vision

划重点:

🌟 Aya Vision模型被Cohere称为行业最佳,能够执行多种语言和视觉任务。

💡 Aya Vision有两个版本,分别为32B和8B,表现超越体量更大的竞争模型。

🔍 Cohere还发布了新的基准评估工具AyaVisionBench,旨在改善AI模型评估问题。

相关推荐

阿里发布QwQ-32B-Preview:自我事实核查能力挑战OpenAI推理模型

阿里巴巴Qwen团队推出了QwQ-32B-Preview推理人工智能模型,拥有325亿参数,能够处理长达32,000字的文本,且在多项基准测试中超越OpenAI的o1系列。该模型在AIME和MATH等测试中展现了杰出的推理能力,尤其在复杂逻辑和数学问题上得分优秀。其独特的自我事实核查机制避免了推理陷阱,并采用提前规划的策略寻找解决方案。尽管表现卓越,阿里巴巴也承认模型存在一些局限性。QwQ-32B-Preview已在Hugging Face发布,且可用于商业应用。

暂无评论

发表评论