Qwen2.5-VL-32B-Instruct模型性能突破,多模态AI新标杆
中国AI IDE智能编程软件Trae中文版发布,Qwen2.5-VL-32B-Instruct模型开源,性能提升显著。
中国AI IDE智能编程软件Trae中文版发布,Qwen2.5-VL-32B-Instruct模型开源,性能提升显著。
阿里云魔搭社区发布全球最大开源视频生成模型Step-Video-T2V和业界首款产品级开源语音交互模型Step-Audio,展现中国AI领域创新实力。
李飞飞团队创新推出多模态模型,统一处理口头和非口头语言,实现动作理解与生成,提升人机交互自然度,应用于手势生成、情绪预测等领域,展现卓越性能。
Google发布Gemini 2.0,这是其最强大的多模态AI模型,具备图像、视频、音频等多种输入输出能力,旨在为用户提供更有用的信息和助手体验。该模型强化了长上下文理解和多步骤推理,支持复杂任务的执行。同时,Gemini 2.0推动了安全和责任性的发展,确保在AI使用中保护用户隐私和安全。更多功能如实时多模态API将帮助开发者打造创新应用,开启AI代理时代的新篇章。
智谱科技近日开源其GLM-Edge系列端侧大语言和多模态模型,标志着公司在实际应用中的重要进展。该系列包含四种不同尺寸的模型,针对移动和桌面平台进行了优化。基于GLM-4系列技术,智谱团队调整了模型以实现性能和便利度的最佳平衡。特别是在高通骁龙8Elite平台上,模型解码速度超越每秒60tokens,应用投机采样后可达100tokens。这一举措为开发者和研究者在端侧AI应用中提供了有力支持。