微软开源多模态AI“Magma”：突破智能助手新界限

2025-02-26

微软官网正式推出了多模态AI代理基础模型“Magma”，并已开源。这一先进技术与传统智能助手相比，拥有更强大的多模态处理能力，能够处理图像、视频、文本等多种数据，打破了数字与物理世界的界限。

Magma不仅能在电商平台上协助用户自动下单、查询天气等日常事务，还能与实体机器人协作，完成更复杂的任务。例如，在实战象棋时，Magma能为用户提供实时策略建议，显著提升游戏体验。同时，它还具有心理预测功能，能预测视频中人物或物体的未来行为，使虚拟助手或机器人更有效地理解周围环境并作出反应。

官方资料显示，Magma的应用场景十分广泛。它不仅能协助家用机器人学习整理未见过的物品，还能为虚拟助手生成不熟悉的任务用户界面导航说明。这些功能使得用户在面对新环境和任务时，能够获得更精确的帮助和指引。

Magma是视觉语言动作（VLA）基础模型的一部分，能够通过海量公开视觉和语言数据进行学习。这种能力使得Magma能够有效融合语言、空间和时间智能，为用户在数字与物理世界中的复杂任务提供解决方案。

Magma的开源为开发者和研究人员提供了强大的工具，推动了智能助手和家用机器人的进一步发展。未来，随着这一技术的不断优化，我们或许在日常生活中将见到更多基于Magma的创新应用。

项目地址：https://microsoft.github.io/Magma/

标签：multi-modal AI · VLA基础模型

暂无评论

发表评论取消回复

要发表评论，您必须先登录。