微软的研究团队近期推出了一项名为“大型行动模型”(Large Action Model,简称LAM)的人工智能技术,标志着人工智能发展迈入新阶段。与传统的语言模型GPT-4o相比,LAM能自主操作Windows程序,意味着AI不仅能对话或提供建议,还能真实执行任务。

image.png

LAM的优势在于其能理解用户的文字、语音和图像输入,并将其转化为详细的步骤计划。LAM不仅能制定计划,还能根据实时情况调整行动策略。构建LAM主要分为四个步骤:首先,模型学习将任务分解为逻辑步骤;其次,通过更先进的AI系统(如GPT-4o)学习如何将计划转化为具体行动;然后,LAM会独立探索新的解决方案,甚至解决其他AI系统无法应对的问题;最后,通过奖励机制进行微调训练。

在实验中,研究团队以Mistral-7B为基础构建了一个LAM模型,并在Word测试环境中进行测试。结果显示,该模型成功完成任务的概率为71%,相比之下,GPT-4o在无视觉信息的情况下的成功率为63%。此外,LAM在任务执行速度上也表现优异,每个任务仅需30秒,而GPT-4o则需要86秒。虽然在处理视觉信息时,GPT-4o的成功率提高至75.5%,但总体来看,LAM在速度和效果上均有显著优势。

此外,为了构建训练数据,研究团队最初收集了29,000对任务和计划的示例,这些数据来自微软文档、wikiHow文章和必应搜索。之后,他们利用GPT-4o将简单任务转化为复杂任务,从而将数据集扩展到76,000对,增加了150%。最终,约2,000个成功的行动序列被纳入到最终的训练集中。

image.png

尽管LAM展示了其在AI发展中的潜力,研究团队仍面临一些挑战,如AI行动可能出错的问题、监管的相关问题,以及在不同应用中扩展和适应的技术限制。不过,研究人员相信,LAM代表了AI发展的一次重要转变,预示着人工智能助手将能更积极地协助人类完成实际任务。

划重点:

🌟 LAM能够自主执行Windows程序,突破传统AI只会对话的局限。

⏱️ 在Word测试中,LAM成功完成任务的概率达到71%,比GPT-4o的63%更高,且执行速度更快。

📈 研究团队通过数据扩展策略,将任务计划对的数量增加到76,000对,进一步提升了模型的训练效果。