近期,清华大学智能产业研究院(AIR)于2024年12月24日推出了AutoDroid-V2人工智能模型,专注于提升移动设备的自动化控制效能。该模型借助小型语言模型的应用,大幅提高了用户通过自然语言进行操作的速度。

AutoDroid-V2采用了脚本化的处理方式,与依赖云端大型语言模型(LLM)的传统方法相区别。这种创新让设备能够高效地执行用户指令,减少对云服务的依赖,显著增强了隐私保护和安全性。同时,它还降低了用户端的流量消耗和服务器端的运行成本,促进了移动设备的普及。

image.png

就项目背景而言,近年来,大型语言模型和视觉语言模型的发展,使得通过自然语言命令控制移动设备成为可能。这些技术为解决复杂用户任务提供了新路径。然而,传统的“逐步GUI智能体”方法存在高流量消耗和隐私安全风险,大规模部署面临挑战。

AutoDroid-V2的创新之处在于,它能根据用户指令生成多步骤脚本,从而一次性执行多个GUI操作。这种方法大幅降低了查询频率,减少了资源消耗,并且能在用户设备上直接生成和执行任务脚本。该模型在离线状态下构建应用程序文档,为后续的脚本生成打下基础。

性能测试中,AutoDroid-V2在23款移动应用上完成了226项任务的基准测试,与AutoDroid和SeeClick等先前模型相比,任务完成率提升了10.5%至51.7%。此外,其输入和输出的token消耗分别减少了至43.5分之一和5.8分之一,模型推理延迟降低至原来的5.7至13.4分之一。这些成果证明了AutoDroid-V2在实际应用中的高效性和可靠性。

划重点:

🌟 AutoDroid-V2是清华大学研发的新AI模型,提高了移动设备的自然语言控制效率。

🔒 该模型通过小型语言模型降低了对云端服务的依赖,提升了用户隐私和安全性。

📈 基准测试表明,AutoDroid-V2在任务完成率和资源消耗上都有显著改进,展现出巨大的应用前景。