近期,Hugging Face与Physical Intelligence共同发布了名为“Pi0”(Pi-Zero)的基础模型,这是首个能够将自然语言命令直接转化为物理动作的模型。这一创新性成果引起了广泛关注。Hugging Face的首席研究科学家Remi Cadene在社交媒体上表示:“Pi0是最先进的视觉语言动作模型,能够将自然语言命令转化为自主行为。”

“Pi0”的问世标志着机器人领域的一次重大突破,其影响力与ChatGPT在文本生成领域的地位相媲美。该模型最初由Physical Intelligence开发,现已在Hugging Face的LeRobot平台上开放使用,能够执行折叠衣物、收拾餐桌和包装杂货等复杂任务,这些任务传统机器人难以胜任。

Physical Intelligence的研究团队指出:“目前的机器人大多是专注于重复性动作的窄域专家,而‘Pi0’的推出则让机器人能够通过用户指令学习和执行任务,将编程复杂性简化为简单的语音指令。”

“Pi0”技术的核心是一大技术突破。该模型通过训练七种不同机器人平台和68个独特任务的数据,使其能够处理从精细操作到复杂的多步骤程序等各种任务。同时,采用了一种新颖的流匹配技术,以每秒50次的速度产生平滑、实时的动作轨迹,从而在真实世界应用中实现高度精准和适应性。

在此基础上,开发团队还推出了“Pi0-FAST”版本,这一增强版模型结合了一种新的标记方案——频率空间动作序列标记(FAST),使得训练速度提高了五倍,并在不同环境和机器人类型之间的泛化能力上也有所提升。

这一技术的推出将对工业产生深远影响。制造企业可以通过简单的语音指令重新编程机器人,仓库能够根据需求部署更灵活的自动化系统。小型企业也将因此更容易接入机器人技术,降低编程和部署的门槛。

然而,尽管“Pi0”已取得显著进展,但仍然面临一些挑战。该模型在处理非常复杂的任务时有时会遇到困难,并且需要相当大的计算资源。此外,在工业环境中的可靠性和安全性问题仍然需要关注。

“Pi0”的发布正值人工智能行业快速发展的关键时期,它代表了语言模型与物理世界互动的首次成功尝试。随着技术的不断成熟,未来的机器人将变得更加对话式、适应性强且易于接入,推动机器人在家庭、医院和小型企业等领域的广泛应用。

pi0:https://huggingface.co/lerobot/pi0

划重点:

🌟 “Pi0”是首个将自然语言命令转化为物理动作的机器人模型,改变传统编程方式。

🤖 该模型经过多平台、多任务训练,能够执行复杂的日常操作,降低机器人使用门槛。

⚡ “Pi0-FAST”版本提升了训练速度和泛化能力,有望加速工业自动化的推广。