近期,Meta公司的AI首席科学家Yann LeCun领导的研究团队揭露了人工智能如何通过观察视频来建立基本的物理认知。这一研究由Meta FAIR、巴黎大学以及EHESS的科研人员共同完成,揭示了AI系统无需预设规则,能通过自我监督学习获得直接的物理知识。

QQ_1739931962266.png

研究团队应用了一种名为视频联合嵌入预测架构(V-JEPA)的创新方法,与OpenAI的Sora等生成型AI模型相比,V-JEPA的信息处理机制更贴近人脑。V-JEPA不追求精确的像素预测,而是聚焦于抽象表示空间中的预测,从而使AI系统能学习到基本的物理概念。

在研究中,团队借鉴了发展心理学中的“期望违反”评估方法,该方法原本用于检测婴儿的物理认知。研究者向AI展示了两个相似的场景——一个物理上可行,另一个不可行(如球穿过墙壁),通过测量AI对这种物理违背的反应,评估其物理认知能力。

V-JEPA在IntPhys(基本物理概念)、GRASP(复杂交互)和InfLevel(现实环境)三个数据集上进行了测试。结果显示,V-JEPA在物体恒常性、连续性和形状一致性方面表现出色,而大型多模态语言模型如Gemini1.5Pro和Qwen2-VL-72B的表现几乎与随机猜测无异。

V-JEPA的学习效率同样令人印象深刻,该系统仅需观看128小时的视频,便能掌握基本的物理概念。即使是115百万参数的小型模型,也表现出卓越的效果。研究指出,V-JEPA能够有效识别运动模式,并以高准确率识别物理上不合理的事件,这为AI真正理解世界打下了坚实的基础。

该研究挑战了AI研究中一个基本假设,即系统需要预设的“核心知识”以理解物理法则。V-JEPA的发现表明,观察学习能够帮助AI获得此类知识,类似于婴儿、灵长类动物甚至年轻鸟类理解物理的过程。这一研究符合Meta对JEPA架构的长期探索目标,即构建全面的世界模型,使自主AI系统更深入地理解其环境。

划重点:

🧠 研究证明AI可以通过视频学习物理知识,无需预设规则。

📊 V-JEPA在理解物理方面超越大型语言模型,展现出更强的学习能力。

🌍 Meta推动AI新方向,致力于创建更全面的环境理解模型。