最近,字节跳动研究院与清华大学研究人员共同发布了一项创新研究,揭示当前AI视频生成模型,如OpenAI的Sora,虽然能创造出令人瞩目的视觉效果,但在掌握基本物理规律方面存在显著不足。该研究引发了关于AI在模拟现实场景中能力的广泛讨论。
研究团队对AI视频生成模型进行了实验,设定了三种不同场景:已知模式的预测、未知模式的预测以及熟悉元素的新组合。目的是检验这些模型是否真正学会了物理规律,还是仅仅依赖训练中的表面特征。
实验结果显示,这些AI模型并未学会普遍适用的规则。相反,它们在生成视频时,主要依据颜色、大小、速度和形状等表面特征,并遵循一种固定的优先级:颜色优先,其次是大小、速度和形状。
在熟悉场景中,这些模型的表现几乎完美,但在面对未知情况时,它们显得力不从心。一项测试表明,AI模型在处理物体运动时存在局限性。例如,模型训练时使用快速移动的球体,而在测试时提供慢速球体,模型竟在几帧后显示球体突然改变了方向。这一现象在相关视频中也有明显体现。
研究人员强调,单纯扩大模型规模或增加训练数据并不能解决问题。尽管更大的模型在熟悉模式和组合下表现更佳,但它们仍无法理解基本物理规律或应对超出训练范围的场景。研究合著者康炳毅表示:“若特定场景下数据覆盖足够好,或许能形成一个过拟合的世界模型。”但这种模型并不符合真正世界模型的定义,因为真正的世界模型应能超越训练数据进行推广。
合著者Bingyi Kang在X上展示了这一限制,他解释称,当用快速移动的球体训练模型,然后以缓慢移动的球体进行测试时,模型在几帧后显示球体突然改变了方向(你可以在1分55秒的视频中看到这一现象)。
这项研究结果对OpenAI的Sora计划构成了挑战。OpenAI曾宣称,Sora有望通过不断扩展成为真正的世界模型,甚至声称它已对物理交互和三维几何有了基本理解。但研究人员指出,仅靠扩大规模不足以让视频生成模型发现基本物理规律。
Meta的AI负责人Yann LeCun对此也表示怀疑,认为通过生成像素来预测世界的做法是“浪费时间且注定失败”。尽管如此,许多人仍期待OpenAI能在2024年2月中旬如期发布Sora,展示其视频生成的潜力。
划重点:
🌟 研究发现AI视频生成模型在理解物理规律方面存在重大缺陷,依赖于训练数据的表面特征。
⚡ 扩大模型规模并不能解决问题,这些模型在未知场景中表现不佳。
🎥 OpenAI的Sora计划面临挑战,单靠规模扩大无法实现真正的世界模型。
暂无评论