随着人工智能技术的迅猛发展,人类与电影《黑客帝国》中的虚拟场景的距离似乎变得越来越近。最近,一个名为“The Matrix”的AI基础世界模拟器正式发布,成为这一领域的创新标杆。该项目由一个全华人团队开发,能够无限生成720p高保真的真实场景视频,且支持实时交互功能。
该模拟器展示了长达14分钟的演示视频,实际上,系统可以持续生成最长达一个小时的内容,涵盖沙漠、草原、水体和城市等多种场景。在体验过程中,用户可以通过键盘的W、A、S、D键进行实时控制,感受每秒16帧的动态画面。
“The Matrix”项目的开发团队成员来自阿里巴巴、香港大学、滑铁卢大学以及加拿大的AI研究机构Vector Institute。他们将项目命名为“The Matrix”,灵感来源于电影中的经典台词:“这是你熟悉的世界;它现在只存在于我们称之为Matrix的神经交互模拟系统中。”
提示词:admin@matrix: 该场景描绘了一个城市环境,一条长长的笔直道路在高架公路或桥梁下延伸,两侧被围栏包围,表示施工或限制通行。道路上有两条黄色的标线,巨大的混凝土柱支撑着高架路,投下阴影。在左侧的墙上可以看到红色数字,可能用于监控或警报,周围有建筑材料和路障,表明正在进行的建设活动。在右侧,基础设施和霓虹蓝色的“PAWN SHOP”招牌则暗示着附近的商业活动。高架的另一侧,道路通向高耸的现代建筑,灯火通明的窗户展示了城市景观的活力。街灯和数字显示屏提供有限的照明,增添了未来感。尽管有活动的迹象,但道路上没有车辆或行人,营造出一种宁静的氛围。桥外的天空与桥下投射的阴影形成对比,周围的建筑和先进的建筑则营造出一个既在发展又充满未来感的城市氛围。
该项目的核心亮点在于提供前所未有的帧级控制,让用户的每个操作都能得到即时响应,仿佛身临其境。用户可以在第一人称或第三人称视角下,体验驾驶汽车穿越沙漠、森林或城市等不同场景。通过对《极限竞速:地平线5》和《赛博朋克2077》等3A级游戏的数据训练,这一系统能够生成几乎与现实无异的场景。更重要的是,用户可以进行连续的视频体验,无缝地穿越不同环境。
除了能够无限生成高质量视频外,“The Matrix”还具备零样本泛化能力。这意味着模拟器能够在缺乏特定训练数据的情况下,理解和预测不同环境中物体的行为及其交互。
该模拟器的训练数据主要来源于三款3A级游戏的监督数据,以及大量现实场景的无监督视频。与以往的研究不同,这一技术的创新之处在于其学习能力,使得系统能够在未见过的环境中进行准确的生成。
例如,模拟器可以展示“宝马X3在环境中行驶的场景”或“汽车在水中游泳”的奇妙画面。从技术角度来看,“The Matrix”的核心由三个模块构成:交互模块、移窗去噪过程模型和流一致性模型。交互模块负责理解用户的输入并整合到视频生成中;移窗去噪过程模型使长视频生成变得可行,解决了传统模型在长序列生成时的瓶颈;流一致性模型的集成则大幅提升了推理速度,实现了实时生成。
项目负责人Hongyang Zhang和Ruili Feng表示,未来将继续推动这一技术的发展,致力于为用户带来更加逼真的虚拟体验。
提示词:视频中展示了一位女性坐在车内,佩戴着 超大墨镜,身着黑色服装。
项目入口:https://thematrix1999.github.io/
论文:https://thematrix1999.github.io/article/the_matrix.pdf
划重点:
🌐AI版《黑客帝国》模拟器“The Matrix”问世,支持无限生成720p视频。
🎮 用户可实时控制视频场景,体验每秒16帧的动态画面。
🚀 该技术具备零样本泛化能力,能够预测不同环境中的物体行为。
暂无评论