被誉为“AI教母”的斯坦福大学教授李飞飞及其研究团队近期发布了一项关于多模态大模型“空间智能”的研究成果。该研究揭示了这些模型在记忆和回忆空间能力上的初步表现,并展示了其构建局部世界模型的潜力。

该研究团队开发了VSI-Bench,这是一个用于评估视觉空间智能能力的工具,包含了超过5000个基于288个真实视频的高质量问答对。测试视频内容涉及居住空间、专业场所及工业场景,覆盖了多个地理区域。

QQ20241223-144615.png

研究显示,尽管多模态模型的总体表现尚不及人类,但在某些任务上,如绝对距离和房间大小估计,已达到或接近人类水平。例如,Gemini-1.5Pro在这些任务中表现出色,而部分开源模型如LLaVA系列也取得了具有竞争力的结果。

研究还发现,使用认知地图辅助空间推理能够显著提高模型在空间任务上的准确率,提升幅度高达10个百分点。这表明,生成明确的认知地图有助于突破模型在空间理解上的障碍。

李飞飞强调,空间智能是AI理解物理世界的关键能力,对实现通用人工智能(AGI)至关重要。她相信,空间智能将成为AI领域的下一个前沿技术方向,并可能在2025年取得重大突破。

今年9月,李飞飞创立的公司World Labs正式宣布启动,专注于开发具备空间智能的AI模型。这家公司已获得英伟达、a16z、Adobe等知名机构的投资,目前估值超过10亿美元。

这一研究及其应用标志着AI技术从二维信息处理向三维空间感知的关键进展,未来有望在导航、机器人交互、增强现实等领域得到广泛应用,为人工智能的进一步发展开辟新路径。