Sa2VA:图像视频统一理解新框架,突破多模态模型局限

在多模态大语言模型(MLLMs)的推动下,图像和视频处理任务取得了显著进步,涵盖了视觉问答、故事创作和交互式编辑等领域。尽管如此,对视频内容的细粒度理解仍是一个挑战,包括像素级分割、语言描述跟踪以及特定视频提示的视觉问答等。

尽管最先进的视频感知模型在分割和跟踪任务上表现出色,但在开放式语言理解和对话能力方面仍有待提高。视频MLLMs在视频理解和问答任务上表现良好,但在感知任务和视觉提示处理上显得力不从心。

目前,主要有两种解决方案:多模态大语言模型(MLLMs)和引用分割系统。MLLMs最初专注于改进多模态融合方法和特征提取器,逐渐演变为在LLMs上进行指令调优的框架,如LLaVA。近期,研究人员尝试将图像、视频和多图像分析统一到单一框架中,如LLaVA-OneVision。同时,引用分割系统也从基本的融合模块发展到集成分割和跟踪。然而,这些解决方案在感知和语言理解能力的全面整合上仍存在不足。

来自UC Merced、字节跳动种子团队、武汉大学和北京大学的研究人员提出了Sa2VA,这是一种创新性的统一模型,旨在实现图像和视频的深入理解。该模型通过最小化一次性指令调优,支持广泛的图像和视频任务,克服了现有多模态大语言模型的局限性。

Sa2VA创新性地将SAM-2与LLaVA整合,将文本、图像和视频统一到共享的LLM令牌空间中。此外,研究人员还推出了名为Ref-SAV的广泛自动标注数据集,包含超过72K个复杂视频场景中的对象表达,以及2K个经过人工验证的视频对象,以确保稳健的基准能力。

Sa2VA的架构主要由两个部分组成:类似LLaVA的模型和SAM-2,采用了一种新颖的解耦设计。LLaVA-like组件包括处理图像和视频的视觉编码器、视觉投影层以及用于文本令牌预测的LLM。该系统采用独特的解耦方式,使得SAM-2在预训练的LLaVA模型旁边运作,而不进行直接的令牌交换,从而保持计算效率,并允许与各种预训练的MLLMs进行插拔式功能连接。

研究结果表明,Sa2VA在引用分割任务中取得了领先的结果,其Sa2VA-8B模型在RefCOCO、RefCOCO+和RefCOCOg上的cIoU评分分别为81.6、76.2和78.9,超越了GLaMM-7B等之前的系统。在对话能力方面,Sa2VA在MME、MMbench和SEED-Bench上分别取得了2128、81.6和75.1的优异成绩。

此外,Sa2VA在视频基准测试中的表现也显著超过了之前的最先进状态,显示出其在图像和视频理解任务中的高效性和有效性。

论文:https://arxiv.org/abs/2501.04001
模型:https://huggingface.co/collections/ByteDance/sa2va-model-zoo-677e3084d71b5f108d00e093

🌟 Sa2VA是一个新颖的统一AI框架,实现了图像与视频的深度理解,克服了现有多模态模型的局限性。
📊 该模型在引用分割和对话能力等多项基准测试中均取得了领先的成绩,展现了出色的性能。
🧠 Sa2VA的设计通过解耦的方式有效整合了视觉和语言理解能力,支持广泛的图像与视频任务。

相关推荐

暂无评论

发表评论