NVIDIA 最近推出了全新的开放视觉语言模型 —— NVILA,该模型旨在提高准确性和效率,已成为视觉 AI 领域的领先者。
据 NVIDIA 介绍,NVILA 在训练成本上降低了4.5倍,微调所需内存减少了3.4倍,预填充和解码的延迟几乎降低了2倍。这些成果是与另一大型视觉模型 LLaVa OneVision 对比得出的。
在视频基准测试中,NVILA 的表现超越了 GPT4o Mini,并且在与其他模型 GPT4o、Sonnet3.5 和 Gemini1.5Pro 的对比中也表现出色。同时,NVILA 在与 Llama3.2 的竞争中稍占上风。不过,NVIDIA 表示,目前尚未将 NVILA 模型发布到 Hugging Face 平台,他们承诺将尽快发布代码和模型,以促进模型的可复现性。
NVIDIA 指出,训练视觉语言模型的成本极高,一个拥有7B 参数的视觉语言模型大约需要400个 GPU 天进行训练。同时,微调这样的模型也极为耗费内存,7B 参数的模型需要超过64GB 的 GPU 内存。
因此,NVIDIA 采用了一种“先扩展后压缩”的技术,旨在平衡模型的准确性与效率。该模型不通过缩小图片和视频大小来简化输入,而是使用高分辨率图像和视频中的多个帧,确保不遗漏任何细节。
在压缩过程中,模型通过将视觉信息压缩为更少的 token 来减小输入数据的大小,并对像素进行分组,以保留关键信息。NVIDIA 在论文中提到,双倍分辨率将使视觉 token 数量翻倍,从而增加训练和推理成本超过2倍。因此,他们通过压缩空间/时间 token 来降低这部分成本。
NVIDIA 还展示了 NVILA 模型的应用效果,该模型能够根据一张图片或一段视频回答多个查询。其输出结果与 NVIDIA 之前发布的 VILA1.5 模型进行了对比。此外,NVIDIA 还详细介绍了一些其他技术,如动态 S2 扩展、基于 DeltaLoss 的数据集修剪、使用 FP8 精度进行量化等。
这些技术均应用于一个8B 参数的模型,具体细节可在 Arxiv 上查阅。
论文链接:https://arxiv.org/pdf/2412.04468
重点摘要:
🌟 NVILA 模型降低了4.5倍的训练成本,提高了视觉 AI 的效率。
📉 通过高分辨率图像和视频帧,NVILA 保证了输入信息的完整性。
📊 NVIDIA 承诺将很快发布代码与模型,推动研究的可复现性。
暂无评论