近日,伊利诺伊大学厄巴纳-香槟分校、Sony AI 及 Sony 集团公司联合研究团队推出了一项创新技术——MMAudio。该技术致力于通过多模态联合训练,实现从视频到音频的高质量合成。

MMAudio 的突破性创新在于,它能根据视频和文本输入生成同步音频,极大地拓宽了音频生成的应用领域。这项技术支持使用视频或文本作为输入,输出与之匹配的音效。

MMAudio 能够在各种视听和音频文本数据集上进行训练,这种多模态联合训练方法不仅提升了合成音频的品质,还确保了音频与视频帧的同步性。同步模块的引入,显著提高了音频生成的准确性,保证了音频与视频内容的一致性。

目前,MMAudio 的代码库正在完善中,研究人员表示,单个示例推理功能已可正常使用,训练代码将在后续版本推出。为了方便用户操作,该技术已在 Ubuntu 操作系统上进行了测试,并提供了详细的安装指南。用户需准备 Python3.9 或更高版本,以及相应版本的 PyTorch 和 ffmpeg,然后通过简单命令即可安装 MMAudio。

尽管 MMAudio 在音频生成方面存在一定局限性,如偶尔产生的模糊语音或背景音乐,以及对某些陌生概念的处理不够完善,研究团队认为,增加高质量训练数据有助于解决这些问题。随着研究的深入,MMAudio 有望在未来进一步提升性能。

试玩: https://huggingface.co/spaces/hkchengrex/MMAudio

代码: https://github.com/hkchengrex/MMAudio

划重点:

🌟 MMAudio 技术通过多模态联合训练,实现视频与音频的高质量合成。

📦 用户可在 Ubuntu 上通过简单安装步骤使用 MMAudio 进行音频生成。

⚠️ 虽然当前版本存在一些局限性,但研究团队正努力通过增加训练数据来提升性能。