近期,Adobe 与密歇根大学携手打造了一款名为 MultiFoley 的智能音效系统,该系统专注于为电影和视频制作配音音效,助力后期制作环节。

MultiFoley 的独特之处在于,用户可以利用文字提示、参考音频或视频样本来创造出所需的音效。在展示环节,该系统甚至能将猫咪的叫声转变为雄狮的怒吼,或将打字机的声音变换为钢琴旋律,且与视频画面同步得天衣无缝。

MultiFoley 的音频输出质量高达48kHz,这得益于研究人员利用网络视频和专业音效库进行的大量训练。与以往系统相比,MultiFoley 首次实现了文本、音频和视频参考等多种输入方式的整合。它通过分析每秒8帧的视觉信息,并将其放大至40Hz 的音频采样率,确保音视频同步紧密。

image.png

在测试过程中,MultiFoley 在音视频同步和音效与文本描述匹配方面表现优异,平均同步精度达到0.8秒,远超传统系统通常超过一秒的延迟。根据用户研究,85.8% 的参与者认为 MultiFoley 在语义一致性方面优于其他系统,而94.5% 的参与者更青睐其同步效果。

image.png

尽管 MultiFoley 具有巨大潜力,研究团队也指出了其当前局限性,如训练数据规模较小,限制了音效种类的丰富性。同时,系统在生成多个音效时也面临一定挑战。研究团队计划不久后公开源代码和模型。

虽然 Adobe 尚未宣布将 MultiFoley 整合到其产品线中,但该技术与 Adobe Premiere Pro 视频编辑软件的现有 AI 功能相得益彰,有望为创作者和制作公司简化音效设计流程。

划重点:

🎬 MultiFoley 是 Adobe 与密歇根大学共同开发的 AI 音效生成系统,支持多种输入方式。

🔊 该系统的音频输出质量达到48kHz,同步精度为0.8秒,优于传统音效系统。

📈 用户研究显示,MultiFoley 在音效的语义一致性和同步效果方面均获得了高度评价。