近期,字节跳动推出了一款名为 LatentSync 的新型口型同步框架,旨在通过音频条件潜在扩散模型实现更精准的口型同步。该框架基于 Stable Diffusion,对时间一致性进行了优化。
与以往依赖像素空间扩散或两阶段生成的方法不同,LatentSync 采用端到端技术,无需中间运动表示,直接构建音频与视觉之间的复杂关系。
在 LatentSync 框架中,首先利用 Whisper 将音频频谱图转化为音频嵌入,并通过交叉注意力层融入 U-Net 模型。框架通过将参考帧和掩码帧与噪声潜在变量进行通道级拼接,作为 U-Net 的输入。
训练过程中,模型通过一步法从预测噪声中估计出干净的潜在变量,随后进行解码生成干净帧。同时,引入 Temporal REPresentation Alignment(TREPA)机制,增强时间一致性,确保视频口型同步的准确性,并在时间上保持连贯。
为展示技术效果,项目提供了一系列示例视频,对比了原始视频与口型同步处理后的视频。示例直观展示了 LatentSync 在视频口型同步方面的显著提升。
原始视频:
输出视频:
此外,项目计划开源推理代码和检查点,方便用户进行训练和测试。用户只需下载模型权重文件,即可尝试推理。数据处理流程也已完善,覆盖从视频文件处理到面部对齐的各个环节,确保用户轻松上手。
模型项目入口:https://github.com/bytedance/LatentSync
划重点:
🌟 LatentSync 是一款基于音频条件潜在扩散模型的端到端口型同步框架,无需中间运动表示。
🎤 该框架利用 Whisper 将音频频谱图转换为嵌入,提高了口型同步的准确性和时间一致性。
📹 项目提供示例视频,并计划开源相关代码和数据处理流程,便于用户使用和训练。
暂无评论