字节跳动公司最近发布了一款名为INFP的人工智能系统,该系统能够使静态人物肖像照片通过音频输入实现“说话”和反应。与以往技术不同,INFP系统无需手动指定说话和倾听的角色,能够自动根据对话流程判断角色。
INFP的工作流程分为两个主要步骤。首先,通过“基于运动的头部模仿”步骤,系统分析人们在对话中的面部表情和头部运动,从视频中提取细节,并将这些运动数据转化为可用于后续动画的格式,使静态照片与原始人物的运动相匹配。其次,在“音频引导运动生成”步骤中,系统根据音频输入生成自然的运动模式,通过“运动引导器”分析对话双方的音频,创建说话和倾听的运动模式,再由名为扩散变换器的AI组件逐步优化这些模式,生成流畅且真实的运动,与音频内容完美契合。
为了有效训练系统,研究团队还建立了一个名为DyConv的对话数据集,汇集了200多个小时的真实对话视频。与现有对话数据库(如ViCo和RealTalk)相比,DyConv在情感表达和视频质量方面具有独特优势。
字节跳动表示,INFP在多个关键领域的表现优于现有工具,特别是在与语音匹配的唇部运动、保留个体面部特征以及创造多样化自然动作方面。此外,该系统在生成仅听对话者的视频时同样表现出色。
尽管目前INFP仅支持音频输入,研究团队正在探索将系统扩展到图像和文本的可能性,未来目标是能够创建出人物全身的真实动画。然而,考虑到这类技术可能被用于制造虚假视频和传播错误信息,研究团队计划将核心技术限制在研究机构使用,类似于微软对其先进语音克隆系统的管理。
这项技术是字节跳动更广泛AI战略的一部分,依托其旗下的热门应用TikTok和CapCut,字节跳动拥有广阔的AI创新应用平台。
项目入口: https://grisoon.github.io/INFP/
🎤 INFP可以让静态人像通过音频实现“说话”,自动判断对话角色。
🎥 该系统通过两个步骤工作:首先提取人类对话中的运动细节,其次将音频转换为自然的运动模式。
📊 字节跳动的DyConv数据集包含超过200小时的高质量对话视频,帮助提升系统性能。
暂无评论