近年来,人工智能与计算机视觉技术的飞速进步,使得人与计算机的交互变得更加生动和富有表现力。特别是在动画制作领域,如何从静态图像生成动态视频成为了研究的热点。

近期,一种名为“DisPose”的新技术问世,通过解耦姿态指导,实现了更加可控的人物图像动画效果。简言之,DisPose能够将动作视频中的动作应用到参考人物身上。

DisPose技术的核心在于对传统稀疏姿态信息进行重构与利用。传统方法通常依赖稀疏的骨骼姿态指导,这在动态视频生成时往往无法提供足够的控制信号,导致动画效果不够精细。为解决这一问题,DisPose提出了一种创新方法,通过将稀疏姿态信息转化为运动场指导和关键点对应关系,实现了更精细的运动生成。

具体而言,DisPose首先计算稀疏运动场,并基于参考图像引入密集运动场生成方式。这种方式不仅提供了区域级别的运动信号,还保持了稀疏姿态控制的普遍性。同时,DisPose从参考图像中提取与姿态关键点对应的扩散特征,通过计算多尺度点对应关系,将这些特征传递到目标姿态,以增强外观的一致性。

为了使这一创新技术能够顺利融入现有模型,研究人员还提出了一种插件式的混合ControlNet架构。该架构在不改变现有模型参数的基础上,提高了生成视频的质量和一致性。通过广泛的定性和定量实验,DisPose展现出相较于现有技术的显著优势,预示着动画制作技术的未来发展方向。

DisPose通过优化姿态信息的利用方式,提升了人像动画的表现力和控制性。这一进展不仅在学术研究上具有重要意义,也为动画产业带来了新的可能性。

项目入口:https://lihxxx.github.io/DisPose/

划重点:

📍 DisPose是一种创新的动画技术,通过解耦姿态指导实现更精确的动态生成。

🎨 该技术将稀疏姿态信息转化为运动场指导和关键点对应,提供细致的运动信号。

🔧 研究者提出的混合ControlNet架构有效提高了生成视频的质量和一致性。