腾讯开源HunyuanVideo-I2V图像转视频框架

腾讯近日开源了其最新研发的图像转视频生成框架——HunyuanVideo-I2V。继成功开源HunyuanVideo之后，这一举措标志着腾讯在推动开源社区深入探索方面的又一重要进展。

HunyuanVideo-I2V融合了前沿的视频生成技术，能够将静态图像转化为生动的视频内容，为创作者带来了更多创作空间。用户只需上传一张图片，并简单描述期望的动态效果，即可生成一段五秒的短视频。该模型不仅能让静态图片“动起来”，还能自动添加背景音效，极大地提升了视频的趣味性和吸引力。

HunyuanVideo-I2V采用预训练的多模态大语言模型作为文本编码器，显著提升了模型对输入图像语义内容的理解能力。这意味着，用户上传的图像能够通过模型生成语义图像标记，并与视频潜在标记相结合，实现更全面的全注意力计算。通过这种方式，系统能够最大限度地发挥图像和文本模态之间的协同作用，确保从静态图像生成的视频内容更具连贯性和真实感。

为让更多用户体验这一功能，混元AI视频官网已上线，用户可直接访问网站进行操作。此外，企业和开发者也可通过腾讯云申请API接口，将这项技术融入自己的应用中。这款图生视频模型是混元文生视频模型开源工作的延续，模型总参数量达130亿，适用于生成多种类型的角色和场景，包括写实视频、动漫角色和CGI角色等。

在使用过程中，用户还可上传人物图片，并输入希望其“对口型”的文字或音频，系统便能令图片中的人物“说话”或“唱歌”。同时，混元还推出了“动作驱动”功能，用户可一键生成舞蹈视频，提升创作的多样性和趣味性。

值得一提的是，此次开源的图生视频模型已在Github和HuggingFace等主流开发者社区发布，开发者可下载相关内容进行试验与开发。开源内容包括模型的权重、推理代码以及LoRA训练代码，这些都为开发者提供了更多可能性，以便在此基础上训练专属的LoRA模型。

自开源以来，混元视频生成模型的热度持续攀升，去年12月更是登顶HuggingFace的全站趋势榜第一，Github上的Star数已超过8.9K。许多开发者也积极为Hunyuanvideo制作插件与衍生模型，目前已积累超过900个衍生版本。早前开源的混元DiT文生图模型同样表现不俗，衍生模型数量达1600多个。

官网：https://video.hunyuan.tencent.com/
github：https://github.com/Tencent/HunyuanVideo-I2V
huggingface：https://huggingface.co/tencent/HunyuanVideo-I2V

腾讯开源HunyuanVideo-I2V图像转视频框架

NvidiaGTC2025：人工智能与加速计算技术最新突破

全球首款通用AI智能体Manus入驻微博，效率神器引热议

暂无评论

发表评论取消回复

NvidiaGTC2025：人工智能与加速计算技术最新突破

全球首款通用AI智能体Manus入驻微博，效率神器引热议

相关推荐

暂无评论

发表评论 取消回复

搜索

腾讯开源HunyuanVideo-I2V图像转视频框架

发表评论取消回复