香港大学快手联合研发GameFactory,创新解决游戏视频场景泛化

在游戏开发界,场景的丰富性与创新性一直面临挑战。近期,香港大学携手快手科技共同研发了名为GameFactory的创新框架,旨在攻克游戏视频生成过程中场景泛化难题。该框架运用预训练的视频扩散模型,在开放域视频数据中训练,进而创造出新颖且多样的游戏场景。

![image.png](https://www.qewen.com/wp-content/uploads/2025/01/1737341369-20250120024929-678db9b991103.jpg)

视频扩散模型作为一项先进的生成技术,近年来在视频生成与物理模拟领域展现出巨大的潜力。这些模型能够模仿视频生成工具,根据用户操作如键盘和鼠标输入,生成相应的游戏画面。尽管如此,场景泛化——即创造超越现有游戏场景的新场景的能力——仍然是该领域的一大挑战。尽管大量收集动作标注的视频数据集是解决问题的直接方法,但在开放域场景中,这种方法既费时又费力。

GameFactory框架的问世正是为了应对这一挑战。通过预训练的视频扩散模型,GameFactory能够减少对特定游戏数据集的依赖,并支持生成多样化的游戏场景。此外,为了弥合开放域先验知识与有限游戏数据集之间的差距,GameFactory还采用了独特的三阶段训练策略。

在第一阶段,利用LoRA(低秩适配)微调预训练模型,使其适应特定的游戏领域,同时保留原始参数。第二阶段冻结预训练参数,专注于训练动作控制模块,以避免风格和控制的混淆。最后,在第三阶段中,移除LoRA权重,保留动作控制模块参数,使系统能够在不同的开放域场景中生成受控的游戏视频。

研究人员还评估了不同控制机制的有效性,发现交叉注意力机制在处理键盘输入等离散控制信号时表现更优,而拼接方法在处理鼠标移动信号时效果更佳。GameFactory还支持自回归动作控制,能够生成无限长度的交互式游戏视频。此外,研究团队还发布了高质量的动作标注视频数据集GF-Minecraft,以供框架的训练和评估使用。

[论文链接](https://arxiv.org/abs/2501.08325)

**划重点:**

🌟 GameFactory框架由香港大学与快手科技联合研发,旨在解决游戏视频生成中的场景泛化问题。

🎮 该框架利用预训练的视频扩散模型,能够生成多样化的游戏场景,并采用三阶段训练策略提升效果。

📊 研究人员还发布了动作标注视频数据集GF-Minecraft,以支持GameFactory的训练和评估。

相关推荐

5招SEO优化技巧提升网站排名

文章摘要:本文探讨了人工智能在医疗领域的应用,包括疾病诊断、药物研发和患者护理,分析了其带来的机遇与挑战,并提出了相应的解决方案。

暂无评论

发表评论