在游戏开发界,场景的丰富性与创新性一直面临挑战。近期,香港大学携手快手科技共同研发了名为GameFactory的创新框架,旨在攻克游戏视频生成过程中场景泛化难题。该框架运用预训练的视频扩散模型,在开放域视频数据中训练,进而创造出新颖且多样的游戏场景。

视频扩散模型作为一项先进的生成技术,近年来在视频生成与物理模拟领域展现出巨大的潜力。这些模型能够模仿视频生成工具,根据用户操作如键盘和鼠标输入,生成相应的游戏画面。尽管如此,场景泛化——即创造超越现有游戏场景的新场景的能力——仍然是该领域的一大挑战。尽管大量收集动作标注的视频数据集是解决问题的直接方法,但在开放域场景中,这种方法既费时又费力。
GameFactory框架的问世正是为了应对这一挑战。通过预训练的视频扩散模型,GameFactory能够减少对特定游戏数据集的依赖,并支持生成多样化的游戏场景。此外,为了弥合开放域先验知识与有限游戏数据集之间的差距,GameFactory还采用了独特的三阶段训练策略。
在第一阶段,利用LoRA(低秩适配)微调预训练模型,使其适应特定的游戏领域,同时保留原始参数。第二阶段冻结预训练参数,专注于训练动作控制模块,以避免风格和控制的混淆。最后,在第三阶段中,移除LoRA权重,保留动作控制模块参数,使系统能够在不同的开放域场景中生成受控的游戏视频。
研究人员还评估了不同控制机制的有效性,发现交叉注意力机制在处理键盘输入等离散控制信号时表现更优,而拼接方法在处理鼠标移动信号时效果更佳。GameFactory还支持自回归动作控制,能够生成无限长度的交互式游戏视频。此外,研究团队还发布了高质量的动作标注视频数据集GF-Minecraft,以供框架的训练和评估使用。
[论文链接](https://arxiv.org/abs/2501.08325)
**划重点:**
🌟 GameFactory框架由香港大学与快手科技联合研发,旨在解决游戏视频生成中的场景泛化问题。
🎮 该框架利用预训练的视频扩散模型,能够生成多样化的游戏场景,并采用三阶段训练策略提升效果。
📊 研究人员还发布了动作标注视频数据集GF-Minecraft,以支持GameFactory的训练和评估。
暂无评论