香港大学快手联合研发GameFactory，创新解决游戏视频场景泛化

在游戏开发界，场景的丰富性与创新性一直面临挑战。近期，香港大学携手快手科技共同研发了名为GameFactory的创新框架，旨在攻克游戏视频生成过程中场景泛化难题。该框架运用预训练的视频扩散模型，在开放域视频数据中训练，进而创造出新颖且多样的游戏场景。

![image.png](https://www.qewen.com/wp-content/uploads/2025/01/1737341369-20250120024929-678db9b991103.jpg)

视频扩散模型作为一项先进的生成技术，近年来在视频生成与物理模拟领域展现出巨大的潜力。这些模型能够模仿视频生成工具，根据用户操作如键盘和鼠标输入，生成相应的游戏画面。尽管如此，场景泛化——即创造超越现有游戏场景的新场景的能力——仍然是该领域的一大挑战。尽管大量收集动作标注的视频数据集是解决问题的直接方法，但在开放域场景中，这种方法既费时又费力。

GameFactory框架的问世正是为了应对这一挑战。通过预训练的视频扩散模型，GameFactory能够减少对特定游戏数据集的依赖，并支持生成多样化的游戏场景。此外，为了弥合开放域先验知识与有限游戏数据集之间的差距，GameFactory还采用了独特的三阶段训练策略。

在第一阶段，利用LoRA（低秩适配）微调预训练模型，使其适应特定的游戏领域，同时保留原始参数。第二阶段冻结预训练参数，专注于训练动作控制模块，以避免风格和控制的混淆。最后，在第三阶段中，移除LoRA权重，保留动作控制模块参数，使系统能够在不同的开放域场景中生成受控的游戏视频。

研究人员还评估了不同控制机制的有效性，发现交叉注意力机制在处理键盘输入等离散控制信号时表现更优，而拼接方法在处理鼠标移动信号时效果更佳。GameFactory还支持自回归动作控制，能够生成无限长度的交互式游戏视频。此外，研究团队还发布了高质量的动作标注视频数据集GF-Minecraft，以供框架的训练和评估使用。

[论文链接](https://arxiv.org/abs/2501.08325)

**划重点：**

🌟 GameFactory框架由香港大学与快手科技联合研发，旨在解决游戏视频生成中的场景泛化问题。

🎮 该框架利用预训练的视频扩散模型，能够生成多样化的游戏场景，并采用三阶段训练策略提升效果。

📊 研究人员还发布了动作标注视频数据集GF-Minecraft，以支持GameFactory的训练和评估。

香港大学快手联合研发GameFactory，创新解决游戏视频场景泛化

OpenAIGPT-4bmicro助力长寿研究，细胞重编程效率提升50倍

AI历史知识测试：LLM在复杂历史问题上的不足

暂无评论

发表评论取消回复

OpenAIGPT-4bmicro助力长寿研究，细胞重编程效率提升50倍

AI历史知识测试：LLM在复杂历史问题上的不足

相关推荐

暂无评论

发表评论 取消回复

搜索

香港大学快手联合研发GameFactory，创新解决游戏视频场景泛化

发表评论取消回复