《Factorio》:AI能力新基准,游戏资源管理成测试场
《Factorio》作为一款以建造与资源管理为核心的游戏,正逐渐成为研究人员检验人工智能能力的全新工具。该游戏通过模拟复杂的系统构建和资源管理,对语言模型进行全面的规划和执行测试。
为适应这一需求,研究团队开发了一套名为“Factorio学习环境”(FLE)的系统,该系统包含“实验模式”和“开放模式”两种测试方式。在“实验模式”中,AI需应对24个结构化的挑战,从简单搭建两台机器的工厂到构建复杂的近百台机器工厂,目标明确,资源有限。而“开放模式”则允许AI探索由程序生成的地图,唯一目标是建立尽可能大的工厂。
AI与《Factorio》的交互通过Python API实现,该API允许AI执行各种操作并检查游戏状态。这个系统旨在评估语言模型合成程序和处理复杂系统的能力,API支持AI进行组件放置、连接、资源管理、生产进度监控等操作。
研究者利用“生产评分”和“里程碑”两个关键指标评估AI的表现。“生产评分”根据产出价值计算,随生产链复杂性提升而增长;“里程碑”则追踪重要成就,如创造新物品或研究新技术。游戏的经济模拟还考虑了资源稀缺性、市场价格和生产效率等因素。
在FLE环境中,研究团队测试了包括Claude3.5Sonnet、GPT-4o及其迷你版、DeepSeek-V3、Gemini2.0Flash和Llama-3.3-70B-Instruct在内的六种领先语言模型。这些测试未包含大型推理模型(LRMs),但之前的基准测试显示,像o1这样的模型在规划能力上表现出色。
测试结果显示,在空间推理、长期规划和错误纠正方面,参与评估的语言模型面临重大挑战。在构建工厂时,AI代理在高效安排和连接机器方面遇到困难,导致布局不优和生产瓶颈。此外,AI模型普遍倾向于优先考虑短期目标,而非长期规划。虽然它们能够处理基本的故障排查,但在更复杂的问题面前,往往陷入低效的调试循环。
在所有测试模型中,Claude3.5Sonnet表现最为出色,但仍未完全掌握所有挑战。在实验模式中,Claude成功完成了24个任务中的15个,其他模型最多完成了10个。在开放测试中,Claude的生产评分达到2456分,GPT-4o以1789分紧随其后。Claude通过其战略性的制造和研究方法,快速从基础产品转向复杂生产过程,特别是在提升电钻技术方面,显著提高了铁板的生产速度。
研究者认为,FLE的开放性和可扩展性使其在未来测试更强大的语言模型时具有巨大价值。他们建议扩展该环境以包含多代理场景和人类表现基准,为AI评估提供更好的背景。这项工作丰富了基于游戏的AI基准测试集合,其中包括BALROG和即将推出的MCBench,这些测试都将利用《Minecraft》进行模型测试。
Factorio学习环境: https://top.aibase.com/tool/factorio-learning-environment
🌟 《Factorio》游戏成为评估AI能力的全新工具,测试语言模型的复杂系统管理能力。
🛠️ Factorio学习环境(FLE)提供实验和开放模式,允许AI在不同条件下进行挑战。
📊 测试显示Claude3.5Sonnet表现最佳,但仍存在长期规划和复杂问题处理的困难。
暂无评论