《我的世界》AI能力评测：Claude3.5Sonnet新版本展现亮眼实力，获开源社区支持

最近，《我的世界》平台举办了一场引人注目的AI能力评测，吸引了众多目光。Claude3.5Sonnet的两个版本在游戏中进行了建筑PK，展现出了显著的能力差异，尤其是新版本（暂称"Sonnet3.6"）的表现十分出色。

此次评测由开发者adi发起，被戏称为"唯一可靠的评测基准"。评测基准研究者Aidan McLau认为这种方法恰好满足了当前AI评测的需求，并指出审美能力与智力水平紧密相关。该项目迅速获得了开源社区的支持，相关代码已在GitHub上线。

评测结果显示，各大模型都展现出了独特的"个性":

Sonnet3.6在创意性方面略胜一筹，获得了2000多名网友的投票支持

OpenAI的o1-preview虽然构建速度较慢，但在还原真实建筑（如泰姬陵）时表现优异

o1-mini则无法完成相关任务

Llama3405B建造了象征自我的"火坑上的钻石墙"

阿里的Qwen2.5-14B也展现出了不俗的实力

值得注意的是，AI在游戏中的建造过程并不依赖于视觉理解或直接控制输入设备，而是通过文本形式提供上下文并生成操作指令，类似于下盲棋。技术实现主要依赖于:

mineflayer开源库：将AI生成的指令转换为可执行的API调用

mindcraft开源库：提供通用提示词和示例，支持各类模型接入游戏

项目组计划进一步完善这一评测机制，打造类似Lmsys竞技场的评分系统，采用Elo算法根据人类用户投票进行排名。据悉，完整测试环境仅需15分钟即可搭建完成。

这种创新的评测方式不仅展示了AI的创造力，也为大模型能力的客观评估提供了全新视角。正如o1-preview在自由发挥时选择搭建机器人并拼出"GPT"字样，AI似乎已经开始在这个虚拟世界中展现出自己的"个性"。随着更多模型加入评测，这个经典游戏正在成为见证AI发展的独特平台。

视频教程:

https://x.com/mckaywrigley/status/1849613686098506064

开源代码:

https://github.com/kolbytn/mindcraft

https://github.com/mc-bench/orchestrator