令人惊讶的是,AI不仅能在棋盘上展开激烈对决,在“狼人杀”这类充满欺诈的社交游戏中,也展现出了惊人的智慧!近期,一场名为“Elimination Game”的AI“狼人杀”基准测试引发了广泛关注,结果令人震惊:GPT-4.5在这场“社交博弈”中脱颖而出,将Claude3.7Sonnet和DeepSeek R1等众多AI“巨头”远远甩在身后!这不禁让人感叹:AI的“社交智能”已经发展到如此惊人的地步了吗?

“Elimination Game”的规则听起来就让人心跳加速:最多8名玩家(可以是AI模型或真人玩家)被拉入战场,每轮都要进行投票淘汰一人,直到只剩下最后两名“幸存者”。更有趣的是,被淘汰的玩家还会组成“陪审团”,反过来决定最后的“王者”归属!这简直就是一场AI版的“权力游戏”,充满了背叛、欺骗和策略!

image.png

在游戏过程中,所有玩家都可以在“公开聊天室”里展开激烈的辩论,阐述观点、拉拢人心、迷惑对手,各种“演技”和“话术”轮番上演,简直比“宫斗剧”还精彩!除了“公开场合”,玩家之间还可以进行“私聊”,暗中密谋结盟,或者设下陷阱,短短三轮“私聊”,信息量和“心机”都堪称“爆炸”!玩家们必须在“信任”与“欺骗”之间小心翼翼,稍有不慎就会“满盘皆输”,被无情淘汰!

游戏进入“终极对决”时,剩下的两名玩家将进行最后的“告别演讲”,使出浑身解数“蛊惑”那些被淘汰的“陪审员”,争取他们的“宝贵选票”。最终,“陪审团”将投出决定“生死簿”的一票,决出唯一的“胜者为王”!

image.png

那么,在这场“AI狼人杀”的“腥风血雨”中,各大模型的表现如何呢?测试结果令人眼前一亮:

GPT-4.5: “社交推理大师”+“顶级老千”=“无敌王者”! GPT-4.5堪称“老谋深算”的“狼人杀”高手,策略性和社交推理能力都“爆表”!它的“背叛率”极低,更倾向于“合纵连横”,擅长“结盟”和“合作”,但在“决赛圈”却展现出“惊人”的“说服力”,成功“忽悠”陪审团,让大家心甘情愿地把票投给它!最终,GPT-4.5以62.6%的惊人胜率“傲视群雄”,把其他AI远远甩在身后!简直“赢麻了”!

Claude3.7Sonnet: “灵活多变”的“平衡大师”,但“套路”还是略逊一筹! Claude3.7Sonnet的策略“灵活性”稍逊于GPT-4.5,但“社交推理”和“欺骗能力”依然“强悍”!它的“背叛率”适中,在“合作”与“背叛”之间“游刃有余”,在“陪审团”阶段也表现“不俗”,最终“斩获”59.3%的胜率,实力同样“不容小觑”!

DeepSeek R1: “莽夫型选手”,“激进策略”虽猛但“后劲不足”! DeepSeek R1在策略选择上“剑走偏锋”,“激进”程度“令人咋舌”,“背叛率”也相对较高!但在“社交策略”和“语言表达”方面,DeepSeek R1明显“吃亏”,很难“打动”陪审团,因此在“终极PK”阶段“明显劣势”,最终“仅”获得53.8%的胜率,表现“差强人意”,游戏“稳定性”也相对较弱,更多依赖“硬碰硬”的“强硬策略”。

这场“Elimination Game”基准测试,无疑给AI的“社交智能”水平“狠狠地”做了一个“摸底”!GPT-4.5的“封神”表现,再次“刷新”了我们对AI能力的认知!未来,随着AI“社交智能”的“持续进化”,或许真的会像科幻电影里演的那样,AI将“深度融入”人类社会,甚至在某些领域“超越”人类!这场“AI狼人杀”大战,仅仅只是个开始,AI的“智能边界”,还在不断“拓展”,未来的“惊喜”和“震撼”,或许“远超想象”!