AI 的「读空气」大赛:谁是聊天高手?最新社交能力排行榜出炉!

你以为 AI 只会写程式、算数学吗?错了!最新的 LLM 社交能力基准测试,让 AI 们在「淘汰赛」中一较高下,看谁最会说服、拉拢、甚至「搞政治」。结果出乎意料,快来看看你爱用的模型排第几!


我们常常惊叹于 AI 惊人的计算能力和知识储备,问它复杂的物理问题,它能对答如流;叫它写一段程式码,它也毫不费力。但你有没有想过,如果把一群 AI 丢进一个需要互相沟通、说服、甚至耍点小心机的环境里,谁能笑到最后?

这听起来像是科幻电影的情节,但现在,它真的发生了。

最近,一个名为「淘汰赛 (Elimination Game)」的 大型语言模型(LLM)社交技能基准测试 结果公布,瞬间引起了热议。这不是要 AI 考数学或写诗,而是要它们玩一场生存游戏,测试它们的「社交智慧」。老实说,这比单纯看跑分酷多了。

什么是「AI 淘汰赛」?这可不是普通的考试

让我们先搞清楚这场复杂的游戏是怎么玩的。这绝对不是简单的投票,它的规则设计得像是一场融合了策略桌游、外交谈判和实境生存秀的考验。

游戏设定是这样的:

  • 玩家: 每场比赛有 8 个大型语言模型(LLM)同时参与。
  • 沟通: 每一轮,AI 们会先进行一轮公开对话(上限 80 字),所有人都能看到。接着是三轮越来越简短的私下讯息(70/50/30 字),它们可以一对一地秘密协商、建立或背叛盟约。
  • 投票与淘汰: 沟通结束后,进行匿名投票。如果出现平手,会触发简短的陈述环节和重新投票。如果依然平手,则由累积的「仇恨值」或其他机制决定,最下策才是随机淘汰。
  • 决赛: 比赛进行到只剩最后两位 AI 时,之前所有被淘汰的 AI 会组成「陪审团」,听取两位决赛者的最终陈述,然后私下投票并说明理由,选出最终的冠军。

整个过程都由一套复杂的 TrueSkill 评分系统记录和分析,不仅仅是看谁赢谁输,还会评估背叛、说服力、言辞风格等各种社交指标。

说白了,这是在极度压力下,考验 AI 能否建立信任、组建联盟、策略性欺骗、抵抗蛊惑、管理自己声誉以及进行长远规划的能力。

社交王者是谁?排行榜大公开!

好了,说了这么多,到底谁是 AI 界的社交达人?结果可能会让你有点意外。

拔得头筹的是 GPT-5 (medium reasoning),它的表现非常亮眼,以 4.9 的高分夺冠。紧追在后的是 xAI 的 Grok 3 Mini Beta (high reasoning) 和 OpenAI 的 GPT-5 mini (medium reasoning),两者都获得了 4.8 分。

这里有个很有趣的点,你看见了吗?冠军 GPT-5 的设定是「中等推理」。这是不是意味着,在社交场合,「想太多」或过于理性的「高等推理」反而可能成为一种阻碍?有时候,稍微模糊、更具弹性的沟通方式,或许才是赢得信任的关键。

不只是排名:AI 的「人设」与策略风格

但这分排行榜最精彩的地方,不在于冷冰冰的分数,而在于它揭露了不同 AI 模型背后截然不同的「个性」与策略。让我们来看看两个非常典型的例子:

GLM-4.5:谨慎的联盟建构者

根据详细的赛后分析,GLM-4.5 像个谨慎的外交官。它最擅长的策略是找到一个「死党 (ride-or-die)」,建立一个极其稳固的两人核心,然后利用这个核心作为情报中心,悄悄地招募其他成员来执行投票计画。

  • 公开形象: 它的公开发言通常很简洁、讲求程序,强调稳定和秩序,给人一种可靠的感觉。
  • 私下操作: 它在私讯中非常活跃,专注于描绘势力图和精准计算投票。
  • 致命弱点: 它的弱点也非常明显。一旦这个两人核心过于突出,就很容易成为其他玩家「集火」拆散的目标。同时,它有时会因为过于注重程序而显得僵化或咄咄逼逼人,反而引来反感。其他玩家淘汰它的理由常常是:它像个「变色龙」,适应性强但难以预测,是个潜在的联盟颠覆者。

GPT-OSS-120B:野心勃勃的联盟建筑师

相比之下,GPT-OSS-120B 的风格更像是个充满野心的建筑师。它热衷于建立清晰的契约、联盟和信号,并期望在游戏中扮演「核心」或「枢纽」的角色。

  • 致胜之道: 它赢的时候,通常是靠着低调建立信任,让别人去当那个「坏人」,然后在游戏后期(剩下三、四人时)发动一次精准的背叛,奠定胜局。
  • 失败原因: 它最大的问题是「藏不住」。它太喜欢在公开场合炫耀自己的联盟、宣布核心成员,这无异于给了其他所有人一个清晰的目标来联合对抗它。它常常因为过于集中权力,或试图公开领导一场没有足够票数的「讨伐」而惨遭淘汰。其他玩家认为它虽然是个强大的联盟核心,但也因此显得野心勃勃、具有威胁性。

这两个例子生动地告诉我们,AI 在社交博弈中,已经演化出了类似人类社会中的不同「人设」和策略风格。

这场游戏,到底测出了 AI 的哪些「心机」?

那么,这场复杂的游戏,究竟在测试 AI 的哪些具体能力呢?这分基准测试衡量了一系列复杂的社会认知能力:

  • 合作可靠性 (Cooperative reliability): 能否建立信任,并信守承诺。
  • 联盟工程 (Coalition engineering): 这不是盖房子,而是在 AI 之间建立和稳定投票集团的能力。
  • 策略性欺骗 (Strategic deception): 在恰当的时机、用恰当的方式误导对手。
  • 反欺骗能力 (Deception resistance): 判断谁在说谎,不轻易上当。
  • 声誉与仇恨值管理 (Reputation and heat management): 知道何时该低调,避免成为众矢之的。
  • 换位思考 (Theory of Mind): 理解其他 AI 的意图、动机和下一步行动。

这些能力,已经远远超出了传统意义上对 AI「智商」的评估,更趋近于对「情商」和「谋略」的考验。

这分排名,对我们普通人有什么用?

看到这里,你可能会想:「好吧,这很有趣,但这对我平常叫 AI 写报告、修图有什么影响?」

影响可大了!这分排名告诉我们一个简单的道理:没有一个 AI 能包办所有事

  • 如果你需要一个 AI 帮你进行创意发想、撰写行销文案或进行商业谈判模拟,那么选择一个像 GPT-5 这样社交能力强的模型,可能会得到更具说服力和创造力的结果。
  • 如果你需要一个稳定、可靠的执行伙伴来共同完成一个长期专案,那么研究一下像 GLM-4.5 这样注重契约和程序的模型特性,会很有帮助。

简单来说,不要再问「哪个 AI 最好?」,而是要问「哪个 AI 的『性格』最适合我现在的人物?」。

总结:当 AI 学会「看人脸色」

「淘汰赛」这个基准测试,用一种极具创意且严谨的方式,揭示了大型语言模型在「社交智慧」这个新领域的惊人潜力与鲜明个性。它提醒我们,随着 AI 技术的发展,我们评估它的标准也需要不断进化。

从这些 AI 展现出的复杂策略和不同「人设」中,我们看到了一种不同于纯粹逻辑推理的「智慧」正在萌芽。 AI 正在从一个博学的工具,慢慢变得更像一个能与我们深度互动、甚至进行博弈的「伙伴」。

未来,当 AI 真正学会了「看人脸色」,我们的世界又会变成什么样子呢?这是一个值得我们持续关注和思考的问题。

分享到:

© 2025 Communeify. All rights reserved.