AI 的「读空气」大赛：谁是聊天高手？最新社交能力排行榜出炉！

你以为 AI 只会写程式、算数学吗？错了！最新的 LLM 社交能力基准测试，让 AI 们在「淘汰赛」中一较高下，看谁最会说服、拉拢、甚至「搞政治」。结果出乎意料，快来看看你爱用的模型排第几！

我们常常惊叹于 AI 惊人的计算能力和知识储备，问它复杂的物理问题，它能对答如流；叫它写一段程式码，它也毫不费力。但你有没有想过，如果把一群 AI 丢进一个需要互相沟通、说服、甚至耍点小心机的环境里，谁能笑到最后？

这听起来像是科幻电影的情节，但现在，它真的发生了。

最近，一个名为「淘汰赛 (Elimination Game)」的大型语言模型（LLM）社交技能基准测试结果公布，瞬间引起了热议。这不是要 AI 考数学或写诗，而是要它们玩一场生存游戏，测试它们的「社交智慧」。老实说，这比单纯看跑分酷多了。

什么是「AI 淘汰赛」？这可不是普通的考试

让我们先搞清楚这场复杂的游戏是怎么玩的。这绝对不是简单的投票，它的规则设计得像是一场融合了策略桌游、外交谈判和实境生存秀的考验。

游戏设定是这样的：

玩家： 每场比赛有 8 个大型语言模型（LLM）同时参与。
沟通： 每一轮，AI 们会先进行一轮公开对话（上限 80 字），所有人都能看到。接着是三轮越来越简短的私下讯息（70/50/30 字），它们可以一对一地秘密协商、建立或背叛盟约。
投票与淘汰： 沟通结束后，进行匿名投票。如果出现平手，会触发简短的陈述环节和重新投票。如果依然平手，则由累积的「仇恨值」或其他机制决定，最下策才是随机淘汰。
决赛： 比赛进行到只剩最后两位 AI 时，之前所有被淘汰的 AI 会组成「陪审团」，听取两位决赛者的最终陈述，然后私下投票并说明理由，选出最终的冠军。

整个过程都由一套复杂的 TrueSkill 评分系统记录和分析，不仅仅是看谁赢谁输，还会评估背叛、说服力、言辞风格等各种社交指标。

说白了，这是在极度压力下，考验 AI 能否建立信任、组建联盟、策略性欺骗、抵抗蛊惑、管理自己声誉以及进行长远规划的能力。

社交王者是谁？排行榜大公开！

好了，说了这么多，到底谁是 AI 界的社交达人？结果可能会让你有点意外。

拔得头筹的是 GPT-5 (medium reasoning)，它的表现非常亮眼，以 4.9 的高分夺冠。紧追在后的是 xAI 的 Grok 3 Mini Beta (high reasoning) 和 OpenAI 的 GPT-5 mini (medium reasoning)，两者都获得了 4.8 分。

这里有个很有趣的点，你看见了吗？冠军 GPT-5 的设定是「中等推理」。这是不是意味着，在社交场合，「想太多」或过于理性的「高等推理」反而可能成为一种阻碍？有时候，稍微模糊、更具弹性的沟通方式，或许才是赢得信任的关键。

不只是排名：AI 的「人设」与策略风格

但这分排行榜最精彩的地方，不在于冷冰冰的分数，而在于它揭露了不同 AI 模型背后截然不同的「个性」与策略。让我们来看看两个非常典型的例子：

GLM-4.5：谨慎的联盟建构者

根据详细的赛后分析，GLM-4.5 像个谨慎的外交官。它最擅长的策略是找到一个「死党 (ride-or-die)」，建立一个极其稳固的两人核心，然后利用这个核心作为情报中心，悄悄地招募其他成员来执行投票计画。

公开形象： 它的公开发言通常很简洁、讲求程序，强调稳定和秩序，给人一种可靠的感觉。
私下操作： 它在私讯中非常活跃，专注于描绘势力图和精准计算投票。
致命弱点： 它的弱点也非常明显。一旦这个两人核心过于突出，就很容易成为其他玩家「集火」拆散的目标。同时，它有时会因为过于注重程序而显得僵化或咄咄逼逼人，反而引来反感。其他玩家淘汰它的理由常常是：它像个「变色龙」，适应性强但难以预测，是个潜在的联盟颠覆者。

GPT-OSS-120B：野心勃勃的联盟建筑师

相比之下，GPT-OSS-120B 的风格更像是个充满野心的建筑师。它热衷于建立清晰的契约、联盟和信号，并期望在游戏中扮演「核心」或「枢纽」的角色。

致胜之道： 它赢的时候，通常是靠着低调建立信任，让别人去当那个「坏人」，然后在游戏后期（剩下三、四人时）发动一次精准的背叛，奠定胜局。
失败原因： 它最大的问题是「藏不住」。它太喜欢在公开场合炫耀自己的联盟、宣布核心成员，这无异于给了其他所有人一个清晰的目标来联合对抗它。它常常因为过于集中权力，或试图公开领导一场没有足够票数的「讨伐」而惨遭淘汰。其他玩家认为它虽然是个强大的联盟核心，但也因此显得野心勃勃、具有威胁性。

这两个例子生动地告诉我们，AI 在社交博弈中，已经演化出了类似人类社会中的不同「人设」和策略风格。

这场游戏，到底测出了 AI 的哪些「心机」？

那么，这场复杂的游戏，究竟在测试 AI 的哪些具体能力呢？这分基准测试衡量了一系列复杂的社会认知能力：

合作可靠性 (Cooperative reliability): 能否建立信任，并信守承诺。
联盟工程 (Coalition engineering): 这不是盖房子，而是在 AI 之间建立和稳定投票集团的能力。
策略性欺骗 (Strategic deception): 在恰当的时机、用恰当的方式误导对手。
反欺骗能力 (Deception resistance): 判断谁在说谎，不轻易上当。
声誉与仇恨值管理 (Reputation and heat management): 知道何时该低调，避免成为众矢之的。
换位思考 (Theory of Mind): 理解其他 AI 的意图、动机和下一步行动。

这些能力，已经远远超出了传统意义上对 AI「智商」的评估，更趋近于对「情商」和「谋略」的考验。

这分排名，对我们普通人有什么用？

看到这里，你可能会想：「好吧，这很有趣，但这对我平常叫 AI 写报告、修图有什么影响？」

影响可大了！这分排名告诉我们一个简单的道理：没有一个 AI 能包办所有事。

如果你需要一个 AI 帮你进行创意发想、撰写行销文案或进行商业谈判模拟，那么选择一个像 GPT-5 这样社交能力强的模型，可能会得到更具说服力和创造力的结果。
如果你需要一个稳定、可靠的执行伙伴来共同完成一个长期专案，那么研究一下像 GLM-4.5 这样注重契约和程序的模型特性，会很有帮助。

简单来说，不要再问「哪个 AI 最好？」，而是要问「哪个 AI 的『性格』最适合我现在的人物？」。

总结：当 AI 学会「看人脸色」

「淘汰赛」这个基准测试，用一种极具创意且严谨的方式，揭示了大型语言模型在「社交智慧」这个新领域的惊人潜力与鲜明个性。它提醒我们，随着 AI 技术的发展，我们评估它的标准也需要不断进化。

从这些 AI 展现出的复杂策略和不同「人设」中，我们看到了一种不同于纯粹逻辑推理的「智慧」正在萌芽。 AI 正在从一个博学的工具，慢慢变得更像一个能与我们深度互动、甚至进行博弈的「伙伴」。

未来，当 AI 真正学会了「看人脸色」，我们的世界又会变成什么样子呢？这是一个值得我们持续关注和思考的问题。

分享到:

Featured Partners

SPONSORED

DMflow.chat

DMflow.chat: Your intelligent AI partner for exceptional customer engagement.

Learn More

SPONSORED

DMflow.chat

Discover DMflow.chat and unlock the new era of AI-powered customer service.

Learn More

SPONSORED

videoweaver.app

Video Weaver: Professional video editing directly in your browser. No downloads required.

Learn More

SPONSORED

DMflow.chat

DMflow.chat: Your intelligent AI partner for exceptional customer engagement.

Learn More

SPONSORED

DMflow.chat

Discover DMflow.chat and unlock the new era of AI-powered customer service.

Learn More

SPONSORED

videoweaver.app

Video Weaver: Professional video editing directly in your browser. No downloads required.

Learn More

Recommended for You

不 …

tool

不仅是夺金：Google DeepMind 推出 IMO-Bench，为 AI 数学推理能力树立新标杆

Google DeepMind 在其 Gemini 模型于国际数学奥林匹亚（IMO）竞赛达到金牌标准后，正式发布 IMO-Bench。这不只是一个评测工具，更是一套推动 AI 从「解决问题」迈向「深度推理」的全新基准，旨在引领 AI 领域进入更强健、更富创造力的数学推理新时代。 AI 数学竞赛夺金之后，我们该关注什么？ 2025 年 7 月，人工智能领域迎来了一个历史性的时刻：Google DeepMind 的先进 Gemini 模型，搭载了 Deep Think 技术，在国际数学奥林匹亚（IMO）竞赛中达到了金牌标准。这无疑是 AI 发展的重大里程碑。然而，这场胜利的意义远不止于在 IMO 等级的难题上取得优异成绩。真正的目标，是打造一个能够进行深度、稳健数学推理的系统。毕竟，只给出正确答案是不够的，理解并证明「为何如此」才是通往真正智慧的关键。正是基于这样的理念，在 EMNLP 2025 大会上，Google DeepMind 隆重推出了 IMO-Bench——一套先进的推理基准测试。它不仅在 Gemini 的夺金之路上扮演了核心角色，更旨在为整个 AI 社群推开数学推理能力的新大门。所以，IMO-Bench 到底是什么？简单来说，IMO-Bench 是一套专门用来评估 AI 模型数学能力的「考题」。但这可不是普通的考试，它的所有题目都经过了由 10 位 IMO 金牌和 5 位银牌得主组成的专家小组严格审核。 IMO 的题目之所以困难，是因为它们不仅需要严谨的多步骤推理，更需要跳脱公式框架的创造力。这也正是 IMO-Bench 的核心所在。它不只关心 AI 能否算出答案，更关心 AI 能否「思考」。 IMO-Bench 主要由三个部分组成，各有侧重： IMO-AnswerBench：大规模测试，包含 400 道题目，专注于评估模型「给出正确答案」的能力。 IMO-ProofBench：进阶评估，包含 60 道题目，旨在检验模型「撰写严谨证明过程」的能力。 IMO-GradingBench：包含 1000 个案例，用于推动「自动评估长篇答案」的技术进展。这套基准的发布，就是希望引导社群的焦点从单纯的「最终答案」转移到更为关键的「证明过程」本身，从而实现对 AI 推理能力的更严格评估。

Nov 5, 2025 Read →

L …

tool

LLM 智能体期中考：VitaBench 揭示残酷真相，顶尖模型成功率仅 30%？

当我们以为大型语言模型（LLM）驱动的 AI 智能体（Agent）无所不能时，美团 LongCat 团队发布的最新评测基准 VitaBench 却给了整个产业一记当头棒喝。这项堪称「最难模拟考」的测试显示，即使是顶尖的 AI 模型，在处理复杂的真实世界任务时，成功率也低得惊人。这究竟是怎么回事？当 AI 智能体走出实验室，现实给了它一巴掌近年来，大型语言模型（LLM）驱动的 AI 智能体（Agent）无疑是科技圈最炙手可热的话题。我们想象着，未来只要动动嘴，AI 助理就能帮我们处理预订餐厅、规划旅游、安排外送等一切大小事。听起来很美好，对吧？但现实总是有点骨感。目前的 AI 智能体，在单纯、封闭的环境下或许表现不错，就像是在驾训班的练习场开车，一切顺利。然而，一旦将它们放到真实世界的十字路口——充满了突发状况、模糊指令和多重任务的复杂环境——它们还能应付自如吗？答案可能让你有些失望。过去的许多评测基准，都过于简化问题，无法真正反映现实生活的复杂性。这就像用一元一次方程式去评估一位数学家的能力，完全没测出真本事。 VitaBench：为 AI 智能体打造的「终极试炼场」为了解决这个问题，美团的 LongCat 团队推出了 VitaBench——一个专为评测 LLM 智能体在真实世界应用中表现而设计的全新、高难度基准。你可以把 VitaBench 想象成一个极度拟真的「生活模拟器」。它不再是纸上谈兵，而是直接将 AI 丢进我们最熟悉的三大生活场景：美食外送到店消费在线旅游服务这个模拟环境有多复杂？它整合了高达 66 种不同的工具（Tools），从查询店家信息、订位、下单到支付，几乎涵盖了所有可能的操作。不只是单一任务，而是「跨场景」的连续挑战 VitaBench 的核心挑战在于它的任务设计。它不仅有 300 个单一场景的任务，更设计了 100 个极具挑战性的「跨场景任务」。这是什么概念？举个例子，一个真实的用户需求可能是：「帮我预订一家能看到河景的饭店，并在入住当晚，在饭店附近找一家评价不错、不辣的餐厅，预算 200 美元。」这个任务要求 AI 智能体：理解复杂意图：不只要订饭店，还要订餐厅，并且两者有关联。跨时空推理：需要处理入住日期、晚餐时间、饭店与餐厅的地理位置关系。灵活使用工具：必须先用「饭店预订工具」，再根据结果使用「餐厅搜寻工具」。主动澄清：如果用户指令模糊，AI 需要主动追问，例如「您希望的餐厅是哪种菜系？」追踪动态意图：在多轮对话中，用户可能会改变主意，AI 需要能跟上节奏。老实说，这对人类来说都有点复杂，更何况是 AI？残酷的成绩单：顶尖 AI 也纷纷「阵亡」那么，在这场终极试炼中，当今最强大的 AI 模型们表现如何呢？

Oct 21, 2025 Read →

A …

tool

AI 模型最新排名出炉：为何最强大的模型不一定每次都赢？

探索最新的 AI 模型任务完成度评测报告 TaskBench。令人惊讶的是，Gemini 2.5 Flash 等模型在特定任务上的表现超越了许多知名的大型模型。本文将深入解析评测结果，并探讨为何“更大”不等于“更好”。 AI 世界的风向变了？新评测揭示惊人结果在人工智能的领域里，我们总是在追逐下一个更强大、更聪明的模型。从 GPT 系列到 Claude，再到 Gemini，各大巨头的军备竞赛似乎永无止境。但如果比较的标准不只是学术测验，而是真实世界中的任务完成能力，结果会是如何？最近，一份名为 TaskBench 的综合评测报告引起了广泛关注。这份报告不玩虚的，它直接测试各大语言模型在处理实际工作时的表现。结果呢？可以说是有点出乎意料。Google 的 Gemini 2.5 Flash 最新版本在整体任务完成度上名列前茅，在某些方面甚至超越了那些听起来更“重量级”的对手。这份报告不仅仅是一张排名表，它更像一面镜子，反映出 AI 在实用性层面的真实样貌。所以，TaskBench 到底是什么？在我们深入探讨排名之前，得先聊聊 TaskBench 是什么，以及它为何如此重要。简单来说，TaskBench 是一个全面的评估套件，专门用来测试语言模型处理真实世界 AI 任务的能力。它和那些偏重学术理论的基准测试不太一样，TaskBench 更关心的是“这东西到底能不能用”。它的评估方式很实际：每一个测试样本都模拟一次 API 请求，包含结构化的输入和输出，完全比照开发者在实际应用中会遇到的情况。这代表 TaskBench 的分数，直接反映了一个模型在接到具体指令时，能否漂亮地完成任务。最新 AI 模型任务完成度排行榜好了，话不多说，直接来看数据。这份榜单根据模型在三大核心能力上的表现进行排名：情境理解 (Context)、SQL 生成和代理能力 (Agents)。分数代表模型成功完成任务的百分比。排名模型情境理解 (Context) SQL 生成 (SQL) 代理能力 (Agents) #1 grok-4-fast-reasoning 95.0% 94.2% 93.0% #2 gemini-flash-latest 93.3% 95.8% 87.0% #3 grok-4 88.3% 95.8% 91.0% #4 claude-sonnet-4 96.7% 90.0% 89.0% #5 o3 93.3% 93.3% 91.0% #6 claude-opus-4.1 91.7% 95.0% 87.0% #7 claude-sonnet-4.5 98.3% 95.0% 85.0% #8 glm-4.5 90.0% 95.0% 83.0% #9 gpt-5-mini 96.7% 95.0% 83.0% #10 claude-opus-4 93.3% 94.2% 83.0% #11 gpt-5 88.3% 95.0% 87.0% #12 o1 91.7% 96.7% 75.0% #13 claude-3.5-sonnet 90.0% 91.7% 85.0% #14 grok-3 86.7% 91.7% 81.0% #15 claude-3.7-sonnet 86.7% 94.2% 83.0% #16 gemini-2.5-flash 93.3% 93.3% 77.0% #17 o4-mini 88.3% 94.2% 87.0% #18 gpt-oss-120b 88.3% 94.2% 85.0% #19 gemini-2.5-pro 93.3% 91.7% 75.0% #20 gpt-4.1 83.3% 96.7% 83.0% 想看完整的 48 个模型排名和详细数据吗？可以前往 Opper 的官方页面查看。

Oct 9, 2025 Read →