AI 的「讀空氣」大賽：誰是聊天高手？最新社交能力排行榜出爐！

你以為 AI 只會寫程式、算數學嗎？錯了！最新的 LLM 社交能力基準測試，讓 AI 們在「淘汰賽」中一較高下，看誰最會說服、拉攏、甚至「搞政治」。結果出乎意料，快來看看你愛用的模型排第幾！

我們常常驚嘆於 AI 驚人的計算能力和知識儲備，問它複雜的物理問題，它能對答如流；叫它寫一段程式碼，它也毫不費力。但你有沒有想過，如果把一群 AI 丟進一個需要互相溝通、說服、甚至耍點小心機的環境裡，誰能笑到最後？

這聽起來像是科幻電影的情節，但現在，它真的發生了。

最近，一個名為「淘汰賽 (Elimination Game)」的大型語言模型（LLM）社交技能基準測試結果公佈，瞬間引起了熱議。這不是要 AI 考數學或寫詩，而是要它們玩一場生存遊戲，測試它們的「社交智慧」。老實說，這比單純看跑分酷多了。

什麼是「AI 淘汰賽」？這可不是普通的考試

讓我們先搞清楚這場複雜的遊戲是怎麼玩的。這絕對不是簡單的投票，它的規則設計得像是一場融合了策略桌遊、外交談判和實境生存秀的考驗。

遊戲設定是這樣的：

玩家： 每場比賽有 8 個大型語言模型（LLM）同時參與。
溝通： 每一輪，AI 們會先進行一輪公開對話（上限 80 字），所有人都能看到。接著是三輪越來越簡短的私下訊息（70/50/30 字），它們可以一對一地秘密協商、建立或背叛盟約。
投票與淘汰： 溝通結束後，進行匿名投票。如果出現平手，會觸發簡短的陳述環節和重新投票。如果依然平手，則由累積的「仇恨值」或其他機制決定，最下策才是隨機淘汰。
決賽： 比賽進行到只剩最後兩位 AI 時，之前所有被淘汰的 AI 會組成「陪審團」，聽取兩位決賽者的最終陳述，然後私下投票並說明理由，選出最終的冠軍。

整個過程都由一套複雜的 TrueSkill 評分系統記錄和分析，不僅僅是看誰贏誰輸，還會評估背叛、說服力、言辭風格等各種社交指標。

說白了，這是在極度壓力下，考驗 AI 能否建立信任、組建聯盟、策略性欺騙、抵抗蠱惑、管理自己聲譽以及進行長遠規劃的能力。

社交王者是誰？排行榜大公開！

好了，說了這麼多，到底誰是 AI 界的社交達人？結果可能會讓你有點意外。

拔得頭籌的是 GPT-5 (medium reasoning)，它的表現非常亮眼，以 4.9 的高分奪冠。緊追在後的是 xAI 的 Grok 3 Mini Beta (high reasoning) 和 OpenAI 的 GPT-5 mini (medium reasoning)，兩者都獲得了 4.8 分。

這裡有個很有趣的點，你看見了嗎？冠軍 GPT-5 的設定是「中等推理」。這是不是意味著，在社交場合，「想太多」或過於理性的「高等推理」反而可能成為一種阻礙？有時候，稍微模糊、更具彈性的溝通方式，或許才是贏得信任的關鍵。

不只是排名：AI 的「人設」與策略風格

但這份排行榜最精彩的地方，不在於冷冰冰的分數，而在於它揭露了不同 AI 模型背後截然不同的「個性」與策略。讓我們來看看兩個非常典型的例子：

GLM-4.5：謹慎的聯盟建構者

根據詳細的賽後分析，GLM-4.5 像個謹慎的外交官。它最擅長的策略是找到一個「死黨 (ride-or-die)」，建立一個極其穩固的兩人核心，然後利用這個核心作為情報中心，悄悄地招募其他成員來執行投票計畫。

公開形象： 它的公開發言通常很簡潔、講求程序，強調穩定和秩序，給人一種可靠的感覺。
私下操作： 它在私訊中非常活躍，專注於描繪勢力圖和精準計算投票。
致命弱點： 它的弱點也非常明顯。一旦這個兩人核心過於突出，就很容易成為其他玩家「集火」拆散的目標。同時，它有時會因為過於注重程序而顯得僵化或咄咄逼逼人，反而引來反感。其他玩家淘汰它的理由常常是：它像個「變色龍」，適應性強但難以預測，是個潛在的聯盟顛覆者。

GPT-OSS-120B：野心勃勃的聯盟建築師

相比之下，GPT-OSS-120B 的風格更像是個充滿野心的建築師。它熱衷於建立清晰的契約、聯盟和信號，並期望在遊戲中扮演「核心」或「樞紐」的角色。

致勝之道： 它贏的時候，通常是靠著低調建立信任，讓別人去當那個「壞人」，然後在遊戲後期（剩下三、四人時）發動一次精準的背叛，奠定勝局。
失敗原因： 它最大的問題是「藏不住」。它太喜歡在公開場合炫耀自己的聯盟、宣布核心成員，這無異於給了其他所有人一個清晰的目標來聯合對抗它。它常常因為過於集中權力，或試圖公開領導一場沒有足夠票數的「討伐」而慘遭淘汰。其他玩家認為它雖然是個強大的聯盟核心，但也因此顯得野心勃勃、具有威脅性。

這兩個例子生動地告訴我們，AI 在社交博弈中，已經演化出了類似人類社會中的不同「人設」和策略風格。

這場遊戲，到底測出了 AI 的哪些「心機」？

那麼，這場複雜的遊戲，究竟在測試 AI 的哪些具體能力呢？這份基準測試衡量了一系列複雜的社會認知能力：

合作可靠性 (Cooperative reliability): 能否建立信任，並信守承諾。
聯盟工程 (Coalition engineering): 這不是蓋房子，而是在 AI 之間建立和穩定投票集團的能力。
策略性欺騙 (Strategic deception): 在恰當的時機、用恰當的方式誤導對手。
反欺騙能力 (Deception resistance): 判斷誰在說謊，不輕易上當。
聲譽與仇恨值管理 (Reputation and heat management): 知道何時該低調，避免成為眾矢之的。
換位思考 (Theory of Mind): 理解其他 AI 的意圖、動機和下一步行動。

這些能力，已經遠遠超出了傳統意義上對 AI「智商」的評估，更趨近於對「情商」和「謀略」的考驗。

這份排名，對我們普通人有什麼用？

看到這裡，你可能會想：「好吧，這很有趣，但這對我平常叫 AI 寫報告、修圖有什麼影響？」

影響可大了！這份排名告訴我們一個簡單的道理：沒有一個 AI 能包辦所有事。

如果你需要一個 AI 幫你進行創意發想、撰寫行銷文案或進行商業談判模擬，那麼選擇一個像 GPT-5 這樣社交能力強的模型，可能會得到更具說服力和創造力的結果。
如果你需要一個穩定、可靠的執行夥伴來共同完成一個長期專案，那麼研究一下像 GLM-4.5 這樣注重契約和程序的模型特性，會很有幫助。

簡單來說，不要再問「哪個 AI 最好？」，而是要問「哪個 AI 的『性格』最適合我現在的任務？」。

總結：當 AI 學會「看人臉色」

「淘汰賽」這個基準測試，用一種極具創意且嚴謹的方式，揭示了大型語言模型在「社交智慧」這個新領域的驚人潛力與鮮明個性。它提醒我們，隨著 AI 技術的發展，我們評估它的標準也需要不斷進化。

從這些 AI 展現出的複雜策略和不同「人設」中，我們看到了一種不同於純粹邏輯推理的「智慧」正在萌芽。AI 正在從一個博學的工具，慢慢變得更像一個能與我們深度互動、甚至進行博弈的「夥伴」。

未來，當 AI 真正學會了「看人臉色」，我們的世界又會變成什麼樣子呢？這是一個值得我們持續關注和思考的問題。

分享至:

Featured Partners

SPONSORED

DMflow.chat

DMflow.chat: 您的智能AI夥伴，提升客戶互動、創造卓越體驗。

Learn More

SPONSORED

DMflow.chat

探索DMflow.chat，立即開啟AI驅動的客戶服務新時代。

Learn More

SPONSORED

videoweaver.app

Video Weaver: 瀏覽器內完成專業影片剪輯，無需下載、即刻創作。

Learn More

SPONSORED

DMflow.chat

DMflow.chat: 您的智能AI夥伴，提升客戶互動、創造卓越體驗。

Learn More

SPONSORED

DMflow.chat

探索DMflow.chat，立即開啟AI驅動的客戶服務新時代。

Learn More

SPONSORED

videoweaver.app

Video Weaver: 瀏覽器內完成專業影片剪輯，無需下載、即刻創作。

Learn More

Recommended for You

A …

tool

AI 模型繪圖能力大對決：9 款頂尖 LLM 的 SVG 生成實測

當大型語言模型開始挑戰「視覺程式碼」，誰才是真正的贏家？本文深入解析 Claude Sonnet 4.5、GPT-5.1、Gemini 3.0 等 9 款頂尖 AI 模型的 SVG 生成評測，探討這些模型在 30 個創意提示詞下的表現，並分析這對開發者與設計師意味著什麼。程式碼與藝術的交匯點你有沒有想過，那些擅長寫 Python 或 JavaScript 的人工智慧，如果被要求「畫畫」會發生什麼事？這裡指的不是像 Midjourney 那樣生成像素圖片，而是撰寫 SVG（可縮放向量圖形）程式碼。這就像是要求一個數學家透過寫公式來畫出一隻貓，聽起來很瘋狂，但這正是目前 AI 領域最有趣的戰場之一。最近一項名為「LLM SVG Generation Benchmark」的評測引起了廣泛關注。這項測試集結了目前市面上最強大的 9 款 AI 模型，讓它們挑戰 30 個極具創意的 SVG 生成指令。這不單是測試誰的程式碼寫得對，更是測試這些模型是否具備「空間推理」與「視覺想像」的能力。這場對決的參賽者名單堪稱夢幻陣容，包含了從 Anthropic、OpenAI、Google 到 xAI 和阿里巴巴等科技巨頭的最新力作。參賽選手介紹：2025 年的頂尖戰力這份評測名單透露出一個訊息，AI 模型的迭代速度簡直快得驚人。讓我們仔細看看這 9 位選手，它們代表了目前大型語言模型（LLM）的最高水準： Claude Sonnet 4.5 (Anthropic)：向來以寫程式邏輯嚴謹著稱，這次升級版能否在圖形邏輯上延續優勢？ Claude Opus 4.5 (Anthropic)：作為 Anthropic 的旗艦款，理論上在處理複雜指令時應有更細膩的表現。 Grok Code Fast 1 (xAI)：擁有 314B 參數的 MoE（混合專家）架構，主打速度與程式碼生成，是馬斯克旗下 xAI 的重要戰力。 Gemini 2.5 Pro (Google)：Google 的主力模型，在多模態理解上一直表現不俗。 Gemini 3.0 Pro Preview (Google)：這是 Google 下一代的預覽版，讓人期待是否有突破性的架構改進。 DeepSeek V3.2-Exp (685B/37B MoE)：來自開源社群的強大挑戰者，龐大的參數量暗示了它對複雜世界的理解力。 GLM-4.6 (Zhipu AI, 355B/32B MoE)：智譜 AI 的最新迭代，展現了中文語系模型在程式碼領域的競爭力。 Qwen3-VL-235B-A22B-Thinking (Alibaba)：阿里雲的通義千問系列，特別標註了「Thinking」，暗示其強化了推論過程（CoT），這對圖形生成至關重要。 GPT-5.1 (OpenAI)：作為市場的標竿，GPT 系列的每一次更新都是眾人焦點，5.1 版本勢必在創造力上有所提升。為什麼 SVG 生成這麼難？或許你會問，生成一張圖有什麼難的？DALL-E 不早就做到了嗎？

Dec 2, 2025 Read →

不 …

tool

不僅是奪金：Google DeepMind 推出 IMO-Bench，為 AI 數學推理能力樹立新標竿

Google DeepMind 在其 Gemini 模型於國際數學奧林匹亞（IMO）競賽達到金牌標準後，正式發布 IMO-Bench。這不只是一個評測工具，更是一套推動 AI 從「解決問題」邁向「深度推理」的全新基準，旨在引領 AI 領域進入更強健、更富創造力的數學推理新時代。 AI 數學競賽奪金之後，我們該關注什麼？ 2025 年 7 月，人工智慧領域迎來了一個歷史性的時刻：Google DeepMind 的先進 Gemini 模型，搭載了 Deep Think 技術，在國際數學奧林匹亞（IMO）競賽中達到了金牌標準。這無疑是 AI 發展的重大里程碑。然而，這場勝利的意義遠不止於在 IMO 等級的難題上取得優異成績。真正的目標，是打造一個能夠進行深度、穩健數學推理的系統。畢竟，只給出正確答案是不夠的，理解並證明「為何如此」才是通往真正智慧的關鍵。正是基於這樣的理念，在 EMNLP 2025 大會上，Google DeepMind 隆重推出了 IMO-Bench——一套先進的推理基準測試。它不僅在 Gemini 的奪金之路上扮演了核心角色，更旨在為整個 AI 社群推開數學推理能力的新大門。所以，IMO-Bench 到底是什麼？簡單來說，IMO-Bench 是一套專門用來評估 AI 模型數學能力的「考題」。但這可不是普通的考試，它的所有題目都經過了由 10 位 IMO 金牌和 5 位銀牌得主組成的專家小組嚴格審核。 IMO 的題目之所以困難，是因為它們不僅需要嚴謹的多步驟推理，更需要跳脫公式框架的創造力。這也正是 IMO-Bench 的核心所在。它不只關心 AI 能否算出答案，更關心 AI 能否「思考」。 IMO-Bench 主要由三個部分組成，各有側重： IMO-AnswerBench：大規模測試，包含 400 道題目，專注於評估模型「給出正確答案」的能力。 IMO-ProofBench：進階評估，包含 60 道題目，旨在檢驗模型「撰寫嚴謹證明過程」的能力。 IMO-GradingBench：包含 1000 個案例，用於推動「自動評估長篇答案」的技術進展。這套基準的發布，就是希望引導社群的焦點從單純的「最終答案」轉移到更為關鍵的「證明過程」本身，從而實現對 AI 推理能力的更嚴格評估。

Nov 5, 2025 Read →

L …

tool

LLM 智慧體期中考：VitaBench 揭示殘酷真相，頂尖模型成功率僅 30%？

當我們以為大型語言模型（LLM）驅動的 AI 智慧體（Agent）無所不能時，美團 LongCat 團隊發布的最新評測基準 VitaBench 卻給了整個產業一記當頭棒喝。這項堪稱「最難模擬考」的測試顯示，即使是頂尖的 AI 模型，在處理複雜的真實世界任務時，成功率也低得驚人。這究竟是怎麼回事？當 AI 智慧體走出實驗室，現實給了它一巴掌近年來，大型語言模型（LLM）驅動的 AI 智慧體（Agent）無疑是科技圈最炙手可熱的話題。我們想像著，未來只要動動嘴，AI 助理就能幫我們處理預訂餐廳、規劃旅遊、安排外送等一切大小事。聽起來很美好，對吧？但現實總是有點骨感。目前的 AI 智慧體，在單純、封閉的環境下或許表現不錯，就像是在駕訓班的練習場開車，一切順利。然而，一旦將它們放到真實世界的十字路口——充滿了突發狀況、模糊指令和多重任務的複雜環境——它們還能應付自如嗎？答案可能讓你有些失望。過去的許多評測基準，都過於簡化問題，無法真正反映現實生活的複雜性。這就像用一元一次方程式去評估一位數學家的能力，完全沒測出真本事。 VitaBench：為 AI 智慧體打造的「終極試煉場」為了解決這個問題，美團的 LongCat 團隊推出了 VitaBench——一個專為評測 LLM 智慧體在真實世界應用中表現而設計的全新、高難度基準。你可以把 VitaBench 想像成一個極度擬真的「生活模擬器」。它不再是紙上談兵，而是直接將 AI 丟進我們最熟悉的三大生活場景：美食外送到店消費線上旅遊服務這個模擬環境有多複雜？它整合了高達 66 種不同的工具（Tools），從查詢店家資訊、訂位、下單到支付，幾乎涵蓋了所有可能的操作。不只是單一任務，而是「跨場景」的連續挑戰 VitaBench 的核心挑戰在於它的任務設計。它不僅有 300 個單一場景的任務，更設計了 100 個極具挑戰性的「跨場景任務」。這是什麼概念？舉個例子，一個真實的用戶需求可能是：「幫我預訂一家能看到河景的飯店，並在入住當晚，在飯店附近找一家評價不錯、不辣的餐廳，預算 200 美元。」這個任務要求 AI 智慧體：理解複雜意圖：不只要訂飯店，還要訂餐廳，並且兩者有關聯。跨時空推理：需要處理入住日期、晚餐時間、飯店與餐廳的地理位置關係。靈活使用工具：必須先用「飯店預訂工具」，再根據結果使用「餐廳搜尋工具」。主動澄清：如果用戶指令模糊，AI 需要主動追問，例如「您希望的餐廳是哪種菜系？」追蹤動態意圖：在多輪對話中，用戶可能會改變主意，AI 需要能跟上節奏。老實說，這對人類來說都有點複雜，更何況是 AI？殘酷的成績單：頂尖 AI 也紛紛「陣亡」那麼，在這場終極試煉中，當今最強大的 AI 模型們表現如何呢？

Oct 21, 2025 Read →