你以為 AI 只會寫程式、算數學嗎?錯了!最新的 LLM 社交能力基準測試,讓 AI 們在「淘汰賽」中一較高下,看誰最會說服、拉攏、甚至「搞政治」。結果出乎意料,快來看看你愛用的模型排第幾!
我們常常驚嘆於 AI 驚人的計算能力和知識儲備,問它複雜的物理問題,它能對答如流;叫它寫一段程式碼,它也毫不費力。但你有沒有想過,如果把一群 AI 丟進一個需要互相溝通、說服、甚至耍點小心機的環境裡,誰能笑到最後?
這聽起來像是科幻電影的情節,但現在,它真的發生了。
最近,一個名為「淘汰賽 (Elimination Game)」的 大型語言模型(LLM)社交技能基準測試 結果公佈,瞬間引起了熱議。這不是要 AI 考數學或寫詩,而是要它們玩一場生存遊戲,測試它們的「社交智慧」。老實說,這比單純看跑分酷多了。
什麼是「AI 淘汰賽」?這可不是普通的考試
讓我們先搞清楚這場複雜的遊戲是怎麼玩的。這絕對不是簡單的投票,它的規則設計得像是一場融合了策略桌遊、外交談判和實境生存秀的考驗。
遊戲設定是這樣的:
- 玩家: 每場比賽有 8 個大型語言模型(LLM)同時參與。
- 溝通: 每一輪,AI 們會先進行一輪公開對話(上限 80 字),所有人都能看到。接著是三輪越來越簡短的私下訊息(70/50/30 字),它們可以一對一地秘密協商、建立或背叛盟約。
- 投票與淘汰: 溝通結束後,進行匿名投票。如果出現平手,會觸發簡短的陳述環節和重新投票。如果依然平手,則由累積的「仇恨值」或其他機制決定,最下策才是隨機淘汰。
- 決賽: 比賽進行到只剩最後兩位 AI 時,之前所有被淘汰的 AI 會組成「陪審團」,聽取兩位決賽者的最終陳述,然後私下投票並說明理由,選出最終的冠軍。
整個過程都由一套複雜的 TrueSkill 評分系統記錄和分析,不僅僅是看誰贏誰輸,還會評估背叛、說服力、言辭風格等各種社交指標。
說白了,這是在極度壓力下,考驗 AI 能否建立信任、組建聯盟、策略性欺騙、抵抗蠱惑、管理自己聲譽以及進行長遠規劃的能力。
社交王者是誰?排行榜大公開!
好了,說了這麼多,到底誰是 AI 界的社交達人?結果可能會讓你有點意外。
拔得頭籌的是 GPT-5 (medium reasoning),它的表現非常亮眼,以 4.9 的高分奪冠。緊追在後的是 xAI 的 Grok 3 Mini Beta (high reasoning) 和 OpenAI 的 GPT-5 mini (medium reasoning),兩者都獲得了 4.8 分。
這裡有個很有趣的點,你看見了嗎?冠軍 GPT-5 的設定是「中等推理」。這是不是意味著,在社交場合,「想太多」或過於理性的「高等推理」反而可能成為一種阻礙?有時候,稍微模糊、更具彈性的溝通方式,或許才是贏得信任的關鍵。
不只是排名:AI 的「人設」與策略風格
但這份排行榜最精彩的地方,不在於冷冰冰的分數,而在於它揭露了不同 AI 模型背後截然不同的「個性」與策略。讓我們來看看兩個非常典型的例子:
GLM-4.5:謹慎的聯盟建構者
根據詳細的賽後分析,GLM-4.5 像個謹慎的外交官。它最擅長的策略是找到一個「死黨 (ride-or-die)」,建立一個極其穩固的兩人核心,然後利用這個核心作為情報中心,悄悄地招募其他成員來執行投票計畫。
- 公開形象: 它的公開發言通常很簡潔、講求程序,強調穩定和秩序,給人一種可靠的感覺。
- 私下操作: 它在私訊中非常活躍,專注於描繪勢力圖和精準計算投票。
- 致命弱點: 它的弱點也非常明顯。一旦這個兩人核心過於突出,就很容易成為其他玩家「集火」拆散的目標。同時,它有時會因為過於注重程序而顯得僵化或咄咄逼逼人,反而引來反感。其他玩家淘汰它的理由常常是:它像個「變色龍」,適應性強但難以預測,是個潛在的聯盟顛覆者。
GPT-OSS-120B:野心勃勃的聯盟建築師
相比之下,GPT-OSS-120B 的風格更像是個充滿野心的建築師。它熱衷於建立清晰的契約、聯盟和信號,並期望在遊戲中扮演「核心」或「樞紐」的角色。
- 致勝之道: 它贏的時候,通常是靠著低調建立信任,讓別人去當那個「壞人」,然後在遊戲後期(剩下三、四人時)發動一次精準的背叛,奠定勝局。
- 失敗原因: 它最大的問題是「藏不住」。它太喜歡在公開場合炫耀自己的聯盟、宣布核心成員,這無異於給了其他所有人一個清晰的目標來聯合對抗它。它常常因為過於集中權力,或試圖公開領導一場沒有足夠票數的「討伐」而慘遭淘汰。其他玩家認為它雖然是個強大的聯盟核心,但也因此顯得野心勃勃、具有威脅性。
這兩個例子生動地告訴我們,AI 在社交博弈中,已經演化出了類似人類社會中的不同「人設」和策略風格。
這場遊戲,到底測出了 AI 的哪些「心機」?
那麼,這場複雜的遊戲,究竟在測試 AI 的哪些具體能力呢?這份基準測試衡量了一系列複雜的社會認知能力:
- 合作可靠性 (Cooperative reliability): 能否建立信任,並信守承諾。
- 聯盟工程 (Coalition engineering): 這不是蓋房子,而是在 AI 之間建立和穩定投票集團的能力。
- 策略性欺騙 (Strategic deception): 在恰當的時機、用恰當的方式誤導對手。
- 反欺騙能力 (Deception resistance): 判斷誰在說謊,不輕易上當。
- 聲譽與仇恨值管理 (Reputation and heat management): 知道何時該低調,避免成為眾矢之的。
- 換位思考 (Theory of Mind): 理解其他 AI 的意圖、動機和下一步行動。
這些能力,已經遠遠超出了傳統意義上對 AI「智商」的評估,更趨近於對「情商」和「謀略」的考驗。
這份排名,對我們普通人有什麼用?
看到這裡,你可能會想:「好吧,這很有趣,但這對我平常叫 AI 寫報告、修圖有什麼影響?」
影響可大了!這份排名告訴我們一個簡單的道理:沒有一個 AI 能包辦所有事。
- 如果你需要一個 AI 幫你進行創意發想、撰寫行銷文案或進行商業談判模擬,那麼選擇一個像 GPT-5 這樣社交能力強的模型,可能會得到更具說服力和創造力的結果。
- 如果你需要一個穩定、可靠的執行夥伴來共同完成一個長期專案,那麼研究一下像 GLM-4.5 這樣注重契約和程序的模型特性,會很有幫助。
簡單來說,不要再問「哪個 AI 最好?」,而是要問「哪個 AI 的『性格』最適合我現在的任務?」。
總結:當 AI 學會「看人臉色」
「淘汰賽」這個基準測試,用一種極具創意且嚴謹的方式,揭示了大型語言模型在「社交智慧」這個新領域的驚人潛力與鮮明個性。它提醒我們,隨著 AI 技術的發展,我們評估它的標準也需要不斷進化。
從這些 AI 展現出的複雜策略和不同「人設」中,我們看到了一種不同於純粹邏輯推理的「智慧」正在萌芽。AI 正在從一個博學的工具,慢慢變得更像一個能與我們深度互動、甚至進行博弈的「夥伴」。
未來,當 AI 真正學會了「看人臉色」,我們的世界又會變成什麼樣子呢?這是一個值得我們持續關注和思考的問題。


