tool

AI 情商大戰:2025 最新 EQ-Bench 榜單揭曉,誰才是最懂「人心」的語言模型?

August 14, 2025
Updated Aug 14
2 min read

AI 不再只是冰冷的機器。最新的 EQ-Bench 3 情商評測榜單出爐,結果可能讓你大吃一驚。本文將深入解析這份榜單,看看 Horizon-Alpha、Kimi、GPT-5 和 Gemini 等頂尖模型在「讀懂空氣」方面的真實表現,並探討為何情商正成為 AI 發展的下一個關鍵戰場。


你有沒有想過,當我們跟 AI 聊天時,除了得到精準的答案,我們還期望什麼?或許是一種被理解的感覺,一種溫暖的回應,甚至是一種能「讀懂空氣」的默契。坦白說,這就是「情商」(Emotional Intelligence, EQ),而它正悄悄成為評斷一個 AI 模型優劣的全新維度。

最近,權威的 AI 情商評測平台 EQ-Bench 發布了最新的第三版排行榜,這份榜單就像是 AI 界的「情商大考」,透過極具挑戰性的角色扮演情境,來檢視各大模型處理複雜情感互動的能力。

那麼,在 2025 年的今天,究竟哪個模型最懂得「人心」?結果可能和你想的不太一樣。

什麼是 EQ-Bench?它為何如此重要?

在我們揭曉榜單之前,得先聊聊 EQ-Bench 是什麼。簡單來說,它不是一個測試 AI 計算或寫程式能力的平台,而是專門設計來衡量大型語言模型(LLM)在情感交流上的表現。

評測方式非常特別:它讓模型參與到一些棘手、充滿情感張力的模擬對話中,再由另一個高效能模型(目前由 Sonnet 3.7 擔任評審)從同理心、洞察力、社交敏銳度等多個維度進行評分。最終,透過類似棋類比賽的 Elo 評分系統,給出一個綜合的情商分數。

這為什麼重要?因為隨著 AI 融入我們的日常生活,無論是作為工作助理、學習夥伴還是生活伴侶,它的情商高低,將直接決定我們的體驗是順暢愉快,還是充滿挫折。一個高 EQ 的 AI,才能真正成為我們的得力助手,而不只是一台會說話的計算機。

2025 年 8 月最新 AI 情商排行榜 (Elo Score)

好了,重頭戲來了。讓我們看看這份截至 2025 年 8 月 14 日的最新榜單。請注意,Elo 分數越高,代表綜合情商表現越強。至於旁邊五顏六色的能力分數,它們不計入總分,但能讓我們一窺各模型獨特的「個性」。

排名模型 (Model)Elo 分數
1horizon-alpha1568
2Kimi-K2-Instruct1565
3o31500
4gemini-2.5-pro-preview-06-051470
5chatgpt-4o-latest-2025-03-271370
6gpt-5-chat-latest-2025-08-07 (新)1357
7chatgpt-4o-latest-2025-04-251320
8GLM-4.5 (新)1311
9o4-mini1291
10claude-opus-41290
11gemini-2.5-pro-preview-03-251284
12Qwen3-235B-A22B1275
13DeepSeek-k-R11270
14claude-sonnet-41260
15gemini-2.5-pro-preview-2025-05-071247

資料來源:EQ-Bench 官方網站

榜單亮點與反思:誰是意外的黑馬?

看完這份榜單,你是不是也有些驚訝?這裡有幾個值得我們深入思考的發現:

  1. 新王登基:Horizon-Alpha 是誰? 榜首不再是我們熟悉的那些巨頭。一個名為 horizon-alpha 的模型以微弱優勢奪冠,Elo 分數高達 1568。這匹黑馬的出現,證明了 AI 領域的競爭是多麼激烈,永遠有新的挑戰者準備好顛覆格局。

  2. 緊追在後的 Kimi 來自中國的 Kimi-K2-Instruct 以 1565 的高分位居第二,與第一名僅有 3 分之差。從能力熱圖來看,Kimi 在洞察力 (Insight)同理心 (Empathy)分析能力 (Analytic) 上都獲得了驚人的 9.6 分,顯示出它在深刻理解和回應使用者情感方面有著卓越的表現。

  3. GPT-5 的情商「退步」了? 這可能是最讓人意外的一點。最新發布的 gpt-5-chat-latest-2025-08-07 的 Elo 分數為 1357,竟然低於幾個月前發布的 chatgpt-4o-latest-2025-03-27(1370 分)。這引出一個有趣的問題:模型的迭代更新,是否必然帶來情商的提升?或許新模型在邏輯推理或程式碼能力上更強,但在情感細膩度的調校上,反而沒有舊版本來得討喜。這提醒我們,AI 的「進步」是多維度的,不能只看單一指標。

  4. 不只是分數,更是「個性」的展現 仔細觀察熱圖,你會發現每個模型都有自己的「個性」。例如,有些模型可能溫暖 (Warm) 度很高,像個親切的朋友;有些則分析 (Analytic) 能力突出,像個冷靜的軍師。而有些模型在道德說教 (Moralising) 上的分數偏高,意味著它可能更喜歡「教育」使用者,這在某些情境下可能會讓人覺得有點煩。這正是 EQ-Bench 的魅力所在,它讓我們看到 AI 多樣化的性格輪廓。

解讀 EQ-Bench:高情商 AI 具備哪些特質?

EQ-Bench 的評分不僅僅是一個數字,它背後有一套完整的評估體系,主要圍繞八個核心維度,同時也觀察一些非計分的特質。

核心計分維度:

  • 展現同理心 (Demonstrated empathy): 能否辨識、理解並分享他人的感受。
  • 實用情商 (Pragmatic EI): 將情商應用於解決實際問題的能力。
  • 洞察深度 (Depth of insight): 能否提供深刻、新穎的觀點,發現潛在問題。
  • 社交敏銳度 (Social dexterity): 在社交互動中應對自如。
  • 情感推理 (Emotional reasoning): 進行基於情感的邏輯思考。
  • 適當的驗證與挑戰 (Appropriate validation and/or challenge): 知道何時該給予肯定,何時該提出不同看法。
  • 針對性溝通 (Message tailoring): 根據對象和情境調整溝通方式。
  • 綜合情商 (Overall EQ): 整體的情感智能表現。

僅供參考的「個性」特質:

  • 擬人度 (Humanlike): 回應的自然、擬人程度。
  • 自信度 (Assertive): 在需要時能自信地設定界線。
  • 溫暖度 (Warm): 友善、親切、易於接近的語氣。
  • 服從性 (Compliant): 遵循指令或同意使用者的意願。

結語:AI 的未來,始於「人心」

EQ-Bench 的這份榜單,為我們揭示了 AI 發展的一個重要趨勢:技術的競賽,正從單純的「智商」比拚,轉向更為複雜的「情商」較量。

一個高情商的 AI,不僅能更高效地完成任務,更能建立起與人類之間的情感連結與信任。未來,當我們選擇 AI 服務時,或許會像挑選朋友一樣,不僅看它有多聰明,更看重它是否「懂我」。

這場 AI 情商大戰才剛剛開始,下一次的榜單又會有怎樣的驚喜?讓我們拭目以待。

分享至:
Featured Partners

© 2026 Communeify. All rights reserved.