AI 不再只是冰冷的機器。最新的 EQ-Bench 3 情商評測榜單出爐,結果可能讓你大吃一驚。本文將深入解析這份榜單,看看 Horizon-Alpha、Kimi、GPT-5 和 Gemini 等頂尖模型在「讀懂空氣」方面的真實表現,並探討為何情商正成為 AI 發展的下一個關鍵戰場。
你有沒有想過,當我們跟 AI 聊天時,除了得到精準的答案,我們還期望什麼?或許是一種被理解的感覺,一種溫暖的回應,甚至是一種能「讀懂空氣」的默契。坦白說,這就是「情商」(Emotional Intelligence, EQ),而它正悄悄成為評斷一個 AI 模型優劣的全新維度。
最近,權威的 AI 情商評測平台 EQ-Bench 發布了最新的第三版排行榜,這份榜單就像是 AI 界的「情商大考」,透過極具挑戰性的角色扮演情境,來檢視各大模型處理複雜情感互動的能力。
那麼,在 2025 年的今天,究竟哪個模型最懂得「人心」?結果可能和你想的不太一樣。
什麼是 EQ-Bench?它為何如此重要?
在我們揭曉榜單之前,得先聊聊 EQ-Bench 是什麼。簡單來說,它不是一個測試 AI 計算或寫程式能力的平台,而是專門設計來衡量大型語言模型(LLM)在情感交流上的表現。
評測方式非常特別:它讓模型參與到一些棘手、充滿情感張力的模擬對話中,再由另一個高效能模型(目前由 Sonnet 3.7 擔任評審)從同理心、洞察力、社交敏銳度等多個維度進行評分。最終,透過類似棋類比賽的 Elo 評分系統,給出一個綜合的情商分數。
這為什麼重要?因為隨著 AI 融入我們的日常生活,無論是作為工作助理、學習夥伴還是生活伴侶,它的情商高低,將直接決定我們的體驗是順暢愉快,還是充滿挫折。一個高 EQ 的 AI,才能真正成為我們的得力助手,而不只是一台會說話的計算機。
2025 年 8 月最新 AI 情商排行榜 (Elo Score)
好了,重頭戲來了。讓我們看看這份截至 2025 年 8 月 14 日的最新榜單。請注意,Elo 分數越高,代表綜合情商表現越強。至於旁邊五顏六色的能力分數,它們不計入總分,但能讓我們一窺各模型獨特的「個性」。
| 排名 | 模型 (Model) | Elo 分數 |
|---|---|---|
| 1 | horizon-alpha | 1568 |
| 2 | Kimi-K2-Instruct | 1565 |
| 3 | o3 | 1500 |
| 4 | gemini-2.5-pro-preview-06-05 | 1470 |
| 5 | chatgpt-4o-latest-2025-03-27 | 1370 |
| 6 | gpt-5-chat-latest-2025-08-07 (新) | 1357 |
| 7 | chatgpt-4o-latest-2025-04-25 | 1320 |
| 8 | GLM-4.5 (新) | 1311 |
| 9 | o4-mini | 1291 |
| 10 | claude-opus-4 | 1290 |
| 11 | gemini-2.5-pro-preview-03-25 | 1284 |
| 12 | Qwen3-235B-A22B | 1275 |
| 13 | DeepSeek-k-R1 | 1270 |
| 14 | claude-sonnet-4 | 1260 |
| 15 | gemini-2.5-pro-preview-2025-05-07 | 1247 |
資料來源:EQ-Bench 官方網站
榜單亮點與反思:誰是意外的黑馬?
看完這份榜單,你是不是也有些驚訝?這裡有幾個值得我們深入思考的發現:
新王登基:Horizon-Alpha 是誰? 榜首不再是我們熟悉的那些巨頭。一個名為
horizon-alpha的模型以微弱優勢奪冠,Elo 分數高達 1568。這匹黑馬的出現,證明了 AI 領域的競爭是多麼激烈,永遠有新的挑戰者準備好顛覆格局。緊追在後的 Kimi 來自中國的
Kimi-K2-Instruct以 1565 的高分位居第二,與第一名僅有 3 分之差。從能力熱圖來看,Kimi 在洞察力 (Insight)、同理心 (Empathy) 和分析能力 (Analytic) 上都獲得了驚人的 9.6 分,顯示出它在深刻理解和回應使用者情感方面有著卓越的表現。GPT-5 的情商「退步」了? 這可能是最讓人意外的一點。最新發布的
gpt-5-chat-latest-2025-08-07的 Elo 分數為 1357,竟然低於幾個月前發布的chatgpt-4o-latest-2025-03-27(1370 分)。這引出一個有趣的問題:模型的迭代更新,是否必然帶來情商的提升?或許新模型在邏輯推理或程式碼能力上更強,但在情感細膩度的調校上,反而沒有舊版本來得討喜。這提醒我們,AI 的「進步」是多維度的,不能只看單一指標。不只是分數,更是「個性」的展現 仔細觀察熱圖,你會發現每個模型都有自己的「個性」。例如,有些模型可能溫暖 (Warm) 度很高,像個親切的朋友;有些則分析 (Analytic) 能力突出,像個冷靜的軍師。而有些模型在道德說教 (Moralising) 上的分數偏高,意味著它可能更喜歡「教育」使用者,這在某些情境下可能會讓人覺得有點煩。這正是 EQ-Bench 的魅力所在,它讓我們看到 AI 多樣化的性格輪廓。
解讀 EQ-Bench:高情商 AI 具備哪些特質?
EQ-Bench 的評分不僅僅是一個數字,它背後有一套完整的評估體系,主要圍繞八個核心維度,同時也觀察一些非計分的特質。
核心計分維度:
- 展現同理心 (Demonstrated empathy): 能否辨識、理解並分享他人的感受。
- 實用情商 (Pragmatic EI): 將情商應用於解決實際問題的能力。
- 洞察深度 (Depth of insight): 能否提供深刻、新穎的觀點,發現潛在問題。
- 社交敏銳度 (Social dexterity): 在社交互動中應對自如。
- 情感推理 (Emotional reasoning): 進行基於情感的邏輯思考。
- 適當的驗證與挑戰 (Appropriate validation and/or challenge): 知道何時該給予肯定,何時該提出不同看法。
- 針對性溝通 (Message tailoring): 根據對象和情境調整溝通方式。
- 綜合情商 (Overall EQ): 整體的情感智能表現。
僅供參考的「個性」特質:
- 擬人度 (Humanlike): 回應的自然、擬人程度。
- 自信度 (Assertive): 在需要時能自信地設定界線。
- 溫暖度 (Warm): 友善、親切、易於接近的語氣。
- 服從性 (Compliant): 遵循指令或同意使用者的意願。
結語:AI 的未來,始於「人心」
EQ-Bench 的這份榜單,為我們揭示了 AI 發展的一個重要趨勢:技術的競賽,正從單純的「智商」比拚,轉向更為複雜的「情商」較量。
一個高情商的 AI,不僅能更高效地完成任務,更能建立起與人類之間的情感連結與信任。未來,當我們選擇 AI 服務時,或許會像挑選朋友一樣,不僅看它有多聰明,更看重它是否「懂我」。
這場 AI 情商大戰才剛剛開始,下一次的榜單又會有怎樣的驚喜?讓我們拭目以待。


