AI 情商大戰：2025 最新 EQ-Bench 榜單揭曉，誰才是最懂「人心」的語言模型？

AI 不再只是冰冷的機器。最新的 EQ-Bench 3 情商評測榜單出爐，結果可能讓你大吃一驚。本文將深入解析這份榜單，看看 Horizon-Alpha、Kimi、GPT-5 和 Gemini 等頂尖模型在「讀懂空氣」方面的真實表現，並探討為何情商正成為 AI 發展的下一個關鍵戰場。

你有沒有想過，當我們跟 AI 聊天時，除了得到精準的答案，我們還期望什麼？或許是一種被理解的感覺，一種溫暖的回應，甚至是一種能「讀懂空氣」的默契。坦白說，這就是「情商」（Emotional Intelligence, EQ），而它正悄悄成為評斷一個 AI 模型優劣的全新維度。

最近，權威的 AI 情商評測平台 EQ-Bench 發布了最新的第三版排行榜，這份榜單就像是 AI 界的「情商大考」，透過極具挑戰性的角色扮演情境，來檢視各大模型處理複雜情感互動的能力。

那麼，在 2025 年的今天，究竟哪個模型最懂得「人心」？結果可能和你想的不太一樣。

什麼是 EQ-Bench？它為何如此重要？

在我們揭曉榜單之前，得先聊聊 EQ-Bench 是什麼。簡單來說，它不是一個測試 AI 計算或寫程式能力的平台，而是專門設計來衡量大型語言模型（LLM）在情感交流上的表現。

評測方式非常特別：它讓模型參與到一些棘手、充滿情感張力的模擬對話中，再由另一個高效能模型（目前由 Sonnet 3.7 擔任評審）從同理心、洞察力、社交敏銳度等多個維度進行評分。最終，透過類似棋類比賽的 Elo 評分系統，給出一個綜合的情商分數。

這為什麼重要？因為隨著 AI 融入我們的日常生活，無論是作為工作助理、學習夥伴還是生活伴侶，它的情商高低，將直接決定我們的體驗是順暢愉快，還是充滿挫折。一個高 EQ 的 AI，才能真正成為我們的得力助手，而不只是一台會說話的計算機。

2025 年 8 月最新 AI 情商排行榜 (Elo Score)

好了，重頭戲來了。讓我們看看這份截至 2025 年 8 月 14 日的最新榜單。請注意，Elo 分數越高，代表綜合情商表現越強。至於旁邊五顏六色的能力分數，它們不計入總分，但能讓我們一窺各模型獨特的「個性」。

排名	模型 (Model)	Elo 分數
1	horizon-alpha	1568
2	Kimi-K2-Instruct	1565
3	o3	1500
4	gemini-2.5-pro-preview-06-05	1470
5	chatgpt-4o-latest-2025-03-27	1370
6	gpt-5-chat-latest-2025-08-07 (新)	1357
7	chatgpt-4o-latest-2025-04-25	1320
8	GLM-4.5 (新)	1311
9	o4-mini	1291
10	claude-opus-4	1290
11	gemini-2.5-pro-preview-03-25	1284
12	Qwen3-235B-A22B	1275
13	DeepSeek-k-R1	1270
14	claude-sonnet-4	1260
15	gemini-2.5-pro-preview-2025-05-07	1247

資料來源：EQ-Bench 官方網站

榜單亮點與反思：誰是意外的黑馬？

看完這份榜單，你是不是也有些驚訝？這裡有幾個值得我們深入思考的發現：

新王登基：Horizon-Alpha 是誰？ 榜首不再是我們熟悉的那些巨頭。一個名為 horizon-alpha 的模型以微弱優勢奪冠，Elo 分數高達 1568。這匹黑馬的出現，證明了 AI 領域的競爭是多麼激烈，永遠有新的挑戰者準備好顛覆格局。
緊追在後的 Kimi 來自中國的 Kimi-K2-Instruct 以 1565 的高分位居第二，與第一名僅有 3 分之差。從能力熱圖來看，Kimi 在洞察力 (Insight)、同理心 (Empathy) 和分析能力 (Analytic) 上都獲得了驚人的 9.6 分，顯示出它在深刻理解和回應使用者情感方面有著卓越的表現。
GPT-5 的情商「退步」了？ 這可能是最讓人意外的一點。最新發布的 gpt-5-chat-latest-2025-08-07 的 Elo 分數為 1357，竟然低於幾個月前發布的 chatgpt-4o-latest-2025-03-27（1370 分）。這引出一個有趣的問題：模型的迭代更新，是否必然帶來情商的提升？或許新模型在邏輯推理或程式碼能力上更強，但在情感細膩度的調校上，反而沒有舊版本來得討喜。這提醒我們，AI 的「進步」是多維度的，不能只看單一指標。
不只是分數，更是「個性」的展現 仔細觀察熱圖，你會發現每個模型都有自己的「個性」。例如，有些模型可能溫暖 (Warm) 度很高，像個親切的朋友；有些則分析 (Analytic) 能力突出，像個冷靜的軍師。而有些模型在道德說教 (Moralising) 上的分數偏高，意味著它可能更喜歡「教育」使用者，這在某些情境下可能會讓人覺得有點煩。這正是 EQ-Bench 的魅力所在，它讓我們看到 AI 多樣化的性格輪廓。

解讀 EQ-Bench：高情商 AI 具備哪些特質？

EQ-Bench 的評分不僅僅是一個數字，它背後有一套完整的評估體系，主要圍繞八個核心維度，同時也觀察一些非計分的特質。

核心計分維度：

展現同理心 (Demonstrated empathy): 能否辨識、理解並分享他人的感受。
實用情商 (Pragmatic EI): 將情商應用於解決實際問題的能力。
洞察深度 (Depth of insight): 能否提供深刻、新穎的觀點，發現潛在問題。
社交敏銳度 (Social dexterity): 在社交互動中應對自如。
情感推理 (Emotional reasoning): 進行基於情感的邏輯思考。
適當的驗證與挑戰 (Appropriate validation and/or challenge): 知道何時該給予肯定，何時該提出不同看法。
針對性溝通 (Message tailoring): 根據對象和情境調整溝通方式。
綜合情商 (Overall EQ): 整體的情感智能表現。

僅供參考的「個性」特質：

擬人度 (Humanlike): 回應的自然、擬人程度。
自信度 (Assertive): 在需要時能自信地設定界線。
溫暖度 (Warm): 友善、親切、易於接近的語氣。
服從性 (Compliant): 遵循指令或同意使用者的意願。

結語：AI 的未來，始於「人心」

EQ-Bench 的這份榜單，為我們揭示了 AI 發展的一個重要趨勢：技術的競賽，正從單純的「智商」比拚，轉向更為複雜的「情商」較量。

一個高情商的 AI，不僅能更高效地完成任務，更能建立起與人類之間的情感連結與信任。未來，當我們選擇 AI 服務時，或許會像挑選朋友一樣，不僅看它有多聰明，更看重它是否「懂我」。

這場 AI 情商大戰才剛剛開始，下一次的榜單又會有怎樣的驚喜？讓我們拭目以待。

分享至:

Featured Partners

SPONSORED

videoweaver.app

Video Weaver: 瀏覽器內完成專業影片剪輯，無需下載、即刻創作。

Learn More

SPONSORED

DMflow.chat

DMflow.chat: 您的智能AI夥伴，提升客戶互動、創造卓越體驗。

Learn More

SPONSORED

DMflow.chat

探索DMflow.chat，立即開啟AI驅動的客戶服務新時代。

Learn More

SPONSORED

videoweaver.app

Video Weaver: 瀏覽器內完成專業影片剪輯，無需下載、即刻創作。

Learn More

SPONSORED

DMflow.chat

DMflow.chat: 您的智能AI夥伴，提升客戶互動、創造卓越體驗。

Learn More

SPONSORED

DMflow.chat

探索DMflow.chat，立即開啟AI驅動的客戶服務新時代。

Learn More

Recommended for You

A …

tool

AI 模型繪圖能力大對決：9 款頂尖 LLM 的 SVG 生成實測

當大型語言模型開始挑戰「視覺程式碼」，誰才是真正的贏家？本文深入解析 Claude Sonnet 4.5、GPT-5.1、Gemini 3.0 等 9 款頂尖 AI 模型的 SVG 生成評測，探討這些模型在 30 個創意提示詞下的表現，並分析這對開發者與設計師意味著什麼。程式碼與藝術的交匯點你有沒有想過，那些擅長寫 Python 或 JavaScript 的人工智慧，如果被要求「畫畫」會發生什麼事？這裡指的不是像 Midjourney 那樣生成像素圖片，而是撰寫 SVG（可縮放向量圖形）程式碼。這就像是要求一個數學家透過寫公式來畫出一隻貓，聽起來很瘋狂，但這正是目前 AI 領域最有趣的戰場之一。最近一項名為「LLM SVG Generation Benchmark」的評測引起了廣泛關注。這項測試集結了目前市面上最強大的 9 款 AI 模型，讓它們挑戰 30 個極具創意的 SVG 生成指令。這不單是測試誰的程式碼寫得對，更是測試這些模型是否具備「空間推理」與「視覺想像」的能力。這場對決的參賽者名單堪稱夢幻陣容，包含了從 Anthropic、OpenAI、Google 到 xAI 和阿里巴巴等科技巨頭的最新力作。參賽選手介紹：2025 年的頂尖戰力這份評測名單透露出一個訊息，AI 模型的迭代速度簡直快得驚人。讓我們仔細看看這 9 位選手，它們代表了目前大型語言模型（LLM）的最高水準： Claude Sonnet 4.5 (Anthropic)：向來以寫程式邏輯嚴謹著稱，這次升級版能否在圖形邏輯上延續優勢？ Claude Opus 4.5 (Anthropic)：作為 Anthropic 的旗艦款，理論上在處理複雜指令時應有更細膩的表現。 Grok Code Fast 1 (xAI)：擁有 314B 參數的 MoE（混合專家）架構，主打速度與程式碼生成，是馬斯克旗下 xAI 的重要戰力。 Gemini 2.5 Pro (Google)：Google 的主力模型，在多模態理解上一直表現不俗。 Gemini 3.0 Pro Preview (Google)：這是 Google 下一代的預覽版，讓人期待是否有突破性的架構改進。 DeepSeek V3.2-Exp (685B/37B MoE)：來自開源社群的強大挑戰者，龐大的參數量暗示了它對複雜世界的理解力。 GLM-4.6 (Zhipu AI, 355B/32B MoE)：智譜 AI 的最新迭代，展現了中文語系模型在程式碼領域的競爭力。 Qwen3-VL-235B-A22B-Thinking (Alibaba)：阿里雲的通義千問系列，特別標註了「Thinking」，暗示其強化了推論過程（CoT），這對圖形生成至關重要。 GPT-5.1 (OpenAI)：作為市場的標竿，GPT 系列的每一次更新都是眾人焦點，5.1 版本勢必在創造力上有所提升。為什麼 SVG 生成這麼難？或許你會問，生成一張圖有什麼難的？DALL-E 不早就做到了嗎？

Dec 2, 2025 Read →

不 …

tool

不僅是奪金：Google DeepMind 推出 IMO-Bench，為 AI 數學推理能力樹立新標竿

Google DeepMind 在其 Gemini 模型於國際數學奧林匹亞（IMO）競賽達到金牌標準後，正式發布 IMO-Bench。這不只是一個評測工具，更是一套推動 AI 從「解決問題」邁向「深度推理」的全新基準，旨在引領 AI 領域進入更強健、更富創造力的數學推理新時代。 AI 數學競賽奪金之後，我們該關注什麼？ 2025 年 7 月，人工智慧領域迎來了一個歷史性的時刻：Google DeepMind 的先進 Gemini 模型，搭載了 Deep Think 技術，在國際數學奧林匹亞（IMO）競賽中達到了金牌標準。這無疑是 AI 發展的重大里程碑。然而，這場勝利的意義遠不止於在 IMO 等級的難題上取得優異成績。真正的目標，是打造一個能夠進行深度、穩健數學推理的系統。畢竟，只給出正確答案是不夠的，理解並證明「為何如此」才是通往真正智慧的關鍵。正是基於這樣的理念，在 EMNLP 2025 大會上，Google DeepMind 隆重推出了 IMO-Bench——一套先進的推理基準測試。它不僅在 Gemini 的奪金之路上扮演了核心角色，更旨在為整個 AI 社群推開數學推理能力的新大門。所以，IMO-Bench 到底是什麼？簡單來說，IMO-Bench 是一套專門用來評估 AI 模型數學能力的「考題」。但這可不是普通的考試，它的所有題目都經過了由 10 位 IMO 金牌和 5 位銀牌得主組成的專家小組嚴格審核。 IMO 的題目之所以困難，是因為它們不僅需要嚴謹的多步驟推理，更需要跳脫公式框架的創造力。這也正是 IMO-Bench 的核心所在。它不只關心 AI 能否算出答案，更關心 AI 能否「思考」。 IMO-Bench 主要由三個部分組成，各有側重： IMO-AnswerBench：大規模測試，包含 400 道題目，專注於評估模型「給出正確答案」的能力。 IMO-ProofBench：進階評估，包含 60 道題目，旨在檢驗模型「撰寫嚴謹證明過程」的能力。 IMO-GradingBench：包含 1000 個案例，用於推動「自動評估長篇答案」的技術進展。這套基準的發布，就是希望引導社群的焦點從單純的「最終答案」轉移到更為關鍵的「證明過程」本身，從而實現對 AI 推理能力的更嚴格評估。

Nov 5, 2025 Read →

L …

tool

LLM 智慧體期中考：VitaBench 揭示殘酷真相，頂尖模型成功率僅 30%？

當我們以為大型語言模型（LLM）驅動的 AI 智慧體（Agent）無所不能時，美團 LongCat 團隊發布的最新評測基準 VitaBench 卻給了整個產業一記當頭棒喝。這項堪稱「最難模擬考」的測試顯示，即使是頂尖的 AI 模型，在處理複雜的真實世界任務時，成功率也低得驚人。這究竟是怎麼回事？當 AI 智慧體走出實驗室，現實給了它一巴掌近年來，大型語言模型（LLM）驅動的 AI 智慧體（Agent）無疑是科技圈最炙手可熱的話題。我們想像著，未來只要動動嘴，AI 助理就能幫我們處理預訂餐廳、規劃旅遊、安排外送等一切大小事。聽起來很美好，對吧？但現實總是有點骨感。目前的 AI 智慧體，在單純、封閉的環境下或許表現不錯，就像是在駕訓班的練習場開車，一切順利。然而，一旦將它們放到真實世界的十字路口——充滿了突發狀況、模糊指令和多重任務的複雜環境——它們還能應付自如嗎？答案可能讓你有些失望。過去的許多評測基準，都過於簡化問題，無法真正反映現實生活的複雜性。這就像用一元一次方程式去評估一位數學家的能力，完全沒測出真本事。 VitaBench：為 AI 智慧體打造的「終極試煉場」為了解決這個問題，美團的 LongCat 團隊推出了 VitaBench——一個專為評測 LLM 智慧體在真實世界應用中表現而設計的全新、高難度基準。你可以把 VitaBench 想像成一個極度擬真的「生活模擬器」。它不再是紙上談兵，而是直接將 AI 丟進我們最熟悉的三大生活場景：美食外送到店消費線上旅遊服務這個模擬環境有多複雜？它整合了高達 66 種不同的工具（Tools），從查詢店家資訊、訂位、下單到支付，幾乎涵蓋了所有可能的操作。不只是單一任務，而是「跨場景」的連續挑戰 VitaBench 的核心挑戰在於它的任務設計。它不僅有 300 個單一場景的任務，更設計了 100 個極具挑戰性的「跨場景任務」。這是什麼概念？舉個例子，一個真實的用戶需求可能是：「幫我預訂一家能看到河景的飯店，並在入住當晚，在飯店附近找一家評價不錯、不辣的餐廳，預算 200 美元。」這個任務要求 AI 智慧體：理解複雜意圖：不只要訂飯店，還要訂餐廳，並且兩者有關聯。跨時空推理：需要處理入住日期、晚餐時間、飯店與餐廳的地理位置關係。靈活使用工具：必須先用「飯店預訂工具」，再根據結果使用「餐廳搜尋工具」。主動澄清：如果用戶指令模糊，AI 需要主動追問，例如「您希望的餐廳是哪種菜系？」追蹤動態意圖：在多輪對話中，用戶可能會改變主意，AI 需要能跟上節奏。老實說，這對人類來說都有點複雜，更何況是 AI？殘酷的成績單：頂尖 AI 也紛紛「陣亡」那麼，在這場終極試煉中，當今最強大的 AI 模型們表現如何呢？

Oct 21, 2025 Read →