Benchmark

Page 2 of 2

(17 items)

tool Aug 15, 2025

你以為 AI 只會寫程式、算數學嗎？錯了！最新的 LLM 社交能力基準測試，讓 AI 們在「淘汰賽」中一較高下，看誰最會說服、拉攏、甚至「搞政治」。結果出乎意料，快來看看你愛用的 …

tool Aug 14, 2025

AI 界的競爭已進入白熱化階段！一個名為 Design Arena 的基準測試平台，正透過大規模的群眾投票，全面檢視各大 AI 在寫程式、建網站、生成圖像、影片乃至聲音等領域的真 …

tool Aug 14, 2025

AI 不再只是冰冷的機器。最新的 EQ-Bench 3 情商評測榜單出爐，結果可能讓你大吃一驚。本文將深入解析這份榜單，看看 Horizon-Alpha、Kimi、GPT-5 …

探索DMflow.chat，立即開啟AI驅動的客戶服務新時代。

tool May 28, 2025

AI 翻譯哪家強？別再憑感覺！首個工業級 AI 翻譯評測系統 TransBench 正式發布，從通用標準、電商特性到文化細節，全方位檢驗模型實力。GPT-4o 領 …

tool May 28, 2025

還在為比較不同 AI 模型性能而頭痛嗎？Google 推出的開源框架 LMEval，提供標準化評估流程，讓 GPT-4o、Claude 3.7 Sonnet 等頂尖模型的比較更加 …

tool Apr 11, 2025

還在為修復不同語言的程式碼 Bug 煩惱嗎？ByteDance 的多語言程式碼修復基準 Multi-SWE-bench 來了！看看它如何幫助大型語言模型更聰明地解決真實世界的開發 …

Video Weaver: 瀏覽器內完成專業影片剪輯，無需下載、即刻創作。

tool Dec 21, 2024

核心摘要當今最先進的人工智慧模型是否真能與人類專家一較高下？MMLU（大規模多任務語言理解測試，Massive Multitask Language Understanding） …