Benchmark

Page 1 of 1 (9 items)

tool

Nov 5, 2025

Google DeepMind 在其 Gemini 模型于国际数学奥林匹亚（IMO）竞赛达到金牌标准后，正式发布 IMO-Bench。这不只是一个评测工具，更是一套推动 AI 从「解决问题」迈向「深 …

tool

Oct 21, 2025

当我们以为大型语言模型（LLM）驱动的 AI 智能体（Agent）无所不能时，美团 LongCat 团队发布的最新评测基准 VitaBench 却给了整个产业一记当头棒喝。这项堪称「最难模拟考」的测 …

tool

Oct 9, 2025

探索最新的 AI 模型任务完成度评测报告 TaskBench。令人惊讶的是，Gemini 2.5 Flash 等模型在特定任务上的表现超越了许多知名的大型模型。本文将深入解析评测结果，并探讨为何“更 …

tool

Sep 10, 2025

我们总以为 AI 无所不能，但一个简单的类比时钟却让 Google Gemini 和 OpenAI GPT-5 等顶尖模型纷纷败下阵来。最新的 ClockBench 基准测试显示， …

tool

Sep 2, 2025

AI 总是不够「听话」？美团发布全新指令遵循评测基准 Meeseeks，透过独特的多轮纠错机制，深度评估 AI 模型是否能真正理解并执行复杂指令。本文将带您深入了解 Meeseeks 的三层评测框 …

tool

Aug 21, 2025

AI 写代码的能力越来越强，但我们如何知道谁才是真正的王者？腾讯混元推出的 AutoCodeBench 是一个全新、高难度的评测基准，涵盖 20 种程式语言。本文将深入解析其技术原理， …

tool

Aug 15, 2025

你以为 AI 只会写程式、算数学吗？错了！最新的 LLM 社交能力基准测试，让 AI 们在「淘汰赛」中一较高下，看谁最会说服、拉拢、甚至「搞政治」。结果出乎意料，快来看看你爱用的模型排第几！我们常 …

tool

Aug 14, 2025

AI 界的竞争已进入白热化阶段！一个名为 Design Arena 的基准测试平台，正透过大规模的群众投票，全面检视各大 AI 在写程式、建网站、生成图像、影片乃至声音等领域的真实实力。最新榜单显 …

tool

Aug 14, 2025

AI 不再只是冰冷的机器。最新的 EQ-Bench 3 情商评测榜单出炉，结果可能让你大吃一惊。本文将深入解析这份榜单，看看 Horizon-Alpha、Kimi、GPT-5 和 Gemini 等顶 …