美团 LongCat 发表全新推理模型!Flash-Thinking 在多项评测中展现实力,挑战开源模型新标杆
美团 LongCat 团队推出全新高效推理模型 LongCat-Flash-Thinking,在逻辑、数学、代码等多个领域达到开源模型顶尖水准。本文将深入解析其性能、效率优势以及对 AI 开发社群的意义。
人工智能的发展速度快得让人有点跟不上,特别是在大型语言模型(LLM)的领域,几乎每隔一段时间就有令人惊艳的新技术出现。最近,美团的 LongCat 团队就带来了一个重磅消息,正式发表了他们全新的高效推理模型——LongCat-Flash-Thinking。
这可不是一次小小的更新。这款模型不仅继承了前代 LongCat-Flash-Chat
的极致速度,更在「思考」能力上实现了巨大的飞跃。综合评估显示,它在逻辑、数学、代码生成,甚至是复杂的智能体(Agent)任务上,都达到了全球开源模型中的最先进水平(SOTA)。
所以,LongCat-Flash-Thinking 究竟强在哪里?
简单来说,它是一个更聪明、更专业的思考者。
过去,许多模型可能在单一任务上表现不错,但面对需要深度思考、多步骤推理的复杂问题时,就显得有些力不从心。LongCat-Flash-Thinking 则试图打破这个僵局。它最大的特色,就是成为国内首个同时整合了「深度思考+工具调用」与「非形式化+形式化」推理能力的语言模型。
这听起来有点技术性,但我们可以这样理解:
- 深度思考+工具调用: 它不仅能像人类一样进行复杂的逻辑推理,还能自主地、聪明地调用外部工具(例如计算机、代码解释器)来辅助自己,就像一个懂得用工具解决问题的专家。
- 非形式化+形式化推理: 它既能理解我们日常的自然语言对话(非形式化),也能处理严谨的数学定理证明(形式化),应用范围变得更广。
说白了,在处理那些极度烧脑的任务,比如高难度的数学竞赛题、复杂的代码除错,或是需要多步骤规划的智能体任务时,LongCat-Flash-Thinking 的优势就特别明显。
不只是说说而已,数据怎么看?
当然,空口无凭。一个模型强不强,最终还是要看它在标准化测试中的表现。从 LongCat 团队公布的数据图表来看,LongCat-Flash-Thinking 的确交出了一份亮眼的成绩单。
在一系列涵盖代码、数学、逻辑推理的基准测试中,它与全球顶尖的模型,包括 GPT-5-Thinking、Gemini-2.5 Pro 等闭源巨头,以及其他优秀的开源模型同场竞技。
Benchmark (Metric) | LongCat-Flash-Thinking | DeepSeek-V2.1-Thinking | Qwen1.5-32B-A22B-Thinking-S207 | GLM-4.5 | OpenAI o1 mini | Gemini-2.5 Pro | GPT-5-Thinking |
---|---|---|---|---|---|---|---|
LiveCodeBench (Mean@4) | 79.4 | 80.6 | 73.5 | 75.4 | 61.1 | 76.2 | 74.2 |
OJBench (Pass@1) | 40.7 | 33.6 | 32.1 | 19.0 | 38.4 | 41.6 | 34.1 |
AIME-24 (Mean@32) | 93.3 | 93.9 | 89.3 | 91.6 | 90.7 | 92.0 | - |
HMMT-25 (Mean@32) | 83.7 | 80.4 | 76.3 | 71.9 | 79.3 | 83.8 | - |
τ²-Bench (Average Mean@4) | 74.0 | - | 63.8 | 44.4 | 57.8 | 67.6 | 80.1 |
VitaBench (Pass@1) | 29.5 | 21.5 | 13.5 | 26.8 | 35.3 | 29.3 | 24.3 |
MiniF2F-Test (Pass@32) | 81.0 | 79.5 | 26.6 | 27.0 | 37.7 | 41.8 | 51.2 |
ARC-AGI (Pass@1) | 50.3 | 37.5 | 45.3 | 21.4 | 47.3 | 46.8 | 59.0 |
让我们来看看几个关键的测试项目:
- 在考验代码生成能力的 OJBench 测试中,LongCat-Flash-Thinking 以 40.7 的高分拔得头筹,超越了所有对手。
- 在数学推理的 MiniF2F-Test 中,它同样以 81.6 的分数领先群雄。
- 在极具挑战性的数学竞赛 AIME-24 和 HMMT-25 测试中,它的表现也与 GPT-5-Thinking、Gemini-2.5 Pro 等顶级模型不相上下。
这和 GPT-5 或 Gemini 相比如何?
一个值得注意的细节是,虽然在某些综合评分(如 τ²-Bench)上,与像 GPT-5 这样的顶级闭源模型相比还有些许差距,但 LongCat-Flash-Thinking 已经稳稳地站上了开源模型的第一梯队。对于整个 AI 社群来说,这是一个非常重要的里程碑,它意味着开发者和研究人员可以用更低的门槛,接触到接近世界顶尖水平的 AI 推理能力。
性能强大,成本更要精打细算
对于开发者来说,模型的性能固然重要,但运行的效率和成本同样是关键考量。这正是 LongCat-Flash-Thinking 的另一大亮点。
它不仅聪明,而且「节俭」。
根据官方数据,在 AIME-24 数学竞赛测试中,LongCat-Flash-Thinking 在达到顶级准确率的同时,所需的 token 数量减少了 64.5%!这代表着更低的计算成本和更快的响应速度。
这背后的功臣是团队在基础设施上的优化。他们采用的非同步强化学习(Async RL)框架,比传统的同步框架实现了 3 倍的训练速度提升。这让模型能够更快地迭代和优化,同时也为使用者带来了更高效的推理体验。
亲身体验,拥抱开源的力量
说了这么多,最好的方式还是亲手试试。美团 LongCat 团队已经将 LongCat-Flash-Thinking 模型在多个平台全面开源,展现了其推动 AI 技术发展的决心。
无论你是 AI 研究员、应用开发者,还是纯粹对前沿技术感到好奇,都可以透过以下管道接触到这个强大的模型:
- 模型下载 (Hugging Face): meituan-longcat/LongCat-Flash-Thinking
- 源代码 (GitHub): meituan-longcat/LongCat-Flash-Thinking
- 线上体验: longcat.ai
总而言之,LongCat-Flash-Thinking 的发布,不仅是美团在 AI 领域的一次重要技术突破,更是对全球开源社群的一份厚礼。它证明了开源模型同样有能力在最复杂的推理任务上,挑战甚至超越顶尖水平,同时还兼顾了效率与成本。这无疑会激发更多创新应用的诞生,值得我们持续关注。