tool

美團 LongCat 發表全新推理模型!Flash-Thinking 在多項評測中展現實力,挑戰開源模型新標竿

September 23, 2025
Updated Sep 23
1 min read

美團 LongCat 團隊推出全新高效推理模型 LongCat-Flash-Thinking,在邏輯、數學、程式碼等多個領域達到開源模型頂尖水準。本文將深入解析其性能、效率優勢以及對 AI 開發社群的意義。


人工智慧的發展速度快得讓人有點跟不上,特別是在大型語言模型(LLM)的領域,幾乎每隔一段時間就有令人驚豔的新技術出現。最近,美團的 LongCat 團隊就帶來了一個重磅消息,正式發表了他們全新的高效推理模型——LongCat-Flash-Thinking

這可不是一次小小的更新。這款模型不僅繼承了前代 LongCat-Flash-Chat 的極致速度,更在「思考」能力上實現了巨大的飛躍。綜合評估顯示,它在邏輯、數學、程式碼生成,甚至是複雜的智能體(Agent)任務上,都達到了全球開源模型中的最先進水平(SOTA)。

所以,LongCat-Flash-Thinking 究竟強在哪裡?

簡單來說,它是一個更聰明、更專業的思考者。

過去,許多模型可能在單一任務上表現不錯,但面對需要深度思考、多步驟推理的複雜問題時,就顯得有些力不從心。LongCat-Flash-Thinking 則試圖打破這個僵局。它最大的特色,就是成為國內首個同時整合了「深度思考+工具調用」與「非形式化+形式化」推理能力的語言模型。

這聽起來有點技術性,但我們可以這樣理解:

  • 深度思考+工具調用: 它不僅能像人類一樣進行複雜的邏輯推理,還能自主地、聰明地調用外部工具(例如計算機、程式碼解釋器)來輔助自己,就像一個懂得用工具解決問題的專家。
  • 非形式化+形式化推理: 它既能理解我們日常的自然語言對話(非形式化),也能處理嚴謹的數學定理證明(形式化),應用範圍變得更廣。

說白了,在處理那些極度燒腦的任務,比如高難度的數學競賽題、複雜的程式碼除錯,或是需要多步驟規劃的智能體任務時,LongCat-Flash-Thinking 的優勢就特別明顯。

不只是說說而已,數據怎麼看?

當然,空口無憑。一個模型強不強,最終還是要看它在標準化測試中的表現。從 LongCat 團隊公布的數據圖表來看,LongCat-Flash-Thinking 的確交出了一份亮眼的成績單。

在一系列涵蓋程式碼、數學、邏輯推理的基準測試中,它與全球頂尖的模型,包括 GPT-5-Thinking、Gemini-2.5 Pro 等閉源巨頭,以及其他優秀的開源模型同場競技。

Benchmark (Metric)LongCat-Flash-ThinkingDeepSeek-V2.1-ThinkingQwen1.5-32B-A22B-Thinking-S207GLM-4.5OpenAI o1 miniGemini-2.5 ProGPT-5-Thinking
LiveCodeBench (Mean@4)79.480.673.575.461.176.274.2
OJBench (Pass@1)40.733.632.119.038.441.634.1
AIME-24 (Mean@32)93.393.989.391.690.792.0-
HMMT-25 (Mean@32)83.780.476.371.979.383.8-
τ²-Bench (Average Mean@4)74.0-63.844.457.867.680.1
VitaBench (Pass@1)29.521.513.526.835.329.324.3
MiniF2F-Test (Pass@32)81.079.526.627.037.741.851.2
ARC-AGI (Pass@1)50.337.545.321.447.346.859.0

讓我們來看看幾個關鍵的測試項目:

  • 在考驗程式碼生成能力的 OJBench 測試中,LongCat-Flash-Thinking 以 40.7 的高分拔得頭籌,超越了所有對手。
  • 在數學推理的 MiniF2F-Test 中,它同樣以 81.6 的分數領先群雄。
  • 在極具挑戰性的數學競賽 AIME-24HMMT-25 測試中,它的表現也與 GPT-5-Thinking、Gemini-2.5 Pro 等頂級模型不相上下。

這和 GPT-5 或 Gemini 相比如何?

一個值得注意的細節是,雖然在某些綜合評分(如 τ²-Bench)上,與像 GPT-5 這樣的頂級閉源模型相比還有些許差距,但 LongCat-Flash-Thinking 已經穩穩地站上了開源模型的第一梯隊。對於整個 AI 社群來說,這是一個非常重要的里程碑,它意味著開發者和研究人員可以用更低的門檻,接觸到接近世界頂尖水平的 AI 推理能力。

性能強大,成本更要精打細算

對於開發者來說,模型的性能固然重要,但運行的效率和成本同樣是關鍵考量。這正是 LongCat-Flash-Thinking 的另一大亮點。

它不僅聰明,而且「節儉」。

根據官方數據,在 AIME-24 數學競賽測試中,LongCat-Flash-Thinking 在達到頂級準確率的同時,所需的 token 數量減少了 64.5%!這代表著更低的計算成本和更快的響應速度。

這背後的功臣是團隊在基礎設施上的優化。他們採用的非同步強化學習(Async RL)框架,比傳統的同步框架實現了 3 倍的訓練速度提升。這讓模型能夠更快地迭代和優化,同時也為使用者帶來了更高效的推理體驗。

親身體驗,擁抱開源的力量

說了這麼多,最好的方式還是親手試試。美團 LongCat 團隊已經將 LongCat-Flash-Thinking 模型在多個平台全面開源,展現了其推動 AI 技術發展的決心。

無論你是 AI 研究員、應用開發者,還是純粹對前沿技術感到好奇,都可以透過以下管道接觸到這個強大的模型:

總而言之,LongCat-Flash-Thinking 的發布,不僅是美團在 AI 領域的一次重要技術突破,更是對全球開源社群的一份厚禮。它證明了開源模型同樣有能力在最複雜的推理任務上,挑戰甚至超越頂尖水平,同時還兼顧了效率與成本。這無疑會激發更多創新應用的誕生,值得我們持續關注。

分享至:
Featured Partners

© 2025 Communeify. All rights reserved.