tool

美団LongCatが新しい推論モデルを発表!Flash-Thinkingが複数のベンチマークで実力を示し、オープンソースモデルの新たな基準に挑戦

September 23, 2025
Updated Sep 23
1 min read

美団LongCatチームは、論理、数学、コードなど複数の分野でオープンソースモデルのトップレベルに達した、新しい高効率推論モデルLongCat-Flash-Thinkingを発表しました。本記事では、その性能、効率の利点、そしてAI開発者コミュニティにとっての意義を深く分析します。


人工知能の発展速度は、特に大規模言語モデル(LLM)の分野では、ほとんど追いつけないほど速く、ほぼ常に驚くべき新しい技術が登場しています。最近、美団のLongCatチームが大きなニュースをもたらし、彼らの新しい高効率推論モデルであるLongCat-Flash-Thinkingを正式に発表しました。

これは単なるマイナーアップデートではありません。このモデルは、前身であるLongCat-Flash-Chatの極めて高い速度を継承するだけでなく、「思考」能力においても大きな飛躍を遂げました。総合的な評価によると、論理、数学、コード生成、さらには複雑なエージェントタスクにおいて、世界のオープンソースモデルの中で最先端(SOTA)のレベルに達しています。

では、LongCat-Flash-Thinkingは一体どこが強いのか?

簡単に言えば、より賢く、より専門的な思考者です。

これまで、多くのモデルは単一のタスクでは優れたパフォーマンスを発揮するかもしれませんが、深い思考と多段階の推論を必要とする複雑な問題に直面すると、力不足を感じさせることがありました。LongCat-Flash-Thinkingは、この行き詰まりを打破しようと試みています。その最大の特徴は、中国で初めて「ディープシンキング+ツール呼び出し」と「非形式的+形式的」推論能力を統合した言語モデルであることです。

これは少し専門的に聞こえるかもしれませんが、次のように理解できます。

  • ディープシンキング+ツール呼び出し: 人間のように複雑な論理的推論を行うだけでなく、自律的かつ知的に外部ツール(計算機、コードインタプリタなど)を呼び出して自身を支援することができます。まるで、問題解決のためにツールを使いこなす専門家のようです。
  • 非形式的+形式的推論: 日常的な自然言語の会話(非形式的)を理解できるだけでなく、厳密な数学の定理証明(形式的)も処理できるため、応用範囲が広がります。

率直に言って、非常に頭を使うタスク、例えば難易度の高い数学コンテストの問題、複雑なコードのデバッグ、多段階の計画が必要なエージェントタスクなどを処理する際に、LongCat-Flash-Thinkingの利点は特に顕著です。

口先だけでなく、データはどうなっているのか?

もちろん、口先だけでは意味がありません。モデルの強さは、最終的には標準化されたテストでのパフォーマンスによって決まります。LongCatチームが公開したデータチャートを見ると、LongCat-Flash-Thinkingは確かに素晴らしい成績を収めています。

コード、数学、論理的推論をカバーする一連のベンチマークテストで、GPT-5-ThinkingやGemini-2.5 Proなどのクローズドソースの巨人を含む世界のトップモデルや、他の優れたオープンソースモデルと競い合いました。

ベンチマーク(指標)LongCat-Flash-ThinkingDeepSeek-V2.1-ThinkingQwen1.5-32B-A22B-Thinking-S207GLM-4.5OpenAI o1 miniGemini-2.5 ProGPT-5-Thinking
LiveCodeBench (Mean@4)79.480.673.575.461.176.274.2
OJBench (Pass@1)40.733.632.119.038.441.634.1
AIME-24 (Mean@32)93.393.989.391.690.792.0-
HMMT-25 (Mean@32)83.780.476.371.979.383.8-
τ²-Bench (Average Mean@4)74.0-63.844.457.867.680.1
VitaBench (Pass@1)29.521.513.526.835.329.324.3
MiniF2F-Test (Pass@32)81.079.526.627.037.741.851.2
ARC-AGI (Pass@1)50.337.545.321.447.346.859.0

いくつかの主要なテスト項目を見てみましょう。

  • コード生成能力を試すOJBenchテストでは、LongCat-Flash-Thinkingが40.7という高得点でトップに立ち、すべての競合を上回りました。
  • 数学的推論のMiniF2F-Testでも、81.6というスコアで他をリードしました。
  • 非常に挑戦的な数学コンテストであるAIME-24HMMT-25でも、そのパフォーマンスはGPT-5-ThinkingやGemini-2.5 Proなどのトップモデルに匹敵するものでした。

これはGPT-5やGeminiと比べてどうなのか?

注目すべき詳細の1つは、いくつかの総合スコア(τ²-Benchなど)ではGPT-5のようなトップのクローズドソースモデルと比較してまだ若干の差があるものの、LongCat-Flash-Thinkingはオープンソースモデルのトップティアにしっかりと定着していることです。AIコミュニティ全体にとって、これは非常に重要なマイルストーンであり、開発者や研究者がより低い敷居で世界トップクラスのAI推論能力にアクセスできることを意味します。

強力なパフォーマンス、しかしコストは慎重に考慮する必要がある

開発者にとって、モデルのパフォーマンスは確かに重要ですが、運用効率とコストも重要な考慮事項です。これがLongCat-Flash-Thinkingのもう1つの大きなハイライトです。

それは賢いだけでなく、「倹約家」でもあります。

公式データによると、AIME-24数学コンテストのテストで、LongCat-Flash-Thinkingは最高の精度を達成しながら、必要なトークン数を64.5%削減しました!これは、より低い計算コストとより速い応答速度を意味します。

この背後にある功労者は、チームによるインフラストラクチャの最適化です。彼らが採用した非同期強化学習(Async RL)フレームワークは、従来の同期フレームワークと比較して3倍のトレーニング速度向上を達成しました。これにより、モデルはより速く反復および最適化でき、ユーザーにはより効率的な推論体験がもたらされます。

直接体験し、オープンソースの力を受け入れよう

結局のところ、一番良い方法は自分で試してみることです。美団LongCatチームは、AI技術の発展を促進する決意を示すため、LongCat-Flash-Thinkingモデルを複数のプラットフォームで完全にオープンソース化しました。

AI研究者、アプリケーション開発者、あるいは単に最先端技術に興味がある人であっても、以下のチャネルを通じてこの強力なモデルにアクセスできます。

要約すると、LongCat-Flash-Thinkingのリリースは、美団にとってAI分野における大きな技術的ブレークスルーであるだけでなく、世界のオープンソースコミュニティへの寛大な贈り物でもあります。これは、オープンソースモデルが最も複雑な推論タスクにおいてトップレベルのパフォーマンスに挑戦し、さらにはそれを超える能力を持っていることを証明すると同時に、効率とコストも考慮に入れています。これは間違いなく、より多くの革新的なアプリケーションの誕生を促し、私たちの継続的な注目に値します。

シェアする:
Featured Partners

© 2026 Communeify. All rights reserved.