美団LongCatチームは、論理、数学、コードなど複数の分野でオープンソースモデルのトップレベルに達した、新しい高効率推論モデルLongCat-Flash-Thinkingを発表しました。本記事では、その性能、効率の利点、そしてAI開発者コミュニティにとっての意義を深く分析します。
人工知能の発展速度は、特に大規模言語モデル(LLM)の分野では、ほとんど追いつけないほど速く、ほぼ常に驚くべき新しい技術が登場しています。最近、美団のLongCatチームが大きなニュースをもたらし、彼らの新しい高効率推論モデルであるLongCat-Flash-Thinkingを正式に発表しました。
これは単なるマイナーアップデートではありません。このモデルは、前身であるLongCat-Flash-Chatの極めて高い速度を継承するだけでなく、「思考」能力においても大きな飛躍を遂げました。総合的な評価によると、論理、数学、コード生成、さらには複雑なエージェントタスクにおいて、世界のオープンソースモデルの中で最先端(SOTA)のレベルに達しています。
では、LongCat-Flash-Thinkingは一体どこが強いのか?
簡単に言えば、より賢く、より専門的な思考者です。
これまで、多くのモデルは単一のタスクでは優れたパフォーマンスを発揮するかもしれませんが、深い思考と多段階の推論を必要とする複雑な問題に直面すると、力不足を感じさせることがありました。LongCat-Flash-Thinkingは、この行き詰まりを打破しようと試みています。その最大の特徴は、中国で初めて「ディープシンキング+ツール呼び出し」と「非形式的+形式的」推論能力を統合した言語モデルであることです。
これは少し専門的に聞こえるかもしれませんが、次のように理解できます。
- ディープシンキング+ツール呼び出し: 人間のように複雑な論理的推論を行うだけでなく、自律的かつ知的に外部ツール(計算機、コードインタプリタなど)を呼び出して自身を支援することができます。まるで、問題解決のためにツールを使いこなす専門家のようです。
- 非形式的+形式的推論: 日常的な自然言語の会話(非形式的)を理解できるだけでなく、厳密な数学の定理証明(形式的)も処理できるため、応用範囲が広がります。
率直に言って、非常に頭を使うタスク、例えば難易度の高い数学コンテストの問題、複雑なコードのデバッグ、多段階の計画が必要なエージェントタスクなどを処理する際に、LongCat-Flash-Thinkingの利点は特に顕著です。
口先だけでなく、データはどうなっているのか?
もちろん、口先だけでは意味がありません。モデルの強さは、最終的には標準化されたテストでのパフォーマンスによって決まります。LongCatチームが公開したデータチャートを見ると、LongCat-Flash-Thinkingは確かに素晴らしい成績を収めています。
コード、数学、論理的推論をカバーする一連のベンチマークテストで、GPT-5-ThinkingやGemini-2.5 Proなどのクローズドソースの巨人を含む世界のトップモデルや、他の優れたオープンソースモデルと競い合いました。
| ベンチマーク(指標) | LongCat-Flash-Thinking | DeepSeek-V2.1-Thinking | Qwen1.5-32B-A22B-Thinking-S207 | GLM-4.5 | OpenAI o1 mini | Gemini-2.5 Pro | GPT-5-Thinking |
|---|---|---|---|---|---|---|---|
| LiveCodeBench (Mean@4) | 79.4 | 80.6 | 73.5 | 75.4 | 61.1 | 76.2 | 74.2 |
| OJBench (Pass@1) | 40.7 | 33.6 | 32.1 | 19.0 | 38.4 | 41.6 | 34.1 |
| AIME-24 (Mean@32) | 93.3 | 93.9 | 89.3 | 91.6 | 90.7 | 92.0 | - |
| HMMT-25 (Mean@32) | 83.7 | 80.4 | 76.3 | 71.9 | 79.3 | 83.8 | - |
| τ²-Bench (Average Mean@4) | 74.0 | - | 63.8 | 44.4 | 57.8 | 67.6 | 80.1 |
| VitaBench (Pass@1) | 29.5 | 21.5 | 13.5 | 26.8 | 35.3 | 29.3 | 24.3 |
| MiniF2F-Test (Pass@32) | 81.0 | 79.5 | 26.6 | 27.0 | 37.7 | 41.8 | 51.2 |
| ARC-AGI (Pass@1) | 50.3 | 37.5 | 45.3 | 21.4 | 47.3 | 46.8 | 59.0 |
いくつかの主要なテスト項目を見てみましょう。
- コード生成能力を試すOJBenchテストでは、LongCat-Flash-Thinkingが40.7という高得点でトップに立ち、すべての競合を上回りました。
- 数学的推論のMiniF2F-Testでも、81.6というスコアで他をリードしました。
- 非常に挑戦的な数学コンテストであるAIME-24とHMMT-25でも、そのパフォーマンスはGPT-5-ThinkingやGemini-2.5 Proなどのトップモデルに匹敵するものでした。
これはGPT-5やGeminiと比べてどうなのか?
注目すべき詳細の1つは、いくつかの総合スコア(τ²-Benchなど)ではGPT-5のようなトップのクローズドソースモデルと比較してまだ若干の差があるものの、LongCat-Flash-Thinkingはオープンソースモデルのトップティアにしっかりと定着していることです。AIコミュニティ全体にとって、これは非常に重要なマイルストーンであり、開発者や研究者がより低い敷居で世界トップクラスのAI推論能力にアクセスできることを意味します。
強力なパフォーマンス、しかしコストは慎重に考慮する必要がある
開発者にとって、モデルのパフォーマンスは確かに重要ですが、運用効率とコストも重要な考慮事項です。これがLongCat-Flash-Thinkingのもう1つの大きなハイライトです。
それは賢いだけでなく、「倹約家」でもあります。
公式データによると、AIME-24数学コンテストのテストで、LongCat-Flash-Thinkingは最高の精度を達成しながら、必要なトークン数を64.5%削減しました!これは、より低い計算コストとより速い応答速度を意味します。
この背後にある功労者は、チームによるインフラストラクチャの最適化です。彼らが採用した非同期強化学習(Async RL)フレームワークは、従来の同期フレームワークと比較して3倍のトレーニング速度向上を達成しました。これにより、モデルはより速く反復および最適化でき、ユーザーにはより効率的な推論体験がもたらされます。
直接体験し、オープンソースの力を受け入れよう
結局のところ、一番良い方法は自分で試してみることです。美団LongCatチームは、AI技術の発展を促進する決意を示すため、LongCat-Flash-Thinkingモデルを複数のプラットフォームで完全にオープンソース化しました。
AI研究者、アプリケーション開発者、あるいは単に最先端技術に興味がある人であっても、以下のチャネルを通じてこの強力なモデルにアクセスできます。
- モデルダウンロード(Hugging Face): meituan-longcat/LongCat-Flash-Thinking
- ソースコード(GitHub): meituan-longcat/LongCat-Flash-Thinking
- オンライン体験: longcat.ai
要約すると、LongCat-Flash-Thinkingのリリースは、美団にとってAI分野における大きな技術的ブレークスルーであるだけでなく、世界のオープンソースコミュニティへの寛大な贈り物でもあります。これは、オープンソースモデルが最も複雑な推論タスクにおいてトップレベルのパフォーマンスに挑戦し、さらにはそれを超える能力を持っていることを証明すると同時に、効率とコストも考慮に入れています。これは間違いなく、より多くの革新的なアプリケーションの誕生を促し、私たちの継続的な注目に値します。


