DeepSeek AIチームは、多くのユーザーからのフィードバックを受け、DeepSeek-V3.1の全新アップグレード版であるDeepSeek-V3.1-Terminusを正式にリリースしました。新バージョンは、言語の一貫性の問題を修正しただけでなく、Code AgentとSearch Agentの能力を大幅に強化し、より安定し、より強力なAI体験を提供します。本記事では、Terminusバージョンのハイライトを深く掘り下げ、詳細な評価データを通じてその実力を探ります。
あなたのフィードバックが形に:DeepSeek-V3.1-Terminusの誕生
AI技術が急速に進化する今日、モデルの良し悪しは、冷たい評価スコアだけでなく、ユーザーの課題を本当に解決できるかどうかで決まります。DeepSeek AIチームは明らかにこの点を深く理解しています。最近、彼らが正式にリリースしたDeepSeek-V3.1-Terminusは、単なるバージョンアップではなく、コミュニティとの深い対話のようです。
率直に言って、どんなに強力なモデルでも、出力に中国語と英語が混在したり、時折理解不能な異常な文字が現れたりすると、その体験は本当に興ざめです。今回のTerminusバージョンの中心的な目標の一つは、この問題を解決し、言語の一貫性を全面的に向上させることでした。
それに加えて、もう一つの主役は、エージェント能力のさらなる進化です。ここで言うエージェントとは、AIの「手」と「足」のようなもので、チャットだけでなく、複雑なタスクの実行を助けるものです。Terminusバージョンは、特にCode Agent(プログラミングのアシスタント)とSearch Agent(インターネット検索のアシスタント)を深く最適化し、実際の応用でさらに使いやすくしました。
口先だけじゃない:データで見るTerminusの実力
口先だけでは意味がありません。性能の向上は最終的にデータによって証明されるべきです。DeepSeek-V3.1-Terminusが主要な権威あるベンチマークでどのようなパフォーマンスを示したか見てみましょう。
| ベンチマーク | DeepSeek-V3.1 | DeepSeek-V3.1-Terminus |
|---|---|---|
| 非エージェント(思考モード) | ||
| MMLU-Pro | 84.8 | 85.0 |
| GPQA-Diamond | 80.1 | 80.7 |
| Humanity’s Last Exam | 15.9 | 21.7 |
| LiveCodeBench | 74.8 | 74.9 |
| Codeforces | 2091 | 2046 |
| Aider-Polyglot | 76.3 | 76.1 |
| エージェント | ||
| BrowseComp | 30.0 | 38.5 |
| BrowseComp-zh | 49.2 | 45.0 |
| SimpleQA | 93.4 | 96.8 |
| SWE Verified | 66.0 | 68.4 |
| SWE-bench Multilingual | 54.5 | 57.8 |
| Terminal-bench | 31.3 | 36.7 |
上の表から、今回の更新が包括的であることがはっきりとわかります。
非エージェント評価(モデルの基礎能力)
モデルの基礎知識と推論能力を試す「非エージェント評価」では、Terminusバージョンは従来の高い水準を維持し、一部の項目でブレークスルーを達成しました。
- MMLU-Pro & GPQA-Diamond: これら2つのテストは、モデルのマルチタスク言語理解と専門的な質疑応答能力を試すものです。
Terminusのスコアは84.8から85.0へ、80.1から80.7へとわずかに上昇し、基礎知識ベースがより強固になったことを示しています。 - Humanity’s Last Exam: これは非常に挑戦的なテストで、スコアが15.9から21.7へと大幅に跳ね上がりました!これは、モデルが極めて複雑で難解な問題を処理する能力が著しく向上したことを意味します。
- LiveCodeBench & Codeforces: コード関連のテストでは、スコアはほぼ横ばいで、新バージョンが最適化を進める一方で、強力なコード生成能力を犠牲にしていないことを証明しています。
エージェント評価(モデルのツール使用能力)
この部分こそが、今回の更新の最大のハイライトです!エージェント評価は、モデルが外部ツール(ブラウザ、ターミナルなど)を使用してタスクを完了する知能を試すものです。
- BrowseComp & SimpleQA: 実際のウェブブラウジングや簡単な質疑応答をシミュレートしたテストでは、スコアが30.0から38.5へ、93.4から96.8へと急上昇しました。これは、
TerminusのSearch Agentがより賢くなり、指示をより正確に理解して答えを見つけられるようになったことを意味します。 - SWE Verified & SWE-bench Multilingual: ソフトウェアエンジニアリング関連のテストでも着実な成長が見られ、Code Agentの実力が確かに一段と向上したことを証明しています。
- Terminal-bench: ターミナルのコマンドライン使用をシミュレートしたテストでは、スコアが31.3から36.7に向上しました。これは、複雑なシステム操作を必要とする開発者にとって、間違いなく朗報です。
注目すべきは、公式発表によると、Search Agentのツールセットが新バージョンで調整されたとのことです。より詳細な技術情報については、HuggingFaceで公開されている公式ドキュメントを参照してください。
今すぐ体験!最新のDeepSeek-V3.1-Terminusを入手する方法は?
これだけ聞いたら、すぐにでも試してみたくなったのではないでしょうか?簡単です!DeepSeekは、すべてのプラットフォームのモデルをDeepSeek-V3.1-Terminusに同期更新しました。
公式アプリ、ウェブ版、またはミニプログラムのいずれを使用していても、今体験できるのは最新かつ最強のバージョンです。
開発者や研究者向けには、DeepSeek APIも同時に更新されており、Terminusがもたらす安定性と強力さをシームレスにアプリケーションに組み込むことができます。
もちろん、オープンソースコミュニティの強力なパートナーとして、DeepSeekはモデルのダウンロードリンクもいち早く提供しています:
- HuggingFace: https://huggingface.co/deepseek-ai/DeepSeek-V3.1-Terminus
- ModelScope: https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.1-Terminus
よくある質問 (FAQ)
Q1: DeepSeek-V3.1-Terminusと以前のバージョンとの違いは何ですか?
TerminusはV3.1の重要なアップグレード版です。主にユーザーから報告された2つの課題点を最適化しています。第一に言語の一貫性で、中国語と英語の混在や異常な文字の問題を大幅に削減しました。第二にエージェント能力で、コード実行や検索タスクのパフォーマンスをより良く、より安定させました。
Q2: 今回の更新の最大のハイライトは何ですか?
最大のハイライトは、間違いなくエージェント性能の大幅な向上です。評価データから判断すると、ウェブブラウジングのシミュレーション(BrowseComp)でも、ソフトウェアエンジニアリングタスク(SWE Verified)でも、Terminusのパフォーマンスは質的な飛躍を遂げており、実際の応用シナリオでより実用的になっています。
Q3: この新しいモデルを使用するには料金がかかりますか?
いいえ!DeepSeekが無料で提供しているアプリ、ウェブ版、ミニプログラムを通じて直接体験できます。より高い要求を持つ開発者は、DeepSeek API(使用量に応じた課金)を選択するか、HuggingFaceまたはModelScopeからオープンソースモデルを直接ダウンロードしてデプロイすることができます。


