Zhipu AIが再び奇策を放つ！GLM-4.5Vが彗星の如く現れ、オープンソース最強のビジョンモデルの座を狙う

AI界にまたもやビッグニュースです！Zhipu AIが、MoEアーキテクチャに基づく新世代の視覚推論モデル「GLM-4.5V」を正式にリリースしました。このモデルは、多くのベンチマークテストでトップに立つだけでなく、オープンソースとしてすべての開発者に公開されています。本記事では、なぜGLM-4.5Vが現在のオープンソース分野におけるパフォーマンスモンスターと称賛されているのかを詳しく解説します。

見間違いではありません。AIの進化のスピードは、決して期待を裏切りません。誰もがまだ大規模言語モデル（LLM）の様々な可能性について熱心に議論している中、Zhipu AIは静かに爆弾を投下しました——新世代のフラッグシップ視覚言語モデル（VLM）であるGLM-4.5Vを正式に発表したのです。

これは単なる定期的な製品アップデートではありません。GLM-4.5Vの登場は、オープンソースコミュニティ全体の技術的な天井を直接引き上げたと言えるでしょう。画像やテキストなどのマルチモーダル入力に対応するだけでなく、複数の権威あるベンチマークテストで、圧倒的なスコアで多くの競合を打ち負かし、いわゆるSOTA（State-of-the-Art）レベルに達しました。

では、このモデルは一体どんな能力を持っているのでしょうか？一緒に見ていきましょう。

スコアを見る前に、その「心臓部」——MoEアーキテクチャについて話そう

パフォーマンスを深く掘り下げる前に、まずGLM-4.5Vの核心的な設計であるMoE（Mixture-of-Experts）アーキテクチャ、つまり「専門家混合」アーキテクチャを理解する必要があります。

これはどのような概念でしょうか？トップクラスのコンサルタントチームを想像してみてください。従来の大型モデルは、すべての分野をマスターしようとするジェネラリストのようなもので、知識は豊富ですが、特定の専門的な問題を扱う際には深さが足りないかもしれません。しかし、MoEアーキテクチャは異なります。内部に複数の「専門家ネットワーク」を持ち、各専門家が画像認識、テキスト理解、論理的推論など、特定の分野に特化しています。

モデルがタスクを受け取ると、「ゲーティングネットワーク」が、このタスクをどの専門家に任せるのが最も効率的かを賢く判断します。これにはどんな利点があるのでしょうか？

より高い効率性： すべての問題を処理するために、もはや巨大なモデル全体を動員する必要はありません。GLM-4.5Vの総パラメータ数は1060億ですが、タスクを処理するたびにアクティブになるのは約120億のパラメータだけです。これは、会社中の全員を呼び出すのではなく、チーム内の関連する専門家2、3人に会議を依頼するようなものです。
より強力なパフォーマンス： 「餅は餅屋」。専門の「専門家」が特定のタスクを処理することで、当然「ジェネラリスト」よりも良い結果が得られます。

これこそが、GLM-4.5Vが比較的に低い計算コストを維持しながら、驚異的なパフォーマンスを発揮できる秘密兵器なのです。

データが物語る：GLM-4.5Vの驚異的なパフォーマンス

口先だけでは意味がありません。直接データを見てみましょう。Zhipu AIが公開したベンチマークテストの成績表は、非常に見事なものです。この詳細な比較では、GLM-4.5VはStep-3やQwen2.5-VLなどの著名なモデルと真っ向から対決しました。

正直なところ、結果は少し一方的です。

Benchmarks	GLM-4.5V (106B, A12B w/ thinking)	Step-3 (321B A3B w/ thinking)	Qwen2.5-VL (72B w/o thinking)	GLM-4.1V (9B w/ thinking)	Kimi-VL-2506 (16B A3B w/ thinking)	Gemma-3 (27B w/o thinking)
General VQA
MMBench v1.1	88.2	81.1*	88.0	85.8	84.4	80.1*
MMBench v1.1 (CN)	88.3	81.5*	86.7*	84.7	80.7*	80.8*
MMStar	75.3	69.0*	70.8	72.9	70.4	60.0*
BLINK (val)	65.3	62.7*	58.0*	65.1	53.5*	52.9*
MUIRBENCH	75.3	75.0*	62.9*	74.7	63.8*	50.3*
HallusionBench	65.4	64.2	56.8*	63.2	59.8*	45.8*
ZeroBench (sub)	23.4	23.0	19.5*	19.2	16.2*	17.7*
GeoBench	79.7	72.9	74.3*	76.0	48.0*	57.5*
STEM
MMMU (val)	75.4	74.2	70.2	68.0	64.0	62.0*
MMMU Pro	65.2	58.6	51.1	57.1	46.3	37.4*
MathVista	84.6	79.2*	74.8	80.7	80.1	64.3*
MathVision	65.6	64.8	38.1	54.4	54.4*	39.8*
MathVerse	72.1	62.7*	47.8*	68.4	54.6*	34.0*
DynaMath	53.9	50.1	36.1*	42.5	28.1*	28.5*
LogicVista	62.4	60.2*	56.2*	60.4	51.4*	47.3*
AI2D	88.1	83.7*	87.6*	87.9	81.9*	80.2*
WeMath	68.8	59.8	46.0*	63.8	42.0*	37.9*
Long Document OCR & Chart
MMLongBench-Doc	44.7	31.8*	35.2*	42.4	42.1	28.4*
OCRBench	86.5	83.7	85.1*	84.2	86.9	75.9*
ChartQAPRO	64.0	56.4	46.7*	59.5	23.7*	37.6*
ChartMuseum	55.3	40.0*	39.6*	48.8	33.6*	23.9*
Visual Grounding
RefCOCO-avg (val)	91.3	20.2*	90.3	85.3	33.6*	2.4*
TreeBench	50.1	41.3*	42.3	37.5	41.5*	33.8*
Ref-L4-test	89.5	12.2*	80.8*	86.8	51.3*	2.5*
Spatial Reco & Reasoning
OmniSpatial	51.0	47.0*	47.9	47.7	37.3*	40.8*
CV-Bench	87.3	80.9*	82.0*	85.0	79.1*	74.6*
ERQA	50.0	44.5*	44.8*	45.8	36.0*	37.5*
All-Angles Bench	56.9	52.4*	54.4*	52.7	48.9*	48.2*
GUI Agents
OSWorld	35.8	/	8.8	14.9	8.2	4.4*
AndroidWorld	57.0	/	35.0	41.7	/	34.8*
WebVoyagerSom	84.4	/	40.4*	69.0	/	3.4*
Webquest-SingleQA	76.9	60.5*	72.1	72.1	35.6*	31.2*
Webquest-MultQA	60.6	52.8*	52.1*	54.7	11.1*	36.5*
Coding
Design2Code	82.2	34.1	41.9*	64.7	38.8	16.1
Flame-React-Eval	82.5	63.8	46.3*	72.5	36.3	27.5
Video Understanding
VideoMME (w/o sub)	74.6	/	73.3	68.2	67.8	58.9*
VideoMME (w/ sub)	80.7	/	79.1	73.6	71.9	68.4*
MMVU	68.7	/	62.9	59.4	57.5	57.7*
VideoMMU	72.4	/	60.2	61.0	65.2	54.5*
LVBench	53.8	/	47.3	44.0	47.6*	45.9*
MotionBench	62.4	/	56.1*	59.0	54.3*	47.8*
MVBench	73.0	/	70.4	68.4	59.7*	43.5*

注：アスタリスク（）付きのスコアは、実験室での再現実験の結果です。*

表からわかるように、GLM-4.5Vは大多数の項目で太字のスコアでリードしており、特に一般的な視覚的質問応答（General VQA）、STEM、さらには長文の光学文字認識（OCRBench）においても非常に優れたパフォーマンスを示しています。これは、「絵を見て物語を語る」能力に長けているだけでなく、深い論理的推論能力と専門知識の理解能力を兼ね備えていることを証明しています。

興味深い点として、総パラメータ数が3210億にも上るStep-3のような巨大モデルを相手にしても、GLM-4.5Vはいくつかの重要な項目で勝利を収めています。これは、MoEアーキテクチャの効率性とパフォーマンスの絶妙なバランスを改めて証明するものです。

テストから現実へ：これは私たちにとって何を意味するのか？

ベンチマークのスコアはもちろん重要ですが、これらの数字が現実世界でどのような変化をもたらすのでしょうか？

より賢いAIアシスタント： 会議のホワイトボードの写真を渡せば、自動的に議事録にまとめてくれます。複雑な財務報告書のスクリーンショットを渡せば、重要なデータを分析してくれます。
自動化能力のさらなる向上： GUIエージェントテストでの優れたパフォーマンスは、ソフトウェアのインターフェースを操作し、チケット予約やフォーム入力などの煩雑なタスクを自動で完了させる真の「ソフトウェアロボット」を実現する可能性を示しています。
開発者の強力な助っ人： 開発者は、その視覚理解能力を利用して、UIデザイン案を直接コードに変換したり、アプリケーションのエラー画面を「理解」させてデバッグを補助させたりすることができます。

簡単に言えば、GLM-4.5Vの登場により、AIは単なるおしゃべりマシンではなく、人間の「目と脳の協調」作業モードにさらに近づいたのです。

オープンソースの力：誰もがアクセスできる最先端技術

最もエキサイティングな点は、Zhipu AIがこれほど強力なGLM-4.5Vをオープンソースとして公開することを選んだことです。

これは、あなたが独立した開発者であれ、学術研究者であれ、スタートアップのエンジニアであれ、今やHugging Faceプラットフォームを通じてモデルをダウンロードしたり、APIサービスを利用して、この最先端の視覚推論能力を自身のアプリケーションに統合できることを意味します。

オープンソースという決定は、間違いなくAIエコシステム全体のイノベーションを大幅に加速させるでしょう。将来的には、スマート教育、医療画像分析からインタラクティブエンターテイメントまで、GLM-4.5Vを基盤とした興味深いアプリケーションが数多く登場することが予想されます。可能性は無限大です。

結論として、GLM-4.5Vは単にパフォーマンスの高い新モデルであるだけでなく、Zhipu AIが世界中の開発者に向けて、マルチモーダルAIの未来を共に探求しようという招待状のようなものです。視覚と言語の両方によって駆動されるこの技術革命は、まだ始まったばかりです。

Featured Partners

SPONSORED

DMflow.chat

Discover DMflow.chat and unlock the new era of AI-powered customer service.

Learn More

SPONSORED

videoweaver.app

Video Weaver: Professional video editing directly in your browser. No downloads required.

Learn More

SPONSORED

DMflow.chat

DMflow.chat: Your intelligent AI partner for exceptional customer engagement.

Learn More

SPONSORED

DMflow.chat

Discover DMflow.chat and unlock the new era of AI-powered customer service.

Learn More

SPONSORED

videoweaver.app

Video Weaver: Professional video editing directly in your browser. No downloads required.

Learn More

SPONSORED

DMflow.chat

DMflow.chat: Your intelligent AI partner for exceptional customer engagement.

Learn More

Recommended for You

G …

tool

Google Gemma 4 完全解析：ハードウェアの限界を超え、軽量さと強力さを兼ね備えた最強のオープンソースモデル

Google Gemma 4 完全解析：ハードウェア의 限界を超え、ポータビリティと演算力を両立したオープンソースAIモデルスマートフォンやエッジデバイスでハイエンドなAIをスムーズに動かしたいですか？Googleが新たに発表したGemma 4モデルは、パフォーマンスとリソース消費の絶妙なバランスを実現しました。本記事では、E2B、E4B、26B、31Bの 4つのバージョンの違いを詳細に解析し、ネイティブオーディオ入力機能、超長文処理能力、そして開発者に優しいApache 2.0ライセンスを通じて、オープンソース技術をエッジコンピューティングやクラウドワークステーションにシームレスに適用する方法を探ります。 AI技術が日々進化する中、開発者が直面する課題もますます厳しくなっています。かつては、機械が質問に正常に回答できるだけで驚きでしたが、今や誰もがより賢い論理的推論や、自律的にタスクを執行する能力を求めています。しかし、限られたハードウェアリソースでこれらの高度な機能を実現することは、常に頭の痛い難題でした。この課題を解決するため、Googleはこれまでのオープンソースモデルの中で最もインテリジェントなGemma 4を正式にリリースしました。Gemini 3と同じ世界クラスの研究基盤の上に構築されたこのモデルは、高度な推論とエージェントワークフロー (Agentic workflows) に特化して最適化されています。最大の利点は、Gemma 4がビジネスに極めて友好的なApache 2.0ライセンスを採用していることです。これにより、企業や開発者はデータ管理とデジタル主権を 100% 保持できます。

Apr 3, 2026 Read →

K …

tool

Kimi K2.5モデル解説：オープンソース界の新たな指標、ビジュアルコーディングとマルチエージェント協調の実力

Moonshot AIが最新のオープンソースモデルKimi K2.5を発表。ネイティブなマルチモーダル能力と強力な「群知能エージェント（Agent Swarm）」技術を搭載しています。本記事では、ビジュアルコード生成、マルチエージェント協調、そして複雑なオフィス業務におけるその画期的なパフォーマンスを詳細に分析し、単一エージェントを超える効率をいかにより低いコストで実現しているかを探ります。技術界隈で最近、心躍るニュースがありました。Moonshot AIが正式に Kimi K2.5 をリリースしたのです。これは単なるモデルのアップデートではありません。現在利用可能な最も強力なオープンソースモデルの一つです。約15T（兆）の視覚とテキストの混合トークンによる継続的な事前学習を経て、K2.5はコーディング、視覚理解、そしてエージェント協調（Agent Swarm）において、印象的な実力を示しています。開発者やプロフェッショナルにとって、これは何を意味するのでしょうか？簡単に言えば、渡された動画を理解し、美しいウェブページを書き上げ、さらには100人のAIアシスタントを指揮して同時に調べ物をさせることができるのです。それでは、Kimi K2.5の核心となるいくつかのハイライトを見ていきましょう。視覚とコードの完璧な融合：美的センスを持つエンジニアこれまでAIにウェブページを書かせると、構造は正しいものの見た目が地味なコードが出力されるのが常でした。しかし、Kimi K2.5はこの制限を打ち破りました。ネイティブなマルチモーダル能力を内蔵しているため、「ビジュアルコーディング（Coding with Vision）」を余裕を持ってこなします。ウェブサイトの操作動画やデザインのラフスケッチを渡してみると、K2.5はその中の視覚的なロジック、レイアウトのインタラクション、さらにはアニメーション効果まで理解します。単にテキストの指示を翻訳するだけでなく、「美しさ」と「ユーザーエクスペリエンス」を理解する経験豊富なフロントエンドエンジニアのように振る舞います。例えば、マティスの絵画のようなスタイルのウェブページが欲しいとします。K2.5はコードを生成するだけでなく、ビジュアルデバッキング（Visual Debugging）を通じて自己修正を行い、最終的な仕上がりが芸術的な美しさに合致するようにします。動画や画像から、リッチなスクロール効果を含むインタラクティブなインターフェースへ直接変換できるこの能力は、クリエイティブを完成品に変える敷居を大幅に下げます。群知能エージェントシステム：一騎当千の並列処理能力これはおそらくK2.5の最もSF的な機能でしょう。複雑な難題に直面したとき、単独での戦いは効率が悪いことがよくあります。Kimi K2.5は「群知能エージェント（Agent Swarm）」の概念を導入しました。これは単純なマルチタスクではなく、自ら指揮を執る協調システムです。 100の異なるニッチ市場を調査する必要があると想像してください。従来のAIエージェントなら、一つずつ順に検索していく必要があり、時間がかかるうえにエラーも起きやすいものでした。しかしK2.5のアーキテクチャでは、オーケストレーター（Orchestrator）がタスクを自動的に分解し、最大 100のサブエージェント（Sub-agents）を指揮して同時に作業を開始させます。これらのサブエージェントは訓練されたチームのように、最大 1,500回のツール呼び出しを並列実行します。これにより何が変わるのでしょうか？速度向上：単一エージェントモードと比較して、実行時間が 4.5倍短縮されます。自動編成：ユーザーがワークフローを事前に定義する必要はありません。K2.5がタスクのニーズに応じて、動的にこれらのサブエージェントを生成・管理します。この並列処理能力により、Kimi K2.5は広範囲検索（Wide Search）のようなタスクを処理する際に、驚異的な効率を発揮します。オフィス生産性の実質的な飛躍：実世界の重労働を解決実際のオフィスシーンでは、単純な質疑応答ではなく、高密度で長文のデータ処理に直面することがよくあります。Kimi K2.5はこの点に特化して最適化されています。 1万文字の論文であれ、100ページのドキュメントであれ、K2.5はエンドツーエンドの処理が可能です。単にこれらのデータを「読む」だけでなく、以下のような複雑な操作を実行できます： Word文書に正確な注釈を追加する。 Excelでピボットテーブルや財務モデルを作成する。 PDF内に複雑なLaTeX数式を記述する。内部テスト（AI Office Benchmark）によると、K2.5はこれらの生産性タスクの処理において、前世代のモデルと比較して著しい進歩を遂げており、本来数時間から数日かかる手作業を数分に短縮することができます。大量の文書を扱う専門家にとって、これは間違いなく朗報です。オープンソース界の性能指標：データは語る多くの機能を語りましたが、具体的な性能はどうなのでしょうか？複数の権威あるベンチマークテストにおいて、Kimi K2.5は素晴らしい成績を収めています。コーディング能力：SWE-bench Verifiedテストで 76.8% を達成し、オープンソースモデルの首位を確固たるものにしました。LMSYSの全体的なコードランキングでもトップ7に食い込み、多くのクローズドソースモデルと肩を並べています。エージェント能力：HLE（Human Lifespan Engineering）のフルセットテストで 50.2%、BrowseComp（ウェブブラウジング能力）テストで 74.9% を達成しており、これらのデータは指示の理解とツール操作においてトップクラスの水準にあることを示しています。視覚理解：MMMU ProやVideoMMMUなどの視覚ベンチマークテストでも、K2.5はオープンソース界をリードする実力を示しました。これら一連のデータは、Kimi K2.5が机上の空論ではなく、実世界のアプリケーションシーンにおいて、トップレベルのモデルと競い合う実力を備えていることを証明しています。 Kimi K2.5を使い始めるには？この新しいモデルを試したくてうずうずしているなら、いくつかのアプローチがあります。最も直接的な方法は Kimi.com または Kimiアプリを通じて利用することです。開発者の方は、APIを通じてK2.5の機能を統合することができます。

Jan 29, 2026 Read →

S …

tool

StepFun Step-Audio-R1.1登場：GPT-4oとGeminiを超える音声推論の新たな覇者

音声AIの競争の場において、誰もがOpenAIやGoogleの最新の動きを注視し、彼らが次の世界を震撼させる製品を出すことを期待しています。しかし最近、あるオープンウェイトモデルが静かにランキングのトップに上り詰め、多くのテック巨人を赤面させました。StepFunによって開発された Step-Audio-R1.1 という名のこのモデルは、音声推論能力において新記録を打ち立てただけでなく、リアルタイム対話の流暢さにおいても驚くべき実力を示しました。これが単なる普通の音声モデルだと思っているなら、それは大きな間違いです。Artificial Analysisの音声推論ベンチマーク（Speech Reasoning benchmark）において、96.4% という正解率で王座を獲得し、Grok、Gemini、さらにはGPT-Realtimeさえも大きく引き離しました。一体どうやってこれを成し遂げたのでしょうか？この技術の裏にある秘密を紐解いてみましょう。音声推論の新たな高み：データは嘘をつかないまずは最も直感的なデータのパフォーマンスを見てみましょう。Artificial AnalysisのBig Bench Audioデータセットのテスト結果によると、Step-Audio-R1.1は圧倒的な優位性を示しました。このリストでは、2位のGrok Voice Agentのスコアが92.3%、広く注目されているGPT-4o Realtime Previewは66%から68%の間にとどまりました。これは何を意味するのでしょうか？複雑な音声コマンドの処理、文脈の理解、論理的な推論において、Step-Audio-R1.1のパフォーマンスは、現在市場に出回っている高価な商用モデルよりも正確であることを示しています。これは単純な音声のテキスト変換後の再処理ではなく、真の「エンドツーエンド」（End-to-End）の音声ネイティブ推論です。モデルはテキストの書き起こしを仲介することなく、音の中にある論理を直接理解します。開発者や研究者にとって、これは心躍るニュースです。特に Hugging FaceでStep-Audio-R1.1の重みをダウンロードして、この技術を自ら検証できるとなれば、その衝撃はよりリアルなものになるでしょう。速度と知性のゲーム：従来のトレードオフを打破する長い間、AI分野には無視できない矛盾が存在しました。モデルを賢くしようとすれば、通常は反応速度を犠牲にしなければならず、速さを求めれば、推論の深さを犠牲にしなければならないというものです。しかし、リアルタイムの音声対話において、遅延はユーザー体験の天敵です。返事をするのに5秒も考え込むAIと会話したい人はいません。その気まずい沈黙は没入感を台無しにします。 Step-Audio-R1.1は、「思考ペース発話（Mind-Paced Speaking）」と呼ばれる技術を通じて、この難題を巧みに解決しました。これは、経験豊富な講演者が長時間立ち止まって考える必要がなく、話しながら考え、言葉を組み立てながら深い論理的推論を行えるようなものだと想像してください。これは独自のデュアルブレイン・アーキテクチャ（Dual-Brain Architecture）の恩恵を受けています：構想脳（Formulation Brain）：高レベルの論理的推論と内容の計画を担当します。表現脳（Articulation Brain）：音声生成の流暢さと自然さに焦点を当てます。この分業メカニズムにより、モデルは出力と同時に「思考の連鎖（Chain-of-Thought）」推論を行うことができます。その結果、速度と知性のどちらかを選択することなく、極めて低い遅延を維持しながら複雑なタスクを処理できるようになりました。この流暢さを体験したい方は、ModelScopeのDemoページで試してみることができます。音の中の論理を聞く：音響に基づく推論従来の音声モデルは、しばしば「逆スケーリング（inverted scaling）」の問題に遭遇していました。簡単に言えば、推論のためにテキストの書き起こしに過度に依存することをモデルに強いると、音声に含まれる感情、口調、微妙な間など、人間のコミュニケーションにおいてメッセージを伝える重要な部分を失ってしまう傾向があります。その結果、推論能力がかえって低下してしまいます。 Step-Audio-R1.1は Acoustic-Grounded Reasoning（音響に基づく推論）という戦略を採用しています。もはや音から変換されたテキストを単に「読む」のではなく、音自体の音響的特徴を直接「聴く」のです。反復的な自己蒸留（iterative self-distillation）技術を通じて、このモデルは音声データから直接論理的な手がかりを抽出する方法を学びました。これにより、本来負担になる可能性のあった「熟考」が利点へと変わりました。この技術的道筋は、将来の音声AIがネイティブであり、単なるテキストの運び屋ではなく、音の言語を理解しなければならないことを証明しています。オープンウェイトの意義：単なる技術展示ではない強力なパフォーマンスに加えて、Step-Audio-R1.1の最もエキサイティングな点はその「オープン性」にあります。ほとんどのトップモデルがクローズドソースを選択し、API呼び出しごとに料金を請求する現状において、StepFunはウェイトの公開（Open Weight）を選択しました。「音声推論と入力価格」の比較チャートを見ると、Step-Audio-R1.1は最も魅力的な象限に位置しています：高性能かつコスト制御可能（自己展開の場合）。低遅延の音声アシスタント、リアルタイム翻訳デバイス、または教育支援ツールを構築したい開発者にとって、これは間違いなく強力な後押しとなります。SOTAレベルの音声推論能力を手に入れるために、高価なAPI料金に縛られる必要はもうありません。よくある質問 (FAQ) この技術をより深く理解していただくために、いくつかの重要な質問をまとめました： 1. 「デュアルブレイン・アーキテクチャ」とは何ですか？また、対話の流暢さをどのように向上させますか？「デュアルブレイン・アーキテクチャ」は、Step-Audio-R1.1の核心的な設計理念です。これはモデルを2つの部分に分けます。論理と思考戦略を担当する「構想脳」と、これらのアイデアを流暢な音声に変換する「表現脳」です。これは人間が演説するとき、口では途切れることなく話しながら、頭の中では次の論点を構想しているようなものです。このメカニズムにより、モデルは反応速度を犠牲にすることなく複雑な論理演算を行い、真のリアルタイム対話を実現します。 2. Step-Audio-R1.1の96.4%という正解率はなぜ重要なのですか？この数字はArtificial AnalysisのBig Bench Audioテストによるもので、現在業界で認められている音声モデルの推論能力を測定する基準の一つです。96.4%というスコアは、このモデルが複雑な音声コマンドの理解や多段階タスクの処理において極めて高い精度を持っており、GPT-4o RealtimeやGeminiなどの商用クローズドソースモデルさえも凌駕していることを意味します。これは、オープンソースモデルが音声分野においてテック巨人と正面から対決し、さらには追い越すだけの実力をすでに備えていることを表しています。 3. Step-Audio-R1.1は従来の音声認識（Speech-to-Text）モデルとどう違いますか？従来の手法は通常、「音声からテキスト -> テキスト推論 -> テキストから音声」という3段階のプロセスであり、この過程で口調や感情などの音響情報が失われやすく、遅延も大きくなりがちです。Step-Audio-R1.1は「エンドツーエンド」（End-to-End）のネイティブ音声推論を採用しており、音響特徴上で直接演算を行います。これにより、豊富な音声の詳細が保持されるだけでなく、書き起こしプロセスのエラーも回避され、AIがより賢く、より敏感に反応するようになります。

Jan 16, 2026 Read →