GPT-4o Audioの最強のライバル？StepFunがStep-Audio 2 miniをオープンソース化、全性能データを公開！

投稿日: 2025-09-02 • 更新日: 2025-09-02 • 2 分で読めます

AI音声モデルの世界にまた新たなヘビー級選手が登場！StepFunが発表した最新のオープンソースエンドツーエンド大規模音声モデル「Step-Audio 2 mini」は、いくつかの国際的な評価でトップの座を獲得しただけでなく、一部の重要な指標では注目を集めるGPT-4o Audioをも上回りました。この記事では、このモデルがなぜこれほど強力なのか、そしてその背後にある革新的なテクノロジーについて詳しく解説します。

最近のAI界は非常に活気があります。大手企業がその力を誇示したかと思うと、StepFunというスタートアップ企業が静かに大きな一手を打ちました。最新のエンドツーエンド大規模音声モデル「Step-Audio 2 mini」を正式にオープンソース化したのです。

また音声モデルか、何か特別なものがあるのか、と思われるかもしれません。

正直なところ、今回は本当に違います。Step-Audio 2 miniは単なる「また一つ」のモデルではありません。複数の国際的に権威のあるベンチマークテストで、SOTA（State-of-the-Art、最先端技術）の成績を直接獲得し、オープンソースコミュニティでかなりの話題を呼んでいます。音声の理解、推論、生成を統一されたアーキテクチャに巧みに統合し、リアルタイムの音声翻訳から繊細な感情分析まで、さまざまなアプリケーションに非常に魅力的なソリューションを提供します。

「聞き取れる」だけでなく、「話せる」

優れた音声モデルは、単に音声をテキストに変換するだけではありません。会話の裏にある意味、口調、感情を理解する必要があります。これこそが、Step-Audio 2 miniの得意とするところです。

マルチモーダル音声理解能力を測定するMMAUテストセットでは、Step-Audio 2 miniは73.2という高得点を獲得し、オープンソース音声モデルのトップの座を確固たるものにしました。

さらに興味深いのは、口語会話能力を専門に評価するURO Benchテストでのパフォーマンスです。日常会話をシミュレートした基本コースでも、専門用語が飛び交う難関コースでも、Step-Audio 2 miniのパフォーマンスは驚異的で、どちらもオープンソースモデルの中で最高得点を獲得しました。これは何を意味するのでしょうか？それは、あなたの言うことを理解するだけでなく、本物の人間のように論理的で深みのある会話ができるということです。

データを直接見て、他の有名モデルとのパフォーマンスを比較してみましょう。

Model	MMAU	URO Bench	CoVoST 2	CVSS	StepEval-Audio-Paralinguistic
	All	EN basic	ZH basic	EN pro	ZH pro	ZH-EN	ZH-EN	All
Open-Source LALMs
Step-Audio 2 mini	73.2	74.4	77.8	61.3	69.6	39.3	29.1	80.0
Qwen-Omni	71.5	70.6	69.0	51.0	59.1	35.4	15.4	44.2
Kimi-Audio	69.6	60.0	73.6	49.8	66.1	/	/	49.6
Proprietary LALMs
GPT-4o Audio	58.1	84.5	78.6	67.5	67.1	29.6	23.7	43.5
Step-Audio 2	78.0	83.9	83.3	66.1	68.3	39.3	30.9	83.1

表から明らかなように、Step-Audio 2 miniは、総合的な理解能力（MMAU）と中国語-英語翻訳（ZH-EN）タスクにおいて、GPT-4o Audioのようなトップクラスのクローズドソースモデルさえも上回っています。

翻訳、認識、何でもござれ、データが物語る

優れた会話能力に加えて、Step-Audio 2 miniは、従来の音声認識（ASR）および翻訳タスクにおいても遜色ありません。

中国語と英語の相互翻訳に関する権威ある評価セットCoVoST2とCVSSでは、それぞれ39.3と29.1という高得点を獲得し、GPT-4o Audioを含む多くの競合他社を再びリードしました。

そして、最も基本的なスキルが試される音声認識の面では、そのパフォーマンスはさらに印象的です。精度指標（エラー率が低いほど良い）では、

中国語認識: オープンソースの中国語テストセットでの文字エラー率（CER）は**3.19%**と低い。
英語認識: オープンソースの英語テストセットでの単語エラー率（WER）は**3.50%**です。

これらの2つの結果は、同タイプのオープンソースモデルの平均よりも15%以上優れています。率直に言って、より正確に聞き取り、間違いが少ないということです。さらにすごいのは、さまざまな地域の方言やアクセントにもうまく適応できることであり、これは幅広い市場向けのアプリケーションを開発する上で非常に重要です。

Category	Test set	Doubao LLM ASR	GPT-4o Transcribe	Kimi-Audio	Qwen-Omni	Step-Audio 2	Step-Audio 2 mini
English	Common Voice	9.20	2.71	7.83	8.33	5.95	6.76
	FLEURS English	7.22	9.30	4.47	5.05	3.03	3.05
	LibriSpeech clean	2.92	1.75	1.49	2.93	1.17	1.33
	LibriSpeech other	5.32	4.23	2.91	5.07	2.42	2.86
	Average	6.17	4.50	4.18	5.35	3.14	3.50
Chinese	AISHELL	0.98	3.52	0.64	1.17	0.63	0.78
	AISHELL-2	3.10	4.26	2.67	2.40	2.10	2.16
	FLEURS Chinese	2.92	2.62	2.91	7.01	2.68	2.53
	KeSpeech phase1	6.48	26.80	5.11	6.45	3.63	3.97
	WenetSpeech meeting	4.90	31.40	5.21	6.61	4.75	4.87
	Average	3.81	14.05	3.75	4.81	3.08	3.19
Multilingual	FLEURS Arabian	N/A	11.72	N/A	25.13	14.22	16.46
	Common Voice yue	9.20	11.10	38.90	7.89	7.90	8.32
	FLEURS Japanese	N/A	3.27	N/A	10.49	3.18	4.67
In-house	Anhui accent	8.83	50.55	22.17	18.73	10.61	11.65
	Guangdong accent	4.99	7.83	3.76	4.03	3.81	4.44
	Guangxi accent	3.37	7.09	4.29	3.35	4.11	3.51
	Shanxi accent	20.26	55.03	34.71	25.95	12.44	15.60
	Sichuan dialect	3.01	32.85	5.26	5.61	4.35	4.57
	Shanghai dialect	47.49	89.58	82.90	58.74	17.77	19.30
	Average	14.66	40.49	25.52	19.40	8.85	9.85

その背後にあるブラックテクノロジーを解き明かす：従来の3段階アーキテクチャを捨てる

Step-Audio 2 miniの成功は、その革新的なアーキテクチャ設計に大きく負うところが大きい。

従来の音声処理フローは、3つの独立したステップを必要とする生産ラインのようなものです。

ASR（自動音声認識）： 音声をテキストに変換します。
LLM（大規模言語モデル）： テキストを理解し、テキスト応答を生成します。
TTS（テキスト読み上げ）： テキスト応答を音声に戻します。

このプロセスは面倒なだけでなく、各ステップで遅延や情報損失が発生する可能性があります。

Step-Audio 2 miniは、この「3段階」のフレームワークを打ち破り、真の「エンドツーエンド」処理を実現します。元の音声入力から直接音声応答をワンステップで生成できます。これは、3つの独立した工場を高度に自動化されたスマート工場に統合するようなもので、アーキテクチャがシンプルなだけでなく、応答速度も速く、インタラクティブな体験がよりスムーズになります。

さらに、このモデルは、「思考の連鎖（CoT）推論」と強化学習の共同最適化技術も導入しています。これにより、情報を処理する際に人間のように段階的な論理的思考を行うことができ、口調や感情といったニュアンスをよりよく理解し、より自然で適切な応答をすることができます。

AIの幻覚を解決する？インターネットで情報を調べることもできる！

大規模言語モデルの一般的な問題の1つは「幻覚」、つまり真顔でナンセンスを話すことです。これは、彼らの知識がトレーニングデータに限定されているためです。

Step-Audio 2 miniは、「音声知識増強」という機能でこの問題を巧みに解決します。知識の範囲外の質問に遭遇すると、外部ツール（検索エンジンなど）を使用してリアルタイムでオンライン検索を行い、最も正確で最新の情報を見つけてから、自然な音声で回答します。

この革新は、モデルの実用性と信頼性を大幅に向上させ、さまざまな現実世界のシナリオでの応用のためのより広い道を開きます。

今すぐ体験して、一緒に参加しよう

オープンソースモデルとして、Step-Audio 2 miniの最大の魅力は、誰にでも門戸を開いていることです。開発者、研究者、AI愛好家を問わず、その強力な機能を自分で体験できます。

StepFunは、モデル関連のコードとリソースを主要なプラットフォームにアップロードしており、誰もが試したり、コードを貢献したり、音声AI技術の発展を共同で推進したりすることを歓迎しています。

GitHub: https://github.com/stepfun-ai/Step-Audio2
Hugging Face: https://huggingface.co/stepfun-ai/Step-Audio-2-mini
オンラインテスト: https://realtime-console.stepfun.com

要するに、Step-Audio 2 miniの登場は、オープンソースコミュニティに優れたパフォーマンスツールをもたらしただけでなく、AIという競争の激しい分野において、イノベーションとオープン性が技術の進歩を推進する核心的な原動力であることを改めて証明しました。

videoweaver.app

Video Weaver: Professional video editing directly in your browser. No downloads …

Learn More

DMflow.chat

DMflow.chat: Your intelligent AI partner for exceptional customer engagement.

Learn More

DMflow.chat

Discover DMflow.chat and unlock the new era of AI-powered customer service.

Learn More

videoweaver.app

Video Weaver: Professional video editing directly in your browser. No downloads …

Learn More

DMflow.chat

DMflow.chat: Your intelligent AI partner for exceptional customer engagement.

Learn More

DMflow.chat

Discover DMflow.chat and unlock the new era of AI-powered customer service.

Learn More

Chatterbox Multilingual：聴覚体験を覆すオープンソース音声AI、23言語に即対応

Resemble AIがリリースしたオープンソースのTTS（テキスト読み上げ）モデル、Chatterbox Multilingualを探る。リアルタイム音声ク …

September 5, 2025

マイクロソフト Copilot Labs の秘密兵器：Audio Expressions がテキストに命を吹き込み、感情豊かに話させる！

マイクロソフト Copilot Labs の最新実験ツール、Audio Expressions を探る！テキストを無料で表現力豊かでスタイリッシュな音声に変換 …

September 2, 2025

マイクロソフトAIの大きな一歩：自社開発の2つのモデル「MAI-Voice-1」と「MAI-1-preview」が驚きのデビュー

マイクロソフトAI（MAI）は、最新開発の2つの強力なモデル、超高効率の音声生成モデル「MAI-Voice-1」と大規模基盤モデ …

August 29, 2025

マイクロソフトのVibeVoiceが登場：90分の超長尺音声、複数人での会話、AIポッドキャストの未来はもうそこまで来ているのか？

マイクロソフトの最新オープンソーステキスト読み上げ（TTS）モデル、VibeVoiceを探る。1.5Bと7Bの2つのバージョンが提供され、最大90分の音声生 …

August 26, 2025

KittenTTS：25MBのAI音声モデル？オープンソースで無料、スマホでも動く！

Kitten MLチームは、25MBのNanoプレビュー版のリリースに続き、再びKitten TTS Miniを衝撃的に発表しました！この170MBのオープン …

August 5, 2025

音声合成だけじゃない！Higgs Audio v2がオープンソース化、1000万時間学習したオーディオモデルの威力とは？

Boson AIは、最新のオーディオ基盤モデルであるHiggs Audio v2を正式にオープンソース化しました。このモデルは、事前学習のみ …

July 23, 2025

「聞き取れる」だけでなく、「話せる」

翻訳、認識、何でもござれ、データが物語る

その背後にあるブラックテクノロジーを解き明かす：従来の3段階アーキテクチャを捨てる

AIの幻覚を解決する？インターネットで情報を調べることもできる！

今すぐ体験して、一緒に参加しよう

videoweaver.app

DMflow.chat

DMflow.chat

videoweaver.app

DMflow.chat

DMflow.chat

Related Posts

Chatterbox Multilingual：聴覚体験を覆すオープンソース音声AI、23言語に即対応

マイクロソフト Copilot Labs の秘密兵器：Audio Expressions がテキストに命を吹き込み、感情豊かに話させる！

マイクロソフトAIの大きな一歩：自社開発の2つのモデル「MAI-Voice-1」と「MAI-1-preview」が驚きのデビュー

マイクロソフトのVibeVoiceが登場：90分の超長尺音声、複数人での会話、AIポッドキャストの未来はもうそこまで来ているのか？

KittenTTS：25MBのAI音声モデル？オープンソースで無料、スマホでも動く！

音声合成だけじゃない！Higgs Audio v2がオープンソース化、1000万時間学習したオーディオモデルの威力とは？