GPT-4o Audioの最強のライバル?StepFunがStep-Audio 2 miniをオープンソース化、全性能データを公開!
AI音声モデルの世界にまた新たなヘビー級選手が登場!StepFunが発表した最新のオープンソースエンドツーエンド大規模音声モデル「Step-Audio 2 mini」は、いくつかの国際的な評価でトップの座を獲得しただけでなく、一部の重要な指標では注目を集めるGPT-4o Audioをも上回りました。この記事では、このモデルがなぜこれほど強力なのか、そしてその背後にある革新的なテクノロジーについて詳しく解説します。
最近のAI界は非常に活気があります。大手企業がその力を誇示したかと思うと、StepFunというスタートアップ企業が静かに大きな一手を打ちました。最新のエンドツーエンド大規模音声モデル「Step-Audio 2 mini」を正式にオープンソース化したのです。
また音声モデルか、何か特別なものがあるのか、と思われるかもしれません。
正直なところ、今回は本当に違います。Step-Audio 2 miniは単なる「また一つ」のモデルではありません。複数の国際的に権威のあるベンチマークテストで、SOTA(State-of-the-Art、最先端技術)の成績を直接獲得し、オープンソースコミュニティでかなりの話題を呼んでいます。音声の理解、推論、生成を統一されたアーキテクチャに巧みに統合し、リアルタイムの音声翻訳から繊細な感情分析まで、さまざまなアプリケーションに非常に魅力的なソリューションを提供します。
「聞き取れる」だけでなく、「話せる」
優れた音声モデルは、単に音声をテキストに変換するだけではありません。会話の裏にある意味、口調、感情を理解する必要があります。これこそが、Step-Audio 2 miniの得意とするところです。
マルチモーダル音声理解能力を測定するMMAUテストセットでは、Step-Audio 2 miniは73.2という高得点を獲得し、オープンソース音声モデルのトップの座を確固たるものにしました。
さらに興味深いのは、口語会話能力を専門に評価するURO Benchテストでのパフォーマンスです。日常会話をシミュレートした基本コースでも、専門用語が飛び交う難関コースでも、Step-Audio 2 miniのパフォーマンスは驚異的で、どちらもオープンソースモデルの中で最高得点を獲得しました。これは何を意味するのでしょうか?それは、あなたの言うことを理解するだけでなく、本物の人間のように論理的で深みのある会話ができるということです。
データを直接見て、他の有名モデルとのパフォーマンスを比較してみましょう。
Model | MMAU | URO Bench | CoVoST 2 | CVSS | StepEval-Audio-Paralinguistic | |||
---|---|---|---|---|---|---|---|---|
All | EN basic | ZH basic | EN pro | ZH pro | ZH-EN | ZH-EN | All | |
Open-Source LALMs | ||||||||
Step-Audio 2 mini | 73.2 | 74.4 | 77.8 | 61.3 | 69.6 | 39.3 | 29.1 | 80.0 |
Qwen-Omni | 71.5 | 70.6 | 69.0 | 51.0 | 59.1 | 35.4 | 15.4 | 44.2 |
Kimi-Audio | 69.6 | 60.0 | 73.6 | 49.8 | 66.1 | / | / | 49.6 |
Proprietary LALMs | ||||||||
GPT-4o Audio | 58.1 | 84.5 | 78.6 | 67.5 | 67.1 | 29.6 | 23.7 | 43.5 |
Step-Audio 2 | 78.0 | 83.9 | 83.3 | 66.1 | 68.3 | 39.3 | 30.9 | 83.1 |
表から明らかなように、Step-Audio 2 miniは、総合的な理解能力(MMAU)と中国語-英語翻訳(ZH-EN)タスクにおいて、GPT-4o Audioのようなトップクラスのクローズドソースモデルさえも上回っています。
翻訳、認識、何でもござれ、データが物語る
優れた会話能力に加えて、Step-Audio 2 miniは、従来の音声認識(ASR)および翻訳タスクにおいても遜色ありません。
中国語と英語の相互翻訳に関する権威ある評価セットCoVoST2とCVSSでは、それぞれ39.3と29.1という高得点を獲得し、GPT-4o Audioを含む多くの競合他社を再びリードしました。
そして、最も基本的なスキルが試される音声認識の面では、そのパフォーマンスはさらに印象的です。精度指標(エラー率が低いほど良い)では、
- 中国語認識: オープンソースの中国語テストセットでの文字エラー率(CER)は**3.19%**と低い。
- 英語認識: オープンソースの英語テストセットでの単語エラー率(WER)は**3.50%**です。
これらの2つの結果は、同タイプのオープンソースモデルの平均よりも15%以上優れています。率直に言って、より正確に聞き取り、間違いが少ないということです。さらにすごいのは、さまざまな地域の方言やアクセントにもうまく適応できることであり、これは幅広い市場向けのアプリケーションを開発する上で非常に重要です。
Category | Test set | Doubao LLM ASR | GPT-4o Transcribe | Kimi-Audio | Qwen-Omni | Step-Audio 2 | Step-Audio 2 mini |
---|---|---|---|---|---|---|---|
English | Common Voice | 9.20 | 2.71 | 7.83 | 8.33 | 5.95 | 6.76 |
FLEURS English | 7.22 | 9.30 | 4.47 | 5.05 | 3.03 | 3.05 | |
LibriSpeech clean | 2.92 | 1.75 | 1.49 | 2.93 | 1.17 | 1.33 | |
LibriSpeech other | 5.32 | 4.23 | 2.91 | 5.07 | 2.42 | 2.86 | |
Average | 6.17 | 4.50 | 4.18 | 5.35 | 3.14 | 3.50 | |
Chinese | AISHELL | 0.98 | 3.52 | 0.64 | 1.17 | 0.63 | 0.78 |
AISHELL-2 | 3.10 | 4.26 | 2.67 | 2.40 | 2.10 | 2.16 | |
FLEURS Chinese | 2.92 | 2.62 | 2.91 | 7.01 | 2.68 | 2.53 | |
KeSpeech phase1 | 6.48 | 26.80 | 5.11 | 6.45 | 3.63 | 3.97 | |
WenetSpeech meeting | 4.90 | 31.40 | 5.21 | 6.61 | 4.75 | 4.87 | |
Average | 3.81 | 14.05 | 3.75 | 4.81 | 3.08 | 3.19 | |
Multilingual | FLEURS Arabian | N/A | 11.72 | N/A | 25.13 | 14.22 | 16.46 |
Common Voice yue | 9.20 | 11.10 | 38.90 | 7.89 | 7.90 | 8.32 | |
FLEURS Japanese | N/A | 3.27 | N/A | 10.49 | 3.18 | 4.67 | |
In-house | Anhui accent | 8.83 | 50.55 | 22.17 | 18.73 | 10.61 | 11.65 |
Guangdong accent | 4.99 | 7.83 | 3.76 | 4.03 | 3.81 | 4.44 | |
Guangxi accent | 3.37 | 7.09 | 4.29 | 3.35 | 4.11 | 3.51 | |
Shanxi accent | 20.26 | 55.03 | 34.71 | 25.95 | 12.44 | 15.60 | |
Sichuan dialect | 3.01 | 32.85 | 5.26 | 5.61 | 4.35 | 4.57 | |
Shanghai dialect | 47.49 | 89.58 | 82.90 | 58.74 | 17.77 | 19.30 | |
Average | 14.66 | 40.49 | 25.52 | 19.40 | 8.85 | 9.85 |
その背後にあるブラックテクノロジーを解き明かす:従来の3段階アーキテクチャを捨てる
Step-Audio 2 miniの成功は、その革新的なアーキテクチャ設計に大きく負うところが大きい。
従来の音声処理フローは、3つの独立したステップを必要とする生産ラインのようなものです。
- ASR(自動音声認識): 音声をテキストに変換します。
- LLM(大規模言語モデル): テキストを理解し、テキスト応答を生成します。
- TTS(テキスト読み上げ): テキスト応答を音声に戻します。
このプロセスは面倒なだけでなく、各ステップで遅延や情報損失が発生する可能性があります。
Step-Audio 2 miniは、この「3段階」のフレームワークを打ち破り、真の「エンドツーエンド」処理を実現します。元の音声入力から直接音声応答をワンステップで生成できます。これは、3つの独立した工場を高度に自動化されたスマート工場に統合するようなもので、アーキテクチャがシンプルなだけでなく、応答速度も速く、インタラクティブな体験がよりスムーズになります。
さらに、このモデルは、「思考の連鎖(CoT)推論」と強化学習の共同最適化技術も導入しています。これにより、情報を処理する際に人間のように段階的な論理的思考を行うことができ、口調や感情といったニュアンスをよりよく理解し、より自然で適切な応答をすることができます。
AIの幻覚を解決する?インターネットで情報を調べることもできる!
大規模言語モデルの一般的な問題の1つは「幻覚」、つまり真顔でナンセンスを話すことです。これは、彼らの知識がトレーニングデータに限定されているためです。
Step-Audio 2 miniは、「音声知識増強」という機能でこの問題を巧みに解決します。知識の範囲外の質問に遭遇すると、外部ツール(検索エンジンなど)を使用してリアルタイムでオンライン検索を行い、最も正確で最新の情報を見つけてから、自然な音声で回答します。
この革新は、モデルの実用性と信頼性を大幅に向上させ、さまざまな現実世界のシナリオでの応用のためのより広い道を開きます。
今すぐ体験して、一緒に参加しよう
オープンソースモデルとして、Step-Audio 2 miniの最大の魅力は、誰にでも門戸を開いていることです。開発者、研究者、AI愛好家を問わず、その強力な機能を自分で体験できます。
StepFunは、モデル関連のコードとリソースを主要なプラットフォームにアップロードしており、誰もが試したり、コードを貢献したり、音声AI技術の発展を共同で推進したりすることを歓迎しています。
- GitHub: https://github.com/stepfun-ai/Step-Audio2
- Hugging Face: https://huggingface.co/stepfun-ai/Step-Audio-2-mini
- オンラインテスト: https://realtime-console.stepfun.com
要するに、Step-Audio 2 miniの登場は、オープンソースコミュニティに優れたパフォーマンスツールをもたらしただけでなく、AIという競争の激しい分野において、イノベーションとオープン性が技術の進歩を推進する核心的な原動力であることを改めて証明しました。