AI 語音模型的世界又迎來一位重量級選手!由階躍星辰(StepFun)推出的最新開源端對端語音大模型 Step-Audio 2 mini,不僅在多項國際評測中拔得頭籌,更在部分關鍵指標上超越了備受矚目的 GPT-4o Audio。這篇文章將帶您深入了解,這個模型究竟強在哪裡,以及它背後的創新技術。
最近的 AI 圈可真是熱鬧非凡,各大巨頭剛秀完肌肉,一家名為「階躍星辰」的新創公司就悄悄放出了一個大招——正式開源其最新的端對端語音大模型 Step-Audio 2 mini。
你可能會想,又一個語音模型?有什麼特別的嗎?
老實說,這次還真的不太一樣。Step-Audio 2 mini 不只是「又一個」模型,它在多個國際權威的基準測試中,直接拿下了 SOTA(State-of-the-Art,最先進技術)的成績,在開源社群裡引起了不小的轟動。它巧妙地將音訊的理解、推理與生成融合在一個統一的架構下,為從即時語音翻譯到細膩的情緒分析等各種應用,提供了一個極具吸引力的解決方案。
不只是「聽懂」,更是「聊得來」
一個好的語音模型,絕不只是把聲音轉成文字那麼簡單。它需要能理解對話中的潛台詞、語氣和情緒。這也正是 Step-Audio 2 mini 的拿手好戲。
在衡量多模態音訊理解能力的 MMAU 測試集上,Step-Audio 2 mini 拿下了 73.2 的高分,穩坐開源語音模型的頭把交椅。
更有趣的是在專門評測口語對話能力的 URO Bench 測試中。無論是模擬日常對話的基礎賽道,還是充滿專業術語的困難賽道,Step-Audio 2 mini 的表現都堪稱驚艷,雙雙取得了開源模型中的最高分。這代表什麼?這意味著它不僅能聽懂你說的話,還能像一個真人一樣,進行有邏輯、有深度的對話。
讓我們直接看數據,比較一下它和其他知名模型的表現:
| Model | MMAU | URO Bench | CoVoST 2 | CVSS | StepEval-Audio-Paralinguistic |
|---|---|---|---|---|---|
| All | EN basic | ZH basic | EN pro | ZH pro | |
| Open-Source LALMs | |||||
| Step-Audio 2 mini | 73.2 | 74.4 | 77.8 | 61.3 | 69.6 |
| Qwen-Omni | 71.5 | 70.6 | 69.0 | 51.0 | 59.1 |
| Kimi-Audio | 69.6 | 60.0 | 73.6 | 49.8 | 66.1 |
| Proprietary LALMs | |||||
| GPT-4o Audio | 58.1 | 84.5 | 78.6 | 67.5 | 67.1 |
| Step-Audio 2 | 78.0 | 83.9 | 83.3 | 66.1 | 68.3 |
從表格可以清楚看到,Step-Audio 2 mini 在綜合理解能力 (MMAU) 和中英翻譯 (ZH-EN) 任務上,甚至超越了像 GPT-4o Audio 這樣的頂級閉源模型。
翻譯、辨識樣樣精通,數據會說話
除了優秀的對話能力,Step-Audio 2 mini 在傳統的語音識別(ASR)和翻譯任務上也毫不遜色。
在中英互譯的權威評測集 CoVoST2 和 CVSS 上,它分別獲得了 39.3 和 29.1 的高分,再次領先了包括 GPT-4o Audio 在內的一眾對手。
而在最考驗基本功的語音辨識方面,它的表現更是讓人印象深刻。在衡量準確率的指標上(錯誤率越低越好):
- 中文辨識:在開源中文測試集上的字錯誤率(CER)低至 3.19%。
- 英文辨識:在開源英文測試集上的詞錯誤率(WER)為 3.50%。
這兩個成績,比同類型的開源模型平均要好上 15% 以上。說白了,就是它聽得更準,更不容易出錯。更厲害的是,它對不同地區的方言和口音也有很好的適應性,這對開發面向廣大市場的應用至關重要。
| Category | Test set | Doubao LLM ASR | GPT-4o Transcribe | Kimi-Audio | Qwen-Omni | Step-Audio 2 | Step-Audio 2 mini |
|---|---|---|---|---|---|---|---|
| English | Common Voice | 9.20 | 2.71 | 7.83 | 8.33 | 5.95 | 6.76 |
| FLEURS English | 7.22 | 9.30 | 4.47 | 5.05 | 3.03 | 3.05 | |
| LibriSpeech clean | 2.92 | 1.75 | 1.49 | 2.93 | 1.17 | 1.33 | |
| LibriSpeech other | 5.32 | 4.23 | 2.91 | 5.07 | 2.42 | 2.86 | |
| Average | 6.17 | 4.50 | 4.18 | 5.35 | 3.14 | 3.50 | |
| Chinese | AISHELL | 0.98 | 3.52 | 0.64 | 1.17 | 0.63 | 0.78 |
| AISHELL-2 | 3.10 | 4.26 | 2.67 | 2.40 | 2.10 | 2.16 | |
| FLEURS Chinese | 2.92 | 2.62 | 2.91 | 7.01 | 2.68 | 2.53 | |
| KeSpeech phase1 | 6.48 | 26.80 | 5.11 | 6.45 | 3.63 | 3.97 | |
| WenetSpeech meeting | 4.90 | 31.40 | 5.21 | 6.61 | 4.75 | 4.87 | |
| Average | 3.81 | 14.05 | 3.75 | 4.81 | 3.08 | 3.19 | |
| Multilingual | FLEURS Arabian | N/A | 11.72 | N/A | 25.13 | 14.22 | 16.46 |
| Common Voice yue | 9.20 | 11.10 | 38.90 | 7.89 | 7.90 | 8.32 | |
| FLEURS Japanese | N/A | 3.27 | N/A | 10.49 | 3.18 | 4.67 | |
| In-house | Anhui accent | 8.83 | 50.55 | 22.17 | 18.73 | 10.61 | 11.65 |
| Guangdong accent | 4.99 | 7.83 | 3.76 | 4.03 | 3.81 | 4.44 | |
| Guangxi accent | 3.37 | 7.09 | 4.29 | 3.35 | 4.11 | 3.51 | |
| Shanxi accent | 20.26 | 55.03 | 34.71 | 25.95 | 12.44 | 15.60 | |
| Sichuan dialect | 3.01 | 32.85 | 5.26 | 5.61 | 4.35 | 4.57 | |
| Shanghai dialect | 47.49 | 89.58 | 82.90 | 58.74 | 17.77 | 19.30 | |
| Average | 14.66 | 40.49 | 25.52 | 19.40 | 8.85 | 9.85 |
揭密背後黑科技:拋開傳統的三級跳架構
Step-Audio 2 mini 的成功,很大程度上歸功於其創新的架構設計。
傳統的語音處理流程就像一條生產線,需要經過三個獨立的步驟:
- ASR(自動語音辨識):把音訊轉成文字。
- LLM(大語言模型):理解文字並生成回覆文字。
- TTS(文字轉語音):再把回覆文字轉成音訊。
這個過程不僅繁瑣,而且每一步都可能產生延遲和資訊損失。
而 Step-Audio 2 mini 打破了這個「三級跳」的框架,實現了真正的「端對端」處理。它能直接從原始的音訊輸入,一步到位地生成音訊回應。這就好比把三個獨立的工廠整合成一個高度自動化的智能工廠,不僅架構更簡潔,反應速度也更快,互動體驗自然更加流暢。
此外,模型還引入了「鏈式思維推理(CoT)」與強化學習的聯合優化技術。這讓它在處理資訊時,能像人一樣進行一步步的邏輯思考,從而更好地理解語氣、情緒這些弦外之音,並做出更自然、更貼切的回應。
解決 AI 幻覺?它還能上網查資料!
大語言模型一個常見的毛病就是「幻覺」——也就是一本正經地胡說八道。這是因為它們的知識被限制在訓練數據中。
Step-Audio 2 mini 則透過一項名為「音訊知識增強」的功能,巧妙地解決了這個問題。當遇到它知識範圍之外的問題時,它能夠利用外部工具(例如搜尋引擎)進行即時的聯網搜索,找到最準確、最新的資訊,然後再用自然的語音回答你。
這項創新極大地提升了模型的實用性和可靠性,也為它在各種真實場景中的應用開闢了更廣闊的道路。
立即體驗,共同參與
作為一個開源模型,Step-Audio 2 mini 最大的魅力在於它向所有人敞開了大門。無論你是開發者、研究人員還是 AI 愛好者,都可以親身體驗它的強大功能。
階躍星辰已經將模型相關的程式碼和資源上傳至各大平台,歡迎大家前往試用、貢獻程式碼,共同推動語音 AI 技術的發展。
- GitHub: https://github.com/stepfun-ai/Step-Audio2
- Hugging Face: https://huggingface.co/stepfun-ai/Step-Audio-2-mini
- 線上測試: https://realtime-console.stepfun.com
總而言之,Step-Audio 2 mini 的出現,不僅為開源社群帶來了一個性能卓越的工具,也再次證明了在 AI 這條賽道上,創新和開放才是推動技術前進的核心動力。


