tool

GPT-4o Audio 的最強對手?階躍星辰開源 Step-Audio 2 mini,性能數據全面公開!

September 2, 2025
Updated Sep 2
2 min read

AI 語音模型的世界又迎來一位重量級選手!由階躍星辰(StepFun)推出的最新開源端對端語音大模型 Step-Audio 2 mini,不僅在多項國際評測中拔得頭籌,更在部分關鍵指標上超越了備受矚目的 GPT-4o Audio。這篇文章將帶您深入了解,這個模型究竟強在哪裡,以及它背後的創新技術。


最近的 AI 圈可真是熱鬧非凡,各大巨頭剛秀完肌肉,一家名為「階躍星辰」的新創公司就悄悄放出了一個大招——正式開源其最新的端對端語音大模型 Step-Audio 2 mini。

你可能會想,又一個語音模型?有什麼特別的嗎?

老實說,這次還真的不太一樣。Step-Audio 2 mini 不只是「又一個」模型,它在多個國際權威的基準測試中,直接拿下了 SOTA(State-of-the-Art,最先進技術)的成績,在開源社群裡引起了不小的轟動。它巧妙地將音訊的理解、推理與生成融合在一個統一的架構下,為從即時語音翻譯到細膩的情緒分析等各種應用,提供了一個極具吸引力的解決方案。

不只是「聽懂」,更是「聊得來」

一個好的語音模型,絕不只是把聲音轉成文字那麼簡單。它需要能理解對話中的潛台詞、語氣和情緒。這也正是 Step-Audio 2 mini 的拿手好戲。

在衡量多模態音訊理解能力的 MMAU 測試集上,Step-Audio 2 mini 拿下了 73.2 的高分,穩坐開源語音模型的頭把交椅。

更有趣的是在專門評測口語對話能力的 URO Bench 測試中。無論是模擬日常對話的基礎賽道,還是充滿專業術語的困難賽道,Step-Audio 2 mini 的表現都堪稱驚艷,雙雙取得了開源模型中的最高分。這代表什麼?這意味著它不僅能聽懂你說的話,還能像一個真人一樣,進行有邏輯、有深度的對話。

讓我們直接看數據,比較一下它和其他知名模型的表現:

ModelMMAUURO BenchCoVoST 2CVSSStepEval-Audio-Paralinguistic
AllEN basicZH basicEN proZH pro
Open-Source LALMs
Step-Audio 2 mini73.274.477.861.369.6
Qwen-Omni71.570.669.051.059.1
Kimi-Audio69.660.073.649.866.1
Proprietary LALMs
GPT-4o Audio58.184.578.667.567.1
Step-Audio 278.083.983.366.168.3

從表格可以清楚看到,Step-Audio 2 mini 在綜合理解能力 (MMAU) 和中英翻譯 (ZH-EN) 任務上,甚至超越了像 GPT-4o Audio 這樣的頂級閉源模型。

翻譯、辨識樣樣精通,數據會說話

除了優秀的對話能力,Step-Audio 2 mini 在傳統的語音識別(ASR)和翻譯任務上也毫不遜色。

在中英互譯的權威評測集 CoVoST2CVSS 上,它分別獲得了 39.329.1 的高分,再次領先了包括 GPT-4o Audio 在內的一眾對手。

而在最考驗基本功的語音辨識方面,它的表現更是讓人印象深刻。在衡量準確率的指標上(錯誤率越低越好):

  • 中文辨識:在開源中文測試集上的字錯誤率(CER)低至 3.19%
  • 英文辨識:在開源英文測試集上的詞錯誤率(WER)為 3.50%

這兩個成績,比同類型的開源模型平均要好上 15% 以上。說白了,就是它聽得更準,更不容易出錯。更厲害的是,它對不同地區的方言和口音也有很好的適應性,這對開發面向廣大市場的應用至關重要。

CategoryTest setDoubao LLM ASRGPT-4o TranscribeKimi-AudioQwen-OmniStep-Audio 2Step-Audio 2 mini
EnglishCommon Voice9.202.717.838.335.956.76
FLEURS English7.229.304.475.053.033.05
LibriSpeech clean2.921.751.492.931.171.33
LibriSpeech other5.324.232.915.072.422.86
Average6.174.504.185.353.143.50
ChineseAISHELL0.983.520.641.170.630.78
AISHELL-23.104.262.672.402.102.16
FLEURS Chinese2.922.622.917.012.682.53
KeSpeech phase16.4826.805.116.453.633.97
WenetSpeech meeting4.9031.405.216.614.754.87
Average3.8114.053.754.813.083.19
MultilingualFLEURS ArabianN/A11.72N/A25.1314.2216.46
Common Voice yue9.2011.1038.907.897.908.32
FLEURS JapaneseN/A3.27N/A10.493.184.67
In-houseAnhui accent8.8350.5522.1718.7310.6111.65
Guangdong accent4.997.833.764.033.814.44
Guangxi accent3.377.094.293.354.113.51
Shanxi accent20.2655.0334.7125.9512.4415.60
Sichuan dialect3.0132.855.265.614.354.57
Shanghai dialect47.4989.5882.9058.7417.7719.30
Average14.6640.4925.5219.408.859.85

揭密背後黑科技:拋開傳統的三級跳架構

Step-Audio 2 mini 的成功,很大程度上歸功於其創新的架構設計。

傳統的語音處理流程就像一條生產線,需要經過三個獨立的步驟:

  1. ASR(自動語音辨識):把音訊轉成文字。
  2. LLM(大語言模型):理解文字並生成回覆文字。
  3. TTS(文字轉語音):再把回覆文字轉成音訊。

這個過程不僅繁瑣,而且每一步都可能產生延遲和資訊損失。

而 Step-Audio 2 mini 打破了這個「三級跳」的框架,實現了真正的「端對端」處理。它能直接從原始的音訊輸入,一步到位地生成音訊回應。這就好比把三個獨立的工廠整合成一個高度自動化的智能工廠,不僅架構更簡潔,反應速度也更快,互動體驗自然更加流暢。

此外,模型還引入了「鏈式思維推理(CoT)」與強化學習的聯合優化技術。這讓它在處理資訊時,能像人一樣進行一步步的邏輯思考,從而更好地理解語氣、情緒這些弦外之音,並做出更自然、更貼切的回應。

解決 AI 幻覺?它還能上網查資料!

大語言模型一個常見的毛病就是「幻覺」——也就是一本正經地胡說八道。這是因為它們的知識被限制在訓練數據中。

Step-Audio 2 mini 則透過一項名為「音訊知識增強」的功能,巧妙地解決了這個問題。當遇到它知識範圍之外的問題時,它能夠利用外部工具(例如搜尋引擎)進行即時的聯網搜索,找到最準確、最新的資訊,然後再用自然的語音回答你。

這項創新極大地提升了模型的實用性和可靠性,也為它在各種真實場景中的應用開闢了更廣闊的道路。

立即體驗,共同參與

作為一個開源模型,Step-Audio 2 mini 最大的魅力在於它向所有人敞開了大門。無論你是開發者、研究人員還是 AI 愛好者,都可以親身體驗它的強大功能。

階躍星辰已經將模型相關的程式碼和資源上傳至各大平台,歡迎大家前往試用、貢獻程式碼,共同推動語音 AI 技術的發展。

總而言之,Step-Audio 2 mini 的出現,不僅為開源社群帶來了一個性能卓越的工具,也再次證明了在 AI 這條賽道上,創新和開放才是推動技術前進的核心動力。

分享至:
Featured Partners

© 2026 Communeify. All rights reserved.