tool

GPT-4o Audio 的最强对手?阶跃星辰开源 Step-Audio 2 mini,性能数据全面公开!

September 2, 2025
Updated Sep 2
2 min read

AI 语音模型的世界又迎来一位重量级选手!由阶跃星辰(StepFun)推出的最新开源端对端语音大模型 Step-Audio 2 mini,不仅在多项国际评测中拔得头筹,更在部分关键指标上超越了备受瞩目的 GPT-4o Audio。这篇文章将带您深入了解,这个模型究竟强在哪里,以及它背后的创新技术。


最近的 AI 圈可真是热闹非凡,各大巨头刚秀完肌肉,一家名为「阶跃星辰」的新创公司就悄悄放出了一个大招——正式开源其最新的端对端语音大模型 Step-Audio 2 mini。

你可能会想,又一个语音模型?有什么特别的吗?

老实说,这次还真的不太一样。Step-Audio 2 mini 不只是「又一个」模型,它在多个国际权威的基准测试中,直接拿下了 SOTA(State-of-the-Art,最先进技术)的成绩,在开源社群里引起了不小的轰动。它巧妙地将音讯的理解、推理与生成融合在一个统一的架构下,为从即时语音翻译到细腻的情绪分析等各种应用,提供了一个极具吸引力的解决方案。

不只是「听懂」,更是「聊得来」

一个好的语音模型,绝不只是把声音转成文字那么简单。它需要能理解对话中的潜台词、语气和情绪。这也正是 Step-Audio 2 mini 的拿手好戏。

在衡量多模态音讯理解能力的 MMAU 测试集上,Step-Audio 2 mini 拿下了 73.2 的高分,稳坐开源语音模型的头把交椅。

更有趣的是在专门评测口语对话能力的 URO Bench 测试中。无论是模拟日常对话的基础赛道,还是充满专业术语的困难赛道,Step-Audio 2 mini 的表现都堪称惊艳,双双取得了开源模型中的最高分。这代表什么?这意味着它不仅能听懂你说的话,还能像一个真人一样,进行有逻辑、有深度的对话。

让我们直接看数据,比较一下它和其他知名模型的表现:

ModelMMAUURO BenchCoVoST 2CVSSStepEval-Audio-Paralinguistic
AllEN basicZH basicEN proZH proZH-ENZH-ENAll
Open-Source LALMs
Step-Audio 2 mini73.274.477.861.369.639.329.180.0
Qwen-Omni71.570.669.051.059.135.415.444.2
Kimi-Audio69.660.073.649.866.1//49.6
Proprietary LALMs
GPT-4o Audio58.184.578.667.567.129.623.743.5
Step-Audio 278.083.983.366.168.339.330.983.1

从表格可以清楚看到,Step-Audio 2 mini 在综合理解能力 (MMAU) 和中英翻译 (ZH-EN) 任务上,甚至超越了像 GPT-4o Audio 这样的顶级闭源模型。

翻译、辨识样样精通,数据会说话

除了优秀的对话能力,Step-Audio 2 mini 在传统的语音识别(ASR)和翻译任务上也毫不逊色。

在中英互译的权威评测集 CoVoST2CVSS 上,它分别获得了 39.329.1 的高分,再次领先了包括 GPT-4o Audio 在内的一众对手。

而在最考验基本功的语音辨识方面,它的表现更是让人印象深刻。在衡量准确率的指标上(错误率越低越好):

  • 中文辨识:在开源中文测试集上的字错误率(CER)低至 3.19%
  • 英文辨识:在开源英文测试集上的词错误率(WER)为 3.50%

这两个成绩,比同类型的开源模型平均要好上 15% 以上。说白了,就是它听得更准,更不容易出错。更厉害的是,它对不同地区的方言和口音也有很好的适应性,这对开发面向广大市场的应用至关重要。

CategoryTest setDoubao LLM ASRGPT-4o TranscribeKimi-AudioQwen-OmniStep-Audio 2Step-Audio 2 mini
EnglishCommon Voice9.202.717.838.335.956.76
FLEURS English7.229.304.475.053.033.05
LibriSpeech clean2.921.751.492.931.171.33
LibriSpeech other5.324.232.915.072.422.86
Average6.174.504.185.353.143.50
ChineseAISHELL0.983.520.641.170.630.78
AISHELL-23.104.262.672.402.102.16
FLEURS Chinese2.922.622.917.012.682.53
KeSpeech phase16.4826.805.116.453.633.97
WenetSpeech meeting4.9031.405.216.614.754.87
Average3.8114.053.754.813.083.19
MultilingualFLEURS ArabianN/A11.72N/A25.1314.2216.46
Common Voice yue9.2011.1038.907.897.908.32
FLEURS JapaneseN/A3.27N/A10.493.184.67
In-houseAnhui accent8.8350.5522.1718.7310.6111.65
Guangdong accent4.997.833.764.033.814.44
Guangxi accent3.377.094.293.354.113.51
Shanxi accent20.2655.0334.7125.9512.4415.60
Sichuan dialect3.0132.855.265.614.354.57
Shanghai dialect47.4989.5882.9058.7417.7719.30
Average14.6640.4925.5219.408.859.85

揭密背后黑科技:抛开传统的三级跳架构

Step-Audio 2 mini 的成功,很大程度上归功于其创新的架构设计。

传统的语音处理流程就像一条生产线,需要经过三个独立的步骤:

  1. ASR(自动语音辨识):把音讯转成文字。
  2. LLM(大语言模型):理解文字并生成回覆文字。
  3. TTS(文字转语音):再把回覆文字转成音讯。

这个过程不仅繁琐,而且每一步都可能产生延迟和资讯损失。

而 Step-Audio 2 mini 打破了​​这个「三级跳」的框架,实现了真正的「端对端」处理。它能直接从原始的音讯输入,一步到位地生成音讯回应。这就好比把三个独立的工厂整合成一个高度自动化的智能工厂,不仅架构更简洁,反应速度也更快,互动体验自然更加流畅。

此外,模型还引入了「链式思维推理(CoT)」与强化学习的联合优化技术。这让它在处理资讯时,能像人一样进行一步步的逻辑思考,从而更好地理解语气、情绪这些弦外之音,并做出更自然、更贴切的回应。

解决 AI 幻觉?它还能上网查资料!

大语言模型一个常见的毛病就是「幻觉」——也就是一本正经地胡说八道。这是因为它们的知识被限制在训练数据中。

Step-Audio 2 mini 则透过一项名为「音讯知识增强」的功能,巧妙地解决了这个问题。当遇到它知识范围之外的问题时,它能够利用外部工具(例如搜寻引擎)进行即时的联网搜索,找到最准确、最新的资讯,然后再用自然的语音回答你。

这项创新极大地提升了模型的实用性和可靠性,也为它在各种真实场景中的应用开辟了更广阔的道路。

立即体验,共同参与

作为一个开源模型,Step-Audio 2 mini 最大的魅力在于它向所有人敞开了大门。无论你是开发者、研究人员还是 AI 爱好者,都可以亲身体验它的强大功能。

阶跃星辰已经将模型相关的程式码和资源上传至各大平台,欢迎大家前往试用、贡献程式码,共同推动语音 AI 技术的发展。

总而言之,Step-Audio 2 mini 的出现,不仅为开源社群带来了一个性能卓越的工具,也再次证明了在 AI 这条赛道上,创新和开放才是推动技术前进的核心动力。

分享到:
Featured Partners

© 2026 Communeify. All rights reserved.