AI 语音模型的世界又迎来一位重量级选手!由阶跃星辰(StepFun)推出的最新开源端对端语音大模型 Step-Audio 2 mini,不仅在多项国际评测中拔得头筹,更在部分关键指标上超越了备受瞩目的 GPT-4o Audio。这篇文章将带您深入了解,这个模型究竟强在哪里,以及它背后的创新技术。
最近的 AI 圈可真是热闹非凡,各大巨头刚秀完肌肉,一家名为「阶跃星辰」的新创公司就悄悄放出了一个大招——正式开源其最新的端对端语音大模型 Step-Audio 2 mini。
你可能会想,又一个语音模型?有什么特别的吗?
老实说,这次还真的不太一样。Step-Audio 2 mini 不只是「又一个」模型,它在多个国际权威的基准测试中,直接拿下了 SOTA(State-of-the-Art,最先进技术)的成绩,在开源社群里引起了不小的轰动。它巧妙地将音讯的理解、推理与生成融合在一个统一的架构下,为从即时语音翻译到细腻的情绪分析等各种应用,提供了一个极具吸引力的解决方案。
不只是「听懂」,更是「聊得来」
一个好的语音模型,绝不只是把声音转成文字那么简单。它需要能理解对话中的潜台词、语气和情绪。这也正是 Step-Audio 2 mini 的拿手好戏。
在衡量多模态音讯理解能力的 MMAU 测试集上,Step-Audio 2 mini 拿下了 73.2 的高分,稳坐开源语音模型的头把交椅。
更有趣的是在专门评测口语对话能力的 URO Bench 测试中。无论是模拟日常对话的基础赛道,还是充满专业术语的困难赛道,Step-Audio 2 mini 的表现都堪称惊艳,双双取得了开源模型中的最高分。这代表什么?这意味着它不仅能听懂你说的话,还能像一个真人一样,进行有逻辑、有深度的对话。
让我们直接看数据,比较一下它和其他知名模型的表现:
| Model | MMAU | URO Bench | CoVoST 2 | CVSS | StepEval-Audio-Paralinguistic | |||
|---|---|---|---|---|---|---|---|---|
| All | EN basic | ZH basic | EN pro | ZH pro | ZH-EN | ZH-EN | All | |
| Open-Source LALMs | ||||||||
| Step-Audio 2 mini | 73.2 | 74.4 | 77.8 | 61.3 | 69.6 | 39.3 | 29.1 | 80.0 |
| Qwen-Omni | 71.5 | 70.6 | 69.0 | 51.0 | 59.1 | 35.4 | 15.4 | 44.2 |
| Kimi-Audio | 69.6 | 60.0 | 73.6 | 49.8 | 66.1 | / | / | 49.6 |
| Proprietary LALMs | ||||||||
| GPT-4o Audio | 58.1 | 84.5 | 78.6 | 67.5 | 67.1 | 29.6 | 23.7 | 43.5 |
| Step-Audio 2 | 78.0 | 83.9 | 83.3 | 66.1 | 68.3 | 39.3 | 30.9 | 83.1 |
从表格可以清楚看到,Step-Audio 2 mini 在综合理解能力 (MMAU) 和中英翻译 (ZH-EN) 任务上,甚至超越了像 GPT-4o Audio 这样的顶级闭源模型。
翻译、辨识样样精通,数据会说话
除了优秀的对话能力,Step-Audio 2 mini 在传统的语音识别(ASR)和翻译任务上也毫不逊色。
在中英互译的权威评测集 CoVoST2 和 CVSS 上,它分别获得了 39.3 和 29.1 的高分,再次领先了包括 GPT-4o Audio 在内的一众对手。
而在最考验基本功的语音辨识方面,它的表现更是让人印象深刻。在衡量准确率的指标上(错误率越低越好):
- 中文辨识:在开源中文测试集上的字错误率(CER)低至 3.19%。
- 英文辨识:在开源英文测试集上的词错误率(WER)为 3.50%。
这两个成绩,比同类型的开源模型平均要好上 15% 以上。说白了,就是它听得更准,更不容易出错。更厉害的是,它对不同地区的方言和口音也有很好的适应性,这对开发面向广大市场的应用至关重要。
| Category | Test set | Doubao LLM ASR | GPT-4o Transcribe | Kimi-Audio | Qwen-Omni | Step-Audio 2 | Step-Audio 2 mini |
|---|---|---|---|---|---|---|---|
| English | Common Voice | 9.20 | 2.71 | 7.83 | 8.33 | 5.95 | 6.76 |
| FLEURS English | 7.22 | 9.30 | 4.47 | 5.05 | 3.03 | 3.05 | |
| LibriSpeech clean | 2.92 | 1.75 | 1.49 | 2.93 | 1.17 | 1.33 | |
| LibriSpeech other | 5.32 | 4.23 | 2.91 | 5.07 | 2.42 | 2.86 | |
| Average | 6.17 | 4.50 | 4.18 | 5.35 | 3.14 | 3.50 | |
| Chinese | AISHELL | 0.98 | 3.52 | 0.64 | 1.17 | 0.63 | 0.78 |
| AISHELL-2 | 3.10 | 4.26 | 2.67 | 2.40 | 2.10 | 2.16 | |
| FLEURS Chinese | 2.92 | 2.62 | 2.91 | 7.01 | 2.68 | 2.53 | |
| KeSpeech phase1 | 6.48 | 26.80 | 5.11 | 6.45 | 3.63 | 3.97 | |
| WenetSpeech meeting | 4.90 | 31.40 | 5.21 | 6.61 | 4.75 | 4.87 | |
| Average | 3.81 | 14.05 | 3.75 | 4.81 | 3.08 | 3.19 | |
| Multilingual | FLEURS Arabian | N/A | 11.72 | N/A | 25.13 | 14.22 | 16.46 |
| Common Voice yue | 9.20 | 11.10 | 38.90 | 7.89 | 7.90 | 8.32 | |
| FLEURS Japanese | N/A | 3.27 | N/A | 10.49 | 3.18 | 4.67 | |
| In-house | Anhui accent | 8.83 | 50.55 | 22.17 | 18.73 | 10.61 | 11.65 |
| Guangdong accent | 4.99 | 7.83 | 3.76 | 4.03 | 3.81 | 4.44 | |
| Guangxi accent | 3.37 | 7.09 | 4.29 | 3.35 | 4.11 | 3.51 | |
| Shanxi accent | 20.26 | 55.03 | 34.71 | 25.95 | 12.44 | 15.60 | |
| Sichuan dialect | 3.01 | 32.85 | 5.26 | 5.61 | 4.35 | 4.57 | |
| Shanghai dialect | 47.49 | 89.58 | 82.90 | 58.74 | 17.77 | 19.30 | |
| Average | 14.66 | 40.49 | 25.52 | 19.40 | 8.85 | 9.85 |
揭密背后黑科技:抛开传统的三级跳架构
Step-Audio 2 mini 的成功,很大程度上归功于其创新的架构设计。
传统的语音处理流程就像一条生产线,需要经过三个独立的步骤:
- ASR(自动语音辨识):把音讯转成文字。
- LLM(大语言模型):理解文字并生成回覆文字。
- TTS(文字转语音):再把回覆文字转成音讯。
这个过程不仅繁琐,而且每一步都可能产生延迟和资讯损失。
而 Step-Audio 2 mini 打破了这个「三级跳」的框架,实现了真正的「端对端」处理。它能直接从原始的音讯输入,一步到位地生成音讯回应。这就好比把三个独立的工厂整合成一个高度自动化的智能工厂,不仅架构更简洁,反应速度也更快,互动体验自然更加流畅。
此外,模型还引入了「链式思维推理(CoT)」与强化学习的联合优化技术。这让它在处理资讯时,能像人一样进行一步步的逻辑思考,从而更好地理解语气、情绪这些弦外之音,并做出更自然、更贴切的回应。
解决 AI 幻觉?它还能上网查资料!
大语言模型一个常见的毛病就是「幻觉」——也就是一本正经地胡说八道。这是因为它们的知识被限制在训练数据中。
Step-Audio 2 mini 则透过一项名为「音讯知识增强」的功能,巧妙地解决了这个问题。当遇到它知识范围之外的问题时,它能够利用外部工具(例如搜寻引擎)进行即时的联网搜索,找到最准确、最新的资讯,然后再用自然的语音回答你。
这项创新极大地提升了模型的实用性和可靠性,也为它在各种真实场景中的应用开辟了更广阔的道路。
立即体验,共同参与
作为一个开源模型,Step-Audio 2 mini 最大的魅力在于它向所有人敞开了大门。无论你是开发者、研究人员还是 AI 爱好者,都可以亲身体验它的强大功能。
阶跃星辰已经将模型相关的程式码和资源上传至各大平台,欢迎大家前往试用、贡献程式码,共同推动语音 AI 技术的发展。
- GitHub: https://github.com/stepfun-ai/Step-Audio2
- Hugging Face: https://huggingface.co/stepfun-ai/Step-Audio-2-mini
- 线上测试: https://realtime-console.stepfun.com
总而言之,Step-Audio 2 mini 的出现,不仅为开源社群带来了一个性能卓越的工具,也再次证明了在 AI 这条赛道上,创新和开放才是推动技术前进的核心动力。


