GPT-4o Audio 的最强对手？阶跃星辰开源 Step-Audio 2 mini，性能数据全面公开！

AI 语音模型的世界又迎来一位重量级选手！由阶跃星辰（StepFun）推出的最新开源端对端语音大模型 Step-Audio 2 mini，不仅在多项国际评测中拔得头筹，更在部分关键指标上超越了备受瞩目的 GPT-4o Audio。这篇文章将带您深入了解，这个模型究竟强在哪里，以及它背后的创新技术。

最近的 AI 圈可真是热闹非凡，各大巨头刚秀完肌肉，一家名为「阶跃星辰」的新创公司就悄悄放出了一个大招——正式开源其最新的端对端语音大模型 Step-Audio 2 mini。

你可能会想，又一个语音模型？有什么特别的吗？

老实说，这次还真的不太一样。Step-Audio 2 mini 不只是「又一个」模型，它在多个国际权威的基准测试中，直接拿下了 SOTA（State-of-the-Art，最先进技术）的成绩，在开源社群里引起了不小的轰动。它巧妙地将音讯的理解、推理与生成融合在一个统一的架构下，为从即时语音翻译到细腻的情绪分析等各种应用，提供了一个极具吸引力的解决方案。

不只是「听懂」，更是「聊得来」

一个好的语音模型，绝不只是把声音转成文字那么简单。它需要能理解对话中的潜台词、语气和情绪。这也正是 Step-Audio 2 mini 的拿手好戏。

在衡量多模态音讯理解能力的 MMAU 测试集上，Step-Audio 2 mini 拿下了 73.2 的高分，稳坐开源语音模型的头把交椅。

更有趣的是在专门评测口语对话能力的 URO Bench 测试中。无论是模拟日常对话的基础赛道，还是充满专业术语的困难赛道，Step-Audio 2 mini 的表现都堪称惊艳，双双取得了开源模型中的最高分。这代表什么？这意味着它不仅能听懂你说的话，还能像一个真人一样，进行有逻辑、有深度的对话。

让我们直接看数据，比较一下它和其他知名模型的表现：

Model	MMAU	URO Bench	CoVoST 2	CVSS	StepEval-Audio-Paralinguistic
	All	EN basic	ZH basic	EN pro	ZH pro	ZH-EN	ZH-EN	All
Open-Source LALMs
Step-Audio 2 mini	73.2	74.4	77.8	61.3	69.6	39.3	29.1	80.0
Qwen-Omni	71.5	70.6	69.0	51.0	59.1	35.4	15.4	44.2
Kimi-Audio	69.6	60.0	73.6	49.8	66.1	/	/	49.6
Proprietary LALMs
GPT-4o Audio	58.1	84.5	78.6	67.5	67.1	29.6	23.7	43.5
Step-Audio 2	78.0	83.9	83.3	66.1	68.3	39.3	30.9	83.1

从表格可以清楚看到，Step-Audio 2 mini 在综合理解能力 (MMAU) 和中英翻译 (ZH-EN) 任务上，甚至超越了像 GPT-4o Audio 这样的顶级闭源模型。

翻译、辨识样样精通，数据会说话

除了优秀的对话能力，Step-Audio 2 mini 在传统的语音识别（ASR）和翻译任务上也毫不逊色。

在中英互译的权威评测集 CoVoST2 和 CVSS 上，它分别获得了 39.3 和 29.1 的高分，再次领先了包括 GPT-4o Audio 在内的一众对手。

而在最考验基本功的语音辨识方面，它的表现更是让人印象深刻。在衡量准确率的指标上（错误率越低越好）：

中文辨识：在开源中文测试集上的字错误率（CER）低至 3.19%。
英文辨识：在开源英文测试集上的词错误率（WER）为 3.50%。

这两个成绩，比同类型的开源模型平均要好上 15% 以上。说白了，就是它听得更准，更不容易出错。更厉害的是，它对不同地区的方言和口音也有很好的适应性，这对开发面向广大市场的应用至关重要。

Category	Test set	Doubao LLM ASR	GPT-4o Transcribe	Kimi-Audio	Qwen-Omni	Step-Audio 2	Step-Audio 2 mini
English	Common Voice	9.20	2.71	7.83	8.33	5.95	6.76
	FLEURS English	7.22	9.30	4.47	5.05	3.03	3.05
	LibriSpeech clean	2.92	1.75	1.49	2.93	1.17	1.33
	LibriSpeech other	5.32	4.23	2.91	5.07	2.42	2.86
	Average	6.17	4.50	4.18	5.35	3.14	3.50
Chinese	AISHELL	0.98	3.52	0.64	1.17	0.63	0.78
	AISHELL-2	3.10	4.26	2.67	2.40	2.10	2.16
	FLEURS Chinese	2.92	2.62	2.91	7.01	2.68	2.53
	KeSpeech phase1	6.48	26.80	5.11	6.45	3.63	3.97
	WenetSpeech meeting	4.90	31.40	5.21	6.61	4.75	4.87
	Average	3.81	14.05	3.75	4.81	3.08	3.19
Multilingual	FLEURS Arabian	N/A	11.72	N/A	25.13	14.22	16.46
	Common Voice yue	9.20	11.10	38.90	7.89	7.90	8.32
	FLEURS Japanese	N/A	3.27	N/A	10.49	3.18	4.67
In-house	Anhui accent	8.83	50.55	22.17	18.73	10.61	11.65
	Guangdong accent	4.99	7.83	3.76	4.03	3.81	4.44
	Guangxi accent	3.37	7.09	4.29	3.35	4.11	3.51
	Shanxi accent	20.26	55.03	34.71	25.95	12.44	15.60
	Sichuan dialect	3.01	32.85	5.26	5.61	4.35	4.57
	Shanghai dialect	47.49	89.58	82.90	58.74	17.77	19.30
	Average	14.66	40.49	25.52	19.40	8.85	9.85

揭密背后黑科技：抛开传统的三级跳架构

Step-Audio 2 mini 的成功，很大程度上归功于其创新的架构设计。

传统的语音处理流程就像一条生产线，需要经过三个独立的步骤：

ASR（自动语音辨识）：把音讯转成文字。
LLM（大语言模型）：理解文字并生成回覆文字。
TTS（文字转语音）：再把回覆文字转成音讯。

这个过程不仅繁琐，而且每一步都可能产生延迟和资讯损失。

而 Step-Audio 2 mini 打破了这个「三级跳」的框架，实现了真正的「端对端」处理。它能直接从原始的音讯输入，一步到位地生成音讯回应。这就好比把三个独立的工厂整合成一个高度自动化的智能工厂，不仅架构更简洁，反应速度也更快，互动体验自然更加流畅。

此外，模型还引入了「链式思维推理（CoT）」与强化学习的联合优化技术。这让它在处理资讯时，能像人一样进行一步步的逻辑思考，从而更好地理解语气、情绪这些弦外之音，并做出更自然、更贴切的回应。

解决 AI 幻觉？它还能上网查资料！

大语言模型一个常见的毛病就是「幻觉」——也就是一本正经地胡说八道。这是因为它们的知识被限制在训练数据中。

Step-Audio 2 mini 则透过一项名为「音讯知识增强」的功能，巧妙地解决了这个问题。当遇到它知识范围之外的问题时，它能够利用外部工具（例如搜寻引擎）进行即时的联网搜索，找到最准确、最新的资讯，然后再用自然的语音回答你。

这项创新极大地提升了模型的实用性和可靠性，也为它在各种真实场景中的应用开辟了更广阔的道路。

立即体验，共同参与

作为一个开源模型，Step-Audio 2 mini 最大的魅力在于它向所有人敞开了大门。无论你是开发者、研究人员还是 AI 爱好者，都可以亲身体验它的强大功能。

阶跃星辰已经将模型相关的程式码和资源上传至各大平台，欢迎大家前往试用、贡献程式码，共同推动语音 AI 技术的发展。

GitHub: https://github.com/stepfun-ai/Step-Audio2
Hugging Face: https://huggingface.co/stepfun-ai/Step-Audio-2-mini
线上测试: https://realtime-console.stepfun.com

总而言之，Step-Audio 2 mini 的出现，不仅为开源社群带来了一个性能卓越的工具，也再次证明了在 AI 这条赛道上，创新和开放才是推动技术前进的核心动力。

分享到:

Featured Partners

SPONSORED

DMflow.chat

Discover DMflow.chat and unlock the new era of AI-powered customer service.

Learn More

SPONSORED

videoweaver.app

Video Weaver: Professional video editing directly in your browser. No downloads required.

Learn More

SPONSORED

DMflow.chat

DMflow.chat: Your intelligent AI partner for exceptional customer engagement.

Learn More

SPONSORED

DMflow.chat

Discover DMflow.chat and unlock the new era of AI-powered customer service.

Learn More

SPONSORED

videoweaver.app

Video Weaver: Professional video editing directly in your browser. No downloads required.

Learn More

SPONSORED

DMflow.chat

DMflow.chat: Your intelligent AI partner for exceptional customer engagement.

Learn More

Recommended for You

S …

tool

Supertonic 登场：轻量、极速且支援多语言开发的开源 TTS 引擎

引言：打破速度与隐私的藩篱在语音互动技术日益普及的当下，使用者对于“回应速度”的要求也水涨船高。试想一下，当你询问智慧助理一个问题，中间那几秒钟的尴尬空白，往往就足以破坏整个对话的沉浸感。市面上许多高品质的语音合成（Text-to-Speech, TTS）模型虽然声音逼真，但往往受限于庞大的运算需求，不得不依赖云端伺服器，这不仅造成了延迟，也引发了隐私洩露的疑虑。 Supertonic 的出现，正是为了填补这块市场空缺。这款新开源的 TTS 引擎，不追求无止境地堆叠参数量，而是专注于在极低的运算资源下，提供极致的速度与优秀的文本理解能力。对于那些渴望在本地端运行高品质语音，却又苦于硬体限制的开发者来说，Supertonic 提供了一个令人兴奋的新方向。极致效能：重新定义“即时”的概念谈到 Supertonic，最令人印象深刻的莫过于它的执行效率。在技术规格中，开发团队特别强调了“即时率”（Real-time factor, RTF）的表现。所谓 RTF，指的是生成语音所需的时间与生成语音长度的比例。数值越低，代表速度越快。 Supertonic 在这方面的数据堪称惊人。在 NVIDIA RTX4090 这样的顶级显卡上，其 RTF 低至 0.001。这意味着生成 1 秒钟的语音，仅需要 1 毫秒的时间。即便是在苹果的 M4 Pro 晶片上，RTF 也能维持在 0.006 的高水准。这种近乎瞬间完成的生成速度，让“对话”不再有等待感，能够实现真正的即时语音互动，这对于游戏角色配音、即时翻译设备或是导航系统来说，都是极具价值的特性。轻量化架构：66M 参数的小巨人近年来 AI 模型有一种“大即是美”的趋势，动辄数十亿甚至上千亿的参数虽然带来了强大的能力，但也将许多终端装置拒于门外。Supertonic 反其道而行，将模型参数控制在 66M（6600 万）的精巧规模。这个数字背后的意义重大。较小的参数量意味着它占用的记忆体极少，运算负担极轻。它不需要昂贵的伺服器丛集就能运作，甚至可以在普通的笔记型电脑、手机，或是树莓派这类的边缘运算装置上流畅运行。这种轻量化的设计，大幅降低了开发者部署 AI 语音功能的门槛，让语音技术不再是大型科技公司的专利，个人开发者或小型新创团队也能轻松驾驭。隐私与离线运算：资料安全的最佳解随着大众对数据隐私的关注度提升，将使用者的语音数据上传至云端处理，始终存在着安全隐患。Supertonic 的架构天生就是为了 On-device（装置端）执行而设计。这意味着所有的语音合成过程都在使用者的设备上完成，完全不需要连网。这种离线运作模式带来了两大好处。首先是绝对的隐私，使用者的输入内容永远不会离开他们的装置，这对于医疗、金融或个人助理等敏感应用场景至关重要。其次是零网路延迟，由于不需要等待封包在网路往返，即使在网路讯号不佳甚至无网路的环境下（例如偏远山区的导航或飞机上的娱乐系统），Supertonic 依然能稳定提供服务。开发者的福音：跨语言与多平台支援一个好的开源专案，除了核心技术强大外，易用性也是关键。Supertonic 的开发团队显然深谙此道，提供了极为广泛的程式语言支援。目前它已支援超过 8 种主流语言，包括：系统级语言： C++, Rust, Go 应用级语言： Python, C#, Java, Swift Web 前端： JavaScript 这种多语言支援意味着极高的灵活性。开发者可以将 Supertonic 嵌入到 iOS 或 Android 的原生 App 中（使用 Swift 或 Java/Kotlin），也可以整合到 Unity 游戏引擎里（使用 C#），甚至可以直接在浏览器上运行（使用 JavaScript/Wasm）。无论是打造桌面软体、行动应用，还是网页服务，开发者都能找到对应的介面直接使用，大大缩短了整合开发的时间。

Nov 19, 2025 Read →

M …

tool

Maya1：不只开源，更能懂你的情绪！AI 语音生成的新革命

探索 Maya1，一款颠覆性的开源语音 AI 模型。它不仅能用自然语言创造声音，还能精准表达超过 20 种情绪。了解它如何为创作者、开发者和所有需要“声音”的专案，带来前所未有的自由度与生命力。你是否也曾对那些听起来生硬、缺乏感情的 AI 语音感到厌烦？无论是影片配音、游戏角色，还是智慧助理，那种“机器人感”总是让人有点出戏。更麻烦的是，市面上最强大的语音生成工具，通常都躲在高昂的付费墙后，限制了许多创作者的想像力。但如果，现在有一款 AI 不仅完全开源、可以免费商用，还能听懂你的描述，甚至能精准地在句子中加入笑声、哭声或耳语呢？这听起来是不是很棒？这就是 Maya1 诞生的使命。它不只是一个工具，更是一场关于声音表达的革命。 Maya1 究竟是什么？一个有灵魂的声音引擎简单来说，Maya1 是一个由 Maya Research 开发的先进文字转语音（Text-to-Speech, TTS）模型。它基于强大的 Llama 架构，拥有 30 亿个参数，能够生成极为逼真、富有情感的 24 kHz 高品质音讯。最关键的是，它是完全开源的。这意味着任何人都可以下载、使用，甚至修改它，将其部署在自己的专案中，而不用担心授权费用。为什么 Maya1 与众不同？这三大特色说了算市面上的 TTS 工具不少，但 Maya1 凭借几个独特的亮点，成功地脱颖而出。 1. 用“说”的来设计声音，就像跟配音员沟通忘掉那些复杂的参数和拉杆吧！使用 Maya1，你只需要用最自然的语言来描述你想要的声音。就像你在指导一位专业的配音员一样。想来点不一样的？没问题：一个 40 岁、声音温暖、低沉且健谈的男性声音一个 20 多岁的英国女孩，语气活泼一个充满怒气的黑暗反派，带着英国口音你只需要把描述写下来，剩下的交给 Maya1 就好。这种直觉的互动方式，大大降低了使用的门槛，让任何人都能轻松创造出独一无二的声音。 2. 让 AI 拥有喜怒哀乐，精准传达每种情绪这可能是 Maya1 最令人惊艳的功能了。它支援超过 20 种情绪标签，你可以像写剧本一样，直接在文字稿中标注情绪的触发点。例如，你可以这样写： “我们费了这么大劲才把他从那团乱中拉出来 <cry> 我真不敢相信...” 或者来点欢乐的： “我们的新功能 <laugh> 终于上线了！”

Nov 12, 2025 Read →

A …

tool

AI 播客的下一个里程碑？SoulX-Podcast 能否解决多说话者语音合成的噩梦？

AI 语音合成又迎来了新的挑战者。SoulX-Podcast 号称能生成长达 90 分钟、支持多种方言、且情感自然的 AI 播客对话。这项新技术真的能克服以往模型在多说话者场景下的尴尬表现吗？本文将深入探讨其背后的技术细节与潜力。在人工智能的浪潮中，文本转语音（TTS）技术早已不是什么新鲜事。我们习惯了手机导航的清晰指引，也熟悉了智能音箱的温和应答。然而，当我们试图让 AI 模拟一场真实、流畅、包含多人对话的播客（Podcast）时，结果往往不尽人意——声音僵硬、语气平淡、说话者切换时的混乱感，都像一道无形的墙，提醒我们 AI 与真人之间仍有距离。过去有些模型，例如 VibeVoice-1.5B，虽然立意良好，但在处理快速的多人对话切换时，表现总有些力不从心。这也让许多开发者和内容创作者感到好奇：我们离那个能生成以假乱真多人对话的 AI，到底还有多远？就在此时，一个名为 SoulX-Podcast 的新模型进入了我们的视野。从其发布的展示页面来看，它似乎正朝着解决这个「噩梦级」问题迈出了一大步。不只是单声道：专为真实对话而生传统的 TTS 系统大多专为单一说话者设计，你可以把它想象成一个演员在念独白。但一场播客或真实对话，更像是一出有多个角色的舞台剧，充满了互动、打断和情感交流。 SoulX-Podcast 的核心设计理念，就是为了生成这种多回合、多说话者的对话式语音。它不再是简单地将文本转为声音，而是理解对话的上下文，让每个「说话者」的语气和韵律能随着对话进展而自然变化。这意味着 AI 不仅知道说什么，还知道该怎么说，这在提升自然度方面是个巨大的飞跃。乡音也能无碍？惊人的方言与语气控制让 AI 说话不难，但要让它说得有「人味」，甚至带点地方口音，那挑战可就大了。SoulX-Podcast 在这方面带来了惊喜。它不仅支持标准的中文和英文，还整合了多种华语方言，包括四川话、河南话和粤语。从官方展示的范例中可以听到，AI 生成的方言听起来相当地道，保留了方言独特的韵味和语调。更重要的是「副语言（Paralinguistic）控制」的加入。这是什么意思呢？简单来说，就是那些非语言的声音信号，比如：笑声 (<laughter>) 叹气 (<sigh>) 清喉咙 (<throat_clearing>) 咳嗽 (<coughing>) 这些细节正是让对话变得生动地关键。想象一下，在讨论一个有趣的话题时，AI 主持人自然地发出笑声，而不是用平淡的语气说出「哈哈」，这两者的感染力完全不在一个层次。连续 90 分钟不「精神分裂」的稳定性长篇语音生成是另一个巨大的技术难关。许多模型在生成几分钟的音频后，声音的稳定性（也就是音色）就会开始漂移，听起来像是中途换了个人。 SoulX-Podcast 的技术报告指出，它能够连续生成超过 90 分钟的对话，同时保持稳定的说话者音色和流畅的转换。这对于播客、有声书或长篇教学内容的创作者来说，无疑是一个极具吸引力的功能。这意味着未来或许可以仅仅通过脚本，就自动生成一整季节目，而无需担心声音品质前后不一。背后的秘密：强大的数据处理与模型架构听起来很神奇，对吧？这背后的功臣，是一个复杂而精密的系统。首先是其 SoulX-Data-Pipeline。在训练模型之前，团队对大量的语音数据进行了细致的处理，包括语音增强、音频分割、说话者日志（确定是谁在说话）、文本转录和品质过滤。这就像在烹饪一道大餐前，厨师团队 meticulously 清洗、挑选和处理每一份食材，确保最终的味道是最好的。而在模型核心，SoulX-Podcast 很可能是基于 Qwen3-1.7B 这样的大型语言模型（LLM）进行训练。这使得模型不仅能处理声音，更能理解语言和对话的深层结构，从而做出更自然的语气和节奏反应。所以，这次真的不一样了吗？从官方提供的范例和技术细节来看，SoulX-Podcast 的确展现了令人印象深刻的实力。它不仅在单人语音合成方面达到了顶尖水平，更在极具挑战性的多人、多方言、长篇对话场景中取得了突破。当然，展示的范例总是经过挑选的。它在更复杂、更不可预測的真实应用中的表现如何，还需要社区和开发者们（Hugging Face 页面已开放）进行更广泛的测试。但无论如何，SoulX-Podcast 的出现，都为 AI 语音合成领域，特别是内容创作行业，描绘了一个激动人心的未来。或许在不久的将来，我们在收听一档精彩的多人播客时，将再也分不清耳机里的声音，究竟是来自人类，还是 AI。

Oct 29, 2025 Read →