不只是语音合成!Higgs Audio v2 开源发布,1000 万小时训练出的音频模型有多强大?
Boson AI 正式开源其最新的音频基础模型 Higgs Audio v2。这个模型仅凭预训练就在多项评测中击败了 gpt-4o-mini-tts 等顶尖对手,展现了前所未有的情感表达、多语言对话和音乐生成能力。本文将深入解析其技术亮点与惊人表现。
引言:音频生成的下一个里程碑
你有没有想过,未来的语音助理不仅仅是冰冷地回答问题,而是能用带有情感的语气与你对话?甚至能在你说话时,自动配上应景的背景音乐?听起来像是科幻电影的情节,但现在,这一切正加速成为现实。
最近,人工智能公司 Boson AI 投下了一颗震撼弹:正式开源其强大的音频基础模型——Higgs Audio v2。这不是一次普通的模型升级,它代表了音频生成技术的一次巨大飞跃。这个模型经过超过 1000 万小时的音频数据和大量文本数据的洗礼,即使没有经过任何针对性的微调,它在情感表达和多样化音频生成方面的能力也已经达到了令人惊叹的水平。
Higgs Audio v2 到底是什么?
简单来说,Higgs Audio v2 是一个“音频基础模型”。你可以把它想象成一个拥有超凡听力和语言天赋的“大脑”。它不像传统的文本转语音(TTS)系统那样,只能死板地将文本转换成声音。相反地,它深度理解了语言的细微之处和声音的物理特性。
这意味着什么?这意味着它不仅知道“说什么”,更懂得“怎么说”。它能掌握语气的抑扬顿挫、情感的细微变化,甚至能模仿特定人物的说话风格。这一切都源于它在海量数据中学到的深刻模式。
为何说它改变了游戏规则?不只是说话而已
Higgs Audio v2 的强大之处在于它展现了许多以往系统难以企及的能力。这些能力听起来甚至有点不可思议:
- 无需微调的超强情感表达: 在很多模型还需要大量“后期训练”才能生成带有情感的语音时,Higgs Audio v2 在预训练阶段就已经掌握了这项技能。无论是喜悦、悲伤还是疑问,它都能自然地表达。
- 多语言、多说话者的自然对话: 想象一下,一个模型能流畅地生成一段包含中文、英文,且由不同角色(例如一男一女)进行的对话,听起来就像真实的广播剧。这正是 Higgs Audio v2 的拿手好戏。
- 自动调整旁白韵律: 在朗读故事或旁白时,它能自动适应文本的节奏和情绪,让听感更加自然、引人入胜。
- 克隆声音唱歌(哼唱旋律): 这可能是最酷的功能之一。它不仅能复制某人的声音来说话,还能用这个声音来哼唱旋律。
- 语音与背景音乐同步生成: 这是它与众不同的地方。它可以在生成语音的同时,创造出与之匹配的背景音乐,将场景的氛围感直接拉满。
数据会说话:Higgs Audio v2 的惊人表现
当然,光说不练假把戏。Higgs Audio v2 在多个业界公认的基准测试中都取得了顶尖的成绩,甚至超越了许多知名模型。
EmergentTTS-Eval 情感与问句测试
在这个专门评估模型处理情感和疑问语气能力的测试中,Higgs Audio v2 的表现非常亮眼。评测方式是让 AI 裁判(Gemini 2.5 Pro)去比较它和对手的生成结果,看谁的更好。
结果显示:
- 在“情感 (Emotions)”类别中,Higgs Audio v2 对比 OpenAI 的
gpt-4o-mini-tts-alloy
取得了 75.7% 的胜率。 - 在“问句 (Questions)”类别中,胜率也达到了 55.7%。
这份成绩单直接证明了它在处理复杂和细腻语气方面的卓越能力,远超包括 Hume.AI、ElevenLabs 在内的多个强劲对手。
模型 | 情感类别胜率 (%) ↑ | 问句类别胜率 (%) ↑ |
---|---|---|
Higgs Audio v2 (base) | 75.71% | 55.71% |
gpt-4o-audio-preview | 61.64% | 47.85% |
Hume.AI | 61.60% | 43.21% |
基准线: gpt-4o-mini-tts | 50.00% | 50.00% |
ElevenLabs Multilingual v2 | 30.35% | 39.46% |
传统 TTS 基准测试 (Seed-TTS Eval & ESD)
在更传统的零样本(Zero-shot)TTS 测试中,评估标准主要看两个指标:词错误率 (WER)(越低越好)和语音相似度 (SIM)(越高越好)。Higgs Audio v2 在这里同样展现了顶级水平。
评测集 | 模型 | WER ↓ | SIM ↑ |
---|---|---|---|
SeedTTS-Eval | Higgs Audio v2 (base) | 2.44 | 67.70 |
Cosyvoice2 | 2.28 | 65.49 | |
ElevenLabs Multilingual V2 | 1.43 | 50.00 | |
ESD (情感语音) | Higgs Audio v2 (base) | 1.78 | 86.13 |
Higgs Audio v1 | 1.49 | 82.84 | |
ElevenLabs Multilingual V2 | 1.66 | 65.87 |
从数据可以看出,尤其是在情感语音数据集 (ESD) 上,Higgs Audio v2 的相似度得分非常高,这再次印证了它在情感模仿和表达上的强大实力。
如何亲身体验和使用?
说了这么多,你肯定也想亲自试试看了。好消息是,因为它已经开源,所以任何人都可以使用。
- 在线体验: 如果你只是想快速体验它的效果,可以直接访问 Hugging Face 上提供的 在线展示空间 (Hugging Face Space)。在这里,你可以直接输入文本,试听生成的效果。
- 本地部署: 如果你是开发者或研究人员,想要将其整合到自己的项目中,可以前往 GitHub 项目页面 下载完整的代码和模型。
一个小提醒: 想要让 Higgs Audio v2 发挥最佳性能,官方建议在一台配备至少 24GB 内存的 GPU 的机器上运行。毕竟,驱动这样一个强大的“大脑”是需要足够的运算资源的。
总结:音频创作的未来已来
Higgs Audio v2 的开源,不仅仅是释出了一个工具,它更为整个音频生成领域打开了一扇新的大门。从有声书、游戏配音、虚拟助理到音乐创作,它的出现将极大降低高品质、富含情感的音频内容的创作门槛。
开发者和创作者现在有了一个前所未有的强大工具,可以用来打造更具沉浸感和情感共鸣的听觉体验。我们有理由相信,这只是一个开始。随着社区的加入和持续创新,基于 Higgs Audio v2 的应用将会遍地开花,彻底改变我们与声音互动的方式。对此感兴趣的朋友,不妨立刻去 Boson AI 的技术页面 了解更多细节。