
Boson AI 正式開源其最新的音訊基礎模型 Higgs Audio v2。這個模型僅憑預訓練就在多項評測中擊敗了 gpt-4o-mini-tts 等頂尖對手,展現了前所未有的情感表達、多語言對話和音樂生成能力。本文將深入解析其技術亮點與驚人表現。
引言:音訊生成的下一個里程碑
你有沒有想過,未來的語音助理不僅僅是冰冷地回答問題,而是能用帶有情感的語氣與你對話?甚至能在你說話時,自動配上應景的背景音樂?聽起來像是科幻電影的情節,但現在,這一切正加速成為現實。
最近,人工智慧公司 Boson AI 投下了一顆震撼彈:正式開源其強大的音訊基礎模型——Higgs Audio v2。這不是一次普通的模型升級,它代表了音訊生成技術的一次巨大飛躍。這個模型經過超過 1000 萬小時的音訊資料和大量文本資料的洗禮,即使沒有經過任何針對性的微調,它在情感表達和多樣化音訊生成方面的能力也已經達到了令人驚嘆的水平。
Higgs Audio v2 到底是什麼?
簡單來說,Higgs Audio v2 是一個「音訊基礎模型」。你可以把它想像成一個擁有超凡聽力和語言天賦的「大腦」。它不像傳統的文字轉語音(TTS)系統那樣,只能死板地將文字轉換成聲音。相反地,它深度理解了語言的細微之處和聲音的物理特性。
這意味著什麼?這意味著它不僅知道「說什麼」,更懂得「怎麼說」。它能掌握語氣的抑揚頓挫、情感的細微變化,甚至能模仿特定人物的說話風格。這一切都源於它在海量資料中學到的深刻模式。
為何說它改變了遊戲規則?不只是說話而已
Higgs Audio v2 的強大之處在於它展現了許多以往系統難以企及的能力。這些能力聽起來甚至有點不可思議:
- 無需微調的超強情感表達: 在很多模型還需要大量「後期訓練」才能生成帶有情感的語音時,Higgs Audio v2 在預訓練階段就已經掌握了這項技能。無論是喜悅、悲傷還是疑問,它都能自然地表達。
- 多語言、多說話者的自然對話: 想像一下,一個模型能流暢地生成一段包含中文、英文,且由不同角色(例如一男一女)進行的對話,聽起來就像真實的廣播劇。這正是 Higgs Audio v2 的拿手好戲。
- 自動調整旁白韻律: 在朗讀故事或旁白時,它能自動適應文本的節奏和情緒,讓聽感更加自然、引人入勝。
- 克隆聲音唱歌(哼唱旋律): 這可能是最酷的功能之一。它不僅能複製某人的聲音來說話,還能用這個聲音來哼唱旋-律。
- 語音與背景音樂同步生成: 這是它與眾不同的地方。它可以在生成語音的同時,創造出與之匹配的背景音樂,將場景的氛圍感直接拉滿。
數據會說話:Higgs Audio v2 的驚人表現
當然,光說不練假把戲。Higgs Audio v2 在多個業界公認的基準測試中都取得了頂尖的成績,甚至超越了許多知名模型。
EmergentTTS-Eval 情感與問句測試
在這個專門評估模型處理情感和疑問語氣能力的測試中,Higgs Audio v2 的表現非常亮眼。評測方式是讓 AI 裁判(Gemini 2.5 Pro)去比較它和對手的生成結果,看誰的更好。
結果顯示:
- 在「情感 (Emotions)」類別中,Higgs Audio v2 對比 OpenAI 的
gpt-4o-mini-tts-alloy取得了 75.7% 的勝率。 - 在「問句 (Questions)」類別中,勝率也達到了 55.7%。
這份成績單直接證明了它在處理複雜和細膩語氣方面的卓越能力,遠超包括 Hume.AI、ElevenLabs 在內的多個強勁對手。
| 模型 | 情感類別勝率 (%) ↑ | 問句類別勝率 (%) ↑ |
|---|---|---|
| Higgs Audio v2 (base) | 75.71% | 55.71% |
| gpt-4o-audio-preview | 61.64% | 47.85% |
| Hume.AI | 61.60% | 43.21% |
| 基準線: gpt-4o-mini-tts | 50.00% | 50.00% |
| ElevenLabs Multilingual v2 | 30.35% | 39.46% |
傳統 TTS 基準測試 (Seed-TTS Eval & ESD)
在更傳統的零樣本(Zero-shot)TTS 測試中,評估標準主要看兩個指標:詞錯誤率 (WER)(越低越好)和語音相似度 (SIM)(越高越好)。Higgs Audio v2 在這裡同樣展現了頂級水準。
| 評測集 | 模型 | WER ↓ | SIM ↑ |
|---|---|---|---|
| SeedTTS-Eval | Higgs Audio v2 (base) | 2.44 | 67.70 |
| Cosyvoice2 | 2.28 | 65.49 | |
| ElevenLabs Multilingual V2 | 1.43 | 50.00 | |
| ESD (情感語音) | Higgs Audio v2 (base) | 1.78 | 86.13 |
| Higgs Audio v1 | 1.49 | 82.84 | |
| ElevenLabs Multilingual V2 | 1.66 | 65.87 |
從數據可以看出,尤其是在情感語音數據集 (ESD) 上,Higgs Audio v2 的相似度得分非常高,這再次印證了它在情感模仿和表達上的強大實力。
如何親身體驗和使用?
說了這麼多,你肯定也想親自試試看了。好消息是,因為它已經開源,所以任何人都可以使用。
- 線上體驗: 如果你只是想快速體驗它的效果,可以直接訪問 Hugging Face 上提供的 線上展示空間 (Hugging Face Space)。在這裡,你可以直接輸入文字,試聽生成的效果。
- 本地部署: 如果你是開發者或研究人員,想要將其整合到自己的專案中,可以前往 GitHub 專案頁面 下載完整的程式碼和模型。
一個小提醒: 想要讓 Higgs Audio v2 發揮最佳性能,官方建議在一台配備至少 24GB 記憶體的 GPU 的機器上運行。畢竟,驅動這樣一個強大的「大腦」是需要足夠的運算資源的。
總結:音訊創作的未來已來
Higgs Audio v2 的開源,不僅僅是釋出了一個工具,它更為整個音訊生成領域打開了一扇新的大門。從有聲書、遊戲配音、虛擬助理到音樂創作,它的出現將極大降低高品質、富含情感的音訊內容的創作門檻。
開發者和創作者現在有了一個前所未有的強大工具,可以用來打造更具沉浸感和情感共鳴的聽覺體驗。我們有理由相信,這只是一個開始。隨著社群的加入和持續創新,基於 Higgs Audio v2 的應用將會遍地開花,徹底改變我們與聲音互動的方式。對此感興趣的朋友,不妨立刻去 Boson AI 的技術頁面 了解更多細節。


