Zyphra 推出 ZONOS2:首創 MoE 架構的即時 TTS 語音克隆模型
Zyphra 最新推出的 ZONOS2 是一款採用 Apache 2.0 授權的開源文字轉語音模型。首創導入混合專家架構,不僅達成低延遲語音生成,更具備極高逼真度的語音克隆能力,並支援中英日等多國語言。
大家或許都有過這樣的經驗。在人工智慧語音生成的圈子裡,要嘛跑得快,要嘛聽起來像真人,這兩件事往往很難兼顧。許多開發者與影音創作者經常面臨一個頭痛的抉擇,究竟該選擇生成速度極快但聲音充滿機器感的工具,還是花費大量時間等待一個情緒飽滿的音檔。
重點來了,Zyphra 團隊近期帶來了一個相當具震撼力的解決方案。這款名為 ZONOS2 的全新開源文字轉語音模型,正是為了打破這個兩難局面而生。ZONOS2 採用了極具彈性的 Apache 2.0 授權,這代表無論是個人研究還是商業專案都能無縫接軌。它在開源界首度導入了混合專家架構,讓生成的聲音不僅即時,而且克隆出來的語氣、節奏甚至呼吸聲都逼真到令人驚豔。這篇文章將帶大家一探究竟,看看這款模型到底藏了什麼秘密武器。
什麼是混合專家架構?
大家可能會好奇,所謂的混合專家架構(MoE)到底是什麼概念。這邊來解釋一下。想像一家跨國企業裡聘請了各個領域的頂尖顧問。平時這些顧問不會全部同時出動,唯有遇到特定領域的難題時,才會指派最懂那個領域的幾位專家出面解決。這正是 ZONOS2 的運作邏輯。
這款模型總共擁有高達 80 億個參數,但在每一次處理語音生成任務時,它只需要喚醒其中大約 9 億個活躍參數。透過這種聰明的資源分配方式,ZONOS2 成功讓整體的運算吞吐量比前一代足足提升了四倍之多。不但體積變大了,學到的東西變多了,生成速度反而還更快。加上它專門預測 DAC 音訊 Token,這項技術讓輸出的音質直接飆升到 44.1 kHz 的錄音室等級。也就是說,聽眾幾乎無法察覺這是一段由人工智慧生成的合成音。
直接閱讀原始位元組的語言天才
熟悉文字轉語音技術的專家一定知道,過去的模型在發音前,都必須經過一道名為音素化的繁瑣手續。簡單來說,就是先把文字轉換成拼音符號,模型才懂怎麼唸出聲音。但 ZONOS2 決定把這個老規矩丟進垃圾桶。它採用了一種更直觀且更符合直覺的做法,直接讀取輸入文字的 UTF-8 原始位元組。
少了那層轉換手續,ZONOS2 處理語言的靈活度大幅提升。這項改變對於非歐洲語言的使用者來說絕對是一大福音。繁體中文、簡體中文、日文以及韓文等語言,往往因為複雜的發音規則而在音素化過程中吃足苦頭。現在,ZONOS2 將中文與英文、日文並列為最高支援等級的語言。更厲害的是,當遇到中英文夾雜的日常對話場景時,它也能流暢地切換雙語發音,完全不會出現卡頓或發音怪異的窘境。
忠實還原還是完美修飾?雙模式任君挑選
在實際應用語音克隆技術時,大家常常會遇到一個尷尬的狀況。假設今天手邊只有一段充滿背景雜音、錄音環境不佳的參考音檔,模型到底該原汁原味地把雜音一起複製下來,還是該聰明地幫忙過濾掉那些瑕疵?
為了解決這個兩難,ZONOS2 非常貼心地設計了兩種截然不同的生成模式。第一種是表現模式,這個模式的唯一目標就是極致的逼真度。它會緊緊抓住參考音檔裡的所有細節,包含說話者的特殊口吻、高低起伏的韻律,甚至是微小的換氣聲,產生出最自然生動的情感表達。
第二種則是穩定模式。如果使用者只想要一段乾淨清脆、適合直接放入影片中作為旁白的聲音,這個模式就會發揮作用。它會自動修飾掉原始音檔裡的環境噪音與錄音瑕疵,專注於提供高品質、高穩定度的純淨人聲。有了這兩種模式的輔助,創作者可以根據不同的專案需求,靈活調整最終的輸出效果。
龐大訓練數據與全新的評估標準
一款優秀的語音模型背後,必然有著驚人的數據量作為支撐。相比於早期測試版本僅使用大約 20 萬小時的語音資料,ZONOS2 這次一口氣將訓練數據庫擴充到了超過 600 萬小時。這相當於連續播放了 707 年的音訊檔案。這些包羅萬象的語料涵蓋了有聲書的平穩敘事、Podcast 的隨性閒聊,以及各式各樣的多語系對話,讓 ZONOS2 得以適應極度複雜的真實世界語境。
有趣的是,Zyphra 團隊在開發過程中發現了一件事。現今被廣泛使用的語音評估標準,其實已經跟不上技術進步的腳步了。它們大多只針對少數語言進行測試,或者使用的辨識系統過於陳舊。為此,Zyphra 特別設計了一套名為 ZTTS1-Eval 的全新評估基準。這套新標準加入了更多元、更貼近真實情境的吵雜音檔來考驗模型,確保 ZONOS2 在各種嚴苛環境下依然能保持頂尖水準。
豐富的開源資源與實作管道
對於熱愛動手實作的開發者來說,最關心的莫過於如何親自體驗這項技術。Zyphra 團隊在這方面展現了極大的誠意。如果想要將模型整合到自己的伺服器或專案中,大家可以直接前往 Hugging Face 上的 ZONOS2 模型頁面 下載完整的模型權重。
同時,官方也在 GitHub 開源了配套的推論程式碼。這套開源專案包含了基於 Mini-SGLang 的高效能伺服器架構,讓有技術背景的使用者能夠輕鬆架設並優化生成流程。有興趣了解程式碼細節的朋友,不妨直接到 ZONOS2 的 GitHub 儲存庫 挖寶。
當然,如果只是想先單純體驗一下聲音合成的魅力,也不需要費心設定環境。官方開放了 Zyphra Cloud 語音遊樂場 讓大家線上試玩。只要輸入文字、上傳參考音檔,就能立刻感受到這款全新架構帶來的語音震撼。無論是追求極致體驗的影音創作者,還是需要建構低延遲對話系統的開發者,這款工具絕對值得立刻加入技術觀察名單中。
問與答 (Q&A)
Q1:市面上的語音生成工具很多,ZONOS2 最大的技術突破是什麼? A: ZONOS2 是開源界首款採用「混合專家 (MoE)」架構的文字轉語音模型。它擁有高達 80 億的總參數,但在每次運算時僅需啟動 9 億個活躍參數。這項聰明的設計讓它的吞吐量比前一代大幅提升了 4 倍。此外,它直接預測 DAC 音訊 Token,能夠產出高達 44.1 kHz 的錄音室等級高保真音質。
Q2:ZONOS2 對於非英語(如中文、日文)的發音支援度好嗎? A: 支援度極佳!它捨棄了傳統繁瑣的「音素化」轉換步驟,改為直接閱讀文字的 UTF-8 原始位元組。這項突破大幅增強了處理中文、韓文與日文等非歐洲語言的能力,並且能極度流暢地處理中英文夾雜的對話(語碼轉換)。目前,中文、英文與日文皆被官方列為最高支援等級(Tier 1)。
Q3:如果我用來進行「語音克隆」的參考音檔有背景雜音,模型會怎麼處理? A: 為了應對這個常見難題,ZONOS2 貼心地提供了雙模式切換。如果你選擇「表現模式 (Expressive Mode)」,模型會追求極致的克隆逼真度,忠實還原包含雜音、特殊聲線與呼吸聲的所有細節;若你選擇「穩定模式 (Stable Mode)」,模型則會自動幫你修飾掉環境瑕疵,產出乾淨清脆的錄音室品質語音。
Q4:為什麼官方還要大費周章推出一個名為「ZTTS1-Eval」的全新評估標準? A: Zyphra 團隊在開發時發現,現今業界常用的評估標準(如 Seed-TTS-Eval)已經過於老舊。舊標準不僅使用的語音辨識模型過時,且多半測試的是缺乏情感起伏的「朗讀語音」。為此,他們推出了 ZTTS1-Eval,引入了包含真實環境噪音與更多元語系的資料集(如 VoxBlink2),藉此更精確地考驗模型在複雜情境下的真實表現。
Q5:這款強大的模型是完全免費的嗎?可以用於商業用途嗎? A: 是的!ZONOS2 採用了極度寬鬆的 Apache 2.0 授權協議進行開源。這代表無論是個人創作者還是企業,都能自由下載模型權重並將其整合到商業專案中。官方甚至大方地在 GitHub 上提供了基於 Mini-SGLang 的高效能推論伺服器程式碼,大大降低了開發者的導入門檻。



