告別死板 AI 語音：Fish Audio S2 開源模型完整解析與實測指南

輸。在單張 NVIDIA H200

碼已發布在 GitHub 上，同時也

也可以前往 HuggingFace 平台取得

tool

告別死板 AI 語音：Fish Audio S2 開源模型完整解析與實測指南

2026-03-11

探索 Fish Audio S2 如何透過自然語言標籤實現精細的情緒控制，並以百毫秒級的超低延遲重新定義文本轉語音技術，帶給開發者與創作者前所未有的創作自由。

老實說，大家過去在聽有聲書或語音導覽時，肯定都遇過那種聽起來像機器人般生硬的聲音。早期文本轉語音技術雖然堪用，但總是少了一點人情味。不過，最近的技術演進確實令人驚豔。Fish Audio 正式開源了 S2 模型，這無疑為語音生成領域注入了一股全新活力。這套系統背後有超過 1000 萬小時的音訊資料撐腰。它不僅僅是發布一個模型權重，更是一個包含微調程式碼與生產級推理引擎的完整生態。

說到這裡，大家可能會好奇它到底有什麼不同，以及能為日常開發或創作帶來哪些實際幫助。讓我們一步步拆解這套模型的獨特之處。

讓 AI 真的聽懂情緒：這套行內控制有何魔力？

過去的語音模型多半只能套用固定的情緒預設值，用起來總覺得綁手綁腳。這時候，大家最常問的一個問題是：系統究竟支援哪些音訊標籤？

答案可能會讓人有點驚訝。S2 根本不依賴那些固定寫死的預定義標籤。相反地，它接受自由格式的自然語言描述。使用者可以直接在句子中間插入指令，這被稱為精細化行內控制。想像一下這個畫面：只要在腳本中輸入 [whisper in small voice]（小聲耳語）或是 [professional broadcast tone]（專業播音腔），系統就會立刻調整語氣。這就像是給 AI 遞了一張導演的字條，讓它在詞彙級別進行開放式的情感表達。

你可以看看下面這段虛擬的劇本對話範例，感受一下它的彈性：

<speaker:0> [excited] 這真的是太神奇了！ <speaker:1> [laugh] 沒錯，你可以複製任何聲音。 <speaker:2>[whisper in small voice] 你覺得它聽起來像真人嗎？

看到這裡，另一個常見的疑問自然浮現：多發言人對話生成是如何運作的？ 其實非常直觀。就像上面的範例一樣，只要透過標籤指定發言人，系統允許在單次生成中處理多個說話者。這種無縫切換的特性，讓製作 Podcast、遊戲配音或多人有聲書變得輕而易舉。

揭開技術面紗：雙自回歸架構怎麼解決延遲？

雖然操作起來很直觀，但 S2 骨子裡卻有著非常扎實的工程底子。核心技術在於其獨特的雙自回歸（Dual-AR）架構。這聽起來有點學術，讓我們換個方式解釋。

這套架構包含兩個主要部分。首先是負責「慢速」運行的 Slow AR，擁有 40 億參數，它的工作是沿著時間軸預測主要的語意。接下來是 Fast AR，僅有 4 億參數，負責在每個時間步生成剩餘的殘差，重建出精細的聲學細節。大家可能會認為，放了這麼多參數，處理速度一定會被嚴重拖垮。事實恰恰相反。這種非對稱的設計，巧妙地在保持音訊保真度的同時，確保了極高的推理效率。

此外，開發團隊解決了一個長期困擾語音系統的結構性痛點。通常，預訓練資料與後續訓練目標之間會出現分布不一致的問題。S2 的作法非常聰明，他們將資料清洗階段用來過濾和評分的模型，直接拿來當作語音強化學習階段的獎勵模型。這種一魚兩吃的策略，從根本上消除了分布差異，讓最終產出的聲音更加自然貼切。

實戰跑分與百毫秒級的流式傳輸

講了這麼多技術細節，這套系統在實際應用上的表現究竟如何？

數據會說話。在音訊圖靈測試中，S2 的後驗均值達到 0.515，大幅超越了 Seed-TTS 的 0.417 與 MiniMax-Speech 的 0.387。在綜合評估上，它甚至達到了 81.88% 的勝率。這樣的成績確實讓許多閉源系統感到壓力。

對於需要將技術落地的開發者來說，真正的亮點在於速度。許多工程師關心的重點是：可以透過 API 使用嗎？ 答案當然是肯定的。由於 S2 的雙自回歸架構與標準的大型語言模型高度相似，這代表它可以直接繼承許多原生的服務優化技術。

開發者能利用 SGLang Omni 整合套件輕鬆實現生產級的流式傳輸。在單張 NVIDIA H200 GPU 上運行，首包延遲（Time-to-first-audio）大約只有 100 毫秒。你知道 100 毫秒是什麼概念嗎？那幾乎就是人類眨眼的時間。實時因子（RTF）也低達 0.195。這樣的極致效能，讓即時語音對話應用的門檻大幅降低。

語言涵蓋率與開源社群資源

最後，我們來聊聊它的適用範圍與取得方式。

這套模型到底支援哪些語言？ 根據現有資料，它涵蓋了超過 80 種以上的語言，背後有著龐大的跨語系訓練數據支撐。其中，中文、英文與日文更享有最高級別的支援品質。這對於有國際化需求的專案來說，是一個極大的福音。

對於想要親自動手實作的朋友，開源程式碼已發布在 GitHub 上，同時也可以前往 HuggingFace 平台取得相關模型權重與資源。針對學術研究與非商業用途，社群可以完全免費地探索這些工具。若有商業應用的需求，則需要進一步向 Fish Audio 團隊取得授權。

技術的推進總是令人興奮。Fish Audio S2 的出現，不僅打破了傳統語音生成的限制，更為未來的數位內容創作開啟了無數可能。現在，輪到你來親自體驗這種自然流暢的聲音魅力了。

分享至:

Featured Partners

SPONSORED

DMflow.chat

DMflow.chat: 您的智能AI夥伴，提升客戶互動、創造卓越體驗。

Learn More

SPONSORED

videoweaver.app

Video Weaver: 瀏覽器內完成專業影片剪輯，無需下載、即刻創作。

Learn More

SPONSORED

scribis.app

Scribis: 字幕編輯、語音轉錄文字、即時顯示轉錄文字。

Learn More

SPONSORED

DMflow.chat

探索DMflow.chat，立即開啟AI驅動的客戶服務新時代。

Learn More

SPONSORED

DMflow.chat

DMflow.chat: 您的智能AI夥伴，提升客戶互動、創造卓越體驗。

Learn More

SPONSORED

videoweaver.app

Video Weaver: 瀏覽器內完成專業影片剪輯，無需下載、即刻創作。

Learn More

SPONSORED

scribis.app

Scribis: 字幕編輯、語音轉錄文字、即時顯示轉錄文字。

Learn More

SPONSORED

DMflow.chat

探索DMflow.chat，立即開啟AI驅動的客戶服務新時代。

Learn More

Recommended for You

d …

tool

dots.tts 完整解析：拋棄離散 Token 的新一代開源 TTS 語音合成模型

拋棄離散 Token 解析開源語音合成新星 dots.tts 的全連續架構與實用技巧許多人可能會好奇，語音合成技術發展至今，是否已經遇到瓶頸？老實說，開源社群最近出現了一個極具話題性的新面孔，也就是由小紅書（RedNote）推出的 dots.tts。這款模型擁有高達 20 億（2B）參數，並且採用了完全連續（Fully Continuous）的架構設計。這聽起來可能有些抽象，但簡單來說，它完全捨棄了過去常見的離散 Token，讓聲音的生成變得前所未有的滑順自然。對於想要親自體驗這項技術的開發者，可以直接參考 dots.tts 官方展示頁面，或是前往 dots.tts GitHub 專案獲取原始碼。這項專案基於 Apache-2.0 協議開源，這意味著它對商業授權非常友善。接下來，就讓我們一探究竟，看看這個引發熱烈討論的系統到底藏著什麼秘密。為什麼放棄離散 Token？揭開全流程架構的秘密傳統的語音合成系統，多半會採用音訊離散化（Quantization）技術。這就像是把一張高畫質的漸層圖片，強制轉換成只有幾種顏色的 8-bit 像素圖。這個過程無可避免地會流失掉許多細節。 dots.tts 的出現，正是為了解決這個痛點。它採用了一種從文本直接生成連續音訊潛變量的全流程設計。整個運作機制建立在幾個關鍵組件的緊密結合之上：首先是負責處理音訊的 AudioVAE。這是一個以 48kHz 運作的模組，專門把單聲道波形壓縮成連續潛變量，確保最終輸出的聲音保留極高的逼真度與細節。接著是語言模型骨幹（Backbone），它初始化自 Qwen2.5-1.5B-Base。特別的是，這個語言模型不處理傳統的音素（Phoneme），而是直接讀取 BPE 文本，藉此生成對應的隱藏狀態。那麼，要怎麼把文字跟音訊連接起來呢？這裡就得依靠因果語義編碼器（Causal Semantic Encoder）。它會剝離掉聲音中變動性太高、過於瑣碎的聲學細節，讓語言模型能更專注理解整段話的意思與連貫性。最後，再交由自迴歸流匹配頭（AR Flow-matching Head）在連續空間中進行逐塊（Patch-by-patch）的預測與去噪。這種連續建模的方式，徹底避開了量化失真的問題。這確實是一個相當聰明的作法。評測數據說話：這款模型的實力究竟如何？客觀的測試數據往往最能反映真實能力。在 Seed-TTS-Eval 綜合評測中，這款系統在零樣本（Zero-shot）語音克隆的表現相當亮眼。與其他規模相近的模型相比，例如 1.5B 參數的 CosyVoice 3 或是 1.7B 的 Qwen3-TTS，dots.tts 在中文測試集的錯誤率（WER）降到了 0.94%，而平均說話者相似度（SIM）則高達 79.2。這不僅超越了同級別的開源模型，在多語言測試中同樣維持著極高的穩定性。更讓人驚豔的是它在 Emergent-TTS-Eval 評測中的表現力。當面對語法複雜度極高的語句時，它取得了 65.7% 的高分，甚至超越了部分知名的閉源商用系統。同時，在情感表達（Emotions）的項目上，它也拿下了 72.7% 的成績。這意味著生成的語音不再是冷冰冰的機器聲，它能夠捕捉到語氣中的起伏與情緒。三大模型版本總覽：新手該選哪一個？面對官方提供的三種不同權重版本，開發者經常會感到困惑。究竟該如何挑選最適合自己的模型呢？其實分類非常明確。常有人問，如果只想得到最強的語音克隆效果，到底該選哪一個？答案毫無懸念，官方最強烈推薦的是 dots.tts-soar。這個版本經過了自我修正對齊（SCA）的處理，聲音還原度與穩定性都是最高的。如果是為了進行學術研究或是架構驗證，可以選擇基礎預訓練版本 dots.tts-base。那如果設備算力有限，或是極度要求生成速度呢？這時候就可以挑選基於 MeanFlow 知識蒸餾的 dots.tts-mf 學生模型。這個版本預設只需要 4 步就能完成採樣，運行起來非常輕巧且迅速。

Jun 29, 2026 Read →

H …

tool

Higgs Audio v3 TTS 是什麼？支援情感語音、語音複製與 100+ 語言的 AI TTS 技術

聽見真實的情感：Higgs Audio v3 TTS 讓語音 AI 學會真正說話當 AI 代理程式不再只是死板地朗讀文字，對話會變成什麼模樣？本文帶領大家認識這款支援破百種語言、具備行內標籤控制能力的全新語音生成技術。人們總希望機器開口說話時能帶有情感，聽起來更像真人。可是許多現有的文字轉語音系統聽起來總是少了一點人味。它們唸稿的技巧無可挑剔，卻缺乏真實對話中應有的靈魂。說實話，在即時的語音聊天中，說話的節奏與語氣往往比單純把字唸對還要關鍵。這也就是為什麼 Higgs Audio v3 TTS 引起了廣泛討論。這套系統打破了傳統的朗讀框架，專為語音聊天量身打造。這項由 Boson AI 開發的新技術，核心訴求非常明確。它要超越單純的閱讀，走向真實的語音。想像一下日常交流的情境。對話過程包含了許多細微的反應，像是停頓、強調、甚至是情緒的波動。語音不該只附屬在文字生成之後。它本身就是傳遞訊息的主角。系統讓 AI 模型能依據當下情境展現充滿表現力的回應。宛如導演在旁指導的控制標籤這套系統最吸引開發者的特色，絕對是那些被稱為行內控制標籤的強大功能。乍聽之下，行內控制標籤似乎會讓程式碼變得凌亂。畢竟誰會想在對話字串裡塞滿一堆記號？不過實際操作後就會發現，這種設計反而省去了切換系統的麻煩。開發者常常會問：如果要改變聲音情緒，需要跳出文字生成流程嗎？答案是完全不需要。只要直接在字串裡插入特定的標籤，這套系統就能無縫切換各種聲音表現。這就像是一位電影導演站在演員身旁，隨時指示下一句話該用什麼情緒來表達。說到電影，那些經典台詞之所以讓人難忘，往往在於演員的呼吸與停頓拿捏得恰到好處。這些標籤的設計同樣講究細節。想要一點情感波動嗎？它支援多達二十一種細緻的情感設定。喜悅、恐懼或是無助，都能精準傳達。如果需要特殊的人聲風格，直接加入大喊、唱歌或耳語的指令即可。有趣的是，系統還巧妙結合了聲音特效與狀聲詞。當開發者輸入對應的特效標籤後，只要緊跟著加上哈哈大笑或是打噴嚏的狀聲詞（拼音），模型就能精準捕捉發音的聲學提示。這讓咳嗽或嘆氣聽起來無比自然。就連講話的速度與停頓時間，也能精確到毫秒級別。語言天賦與驚人的模仿能力當然，一個優秀的語音模型必須具備強大的語言天賦。這款擁有約四十億個參數的自迴歸解碼器模型，不僅學得快，還學得很精。它具備零樣本語音複製的能力。只要提供一小段參考音訊，系統就能精準捕捉並模仿該聲音的特質。對於許多企業來說，這意味著可以輕鬆建立專屬的品牌語音。許多人會好奇這套系統究竟支援多少種語言。事實上它涵蓋了超過一百種語言。在多達一百零二種語言的測試評估中，它達到了極低的字詞錯誤率。其中高達八十五種語言達到了生產級品質，包含繁體中文、英文與日文等主流語言。這展現了強大的多語處理能力。在激烈競爭中脫穎而出當一項新技術問世，市場總愛拿它跟其他知名系統做比較。在 SeedTTS、CV3 以及 MiniMax-Multilingual 等多語言測試評估裡，它的表現相當亮眼。它成功擊敗了 Fish Audio S2 Pro、Qwen3-TTS 以及 OmniVoice 等強勁對手，創下最低的字詞錯誤率。不過真正讓人驚豔的，是它在 Emergent TTS 評估中的成績。這項評估專門衡量真實對話行為，包含了副語言特徵、疑問句語氣以及複雜的發音細節。系統在情感表達與語氣處理上的勝率全面領先。這證明了它確實懂得如何像真人一樣對話。消除那令人尷尬的等待空白在實用層面，延遲往往是語音 AI 的致命傷。沒有人喜歡在對話時遇到長達數秒的尷尬空白。為了改善這個問題，系統採用了專屬的 Tokenizer，以每幀四十毫秒的速度運行。當它與 SGLang-Omni 伺服器搭配運作時，能夠完美支援連續批次處理與串流生成。開發者只要開啟串流模式，聲碼器產出音訊的瞬間，就會以編碼區塊即時回傳。這使得首字音訊延遲達到了驚人的亞秒級水準。有些人可能會問：這樣的系統該如何部署？商業用途是否需要收費？目前，這款模型的開源權重已經上架於 Hugging Face 資源庫。任何人都可以免費下載進行研究與非商業用途的本地部署。若需商業使用，則需另外向官方取得授權。如果不想經歷繁瑣的本地安裝過程，使用者也可以直接透過 Boson Workspace 在雲端瀏覽器中體驗。挑選喜歡的聲音，輸入測試文字，就能立即感受情緒與停頓標籤帶來的奇妙變化。若是專案需要一個會大笑、會嘆氣、能依據上下文改變語氣的靈魂伴聊，這項技術絕對值得花時間好好探索。問與答 Q1：Higgs Audio v3 TTS 與傳統的文字轉語音（TTS）系統有何不同？ A：傳統的 TTS 系統主要設計來「朗讀」文字，而 Higgs Audio v3 TTS 則是專為「語音聊天（Voice chat）」所打造。它不僅能讀出文字，還能將語言模型的回應轉化為充滿表現力的真實對話語音，根據上下文自然展現情緒、停頓與語氣變化，使 AI 代理程式聽起來更像真人交流。

Jun 5, 2026 Read →

A …

tool

AI 語音不再像機器人！解析 MOSS-TTS-v1.5 的 31 國語言與精確停頓控制

AI 語音不再像機器人！解析 MOSS-TTS-v1.5 的 31 國語言與精確停頓控制老實說，現在的語音合成技術已經相當普及。打開影音平台，隨處可以聽見流暢的 AI 解說。不過大家往往會發現一個小毛病。這些聲音聽起來太過「完美」，反而缺少了人類說話時特有的呼吸感與節奏感。AI 雖然字正腔圓，卻缺乏感情，往往不懂得在關鍵時刻停頓來營造戲劇張力。為了解決這項痛點，開發團隊釋出了全新的 MOSS-TTS-v1.5 語音合成模型。這款擁有 80 億參數的強大開源工具，不僅繼承了上一代的優良基礎，更加入了多項讓人眼睛一亮的實用升級。接下來將為大家梳理這款模型究竟帶來了哪些關鍵突破。掌握情緒節奏：導演等級的精確停頓機制人類在演講或說故事時，常常會刻意停頓。適當的留白能夠營造懸念。然而傳統的 TTS 模型很難做到這一點。開發人員通常只能盲目地塞入逗號或句號，祈禱 AI 能夠在正確的地方換氣。這款新模型徹底改變了這個遊戲規則。它引入了一項名為「顯式停頓控制」的驚豔功能，這也是本次更新中最受矚目的升級之一。使用者只要在腳本中加入類似 [pause 3.2s] 的標記，AI 就會乖乖照做。舉個生活化的例子。當腳本寫著：「今天學習了一首中國古詩，它的名字是 [pause 3.2s] 靜夜思！」系統便會在揭曉詩名前，精準地安靜 3.2 秒。這樣的節奏感讓合成語音瞬間擁有了靈魂，聽起來就像真實人類在說話。不僅如此，新版模型也強化了跟隨標點符號的韻律表現。處理長篇大論時，換氣與停頓變得更加自然流暢。跨越語言藩籬：一口氣支援 31 種語言與專屬標籤目前的數位創作環境極度需要多國語言的支援。MOSS-TTS-v1.5 將語言庫從原先的 20 種大幅擴充。現在它支援高達 31 種語言。除了大家熟悉的英文、日文與韓文之外，這次特別加入了粵語、荷蘭語、芬蘭語、印地語、馬來語、羅馬尼亞語、斯瓦希里語、泰語以及越南語。有趣的是，模型還變得更聰明了。為了讓發音更道地，開發團隊引入了「語言標籤」機制。只要在程式碼中明確指定語系，例如設定 language="French"，AI 就能產出極具母語人士口音的法語發音。這種明確指定標籤的做法，有效解決了多語言混合時容易發生的錯亂問題，讓外語發音效果達到極佳的狀態。告別隨機誤差：穩定性極高的零樣本語音復刻曾嘗試過語音復刻的創作者大概都有過類似的困擾。拿同一段錄音去生成聲音，每次出來的音色總是有點不一樣。這其實非常消耗耐心。新版本針對這個痛點進行了徹底的底層優化。它大幅提升了模仿說話者音色的相似度，並且有效降低了每次生成時的變異性。這意味著生成的聲音品質將保持高度一致。高度一致的品質，正是專業製作中最不可或缺的一環。這裡還有一個值得一提的技術突破。有時候使用者手邊只有一段很長的參考音訊，卻只打算讓 AI 講一句極短的台詞。面對這種長短嚴重不對稱的情境，舊版模型可能會出現失真現象。新版模型則完美克服了這項挑戰。它特別針對「長參考音訊與短目標文本」的情境進行優化，現在能夠非常可靠且穩定地處理這類極端的語音復刻任務，再也不用擔心系統會當機或產出奇怪的雜音。擁抱開源社群：彈性授權與硬體效能最佳化好的技術若能普及，影響力將會無限放大。如同先前的版本，這款新模型採用了極具彈性的 Apache 2.0 開源授權協議。這代表無論是學術研究還是商業產品化，任何人都能完全免費且自由地使用這款強大的模型。談到硬體規格，這款 80 億參數的模型預設採用 BF16 精度來運作，建議在配備獨立 GPU 的環境下執行。為了讓生成速度更快，官方強烈建議在支援的硬體上安裝並啟用 FlashAttention 2 加速技術。這項設定不僅能有效提升運算效率，還能大幅降低顯示卡記憶體的佔用率。對於需要大量生成語音內容的團隊來說，絕對是一大福音。綜合來看，這款語音合成模型成功跨越了過去常見的技術門檻。藉由細膩的停頓控制與穩定的復刻能力，未來的數位聲音將會變得更加生動有趣。問與答 (Q&A) Q1：MOSS-TTS-v1.5 相比其他語音模型，最大的特色是什麼？如何讓 AI 聽起來不呆板？ A：最大的突破在於加入了「顯式停頓控制（Explicit pause control）」。使用者只要在文字中加入如 [pause 3.2s] 的標籤，AI 就會精準停頓指定的秒數。此外，它也大幅強化了跟隨標點符號的韻律感，讓長篇大論時的換氣與節奏更像真實人類在說話。

May 27, 2026 Read →

告別死板 AI 語音：Fish Audio S2 開源模型完整解析與實測指南

讓 AI 真的聽懂情緒：這套行內控制有何魔力？

揭開技術面紗：雙自回歸架構怎麼解決延遲？

實戰跑分與百毫秒級的流式傳輸

語言涵蓋率與開源社群資源

DMflow.chat

videoweaver.app

scribis.app

DMflow.chat

DMflow.chat

videoweaver.app

scribis.app

DMflow.chat

Recommended for You

dots.tts 完整解析：拋棄離散 Token 的新一代開源 TTS 語音合成模型

Higgs Audio v3 TTS 是什麼？支援情感語音、語音複製與 100+ 語言的 AI TTS 技術

AI 語音不再像機器人！解析 MOSS-TTS-v1.5 的 31 國語言與精確停頓控制

Leaving Website