Nari Labs Dia 模型：聽見未來？超逼真 AI 對話生成技術登場！

厭倦了生硬的 AI 語音嗎？來認識 Nari Labs 推出的 Dia 模型！這款 1.6B 參數的文字轉語音 (TTS) 模型能直接生成超逼真的對話，甚至包含笑聲和咳嗽聲，還能控制情緒語氣。快來看看這個開源新星！

欸，你有沒有覺得，現在的 AI 好像什麼都會，但一開口說話，就還是有點…嗯…假假的？特別是想要讓 AI 模擬一段自然的「對話」時，那種卡頓感、缺乏情緒起伏，總是讓人有點出戲。老實說，要讓機器說話像真人一樣有溫度、有互動感，還真不是件容易的事。

不過呢，最近有個來自 Nari Labs 的新玩意兒，叫做 dia，似乎正試圖打破這個僵局。

所以，Dia 到底厲害在哪？

dia 這個模型，全名可以說是 Nari Labs Dia 1.6B，擁有 16 億的參數（聽起來就很猛，對吧？）。但它最讓人眼睛一亮的地方，是它直接從文字腳本生成高度逼真的「對話」。

這跟傳統很多 TTS 模型不太一樣。以前很多模型可能是一個字一個字、或一句一句地唸出來，然後再拼湊起來。但 dia 的設計理念是「一次到位」，直接生成一段聽起來像是真人在互動的完整對話。

更厲害的是，你可以透過提供一段參考音訊，來「指導」dia 生成特定情緒或語氣的聲音。這就像給它一個「範本」，讓它知道你想要的是開心的、難過的，還是有點諷刺的感覺。想像一下，這對於製作有聲書、遊戲配音、甚至虛擬角色互動，會有多大的幫助！

而且，dia 不只會說話，它連非語言的溝通聲音都能模擬，像是自然的笑聲、清清喉嚨、甚至不小心咳嗽一聲。這些小細節，往往就是區分「機器感」和「真人感」的關鍵。是不是感覺更像真人在講話了？

想親自試試？沒問題！

Nari Labs 為了加速相關領域的研究，很大方地把 dia 的預訓練模型權重放到了 Hugging Face 上，連同推論程式碼也一併提供。這意味著，只要你有合適的環境，就能自己動手玩玩看。

線上體驗 Demo： 最快的方式，就是試試他們在 Hugging Face Spaces 上架設的 ZeroGPU Demo！就算你的電腦不夠力，也能線上體驗一下 dia 的效果。快點這裡試玩：Dia 1.6B ZeroGPU Demo。
看看效果比較： 好奇 dia 跟市面上其他知名模型（像是 ElevenLabs 或 Sesame CSM-1B）比起來怎麼樣嗎？他們也準備了一個 Demo 比較頁面，讓你聽聽看差異。
加入社群： 有問題想問？想跟同好交流？或是想知道最新開發進度？可以加入他們的 Discord 伺服器。
期待更強大的版本？ Nari Labs 透露他們還有一個更大、功能更豐富的版本正在路上，可以生成更有趣的對話、混音內容等等。感興趣的話，可以先加入早期試用等候名單。

稍微技術一點：你需要知道的

雖然 dia 目標是生成高品質音訊，但還是有些技術細節要注意：

硬體建議： 官方建議在 GPU 環境下執行，他們主要是在 PyTorch 2.0+ 和 CUDA 12.6 環境下測試的。不過，就像前面提到的，有 ZeroGPU Demo 可以先玩玩看。
使用方式：
- 他們提供了一個 Gradio UI，對於想快速上手試用的人來說很方便。
- 你也可以把它當作 Python 函式庫來用，直接呼叫 generate 函數。
- 未來，他們還計畫釋出 PyPI 套件和可以直接執行的命令列工具 (CLI)，讓使用更方便。
語言支援： 這點比較可惜，目前 dia 只支援英文的生成。希望未來能擴展到更多語言！

重要的事說三遍：請負責任地使用！

科技始終來自於人性，但也可能被誤用。Nari Labs 在開源 dia 的同時，也特別強調了使用的界線。

授權： dia 採用的是 Apache License 2.0 授權，算是相對寬鬆的開源授權。
主要目的： 這個專案主要是為了研究和教育目的而發布。
嚴格禁止： 開發團隊嚴格禁止任何形式的濫用，特別是：
- 未經本人明確同意，生成模仿特定真實人物聲音的音訊。 (這點非常重要！)
- 創建任何具有欺騙性、誤導性或有害的內容。

簡單來說，就是希望大家能善用這個工具進行有意義的探索和研究，而不是拿去做壞事。

大家可能想問… (FAQ)

問：Dia 模型到底是什麼？
- 答：Dia 是 Nari Labs 開發的一個 1.6B 參數的文字轉語音模型，特別擅長直接生成非常逼真的「對話」音訊，而不只是一句句唸稿。
問：它跟其他 TTS 模型有什麼不同？
- 答：主要差異在於它能一次性生成自然的對話流，並且可以透過參考音訊控制情緒和語氣，還能產生笑聲、咳嗽等非語言聲音，真實感更高。
問：我可以控制生成語音的情緒嗎？
- 答：可以！你可以提供一段帶有特定情緒的音訊作為「條件」，讓 Dia 生成類似情緒或語氣的聲音。
問：這個模型是免費的嗎？
- 答：模型本身是基於 Apache 2.0 授權開源的，主要用於研究和教育目的。你可以在 Hugging Face 上免費下載模型權重和程式碼。
問：Dia 支援中文嗎？
- 答：很可惜，目前 Dia 模型只支援英文的生成。
問：使用 Dia 有沒有什麼道德上的顧慮？
- 答：有的。Nari Labs 明確禁止使用 Dia 來未經授權模仿他人聲音，或製作欺騙性、有害的內容。負責任地使用非常重要。

總結一下：對話的未來，或許就在眼前？

Nari Labs 的 dia 無疑為文字轉語音領域帶來了令人興奮的可能性。它在生成自然對話、控制情緒語氣、以及模擬非語言聲音方面的能力，都顯示出 AI 語音技術的巨大進步。

雖然目前只支援英文，而且使用上需要注意倫理規範，但 dia 的開源無疑為研究人員、開發者和創作者們提供了一個強大的新工具。

對話的溫度，或許真的能被 AI 學習和複製？dia 給了我們一個窺見未來的窗口。有興趣的話，不妨親自去試試看它的 Demo，或者加入社群關注後續發展吧！

分享至:

Featured Partners

SPONSORED

DMflow.chat

DMflow.chat: 您的智能AI夥伴，提升客戶互動、創造卓越體驗。

Learn More

SPONSORED

videoweaver.app

Video Weaver: 瀏覽器內完成專業影片剪輯，無需下載、即刻創作。

Learn More

SPONSORED

DMflow.chat

探索DMflow.chat，立即開啟AI驅動的客戶服務新時代。

Learn More

SPONSORED

scribis.app

Scribis: 字幕編輯、語音轉錄文字、即時顯示轉錄文字。

Learn More

SPONSORED

DMflow.chat

DMflow.chat: 您的智能AI夥伴，提升客戶互動、創造卓越體驗。

Learn More

SPONSORED

videoweaver.app

Video Weaver: 瀏覽器內完成專業影片剪輯，無需下載、即刻創作。

Learn More

SPONSORED

DMflow.chat

探索DMflow.chat，立即開啟AI驅動的客戶服務新時代。

Learn More

SPONSORED

scribis.app

Scribis: 字幕編輯、語音轉錄文字、即時顯示轉錄文字。

Learn More

Recommended for You

Z …

tool

Zyphra 推出 ZONOS2：首款 MoE 即時 TTS 語音克隆模型，支援中文與商用開源

Zyphra 推出 ZONOS2：首創 MoE 架構的即時 TTS 語音克隆模型 Zyphra 最新推出的 ZONOS2 是一款採用 Apache 2.0 授權的開源文字轉語音模型。首創導入混合專家架構，不僅達成低延遲語音生成，更具備極高逼真度的語音克隆能力，並支援中英日等多國語言。大家或許都有過這樣的經驗。在人工智慧語音生成的圈子裡，要嘛跑得快，要嘛聽起來像真人，這兩件事往往很難兼顧。許多開發者與影音創作者經常面臨一個頭痛的抉擇，究竟該選擇生成速度極快但聲音充滿機器感的工具，還是花費大量時間等待一個情緒飽滿的音檔。重點來了，Zyphra 團隊近期帶來了一個相當具震撼力的解決方案。這款名為 ZONOS2 的全新開源文字轉語音模型，正是為了打破這個兩難局面而生。ZONOS2 採用了極具彈性的 Apache 2.0 授權，這代表無論是個人研究還是商業專案都能無縫接軌。它在開源界首度導入了混合專家架構，讓生成的聲音不僅即時，而且克隆出來的語氣、節奏甚至呼吸聲都逼真到令人驚豔。這篇文章將帶大家一探究竟，看看這款模型到底藏了什麼秘密武器。什麼是混合專家架構？大家可能會好奇，所謂的混合專家架構（MoE）到底是什麼概念。這邊來解釋一下。想像一家跨國企業裡聘請了各個領域的頂尖顧問。平時這些顧問不會全部同時出動，唯有遇到特定領域的難題時，才會指派最懂那個領域的幾位專家出面解決。這正是 ZONOS2 的運作邏輯。這款模型總共擁有高達 80 億個參數，但在每一次處理語音生成任務時，它只需要喚醒其中大約 9 億個活躍參數。透過這種聰明的資源分配方式，ZONOS2 成功讓整體的運算吞吐量比前一代足足提升了四倍之多。不但體積變大了，學到的東西變多了，生成速度反而還更快。加上它專門預測 DAC 音訊 Token，這項技術讓輸出的音質直接飆升到 44.1 kHz 的錄音室等級。也就是說，聽眾幾乎無法察覺這是一段由人工智慧生成的合成音。直接閱讀原始位元組的語言天才熟悉文字轉語音技術的專家一定知道，過去的模型在發音前，都必須經過一道名為音素化的繁瑣手續。簡單來說，就是先把文字轉換成拼音符號，模型才懂怎麼唸出聲音。但 ZONOS2 決定把這個老規矩丟進垃圾桶。它採用了一種更直觀且更符合直覺的做法，直接讀取輸入文字的 UTF-8 原始位元組。少了那層轉換手續，ZONOS2 處理語言的靈活度大幅提升。這項改變對於非歐洲語言的使用者來說絕對是一大福音。繁體中文、簡體中文、日文以及韓文等語言，往往因為複雜的發音規則而在音素化過程中吃足苦頭。現在，ZONOS2 將中文與英文、日文並列為最高支援等級的語言。更厲害的是，當遇到中英文夾雜的日常對話場景時，它也能流暢地切換雙語發音，完全不會出現卡頓或發音怪異的窘境。忠實還原還是完美修飾？雙模式任君挑選在實際應用語音克隆技術時，大家常常會遇到一個尷尬的狀況。假設今天手邊只有一段充滿背景雜音、錄音環境不佳的參考音檔，模型到底該原汁原味地把雜音一起複製下來，還是該聰明地幫忙過濾掉那些瑕疵？為了解決這個兩難，ZONOS2 非常貼心地設計了兩種截然不同的生成模式。第一種是表現模式，這個模式的唯一目標就是極致的逼真度。它會緊緊抓住參考音檔裡的所有細節，包含說話者的特殊口吻、高低起伏的韻律，甚至是微小的換氣聲，產生出最自然生動的情感表達。第二種則是穩定模式。如果使用者只想要一段乾淨清脆、適合直接放入影片中作為旁白的聲音，這個模式就會發揮作用。它會自動修飾掉原始音檔裡的環境噪音與錄音瑕疵，專注於提供高品質、高穩定度的純淨人聲。有了這兩種模式的輔助，創作者可以根據不同的專案需求，靈活調整最終的輸出效果。龐大訓練數據與全新的評估標準一款優秀的語音模型背後，必然有著驚人的數據量作為支撐。相比於早期測試版本僅使用大約 20 萬小時的語音資料，ZONOS2 這次一口氣將訓練數據庫擴充到了超過 600 萬小時。這相當於連續播放了 707 年的音訊檔案。這些包羅萬象的語料涵蓋了有聲書的平穩敘事、Podcast 的隨性閒聊，以及各式各樣的多語系對話，讓 ZONOS2 得以適應極度複雜的真實世界語境。有趣的是，Zyphra 團隊在開發過程中發現了一件事。現今被廣泛使用的語音評估標準，其實已經跟不上技術進步的腳步了。它們大多只針對少數語言進行測試，或者使用的辨識系統過於陳舊。為此，Zyphra 特別設計了一套名為 ZTTS1-Eval 的全新評估基準。這套新標準加入了更多元、更貼近真實情境的吵雜音檔來考驗模型，確保 ZONOS2 在各種嚴苛環境下依然能保持頂尖水準。

Jun 15, 2026 Read →

H …

tool

Higgs Audio v3 TTS 是什麼？支援情感語音、語音複製與 100+ 語言的 AI TTS 技術

聽見真實的情感：Higgs Audio v3 TTS 讓語音 AI 學會真正說話當 AI 代理程式不再只是死板地朗讀文字，對話會變成什麼模樣？本文帶領大家認識這款支援破百種語言、具備行內標籤控制能力的全新語音生成技術。人們總希望機器開口說話時能帶有情感，聽起來更像真人。可是許多現有的文字轉語音系統聽起來總是少了一點人味。它們唸稿的技巧無可挑剔，卻缺乏真實對話中應有的靈魂。說實話，在即時的語音聊天中，說話的節奏與語氣往往比單純把字唸對還要關鍵。這也就是為什麼 Higgs Audio v3 TTS 引起了廣泛討論。這套系統打破了傳統的朗讀框架，專為語音聊天量身打造。這項由 Boson AI 開發的新技術，核心訴求非常明確。它要超越單純的閱讀，走向真實的語音。想像一下日常交流的情境。對話過程包含了許多細微的反應，像是停頓、強調、甚至是情緒的波動。語音不該只附屬在文字生成之後。它本身就是傳遞訊息的主角。系統讓 AI 模型能依據當下情境展現充滿表現力的回應。宛如導演在旁指導的控制標籤這套系統最吸引開發者的特色，絕對是那些被稱為行內控制標籤的強大功能。乍聽之下，行內控制標籤似乎會讓程式碼變得凌亂。畢竟誰會想在對話字串裡塞滿一堆記號？不過實際操作後就會發現，這種設計反而省去了切換系統的麻煩。開發者常常會問：如果要改變聲音情緒，需要跳出文字生成流程嗎？答案是完全不需要。只要直接在字串裡插入特定的標籤，這套系統就能無縫切換各種聲音表現。這就像是一位電影導演站在演員身旁，隨時指示下一句話該用什麼情緒來表達。說到電影，那些經典台詞之所以讓人難忘，往往在於演員的呼吸與停頓拿捏得恰到好處。這些標籤的設計同樣講究細節。想要一點情感波動嗎？它支援多達二十一種細緻的情感設定。喜悅、恐懼或是無助，都能精準傳達。如果需要特殊的人聲風格，直接加入大喊、唱歌或耳語的指令即可。有趣的是，系統還巧妙結合了聲音特效與狀聲詞。當開發者輸入對應的特效標籤後，只要緊跟著加上哈哈大笑或是打噴嚏的狀聲詞（拼音），模型就能精準捕捉發音的聲學提示。這讓咳嗽或嘆氣聽起來無比自然。就連講話的速度與停頓時間，也能精確到毫秒級別。語言天賦與驚人的模仿能力當然，一個優秀的語音模型必須具備強大的語言天賦。這款擁有約四十億個參數的自迴歸解碼器模型，不僅學得快，還學得很精。它具備零樣本語音複製的能力。只要提供一小段參考音訊，系統就能精準捕捉並模仿該聲音的特質。對於許多企業來說，這意味著可以輕鬆建立專屬的品牌語音。許多人會好奇這套系統究竟支援多少種語言。事實上它涵蓋了超過一百種語言。在多達一百零二種語言的測試評估中，它達到了極低的字詞錯誤率。其中高達八十五種語言達到了生產級品質，包含繁體中文、英文與日文等主流語言。這展現了強大的多語處理能力。在激烈競爭中脫穎而出當一項新技術問世，市場總愛拿它跟其他知名系統做比較。在 SeedTTS、CV3 以及 MiniMax-Multilingual 等多語言測試評估裡，它的表現相當亮眼。它成功擊敗了 Fish Audio S2 Pro、Qwen3-TTS 以及 OmniVoice 等強勁對手，創下最低的字詞錯誤率。不過真正讓人驚豔的，是它在 Emergent TTS 評估中的成績。這項評估專門衡量真實對話行為，包含了副語言特徵、疑問句語氣以及複雜的發音細節。系統在情感表達與語氣處理上的勝率全面領先。這證明了它確實懂得如何像真人一樣對話。消除那令人尷尬的等待空白在實用層面，延遲往往是語音 AI 的致命傷。沒有人喜歡在對話時遇到長達數秒的尷尬空白。為了改善這個問題，系統採用了專屬的 Tokenizer，以每幀四十毫秒的速度運行。當它與 SGLang-Omni 伺服器搭配運作時，能夠完美支援連續批次處理與串流生成。開發者只要開啟串流模式，聲碼器產出音訊的瞬間，就會以編碼區塊即時回傳。這使得首字音訊延遲達到了驚人的亞秒級水準。有些人可能會問：這樣的系統該如何部署？商業用途是否需要收費？目前，這款模型的開源權重已經上架於 Hugging Face 資源庫。任何人都可以免費下載進行研究與非商業用途的本地部署。若需商業使用，則需另外向官方取得授權。如果不想經歷繁瑣的本地安裝過程，使用者也可以直接透過 Boson Workspace 在雲端瀏覽器中體驗。挑選喜歡的聲音，輸入測試文字，就能立即感受情緒與停頓標籤帶來的奇妙變化。若是專案需要一個會大笑、會嘆氣、能依據上下文改變語氣的靈魂伴聊，這項技術絕對值得花時間好好探索。問與答 Q1：Higgs Audio v3 TTS 與傳統的文字轉語音（TTS）系統有何不同？ A：傳統的 TTS 系統主要設計來「朗讀」文字，而 Higgs Audio v3 TTS 則是專為「語音聊天（Voice chat）」所打造。它不僅能讀出文字，還能將語言模型的回應轉化為充滿表現力的真實對話語音，根據上下文自然展現情緒、停頓與語氣變化，使 AI 代理程式聽起來更像真人交流。

Jun 5, 2026 Read →

A …

tool

AI 語音不再像機器人！解析 MOSS-TTS-v1.5 的 31 國語言與精確停頓控制

AI 語音不再像機器人！解析 MOSS-TTS-v1.5 的 31 國語言與精確停頓控制老實說，現在的語音合成技術已經相當普及。打開影音平台，隨處可以聽見流暢的 AI 解說。不過大家往往會發現一個小毛病。這些聲音聽起來太過「完美」，反而缺少了人類說話時特有的呼吸感與節奏感。AI 雖然字正腔圓，卻缺乏感情，往往不懂得在關鍵時刻停頓來營造戲劇張力。為了解決這項痛點，開發團隊釋出了全新的 MOSS-TTS-v1.5 語音合成模型。這款擁有 80 億參數的強大開源工具，不僅繼承了上一代的優良基礎，更加入了多項讓人眼睛一亮的實用升級。接下來將為大家梳理這款模型究竟帶來了哪些關鍵突破。掌握情緒節奏：導演等級的精確停頓機制人類在演講或說故事時，常常會刻意停頓。適當的留白能夠營造懸念。然而傳統的 TTS 模型很難做到這一點。開發人員通常只能盲目地塞入逗號或句號，祈禱 AI 能夠在正確的地方換氣。這款新模型徹底改變了這個遊戲規則。它引入了一項名為「顯式停頓控制」的驚豔功能，這也是本次更新中最受矚目的升級之一。使用者只要在腳本中加入類似 [pause 3.2s] 的標記，AI 就會乖乖照做。舉個生活化的例子。當腳本寫著：「今天學習了一首中國古詩，它的名字是 [pause 3.2s] 靜夜思！」系統便會在揭曉詩名前，精準地安靜 3.2 秒。這樣的節奏感讓合成語音瞬間擁有了靈魂，聽起來就像真實人類在說話。不僅如此，新版模型也強化了跟隨標點符號的韻律表現。處理長篇大論時，換氣與停頓變得更加自然流暢。跨越語言藩籬：一口氣支援 31 種語言與專屬標籤目前的數位創作環境極度需要多國語言的支援。MOSS-TTS-v1.5 將語言庫從原先的 20 種大幅擴充。現在它支援高達 31 種語言。除了大家熟悉的英文、日文與韓文之外，這次特別加入了粵語、荷蘭語、芬蘭語、印地語、馬來語、羅馬尼亞語、斯瓦希里語、泰語以及越南語。有趣的是，模型還變得更聰明了。為了讓發音更道地，開發團隊引入了「語言標籤」機制。只要在程式碼中明確指定語系，例如設定 language="French"，AI 就能產出極具母語人士口音的法語發音。這種明確指定標籤的做法，有效解決了多語言混合時容易發生的錯亂問題，讓外語發音效果達到極佳的狀態。告別隨機誤差：穩定性極高的零樣本語音復刻曾嘗試過語音復刻的創作者大概都有過類似的困擾。拿同一段錄音去生成聲音，每次出來的音色總是有點不一樣。這其實非常消耗耐心。新版本針對這個痛點進行了徹底的底層優化。它大幅提升了模仿說話者音色的相似度，並且有效降低了每次生成時的變異性。這意味著生成的聲音品質將保持高度一致。高度一致的品質，正是專業製作中最不可或缺的一環。這裡還有一個值得一提的技術突破。有時候使用者手邊只有一段很長的參考音訊，卻只打算讓 AI 講一句極短的台詞。面對這種長短嚴重不對稱的情境，舊版模型可能會出現失真現象。新版模型則完美克服了這項挑戰。它特別針對「長參考音訊與短目標文本」的情境進行優化，現在能夠非常可靠且穩定地處理這類極端的語音復刻任務，再也不用擔心系統會當機或產出奇怪的雜音。擁抱開源社群：彈性授權與硬體效能最佳化好的技術若能普及，影響力將會無限放大。如同先前的版本，這款新模型採用了極具彈性的 Apache 2.0 開源授權協議。這代表無論是學術研究還是商業產品化，任何人都能完全免費且自由地使用這款強大的模型。談到硬體規格，這款 80 億參數的模型預設採用 BF16 精度來運作，建議在配備獨立 GPU 的環境下執行。為了讓生成速度更快，官方強烈建議在支援的硬體上安裝並啟用 FlashAttention 2 加速技術。這項設定不僅能有效提升運算效率，還能大幅降低顯示卡記憶體的佔用率。對於需要大量生成語音內容的團隊來說，絕對是一大福音。綜合來看，這款語音合成模型成功跨越了過去常見的技術門檻。藉由細膩的停頓控制與穩定的復刻能力，未來的數位聲音將會變得更加生動有趣。問與答 (Q&A) Q1：MOSS-TTS-v1.5 相比其他語音模型，最大的特色是什麼？如何讓 AI 聽起來不呆板？ A：最大的突破在於加入了「顯式停頓控制（Explicit pause control）」。使用者只要在文字中加入如 [pause 3.2s] 的標籤，AI 就會精準停頓指定的秒數。此外，它也大幅強化了跟隨標點符號的韻律感，讓長篇大論時的換氣與節奏更像真實人類在說話。

May 27, 2026 Read →