
DMflow.chat
廣告
全能 DMflow.chat:多平台整合、持久記憶與靈活客製欄位,無需額外開發即可連接資料庫與表單。更支援真人與 AI 的無縫切換,網頁互動加 API 輸出,一步到位!
厭倦了生硬的 AI 語音嗎?來認識 Nari Labs 推出的 Dia 模型!這款 1.6B 參數的文字轉語音 (TTS) 模型能直接生成超逼真的對話,甚至包含笑聲和咳嗽聲,還能控制情緒語氣。快來看看這個開源新星!
欸,你有沒有覺得,現在的 AI 好像什麼都會,但一開口說話,就還是有點…嗯…假假的?特別是想要讓 AI 模擬一段自然的「對話」時,那種卡頓感、缺乏情緒起伏,總是讓人有點出戲。老實說,要讓機器說話像真人一樣有溫度、有互動感,還真不是件容易的事。
不過呢,最近有個來自 Nari Labs 的新玩意兒,叫做 dia
,似乎正試圖打破這個僵局。
dia
這個模型,全名可以說是 Nari Labs Dia 1.6B,擁有 16 億的參數(聽起來就很猛,對吧?)。但它最讓人眼睛一亮的地方,是它直接從文字腳本生成高度逼真的「對話」。
這跟傳統很多 TTS 模型不太一樣。以前很多模型可能是一個字一個字、或一句一句地唸出來,然後再拼湊起來。但 dia
的設計理念是「一次到位」,直接生成一段聽起來像是真人在互動的完整對話。
更厲害的是,你可以透過提供一段參考音訊,來「指導」dia
生成特定情緒或語氣的聲音。這就像給它一個「範本」,讓它知道你想要的是開心的、難過的,還是有點諷刺的感覺。想像一下,這對於製作有聲書、遊戲配音、甚至虛擬角色互動,會有多大的幫助!
而且,dia
不只會說話,它連非語言的溝通聲音都能模擬,像是自然的笑聲、清清喉嚨、甚至不小心咳嗽一聲。這些小細節,往往就是區分「機器感」和「真人感」的關鍵。是不是感覺更像真人在講話了?
Nari Labs 為了加速相關領域的研究,很大方地把 dia
的預訓練模型權重放到了 Hugging Face 上,連同推論程式碼也一併提供。這意味著,只要你有合適的環境,就能自己動手玩玩看。
dia
的效果。快點這裡試玩:Dia 1.6B ZeroGPU Demo。dia
跟市面上其他知名模型(像是 ElevenLabs 或 Sesame CSM-1B)比起來怎麼樣嗎?他們也準備了一個 Demo 比較頁面,讓你聽聽看差異。雖然 dia
目標是生成高品質音訊,但還是有些技術細節要注意:
generate
函數。dia
只支援英文的生成。希望未來能擴展到更多語言!科技始終來自於人性,但也可能被誤用。Nari Labs 在開源 dia
的同時,也特別強調了使用的界線。
dia
採用的是 Apache License 2.0 授權,算是相對寬鬆的開源授權。簡單來說,就是希望大家能善用這個工具進行有意義的探索和研究,而不是拿去做壞事。
Nari Labs 的 dia
無疑為文字轉語音領域帶來了令人興奮的可能性。它在生成自然對話、控制情緒語氣、以及模擬非語言聲音方面的能力,都顯示出 AI 語音技術的巨大進步。
雖然目前只支援英文,而且使用上需要注意倫理規範,但 dia
的開源無疑為研究人員、開發者和創作者們提供了一個強大的新工具。
對話的溫度,或許真的能被 AI 學習和複製?dia
給了我們一個窺見未來的窗口。有興趣的話,不妨親自去試試看它的 Demo,或者加入社群關注後續發展吧!
全能 DMflow.chat:多平台整合、持久記憶與靈活客製欄位,無需額外開發即可連接資料庫與表單。更支援真人與 AI 的無縫切換,網頁互動加 API 輸出,一步到位!
Muyan-TTS 全新開源語音生成模型:播客、有聲書的聲音革命來了? 你還在為找不到自然流暢、富有情感的 AI 語音而煩惱嗎?最新的開源 TTS 模型 Muyan-TTS 或許就是你的...
IndexTTS 登場:告別生硬發音!打造可控又高效的工業級文字轉語音系統 厭倦了 AI 語音唸錯字或語氣平淡嗎?來認識 IndexTTS!這款基於 GPT 架構的最新文字轉語音 (TT...
MegaTTS 3 橫空出世:輕量、高擬真聲音克隆,還能中英夾雜?AI 語音的新里程碑! 還在尋找那個完美的 AI 語音生成工具嗎?來認識一下 MegaTTS 3!它不僅模型輕巧、效率驚...
開源 AI 音樂革命!YuE 模型正式發布,生成專業級人聲與伴奏 YuE:AI 音樂創作新時代的來臨 由 香港科技大學 與 DeepSeek 共同研發的 開源音樂生成模型 YuE 正式發布,...
OpenAI 推出全新語音 AI 模型:gpt-4o-transcribe 及其應用前景 描述 OpenAI 近期推出了三款全新自研語音 AI 模型,包括 gpt-4o-transcribe、...
Orpheus TTS:具備人類情感表達的次世代語音合成模型 一款顛覆傳統的開源 TTS 模型 3 月 19 日,開源文字轉語音(TTS)模型 Orpheus TTS 正式亮相,迅速在技術圈...
Muyan-TTS 全新開源語音生成模型:播客、有聲書的聲音革命來了? 你還在為找不到自然流暢、富有情感的 AI 語音而煩惱嗎?最新的開源 TTS 模型 Muyan-TTS 或許就是你的...
Canva 再進化!Visual Suite 2.0 登場,生產力與創意力這次真的「合體」了? Canva 在年度盛會 Canva Create 2025 上發表重大更新 Visual ...
「有點太巴結了?」OpenAI 緊急回滾 GPT-4o 更新,Sam Altman 坦承個性跑偏,用戶怎麼看? 最近 GPT-4o 更新後,不少用戶覺得 AI 變得過於奉承,甚至有點煩人...