tool

微軟 VibeVoice 橫空出世:90分鐘超長語音、多人對話,AI 播客的未來已來?

August 26, 2025
Updated Aug 26
1 min read

探索微軟最新開源文字轉語音 (TTS) 模型 VibeVoice。它提供 1.5B 和 7B 兩種版本,支援長達 90 分鐘的語音生成、最多 4 人對話、優異的中文效果(偏向外國人講中文)和背景音樂,正在徹底改變有聲書和播客的製作方式。


你有沒有想過,有一天製作一整集高品質的播客或一本有聲書,可能就像輸入文字一樣簡單?過去,這聽起來像是天方夜譚,但現在,微軟似乎給出了一個響亮的答案。

近日,AI 語音技術領域迎來了一位重量級選手——微軟推出的開源文字轉語音(TTS)模型 VibeVoice。更令人興奮的是,它一次就推出了 1.5B 和 7B(至更新日期尚未開放) 兩種不同規模的版本,滿足不同需求。它的出現不只是一個小小的更新,更像是一場技術風暴,憑藉其強大的功能和驚人的性能,為長篇語音、多人對話,甚至是中文語音合成,都劃下了一個新的時代起點。

老實說,這項技術的潛力真的讓人感到興奮。

說好的「長篇大論」,這次真的做到了

對於內容創作者來說,最大的痛點之一莫過於語音生成的時長限制。傳統的 TTS 模型往往只能處理幾分鐘的音訊,製作長篇內容,例如一集 30 分鐘的播客或有聲書章節,就需要不斷地生成、拼接、再調整,過程既繁瑣又耗時。

VibeVoice 直接打破了這個枷鎖。

它最引人注目的突破,就是支援一次性生成長達 90 分鐘的連續語音。這代表什麼?這意味著,從短篇故事到完整的線上課程,從深度訪談到整本有聲書,創作者都能一氣呵成,大大提升了創作的自由度和效率。這就像從只能發送短訊息,突然升級到可以一口氣寫完一部長篇小說,完全是不同維度的體驗。

不再是獨角戲:讓 AI 開一場圓桌論壇

過去的 AI 語音,大多是「一個人的朗誦」。即使有些模型支援雙人對話,也很難做到自然流暢,常常聽起來像是兩個機器人在僵硬地對話。

VibeVoice 則將多人對話提升到了一個全新的高度,它能夠流暢地生成最多 4 個不同角色的對談語音。更重要的是,它在處理語音一致性和說話者之間的自然輪替方面進行了深度優化。

你可以想像一下,用它來生成一場多人圓桌論壇、一個廣播劇,或是一段虛擬角色的互動場景。其效果幾乎可以媲美真人錄音,聲音之間的切換流暢自然,讓聽眾完全沉浸在對話情境中。

中文語音,這次不只是「字正腔圓」

對於中文使用者來說,一個 AI 語音模型是否「接地氣」,中文的表現力是關鍵。很多國外模型在處理中文時,雖然發音標準,卻總是缺少那麼一點「人味」,聽起來語調平平,沒有感情。

VibeVoice 在這方面展現了令人驚豔的實力。它不僅支援高品質的中文語音合成,更在語調的自然起伏、發音的準確性和情感的豐富度上達到了非常高的水準。這讓 VibeVoice 在中文播客、線上教育、智慧客服等領域擁有了巨大的應用潛力,為開發者提供了一個真正好用的本土化語音解決方案。

氛圍感拉滿!自帶 BGM 的播客是什麼體驗?

好的音訊內容,除了聲音本身,背景氛圍也同樣重要。VibeVoice 還藏著一個驚喜功能——支援在生成語音的同時,加入背景音樂。

這項功能讓創作者可以輕鬆地為播客或故事加上畫龍點睛的背景音效,打造更具沉浸感和專業度的聽覺饗宴。無論是需要輕鬆的背景旋律,還是營造緊張懸疑的氛圍音效,VibeVoice 都能將人聲與音樂無縫融合,讓你的作品聽起來更像是一個專業團隊的出品。

數據會說話:VibeVoice 的驚人表現

光說不練假把戲,VibeVoice 的強大不僅僅是功能上的描述,更有客觀數據的支撐。從發布的圖表中,我們可以清楚看到 VibeVoice 的領先地位,特別是其強大的 7B 版本。

在主觀評估中,VibeVoice 與 Google 的 Gemini-2.5-Pro-Preview-TTS 和知名的 Eleven-V3 (Alpha) 進行了比較。評估分為三個維度:

  • 偏好度 (Preference): VibeVoice-7B 以 3.75 分的成績遙遙領先。
  • 真實感 (Realism): VibeVoice-7B 再次以 3.71 分奪冠,其較小的 1.5B 版本也表現不俗,顯示其聲音極度接近真人。
  • 豐富度 (Richness): 在聲音的豐富性和表現力上,VibeVoice-7B 同樣以 3.81 的高分位居第一。

主觀評分 (Subjective Evaluation)

此表格比較了四種模型在偏好度、真實感和豐富度三個向度上的主觀評分。

模型 (Model)偏好度 (Preference)真實感 (Realism)豐富度 (Richness)
VibeVoice-7B3.753.713.81
Gemini-2.5-Pro-Preview-TTS3.433.583.58
VibeVoice-1.5B3.653.553.77
Eleven-V3 (Alpha)3.373.333.47

模型輸出語音長度趨勢

此表格根據圖中的趨勢線與散點圖,列出了各個模型及其大約的輸出語音長度(秒)。

時間點 (Approx. Time)模型 (Model)輸出語音長度 (秒)
2023VALL-E~50
2023NaturalSpeech-2~200
2024CosyVoice~500
2024SpeechSSM~900
2025MoonCast~1000
2025HiggsAudio-V2~200
2025Eleven-V3 (Alpha)~300
2025Gemini-2.5-Pro-Preview-TTS~400
2025MOSS-TTSD~600
2025Nari-Labs-Dia~800
2025SesameAILabs-CSM~1100
2025VibeVoice~5500

開源的力量:人人都能成為聲音的魔法師

更令人振奮的是,微軟選擇將 VibeVoice 開源。這款模型已經在 GitHub 和 Hugging Face 上正式發布,意味著全球的開發者、研究人員甚至個人創作者,都可以自由地取用、修改和整合這項頂尖技術。

微軟的這一舉動,無疑為整個 AI 開發者社群注入了強大的活力。它大大降低了高品質 TTS 技術的使用門檻,讓創新不再是大公司的專利。無論你是想開發一個獨特的語音應用,還是只想為自己的影片配音,VibeVoice 都為你提供了一個絕佳的起點。

總結來說,VibeVoice 的誕生,不僅僅是又一款新的 AI 工具。它透過解決時長、多人對話和本土化等核心痛點,真正為音訊內容的創作帶來了革命性的改變。AI 播客和有聲書的未來,或許比我們想像的,來得更快一些。


百聞不如一見,親自感受 VibeVoice 的震撼吧!

分享至:
Featured Partners

© 2026 Communeify. All rights reserved.