微软 VibeVoice 横空出世：90分钟超长语音、多人对话，AI 播客的未来已来？

探索微软最新开源文本转语音 (TTS) 模型 VibeVoice。它提供 1.5B 和 7B 两种版本，支持长达 90 分钟的语音生成、最多 4 人对话、优异的中文效果(偏向外国人讲中文)和背景音乐，正在彻底改变有声书和播客的制作方式。

你有没有想过，有一天制作一整集高品质的播客或一本有声书，可能就像输入文字一样简单？过去，这听起来像是天方夜谭，但现在，微软似乎给出了一个响亮的答案。

近日，AI 语音技术领域迎来了一位重量级选手——微软推出的开源文本转语音（TTS）模型 VibeVoice。更令人兴奋的是，它一次就推出了 1.5B 和 7B(至更新日期尚未开放) 两种不同规模的版本，满足不同需求。它的出现不只是一个小小的更新，更像是一场技术风暴，凭借其强大的功能和惊人的性能，为长篇语音、多人对话，甚至是中文语音合成，都划下了一个新的时代起点。

老实说，这项技术的潜力真的让人感到兴奋。

说好的「长篇大论」，这次真的做到了

对于内容创作者来说，最大的痛点之一莫过于语音生成的时长限制。传统的 TTS 模型往往只能处理几分钟的音频，制作长篇内容，例如一集 30 分钟的播客或有声书章节，就需要不断地生成、拼接、再调整，过程既繁琐又耗时。

VibeVoice 直接打破了这个枷锁。

它最引人注目的突破，就是支持一次性生成长达 90 分钟的连续语音。这代表什么？这意味着，从短篇故事到完整的在线课程，从深度访谈到整本有声书，创作者都能一气呵成，大大提升了创作的自由度和效率。这就像从只能发送短信息，突然升级到可以一口气写完一部长篇小说，完全是不同维度的体验。

不再是独角戏：让 AI 开一场圆桌论坛

过去的 AI 语音，大多是「一个人的朗诵」。即使有些模型支持双人对话，也很难做到自然流畅，常常听起来像是两个机器人在僵硬地对话。

VibeVoice 则将多人对话提升到了一个全新的高度，它能够流畅地生成最多 4 个不同角色的对谈语音。更重要的是，它在处理语音一致性和说话者之间的自然轮替方面进行了深度优化。

你可以想象一下，用它来生成一场多人圆桌论坛、一个广播剧，或是一段虚拟角色的互动场景。其效果几乎可以媲美真人录音，声音之间的切换流畅自然，让听众完全沉浸在对话情境中。

中文语音，这次不只是「字正腔圆」

对于中文使用者来说，一个 AI 语音模型是否「接地气」，中文的表现力是关键。很多国外模型在处理中文时，虽然发音标准，却总是缺少那么一点「人味」，听起来语调平平，没有感情。

VibeVoice 在这方面展现了令人惊艳的实力。它不仅支持高品质的中文语音合成，更在语调的自然起伏、发音的准确性和情感的丰富度上达到了非常高的水准。这让 VibeVoice 在中文播客、在线教育、智慧客服等领域拥有了巨大的应用潜力，为开发者提供了一个真正好用的本土化语音解决方案。

氛围感拉满！自带 BGM 的播客是什么体验？

好的音频内容，除了声音本身，背景氛围也同样重要。VibeVoice 还藏着一个惊喜功能——支持在生成语音的同时，加入背景音乐。

这项功能让创作者可以轻松地为播客或故事加上画龙点睛的背景音效，打造更具沉浸感和专业度的听觉飨宴。无论是需要轻松的背景旋律，还是营造紧张悬疑的氛围音效，VibeVoice 都能将人声与音乐无缝融合，让你的作品听起来更像是一个专业团队的出品。

数据会说话：VibeVoice 的惊人表现

光说不练假把戏，VibeVoice 的强大不仅仅是功能上的描述，更有客观数据的支撑。从发布的图表中，我们可以清楚看到 VibeVoice 的领先地位，特别是其强大的 7B 版本。

在主观评估中，VibeVoice 与 Google 的 Gemini-2.5-Pro-Preview-TTS 和知名的 Eleven-V3 (Alpha) 进行了比较。评估分为三个维度：

偏好度 (Preference): VibeVoice-7B 以 3.75 分的成绩遥遥领先。
真实感 (Realism): VibeVoice-7B 再次以 3.71 分夺冠，其较小的 1.5B 版本也表现不俗，显示其声音极度接近真人。
丰富度 (Richness): 在声音的丰富性和表现力上，VibeVoice-7B 同样以 3.81 的高分位居第一。

主观评分 (Subjective Evaluation)

此表格比较了四种模型在偏好度、真实感和丰富度三个向度上的主观评分。

模型 (Model)	偏好度 (Preference)	真实感 (Realism)	丰富度 (Richness)
VibeVoice-7B	3.75	3.71	3.81
Gemini-2.5-Pro-Preview-TTS	3.43	3.58	3.58
VibeVoice-1.5B	3.65	3.55	3.77
Eleven-V3 (Alpha)	3.37	3.33	3.47

模型输出语音长度趋势

此表格根据图中的趋势线与散点图，列出了各个模型及其大约的输出语音长度（秒）。

时间点 (Approx. Time)	模型 (Model)	输出语音长度 (秒)
2023	VALL-E	~50
2023	NaturalSpeech-2	~200
2024	CosyVoice	~500
2024	SpeechSSM	~900
2025	MoonCast	~1000
2025	HiggsAudio-V2	~200
2025	Eleven-V3 (Alpha)	~300
2025	Gemini-2.5-Pro-Preview-TTS	~400
2025	MOSS-TTSD	~600
2025	Nari-Labs-Dia	~800
2025	SesameAILabs-CSM	~1100
2025	VibeVoice	~5500

开源的力量：人人都能成为声音的魔法师

更令人振奋的是，微软选择将 VibeVoice 开源。这款模型已经在 GitHub 和 Hugging Face 上正式发布，意味着全球的开发者、研究人员甚至个人创作者，都可以自由地取用、修改和整合这项顶尖技术。

微软的这一举动，无疑为整个 AI 开发者社群注入了强大的活力。它大大降低了高品质 TTS 技术的使用门槛，让创新不再是大公司的专利。无论你是想开发一个独特的语音应用，还是只想为自己的影片配音，VibeVoice 都为你提供了一个绝佳的起点。

总结来说，VibeVoice 的诞生，不仅仅是又一款新的 AI 工具。它透过解决时长、多人对话和本土化等核心痛点，真正为音频内容的创作带来了革命性的改变。AI 播客和有声书的未来，或许比我们想象的，来得更快一些。

百闻不如一见，亲自感受 VibeVoice 的震撼吧！

亲手试玩在线 Demo： 无需安装任何软件，直接在浏览器中输入文字，体验 VibeVoice 生成的语音。
- 在线 Demo 体验
探索模型与代码： 对于开发者和技术爱好者，可以深入研究其背后的技术细节，甚至将它整合到自己的项目中。
- GitHub 官方代码库
- Hugging Face 1.5B模型页面

分享到:

Featured Partners

SPONSORED

videoweaver.app

Video Weaver: Professional video editing directly in your browser. No downloads required.

Learn More

SPONSORED

DMflow.chat

Discover DMflow.chat and unlock the new era of AI-powered customer service.

Learn More

SPONSORED

DMflow.chat

DMflow.chat: Your intelligent AI partner for exceptional customer engagement.

Learn More

SPONSORED

videoweaver.app

Video Weaver: Professional video editing directly in your browser. No downloads required.

Learn More

SPONSORED

DMflow.chat

Discover DMflow.chat and unlock the new era of AI-powered customer service.

Learn More

SPONSORED

DMflow.chat

DMflow.chat: Your intelligent AI partner for exceptional customer engagement.

Learn More

Recommended for You

S …

tool

Supertonic 登场：轻量、极速且支援多语言开发的开源 TTS 引擎

引言：打破速度与隐私的藩篱在语音互动技术日益普及的当下，使用者对于“回应速度”的要求也水涨船高。试想一下，当你询问智慧助理一个问题，中间那几秒钟的尴尬空白，往往就足以破坏整个对话的沉浸感。市面上许多高品质的语音合成（Text-to-Speech, TTS）模型虽然声音逼真，但往往受限于庞大的运算需求，不得不依赖云端伺服器，这不仅造成了延迟，也引发了隐私洩露的疑虑。 Supertonic 的出现，正是为了填补这块市场空缺。这款新开源的 TTS 引擎，不追求无止境地堆叠参数量，而是专注于在极低的运算资源下，提供极致的速度与优秀的文本理解能力。对于那些渴望在本地端运行高品质语音，却又苦于硬体限制的开发者来说，Supertonic 提供了一个令人兴奋的新方向。极致效能：重新定义“即时”的概念谈到 Supertonic，最令人印象深刻的莫过于它的执行效率。在技术规格中，开发团队特别强调了“即时率”（Real-time factor, RTF）的表现。所谓 RTF，指的是生成语音所需的时间与生成语音长度的比例。数值越低，代表速度越快。 Supertonic 在这方面的数据堪称惊人。在 NVIDIA RTX4090 这样的顶级显卡上，其 RTF 低至 0.001。这意味着生成 1 秒钟的语音，仅需要 1 毫秒的时间。即便是在苹果的 M4 Pro 晶片上，RTF 也能维持在 0.006 的高水准。这种近乎瞬间完成的生成速度，让“对话”不再有等待感，能够实现真正的即时语音互动，这对于游戏角色配音、即时翻译设备或是导航系统来说，都是极具价值的特性。轻量化架构：66M 参数的小巨人近年来 AI 模型有一种“大即是美”的趋势，动辄数十亿甚至上千亿的参数虽然带来了强大的能力，但也将许多终端装置拒于门外。Supertonic 反其道而行，将模型参数控制在 66M（6600 万）的精巧规模。这个数字背后的意义重大。较小的参数量意味着它占用的记忆体极少，运算负担极轻。它不需要昂贵的伺服器丛集就能运作，甚至可以在普通的笔记型电脑、手机，或是树莓派这类的边缘运算装置上流畅运行。这种轻量化的设计，大幅降低了开发者部署 AI 语音功能的门槛，让语音技术不再是大型科技公司的专利，个人开发者或小型新创团队也能轻松驾驭。隐私与离线运算：资料安全的最佳解随着大众对数据隐私的关注度提升，将使用者的语音数据上传至云端处理，始终存在着安全隐患。Supertonic 的架构天生就是为了 On-device（装置端）执行而设计。这意味着所有的语音合成过程都在使用者的设备上完成，完全不需要连网。这种离线运作模式带来了两大好处。首先是绝对的隐私，使用者的输入内容永远不会离开他们的装置，这对于医疗、金融或个人助理等敏感应用场景至关重要。其次是零网路延迟，由于不需要等待封包在网路往返，即使在网路讯号不佳甚至无网路的环境下（例如偏远山区的导航或飞机上的娱乐系统），Supertonic 依然能稳定提供服务。开发者的福音：跨语言与多平台支援一个好的开源专案，除了核心技术强大外，易用性也是关键。Supertonic 的开发团队显然深谙此道，提供了极为广泛的程式语言支援。目前它已支援超过 8 种主流语言，包括：系统级语言： C++, Rust, Go 应用级语言： Python, C#, Java, Swift Web 前端： JavaScript 这种多语言支援意味着极高的灵活性。开发者可以将 Supertonic 嵌入到 iOS 或 Android 的原生 App 中（使用 Swift 或 Java/Kotlin），也可以整合到 Unity 游戏引擎里（使用 C#），甚至可以直接在浏览器上运行（使用 JavaScript/Wasm）。无论是打造桌面软体、行动应用，还是网页服务，开发者都能找到对应的介面直接使用，大大缩短了整合开发的时间。

Nov 19, 2025 Read →

M …

tool

Maya1：不只开源，更能懂你的情绪！AI 语音生成的新革命

探索 Maya1，一款颠覆性的开源语音 AI 模型。它不仅能用自然语言创造声音，还能精准表达超过 20 种情绪。了解它如何为创作者、开发者和所有需要“声音”的专案，带来前所未有的自由度与生命力。你是否也曾对那些听起来生硬、缺乏感情的 AI 语音感到厌烦？无论是影片配音、游戏角色，还是智慧助理，那种“机器人感”总是让人有点出戏。更麻烦的是，市面上最强大的语音生成工具，通常都躲在高昂的付费墙后，限制了许多创作者的想像力。但如果，现在有一款 AI 不仅完全开源、可以免费商用，还能听懂你的描述，甚至能精准地在句子中加入笑声、哭声或耳语呢？这听起来是不是很棒？这就是 Maya1 诞生的使命。它不只是一个工具，更是一场关于声音表达的革命。 Maya1 究竟是什么？一个有灵魂的声音引擎简单来说，Maya1 是一个由 Maya Research 开发的先进文字转语音（Text-to-Speech, TTS）模型。它基于强大的 Llama 架构，拥有 30 亿个参数，能够生成极为逼真、富有情感的 24 kHz 高品质音讯。最关键的是，它是完全开源的。这意味着任何人都可以下载、使用，甚至修改它，将其部署在自己的专案中，而不用担心授权费用。为什么 Maya1 与众不同？这三大特色说了算市面上的 TTS 工具不少，但 Maya1 凭借几个独特的亮点，成功地脱颖而出。 1. 用“说”的来设计声音，就像跟配音员沟通忘掉那些复杂的参数和拉杆吧！使用 Maya1，你只需要用最自然的语言来描述你想要的声音。就像你在指导一位专业的配音员一样。想来点不一样的？没问题：一个 40 岁、声音温暖、低沉且健谈的男性声音一个 20 多岁的英国女孩，语气活泼一个充满怒气的黑暗反派，带着英国口音你只需要把描述写下来，剩下的交给 Maya1 就好。这种直觉的互动方式，大大降低了使用的门槛，让任何人都能轻松创造出独一无二的声音。 2. 让 AI 拥有喜怒哀乐，精准传达每种情绪这可能是 Maya1 最令人惊艳的功能了。它支援超过 20 种情绪标签，你可以像写剧本一样，直接在文字稿中标注情绪的触发点。例如，你可以这样写： “我们费了这么大劲才把他从那团乱中拉出来 <cry> 我真不敢相信...” 或者来点欢乐的： “我们的新功能 <laugh> 终于上线了！”

Nov 12, 2025 Read →

A …

tool

AI 播客的下一个里程碑？SoulX-Podcast 能否解决多说话者语音合成的噩梦？

AI 语音合成又迎来了新的挑战者。SoulX-Podcast 号称能生成长达 90 分钟、支持多种方言、且情感自然的 AI 播客对话。这项新技术真的能克服以往模型在多说话者场景下的尴尬表现吗？本文将深入探讨其背后的技术细节与潜力。在人工智能的浪潮中，文本转语音（TTS）技术早已不是什么新鲜事。我们习惯了手机导航的清晰指引，也熟悉了智能音箱的温和应答。然而，当我们试图让 AI 模拟一场真实、流畅、包含多人对话的播客（Podcast）时，结果往往不尽人意——声音僵硬、语气平淡、说话者切换时的混乱感，都像一道无形的墙，提醒我们 AI 与真人之间仍有距离。过去有些模型，例如 VibeVoice-1.5B，虽然立意良好，但在处理快速的多人对话切换时，表现总有些力不从心。这也让许多开发者和内容创作者感到好奇：我们离那个能生成以假乱真多人对话的 AI，到底还有多远？就在此时，一个名为 SoulX-Podcast 的新模型进入了我们的视野。从其发布的展示页面来看，它似乎正朝着解决这个「噩梦级」问题迈出了一大步。不只是单声道：专为真实对话而生传统的 TTS 系统大多专为单一说话者设计，你可以把它想象成一个演员在念独白。但一场播客或真实对话，更像是一出有多个角色的舞台剧，充满了互动、打断和情感交流。 SoulX-Podcast 的核心设计理念，就是为了生成这种多回合、多说话者的对话式语音。它不再是简单地将文本转为声音，而是理解对话的上下文，让每个「说话者」的语气和韵律能随着对话进展而自然变化。这意味着 AI 不仅知道说什么，还知道该怎么说，这在提升自然度方面是个巨大的飞跃。乡音也能无碍？惊人的方言与语气控制让 AI 说话不难，但要让它说得有「人味」，甚至带点地方口音，那挑战可就大了。SoulX-Podcast 在这方面带来了惊喜。它不仅支持标准的中文和英文，还整合了多种华语方言，包括四川话、河南话和粤语。从官方展示的范例中可以听到，AI 生成的方言听起来相当地道，保留了方言独特的韵味和语调。更重要的是「副语言（Paralinguistic）控制」的加入。这是什么意思呢？简单来说，就是那些非语言的声音信号，比如：笑声 (<laughter>) 叹气 (<sigh>) 清喉咙 (<throat_clearing>) 咳嗽 (<coughing>) 这些细节正是让对话变得生动地关键。想象一下，在讨论一个有趣的话题时，AI 主持人自然地发出笑声，而不是用平淡的语气说出「哈哈」，这两者的感染力完全不在一个层次。连续 90 分钟不「精神分裂」的稳定性长篇语音生成是另一个巨大的技术难关。许多模型在生成几分钟的音频后，声音的稳定性（也就是音色）就会开始漂移，听起来像是中途换了个人。 SoulX-Podcast 的技术报告指出，它能够连续生成超过 90 分钟的对话，同时保持稳定的说话者音色和流畅的转换。这对于播客、有声书或长篇教学内容的创作者来说，无疑是一个极具吸引力的功能。这意味着未来或许可以仅仅通过脚本，就自动生成一整季节目，而无需担心声音品质前后不一。背后的秘密：强大的数据处理与模型架构听起来很神奇，对吧？这背后的功臣，是一个复杂而精密的系统。首先是其 SoulX-Data-Pipeline。在训练模型之前，团队对大量的语音数据进行了细致的处理，包括语音增强、音频分割、说话者日志（确定是谁在说话）、文本转录和品质过滤。这就像在烹饪一道大餐前，厨师团队 meticulously 清洗、挑选和处理每一份食材，确保最终的味道是最好的。而在模型核心，SoulX-Podcast 很可能是基于 Qwen3-1.7B 这样的大型语言模型（LLM）进行训练。这使得模型不仅能处理声音，更能理解语言和对话的深层结构，从而做出更自然的语气和节奏反应。所以，这次真的不一样了吗？从官方提供的范例和技术细节来看，SoulX-Podcast 的确展现了令人印象深刻的实力。它不仅在单人语音合成方面达到了顶尖水平，更在极具挑战性的多人、多方言、长篇对话场景中取得了突破。当然，展示的范例总是经过挑选的。它在更复杂、更不可预測的真实应用中的表现如何，还需要社区和开发者们（Hugging Face 页面已开放）进行更广泛的测试。但无论如何，SoulX-Podcast 的出现，都为 AI 语音合成领域，特别是内容创作行业，描绘了一个激动人心的未来。或许在不久的将来，我们在收听一档精彩的多人播客时，将再也分不清耳机里的声音，究竟是来自人类，还是 AI。

Oct 29, 2025 Read →