手機也能變身調音大師?Stability AI 最新開源「閃電俠」文字轉語音模型,快到不可思議!

還在煩惱文字轉語音又慢又佔空間嗎?Stability AI 帶來革命性突破!僅341M的超輕量模型,手機本地運行無壓力,幾秒鐘就能生成高品質音訊,更有驚喜的音訊風格轉換功能!想知道它是如何辦到的嗎?快來一探究竟!


你是不是也常常覺得,現在的文字轉語音技術雖然厲害,但總有那麼點不盡人意?有時候,那些高品質的模型,體積龐大得像個吃撐了的巨人,想在手機上跑?門兒都沒有!這讓許多需要即時產生音訊的創意應用,比如你想做點音樂、搞點遊戲音效,都只能望「模」興嘆。畢竟,誰受得了那慢吞吞的反應速度啊?

但現在,情況可能要大不同了!Stability AI 最近又扔出一個「王炸」—— 一個聽起來名字有點拗口,叫做「Adversarial Post-Training 加速的快速文字轉音頻生成」的模型。別被這學術味十足的名字嚇到,你只需要記住它的核心賣點:超級快!而且超級輕! 簡直就是文字轉語音界的「閃電俠」!

論文傳送門 (ArXiv) 模型卡牌 (Hugging Face)

Stability AI 這次似乎下定決心要終結這個「龜速時代」。他們發布的這個模型,參數只有 341M!這是什麼概念?在那些動不動就幾十億、甚至上千億參數的「巨無霸」模型面前,它簡直就是個「小精靈」,輕盈得能直接塞進你的手機裡跑起來!最關鍵的是,它生成高品質音訊的速度,快到讓你驚掉下巴!

「閃電小子」為啥這麼快?秘密武器大公開!

那麼,這個被我們戲稱為「閃電小子」的模型,究竟是吃了什麼「菠菜」才能跑這麼快呢?其實,它身懷好幾件秘密武器:

秘密武器一:ARC 後訓練 —— 不是蒸餾,但效果可能更好!

說到讓模型變快變小,很多人第一時間會想到「蒸餾」技術。簡單來說,就是讓一個學識淵博的「老師模型」手把手教一個「學生模型」怎麼快速、準確地完成任務。不過,這套方法嘛,有時候挺折騰人的,要嘛訓練成本居高不下,要嘛還得儲存一大堆老師批改過的「作業」(也就是中間數據)。

Stability AI 這次不走尋常路,他們搗鼓出一個新玩意兒,叫做 ARC (Adversarial Relativistic-Contrastive) 後訓練。這是一種對抗性的加速演算法,重點來了:它不依賴蒸餾!ARC 的核心思想是在模型初步訓練完成之後,再透過一種巧妙的對抗機制,讓模型「開竅」,進一步提升運算效率和生成速度。而且,從效果來看,它一點也不輸給那些複雜的蒸餾方法,甚至可能更勝一籌!

秘密武器二:相對抗性損失 —— 生成的要比真實的更「真實」!

ARC 裡面的「AR」兩個字母,代表的就是「對抗性相對損失」(Adversarial Relativistic loss)。傳統的對抗網路 (GAN) 裡,通常有一個「生成器」和一個「判別器」。生成器努力想「造假」,產生以假亂真的樣本來騙過判別器;而判別器則拼命想「打假」,努力分辨哪個是真樣本,哪個是假樣本。

這個「相對抗性損失」的玩法更狠!它要求生成器不僅要生成逼真的樣本,還要讓這些生成的假樣本在判別器看來,比真實的樣本更「真」!反過來,判別器也要努力讓真實樣本在它看來,比生成的假樣本更「真」!這就像一場「誰更能以假亂真」的終極對決,但這裡的「真」是相對的。這種機制迫使生成器不斷自我超越,拼命提升生成音訊的品質。更妙的是,因為這是個文字轉語音模型,研究人員直接用相同文字描述的真實音訊和生成音訊來進行這種「真假對決」,這無疑提供了一個更強大、更精準的訓練訊號。

秘密武器三:對比損失 —— 讓模型真正「聽懂人話」!

光是能產生聽起來很真實的聲音還不夠,關鍵還得讓模型「聽懂人話」,也就是說,生成的聲音必須和你輸入的文字描述相符。你想讓它說「貓」,它總不能發出「狗」的叫聲吧?

傳統的對抗性訓練有時候會顧此失彼,太專注於聲音的逼真度,反而忽略了文字訊息,導致生成一些牛頭不對馬嘴的聲音。為了解決這個痛點,ARC 引入了「對比損失」(Contrastive loss)。它的核心任務是訓練判別器,讓判別器不僅能分辨聲音的真假,還能判斷出哪些音訊是帶有正確文字描述的,哪些音訊的文字描述是錯誤的(比如文字順序被打亂了)。

判別器會努力拉近「正確配對」的音訊和文字之間的距離,同時推遠「錯誤配對」的音訊和文字。這就像把判別器訓練成一個音訊和文字的「配對專家」,讓它對文字的理解更加深刻。有了這位「專家」的精準指導,生成器自然就能更好地產生符合文字描述的音訊了。而且,這種方法還有個額外的好處,就是可以避免使用 CFG (Classifier-Free Guidance)。CFG 雖然有時候能提高文字和聲音的一致性,但也常常會犧牲生成結果的多樣性,讓聲音聽起來千篇一律。

秘密武器四:乒乓採樣 —— 左右橫跳,步步逼近完美音質!

傳統的擴散模型 (Diffusion Model) 產生音訊,往往需要很多步驟,一步一步地去除噪音,就像剝洋蔥一樣,層層遞進。而這個「閃電小子」採用了一種名為「乒乓採樣」(Ping-Pong Sampling) 的技術。

它可不是傻乎乎地一路去噪到底。相反,它會在去噪和加噪之間來回切換,就像打乒乓球一樣,在不同的噪音水平之間來回「擊打」。每「擊打」一次,生成的音訊就離真實音訊更近一點,品質也就更高一籌。最重要的是,這種「左右橫跳」的策略,可以用更少的步數達到非常好的效果,大大提升了生成效率。

秘密武器五:架構優化 —— 「瘦身成功」但依舊強壯!

除了上述這些新穎的訓練方法和採樣技術,模型本身的「骨架」——也就是神經網路架構——也進行了精心優化。這次的模型是在 Stability AI 自家的 Stable Audio Open (SAO) 模型基礎上改進而來的。

工程師們像是給模型做了個「瘦身手術」,把一些關鍵「零件」,比如 Diffusion Transformer (DiT),它的維度和層數都進行了縮減,讓模型變得更小巧。同時,他們還加入了一些新技術,確保模型在「瘦身」後依然保持穩定和強大的性能。正是這些架構上的優化,使得模型的參數數量大幅減少到只有 341M,同時又不至於犧牲太多音訊品質。

性能炸裂:H100 上 75 毫秒,手機上只要 7 秒!

那麼,集齊了這麼多「秘密武器」之後,這個模型的表現究竟如何呢?答案是:快到讓你起飛!

在專業級的 NVIDIA H100 GPU 上,這個模型可以在大約 75 毫秒內生成一段長達 12 秒、44.1kHz 取樣率的立體聲音訊!這是什麼概念?這幾乎比原始的 SAO 模型快了整整 100 倍!眨眼之間,想要的聲音就出來了,幾乎是即時生成!

更讓人興奮的是,Stability AI 的工程師們還特別針對行動裝置進行了優化。在普通的手機 CPU 上,這個模型也能在大約 7 秒內生成同樣 12 秒長的高品質音訊!這很可能使其成為目前市面上,在手機端運行速度最快的文字轉語音模型之一!想像一下,以後你在手機上使用各種創意 App,需要即時生成一段背景音樂、一個特殊的音效,或者只是想玩玩有趣的聲音變換,都不再是遙不可及的夢想了!

而且,別以為速度快了,品質就會打折扣。論文中展示了各種專業的音訊評估指標(例如 FD openl3、KL-passt、CLAP score 等),結果顯示,這個「閃電小子」生成的音訊品質,完全可以和那些體積更大、運算更慢的模型相提並論,甚至在某些方面還略有勝出。

不只快,腦洞還能無限大?音訊多樣性大爆發!

很多時候,為了追求極致的速度,一些加速後的模型往往會犧牲生成結果的多樣性。也就是說,你讓它生成聲音,它可能翻來覆去就那麼幾種調調,聽多了就覺得很無聊,缺乏新意。

但 Stability AI 這個「閃電小子」似乎是個例外!它不僅跑得快,生成的聲音還具有相當高的多樣性!

研究人員在論文中甚至提出了一個新的評估指標,叫做 CCDS (CLAP Conditional Diversity Score)。這個指標專門用來衡量模型在給定相同的文字描述下,能夠產生多少種不同風格、不同感覺的聲音。結果顯示,這個新模型在 CCDS 上的得分相當高。而且,透過主觀的聽力測試也證實了這一點——參與測試的人普遍認為,它生成的聲音更多樣化,更有創意!

這意味著什麼呢?這意味著,當你輸入一段文字,比如「一隻貓在鋼琴上跳舞」,它可能不會只給你一種貓叫聲和鋼琴聲的組合,而是會給你幾種不同品種的貓、不同風格的鋼琴曲,甚至不同氛圍的場景音!這無疑會大大激發你的創作靈感,讓你的聲音作品不再單調!

還有隱藏技?音訊到音訊,風格任你玩!

你以為文字轉語音就是它的全部能耐了嗎?那你就小看它了!這個模型還有一個相當酷炫的「隱藏技能」—— 音訊轉音訊 (Audio-to-Audio)

簡單來說,你可以先給它一段現成的音訊作為輸入(比如你自己的說話聲、一段音樂片段),然後再用文字來描述你想要的聲音風格或者效果。接著,模型就能像施展魔法一樣,把輸入的音訊轉換成你描述的那種新風格!

舉個例子,你可以錄下自己的一段說話聲,然後用文字告訴模型:「把它變成機器人的聲音」。幾秒鐘後,你就能得到一段充滿科技感的機器人版說話聲!或者,你有一段普通的鼓點節奏,你可以輸入文字「把它變成充滿激情的拉丁風格鼓點」,模型就能給你一段熱力四射的拉丁鼓樂!這簡直就是聲音界的「風格遷移」大師啊,是不是很酷?更棒的是,這個功能不需要額外的訓練,開箱即用!

解放手機的聲音魔力:落地應用大有可為!

這個超快、超輕、高品質,還能玩轉風格的文字轉語音模型,無疑為這項技術的實際應用打開了一扇全新的大門。尤其是在行動裝置上,我們的手機、平板,以前常常因為運算能力有限,很難順暢運行那些複雜的音訊生成模型。

現在,有了這個「閃電小子」,你的手機就能搖身一變,成為一個功能強大的「聲音魔法師」。無論你身在何處,都能隨時隨地利用它來生成各種富有創意的音訊內容。

想像一下:

  • 你可以用手機即時為你的短影片配上獨特的旁白或背景音樂。
  • 遊戲開發者可以用它快速生成各種新奇的遊戲音效,提升玩家的沉浸感。
  • 音樂愛好者可以嘗試生成不同風格的樂器片段,輔助自己的音樂創作。
  • 或者,你只是想純粹地玩一玩,把朋友的聲音變成卡通人物,或者把貓叫變成歌劇,都能輕鬆實現!

而且,由於它對文字描述的理解能力相當不錯,你可以更精準地控制生成的聲音,讓結果更貼近你的想像。

當然啦,沒有什麼技術是一蹴可幾、完美無缺的。目前這個模型在實際運行時,對手機的記憶體和儲存空間還是有一定要求的。但無論如何,Stability AI 已經邁出了至關重要的一步,讓高效能的文字轉語音技術真正有潛力「飛入尋常百姓家」——或者更準確地說,是「飛入尋常百姓的手機裡」!

小即是美:輕量模型的巨大潛力

總而言之,Stability AI 這次開源的 341M 超輕量文字轉語音模型,絕對是近期 AI 領域的一個重磅消息!它透過創新的 ARC 後訓練方法以及一系列精巧的設計,在保持高品質音訊輸出的前提下,實現了令人驚嘆的生成速度和結果多樣性。

特別是它輕量化的設計和在行動裝置上的出色表現,預示著文字轉語音技術將不再是實驗室裡的「高嶺之花」,而是能夠在更多創意應用中大放異彩的實用工具。未來,我們可以期待這個「閃電小子」以及更多類似的輕量化模型,在各種場景下大顯身手,讓我們的數位世界變得更加「聲」動有趣!

Share on:
Previous: VS Code 震撼彈!GitHub Copilot Chat 擴展全面開源,AI 編程新紀元來了?
Next: AI大爆發!Hugging Face免費MCP課程讓你一天搞懂上下文協議,小白也能變高手?
DMflow.chat

DMflow.chat

廣告

一站整合多平台聊天,體驗真人與 AI 自由切換的新境界!支援 Facebook、Instagram、Telegram、LINE 及網站,結合歷史記錄、推播通知、行銷活動及客服轉接,全面提升效率與互動。

GenSFX:AI 音效產生器 - 將文字化為聲音
3 February 2025

GenSFX:AI 音效產生器 - 將文字化為聲音

GenSFX:AI 音效產生器 - 將文字化為聲音 GenSFX 是一款強大的 AI 音效產生器,讓您透過簡單的文字描述,就能創造出您需要的音效。其強大的功能和便利性仍然值得關注。 ...

AI 影片配音革命:MMAudio 讓無聲視頻重獲新生|專業影音製作新選擇
25 December 2024

AI 影片配音革命:MMAudio 讓無聲視頻重獲新生|專業影音製作新選擇

AI 影片配音革命:MMAudio 讓無聲視頻重獲新生|專業影音製作新選擇 摘要 MMAudio 是一款突破性的 AI 影片配音工具,能夠為無聲視頻自動生成同步的專業音軌。透過多模態聯合訓練技...

OpenAI Day4:深入了解 OpenAI 的 Canvas 功能與應用
11 December 2024

OpenAI Day4:深入了解 OpenAI 的 Canvas 功能與應用

OpenAI Day4:深入了解 OpenAI 的 Canvas 功能與應用 描述 Canvas 是一項令人興奮的新功能,旨在為寫作與程式設計提供高效的協作平台。無論是用於創建故事還是撰寫程式...

重大突破:Google超過25%新程式碼由AI生成!營收創新高達883億美元
31 October 2024

重大突破:Google超過25%新程式碼由AI生成!營收創新高達883億美元

重大突破:Google超過25%新程式碼由AI生成!營收創新高達883億美元 震撼消息:Google執行長皮查伊(Sundar Pichai)最新公布,AI已成為Google程式開發的核...

GitHub 大放送!Copilot AI 程式神助攻免費版來了,開發者們還不快衝
19 December 2024

GitHub 大放送!Copilot AI 程式神助攻免費版來了,開發者們還不快衝

GitHub 大放送!Copilot AI 程式神助攻免費版來了,開發者們還不快衝? 寫程式卡關?GitHub Copilot AI 助手推出免費版,直接內建在 VS Code!無論你是...