告別漫長的讀取條,迎接現場即興演出
過去幾年,大型生成音樂模型多半受限於離線運算環境。創作者輸入一段文字提示,接著就是盯著螢幕上的進度條發呆。這種感覺往往會打斷好不容易湧現的靈感。音樂創作的本質充滿了隨機的互動與回饋。
為了處理這個痛點,Google 推出了 Magenta RealTime 2 (MRT2) 模型。這項計畫打破了以往的僵化流程。它把生硬的演算法變成了一個可以在筆電上直接彈奏的虛擬樂器。
你知道嗎?如果要讓機器參與現場表演,延遲絕對是最大的致命傷。第一代的模型處理指令可能需要大約三千毫秒。三千毫秒在舞台上簡直像過了一輩子那麼久。現在,新一代架構將這個時間大幅縮減了近十五倍,直接壓到兩百毫秒以下。
超低延遲與多模態控制的魅力
市面上有許多工具需要輸入文字後等待數十秒才能拿到完整音檔。讀者可能會好奇,相比於其他競品,這套系統最大的優勢究竟在哪裡?答案就在於極致的低延遲與多模態即時控制。
創作者可以一邊彈奏 MIDI 鍵盤,一邊修改文字提示。比如上一秒還在彈奏爵士和弦,下一秒輸入「電子合成器」,音樂走向就會在指尖瞬間切換。這是一種行雲流水的操作體驗,讓現場即興演出變得可能。
MRT2 以每幀 40 毫秒的速度進行自迴歸運算。它不僅能聽懂文字,還能即時跟隨使用者的彈奏狀態與節奏,並在極短的時間內對輸入訊號做出反應。當手指按下琴鍵的瞬間,充滿表現力的伴奏就會隨之而來。
解放雲端算力,讓 MacBook 成為專屬虛擬舞台
許多強大的演算法都需要依賴高階雲端硬體才能順利運作。然而,這套系統選擇了一條貼近一般音樂人的路徑。它針對創作者最常用的蘋果 M 系列晶片進行了全面優化。
官方提供了兩種開源權重版本供大家自由選擇。Small 模型擁有 2.3 億參數,即使是輕薄的 MacBook Air 也能輕鬆扛起即時串流生成的任務。至於高達 24 億參數的 Base 模型,只要手邊有 M2 Max 或 M3 Pro 以上等級的設備,同樣能流暢運行。
或許有人會問,難道只有蘋果電腦能用嗎?Windows 或是配備 NVIDIA 顯示卡的使用者怎麼辦?這其實取決於實際的使用情境。
如果是為了追求現場互動的即時串流生成,目前的 C++ 推理引擎確實是專為蘋果晶片量身打造。若是想要進行一般的離線生成或學術研究,這套系統的 Python 函式庫完全支援在 NVIDIA GPU 或其他作業系統上執行。非蘋果用戶依然有很大的發揮空間。
拆解引擎蓋下的秘密:三大技術支柱
稍微聊一點技術細節。到底是什麼樣的架構撐起了這樣的效能?這套系統由三個核心元件緊密咬合而成。
首先是 SpectroStream 編解碼器,負責把高保真的立體聲轉化為離散代幣。接著是 MusicCoCa 登場,它像是一個盡責的翻譯官,把文字風格或參考音訊轉換成機器能理解的語意空間。
最後搭配帶有因果滑動視窗注意力機制的語言模型。這個滑動視窗機制極為關鍵。它有效限制了記憶體的無底洞消耗,避免長時間播放後產生詭異的回音或雜訊,讓連續不斷的生成順利實現。
提到模型訓練,版權問題總是避不開的焦點。這套系統吸收了約 7.1 萬小時的版權庫存音樂作為養分,其中絕大多數都是純樂器演奏。即便在某些極端指令下可能會出現類似人聲的音效,那通常也只是無語意的發聲而已。官方條款中明確規定,禁止任何人利用這項工具生成侵權內容。這樣的設計既保障了版權方的權益,也讓創作者能安心發揮。
開箱即用的生態系與未來展望
Google 這次釋出的誠意相當足夠。他們不僅開放了模型權重,還大方提供了一整套完善的工具鍊。包含支援 JAX 與 MLX 後端的 Python 推理函式庫,以及用 C++ 寫成的高效能引擎。
對於第一線的音樂製作人來說,最實用的莫過於官方直接提供了 AUv3 插件範例。這代表創作者可以直接把這個 AI 樂器拉進最熟悉的數位音樂工作站裡面使用。不必再開啟一堆視窗切換來切換去。
Magenta 團隊過去十年來一直傳遞著一個核心信念。AI 的定位始終是輔助人類的工具,絕對無法取代真實的音樂家。這項新技術的誕生為專業表演者提供了即興創作的新玩具。它同時也為那些腦中有旋律卻苦於缺乏演奏技巧的人打開了一扇大門。甚至在音樂治療領域,這種直覺的反饋機制也有著無可限量的潛力。
官方透露未來還會推出微調功能。未來的音樂家或許都能用自己的作品,訓練出獨一無二的專屬伴奏夥伴。音樂的創作邊界,正在以一種十分迷人的方式不斷擴充。
問與答
Q1:MRT2 跟市面上其他 AI 音樂生成工具有什麼不一樣? A: 傳統的生成模型多半是「離線生成」,也就是輸入提示詞後,必須等待幾十秒甚至數分鐘才能得到完整的音檔。MRT2 最大的突破在於它是一款「即時互動」的現場音樂模型。它的延遲時間不到 200 毫秒,能讓你在彈奏 MIDI 鍵盤或改變文字提示時,瞬間改變生成的音樂走向,就如同在演奏一把真實的虛擬樂器。
Q2:我一定要有蘋果電腦 (Mac) 才能跑得動 MRT2 嗎?Windows 或配備 NVIDIA 顯示卡的電腦可以使用嗎? A: 這取決於您的使用情境。若您想要體驗「即時串流生成(Live streaming generation)」的超低延遲控制,目前的 C++ 推理引擎確實是專為 Apple Silicon(M系列晶片)深度優化的。但如果您只是要進行「離線生成(Offline inference)」或是學術研究,官方的 Python 函式庫完全支援在 NVIDIA GPU 或其他系統上運行。
Q3:文章提到可以透過 MIDI 鍵盤控制,那它能完美捕捉我彈奏的「力度」嗎? A: 目前 MRT2 主要是追蹤您的「彈奏狀態與節奏」。它接收的 MIDI 訊號是一個 128 維的多熱編碼向量(multihot vector),用來辨識每一個音符在當下的狀態(例如:關閉、延音、剛按下等)。也就是說,它能精準抓到您按鍵的時機與和弦的變化,但系統層面目前尚未直接將傳統 MIDI 0-127 的「力度(Velocity)」數據納入控制參數中。
Q4:這個模型訓練的資料庫來源是什麼?會不會不小心生成有版權爭議的人聲? A: MRT2 使用了約 7.1 萬小時的庫存音樂(Stock music)進行訓練,而且絕大多數為「純樂器演奏」。官方指出,雖然在某些極端提示下,模型可能會產生類似人聲的音效,但通常只是「無語意(non-lexical)」的發聲。此外,官方使用條款中明確規定,禁止任何人利用這項工具生成侵犯他人版權的內容。
Q5:如果我是專業的音樂製作人,可以直接把它整合到我的製作軟體中嗎? A: 絕對可以。Google 開發團隊為了解放音樂人的創造力,在開源庫中直接提供了 AUv3 插件(Plugin)的範例。這代表您可以將 MRT2 直接當作外掛,拉進您最熟悉的數位音樂工作站(DAW)裡使用,此外官方也有提供可獨立運作的 macOS 應用程式供創作者體驗。



