AI 成為現場樂器:解析 Google Magenta RealTime 2 超低延遲音樂生成
告別漫長的讀取條,迎接現場即興演出 過去幾年,大型生成音樂模型多半受限於離線運算環境。創作者輸入一段文字提示,接著就是盯著螢幕上的進度條發呆。這種感覺往往會打斷好不容易湧現的靈感。音樂創作的本質充滿了隨機的互動與回饋。 為了處理這個痛點,Google 推出了 Magenta RealTime 2 (MRT2) 模型。這項計畫打破了以往的僵化流程。它把生硬的演算法變成了一個可以在筆電上直接彈奏的虛擬樂器。 你知道嗎?如果要讓機器參與現場表演,延遲絕對是最大的致命傷。第一代的模型處理指令可能需要大約三千毫秒。三千毫秒在舞台上簡直像過了一輩子那麼久。現在,新一代架構將這個時間大幅縮減了近十五倍,直接壓到兩百毫秒以下。 超低延遲與多模態控制的魅力 市面上有許多工具需要輸入文字後等待數十秒才能拿到完整音檔。讀者可能會好奇,相比於其他競品,這套系統最大的優勢究竟在哪裡?答案就在於極致的低延遲與多模態即時控制。 創作者可以一邊彈奏 MIDI 鍵盤,一邊修改文字提示。比如上一秒還在彈奏爵士和弦,下一秒輸入「電子合成器」,音樂走向就會在指尖瞬間切換。這是一種行雲流水的操作體驗,讓現場即興演出變得可能。 MRT2 以每幀 40 毫秒的速度進行自迴歸運算。它不僅能聽懂文字,還能即時跟隨使用者的彈奏狀態與節奏,並在極短的時間內對輸入訊號做出反應。當手指按下琴鍵的瞬間,充滿表現力的伴奏就會隨之而來。 解放雲端算力,讓 MacBook 成為專屬虛擬舞台 許多強大的演算法都需要依賴高階雲端硬體才能順利運作。然而,這套系統選擇了一條貼近一般音樂人的路徑。它針對創作者最常用的蘋果 M 系列晶片進行了全面優化。 官方提供了兩種開源權重版本供大家自由選擇。Small 模型擁有 2.3 億參數,即使是輕薄的 MacBook Air 也能輕鬆扛起即時串流生成的任務。至於高達 24 億參數的 Base 模型,只要手邊有 M2 Max 或 M3 Pro 以上等級的設備,同樣能流暢運行。 或許有人會問,難道只有蘋果電腦能用嗎?Windows 或是配備 NVIDIA 顯示卡的使用者怎麼辦?這其實取決於實際的使用情境。 如果是為了追求現場互動的即時串流生成,目前的 C++ 推理引擎確實是專為蘋果晶片量身打造。若是想要進行一般的離線生成或學術研究,這套系統的 Python 函式庫完全支援在 NVIDIA GPU 或其他作業系統上執行。非蘋果用戶依然有很大的發揮空間。 拆解引擎蓋下的秘密:三大技術支柱 稍微聊一點技術細節。到底是什麼樣的架構撐起了這樣的效能?這套系統由三個核心元件緊密咬合而成。 首先是 SpectroStream 編解碼器,負責把高保真的立體聲轉化為離散代幣。接著是 MusicCoCa 登場,它像是一個盡責的翻譯官,把文字風格或參考音訊轉換成機器能理解的語意空間。 最後搭配帶有因果滑動視窗注意力機制的語言模型。這個滑動視窗機制極為關鍵。它有效限制了記憶體的無底洞消耗,避免長時間播放後產生詭異的回音或雜訊,讓連續不斷的生成順利實現。 提到模型訓練,版權問題總是避不開的焦點。這套系統吸收了約 7.1 萬小時的版權庫存音樂作為養分,其中絕大多數都是純樂器演奏。即便在某些極端指令下可能會出現類似人聲的音效,那通常也只是無語意的發聲而已。官方條款中明確規定,禁止任何人利用這項工具生成侵權內容。這樣的設計既保障了版權方的權益,也讓創作者能安心發揮。 開箱即用的生態系與未來展望 Google 這次釋出的誠意相當足夠。他們不僅開放了模型權重,還大方提供了一整套完善的工具鍊。包含支援 JAX 與 MLX 後端的 Python 推理函式庫,以及用 C++ 寫成的高效能引擎。



