Meta 推出 SAM Audio：聽覺版「魔術棒」，讓聲音編輯像修圖一樣簡單

想像一下，只要點擊影片中的吉他，就能瞬間分離出它的獨奏聲。Meta 全新發布的 SAM Audio 模型，透過文字、視覺和時間軸指令，徹底改變了我們處理音訊的方式。這不只是 AI 的技術突破，更是創作者的一大福音。本文將帶您一探這項技術如何運作，以及它為何讓音訊工程變得如此親民。

還記得 Meta 之前發布的那個「Segment Anything Model (SAM)」嗎？那個只要點一下圖片裡的任何東西，就能自動幫你完成去背的神奇 AI。老實說，那時候大家都在想：如果這項技術能用在「聲音」上，該有多好？

你猜怎麼著？這一天真的來了。

Meta 正式推出了 SAM Audio，這不僅僅是另一個 AI 模型，它更像是音訊編輯界的「Photoshop 魔術棒」。一直以來，音訊處理都是個讓人頭痛的領域，工具零散、操作複雜，想要把人聲從嘈雜的背景中乾淨地分離出來，往往需要專業工程師花上大把時間。但 SAM Audio 的出現，似乎準備要打破這個高不可攀的門檻。

這項技術的核心概念其實很簡單：它讓「聽覺」變得像「視覺」一樣容易被選取和編輯。

三種直覺指令，精準鎖定你想要的聲音

SAM Audio 之所以特別，不在於它有多複雜的參數，而在於它「聽得懂」人類的指令。它不再要求使用者去調整頻率或波形，而是透過三種非常直覺的方式來告訴 AI：「嘿，我要這個聲音。」

這三種提示（Prompting）方式，每一種都對應了不同的使用情境，讓我們來仔細看看。

1. 文字指令 (Text Prompting)：說出你想要的

這大概是最簡單粗暴的方式了。如果你想要一段錄音裡的狗叫聲，你只需要輸入「狗叫聲 (dog barking)」；如果你想要保留歌手的聲音，就輸入「歌聲 (singing voice)」。

這背後的邏輯與現在流行的圖像生成 AI 很像，但它是反過來的。SAM Audio 會分析整段複雜的音訊混合物，然後根據你的文字描述，像個聽話的助手一樣，把符合描述的音軌單獨「抓」出來給你。這對於要在長篇錄音中尋找特定音效的剪輯師來說，簡直省下了無數個小時。

2. 視覺指令 (Visual Prompting)：看哪裡，點哪裡

這功能聽起來有點科幻，但它卻是 SAM Audio 最讓人驚艷的地方。試想一下，你在編輯一支樂團演奏的影片，想要單獨聽聽鼓手的節奏是否準確。

在過去，你可能需要原始的分軌檔案。但現在，透過 SAM Audio 的視覺提示功能，你只需要在影片畫面上「點擊」那組鼓，AI 就會自動辨識這個物體，並把與之對應的聲音分離出來。這種視覺與聽覺的同步處理，讓影音創作者在後製時能擁有前所未有的直覺體驗。

3. 時間區段指令 (Span Prompting)：業界首創的精準控制

這點是 Meta 特別自豪的「業界首創」。有時候，我們需要的不是某個特定的物體聲音，而是「這段時間內」發生的聲音事件。

Span Prompting 允許使用者在音訊波形上直接框選一段時間範圍。這有點像是我們在文書軟體裡反白一段文字一樣，你告訴模型：「我只在乎這幾秒鐘發生的事情。」透過標記特定的時間段，AI 能更精確地鎖定並處理該區間內的音訊特徵。這對於需要極高精確度的專業混音或科學研究來說，提供了極大的控制權。

從創作者到科學家，應用場景無所不在

你也許會問，這對我有什麼影響？其實，SAM Audio 的潛力遠比我們想像的廣泛。以前音訊分割和編輯是一個破碎的市場，充滿了各種單一用途的工具。但作為一個統一的模型，SAM Audio 正在改變這一切。

內容創作者與 Podcaster： 這是最直接的受惠者。想像你在戶外錄製 Vlog 或 Podcast，背景有惱人的車流聲或鄰居的狗叫聲。以前你可能要忍痛放棄這段素材，現在只需幾個指令，就能把干擾音濾除，保留清晰的人聲。
音樂人與製作人： 對於音樂創作來說，能夠瞬間從混音成品中提取出吉他獨奏或特定樂器，對於取樣（Sampling）或學習編曲都是巨大的幫助。
影視後製： 剪輯師不再需要為了分離對白與環境音而焦頭爛額，工作流程將變得更加流暢。
科學研究與無障礙科技： 這點比較少人提到，但同樣重要。科學家可以用它來分析特定野生動物的叫聲，排除環境雜音；聽障輔助科技也能利用這項技術，在吵雜環境中更精準地分離出對話聲音，提升使用者的生活品質。

開源精神：現在就能親自體驗

Meta 在 AI 領域一直保持著相當開放的態度，這次也不例外。如果你是開發者，或是單純對新科技充滿好奇的玩家，你不需要乾等。

開發者資源： 你可以直接前往 Github 或 Hugging Face 下載模型權重與程式碼，進行研究或將其整合到自己的應用程式中。
一般用戶試玩： 就算你不會寫程式也沒關係。Meta 推出了全新的 Segment Anything Playground。你可以在這個網頁平台上，上傳自己的音訊或影片，親手玩玩看這項「聲音魔術」，體驗一下指哪裡、聽哪裡的快感。

結語：AI 多模態處理的新篇章

SAM Audio 的出現，標誌著 AI 多模態處理（Multimodal Processing）又往前邁進了一大步。它不再只是處理單一的文字或圖片，而是開始理解聲音、影像與時間之間的複雜關係。

這項工具將原本複雜的訊號處理工程，轉化為每個人都能理解的直覺互動。雖然我們不知道未來還會有什麼黑科技出現，但至少現在，處理聲音不再是專業工程師的專利，而是每位創作者都能輕鬆上手的日常。

常見問題解答 (FAQ)

Q1：SAM Audio 是免費的嗎？ 是的，Meta 秉持開源精神，已經公開了 SAM Audio 的模型權重和程式碼，開發者可以免費下載研究。對於一般使用者，也可以透過線上的 Segment Anything Playground 免費體驗其功能。

Q2：這個模型支援哪些類型的檔案輸入？ SAM Audio 支援音訊檔案以及影片檔案。特別是在處理影片時，它可以結合視覺提示（點擊畫面物體）來進行聲音分離，這是純音訊工具無法做到的。

Q3：它跟一般的降噪軟體有什麼不同？ 一般的降噪軟體通常是全面性地壓低背景噪音，有時會犧牲音質。SAM Audio 則是透過「語意理解」來運作，它能辨識並「分離」出特定的聲音（例如：只留下吉他聲，或是只去掉狗叫聲），提供了比傳統降噪更精細、更具創意的編輯選擇。

Q4：我可以用它來做什麼？ 應用範圍非常廣！包括但不限於：去除 Podcast 背景雜音、從影片中提取特定樂器聲、製作卡拉 OK 伴奏（分離人聲）、或是輔助聽障人士在吵雜環境中聽清對話。

分享至:

Featured Partners

SPONSORED

DMflow.chat

探索DMflow.chat，立即開啟AI驅動的客戶服務新時代。

Learn More

SPONSORED

DMflow.chat

DMflow.chat: 您的智能AI夥伴，提升客戶互動、創造卓越體驗。

Learn More

SPONSORED

videoweaver.app

Video Weaver: 瀏覽器內完成專業影片剪輯，無需下載、即刻創作。

Learn More

SPONSORED

DMflow.chat

探索DMflow.chat，立即開啟AI驅動的客戶服務新時代。

Learn More

SPONSORED

DMflow.chat

DMflow.chat: 您的智能AI夥伴，提升客戶互動、創造卓越體驗。

Learn More

SPONSORED

videoweaver.app

Video Weaver: 瀏覽器內完成專業影片剪輯，無需下載、即刻創作。

Learn More

Recommended for You

阿 …

tool

阿里 ThinkSound 開源：AI 配音不再「看圖說話」，用「思維鏈」聽懂影片的潛台詞*

想像一下，AI 不僅能為影片配上聲音，更能理解畫面中的每一個動態細節，從鳥兒振翅到樹葉搖曳，並允許你像導演一樣即時修改音效。阿里巴巴開源的 ThinkSound 模型，透過創新的「思維鏈」技術，正讓這一切成為現實，徹底改變我們對 AI 音訊生成的想像。你有沒有過這種經驗？觀看一段 AI 生成的影片，畫面很精彩，但聲音卻總覺得哪裡「不對勁」。鳥鳴聲突兀地響起，卻與鳥兒飛翔的動作對不上拍；汽車駛過的音效，也缺少了由遠及近的層次感。這種音畫不同步的狀況，正是傳統 AI 配音技術的罩門。過去的視訊轉音訊（Video-to-Audio）模型，就像一個只會「看圖說話」的實習生。你給它一段影片，它辨識出畫面裡有「貓頭鷹」，然後就配上一段單調的「貓頭鷹叫聲」。至於貓頭鷹是什麼時候拍動翅膀、什麼時候飛離樹枝、翅膀拍動又帶起了什麼環境聲響——抱歉，這些細節它通通無法理解。但現在，情況有了顛覆性的改變。阿里巴巴語音 AI 團隊開源了全球首個支援「鍊式推理」的音訊生成模型——ThinkSound。它不再是簡單地看圖配音，而是真正學會了「思考」，能夠結構化地理解影片的動態敘事，生成與畫面高度同步、細節豐富的空間音訊。傳統 AI 配音的瓶頸：只會「看」，不會「聽」讓我們先來看看問題出在哪。傳統的端對端模型在處理影片時，往往會忽略聲音與視覺事件在時間和空間上的關聯。它們的運作模式比較單一：辨識物件 → 生成對應聲音。以上圖中的貓頭鷹為例，傳統模型接收到的指令可能是「貓頭鷹在叫」。於是，它輸出的音訊就只有單一的鳥鳴聲。對於影片中依序發生的「棲息鳴叫 (t1)」、「準備振翅 (t2)」、「飛離枝頭並帶動樹葉搖晃 (t3)」等一系列連貫動作，它完全無法捕捉。結果就是，音訊失去了時間感，也缺乏複雜的細節，聽起來既不真實也無生氣。 ThinkSound 的革命：引入「思維鏈」，讓 AI 學會思考 ThinkSound 的最大突破，就是首次將「思維鏈」（Chain-of-Thought, CoT）技術引入了音訊生成領域。那麼，什麼是思維鏈呢？簡單來說，它就像是給 AI 安裝了一個「內心獨白」的機制。在生成音訊之前，ThinkSound 會先對影片進行一連串的思考和規劃。同樣是貓頭鷹的例子，ThinkSound 的處理流程是這樣的：結構化分析：模型會先在腦中形成一條推理鏈：「首先，貓頭鷹在樹枝上發出鳴叫。接著，它拍動翅膀準備起飛。最後，它飛離樹枝，這個動作同時引起了樹葉的沙沙聲。」生成音訊：基於這個結構化的「劇本」，ThinkSound 會依序生成對應的音訊：鳥鳴聲 → 翅膀拍動聲 → 樹葉搖曳聲。看出來了嗎？透過思維鏈，AI 不再是隨機拼湊聲音，而是能理解事件的先後順序和因果關係，從而創造出與畫面完美同步、富有層次的音景。不只是生成，更是互動式編輯：你的影片，你來指揮 ThinkSound 的強大之處還不止於此。它不僅能生成，還允許使用者進行「互動式」的逐步編輯，讓你成為音效的總指揮。這個過程同樣是分階段的，而且充滿彈性：第一階段： AI 已經根據思維鏈生成了包含鳥鳴、振翅和樹葉聲的基礎音訊。第二階段（可選）：如果你覺得樹葉的聲音太搶戲，可以透過自然語言下達指令：「提取貓頭鷹發出的聲音，避免加入樹木的聲音。」模型會結合視覺定位技術（如 Grounded-SAM-2），精準地將貓頭鷹的聲音分離出來，生成更純粹的音訊。第三階段（可選）：如果你還想讓場景更豐富，可以繼續下指令：「加入更多其他鳥類的鳴叫聲，但要保留原本貓頭鷹叫聲的特色。」模型就會在不影響主體音效的前提下，疊加上新的背景音。這種互動式的生成與編輯能力，賦予了創作者前所未有的控制權，無論是影視後期製作還是個人內容創作，都能更精準地實現腦中的聲音想像。餵養 AI 的「精神食糧」：高品質資料集 AudioCoT 一個聰明的模型背後，必然有海量的優質「教材」。為了訓練 ThinkSound 的結構化推理能力，阿里團隊建構了一個名為 AudioCoT 的多模態資料集。

Jul 10, 2025 Read →

G …

tool

Google Magenta RealTime 開箱：你的 AI 音樂夥伴，即時生成、現場合奏不再是夢！

Google Gemma 團隊推出開源、即時的 AI 音樂生成模型 Magenta RealTime (Magenta RT)。它不僅能以超低延遲生成高品質音樂，更強調與使用者的即時互動，無論是現場表演、遊戲配樂還是音樂創作，都將迎來一場「人機共創」的革命。你有沒有想過，當你在舞台上打碟、在直播間與觀眾互動，或是在房間裡隨手彈奏一段旋律時，能有一個 AI 夥伴即時跟上你的節奏，為你譜出完美的和聲或變奏？這聽起來像是科幻電影的情節，但現在，Google 讓它變成了現實。 Google 旗下專注於 AI 與藝術結合的 Gemma 團隊，在 2025 年 6 月投下了一顆震撼彈——Magenta RealTime（簡稱 Magenta RT）。這不是又一個你輸入文字、等待幾分鐘後生成一首歌曲的 AI 模型；這是一個專為「即時互動」而生的開源音樂生成工具。簡單來說，Magenta RT 就像你的專屬樂手，能隨時在你身邊，與你一起即興創作。等等，AI 不是早就很會做音樂了嗎？Magenta RT 到底哪裡不一樣？沒錯，我們聽過 Meta 的 MusicGen，也知道 Google 自家的 MusicLM，它們都很厲害，能根據文字描述生成令人驚豔的音樂。但它們都有一個共同點：你給出指令，然後「等待」結果。這比較像是在委託一位作曲家，而不是在跟一位樂手 jam 歌。 Magenta RT 的核心差異就在於**「即時性」與「互動性」**。它的延遲極低，幾乎可以在你彈下一個音符的瞬間，就生成對應的音樂。想像一下，你是一位 DJ，可以即時調整一段 beat 的風格，從放克變成電音，觀眾的反應就是你最好的指令。或者你是一位遊戲開發者，遊戲中的背景音樂可以根據玩家的緊張程度或操作行為，即時生成、無縫切換，這沉浸感有多驚人？這就是 Magenta RT 追求的「人機共創」——AI 不再只是一個工具，而是一個能與你對話、激發你靈感的創意夥伴。打開引擎蓋：Magenta RT 的三大神奇法寶那麼，Google 是如何實現這種即時魔法的呢？Magenta RT 的背後主要由三個核心組件構成，它們就像一個分工精密的樂團。 SpectroStream（高保真音訊編解碼器）你可以把這個組件想像成樂團的「耳朵」和「嘴巴」。它首先會「聆聽」你輸入的音樂（無論是即時演奏還是音檔），將複雜的音訊轉換成 AI 能理解的離散化語言（tokens）。當 AI 生成新的音樂 tokens 後，SpectroStream 再將這些語言「唱」出來，還原成 48kHz 立體聲的高保真音訊，確保你聽到的不是模糊的電子音，而是清晰、豐富的音樂。

Jun 23, 2025 Read →

騰 …

tool

騰訊 SongGeneration 橫空出世！AI 音樂生成迎來「凡人創作」時代，一篇文看懂優缺點與未來

騰訊 AI Lab 正式開源了音樂生成大模型 SongGeneration，宣稱能解決音質、速度與音樂性的三大痛點。這項技術真的那麼神嗎？它會成為創作者的得力助手，還是另一個高門檻的「玩具」？本文將帶您深入解析 SongGeneration 的核心功能、技術亮點，並整理社群上的真實評價，一次看懂它的優缺點與未來潛力。你有沒有想過，有一天，創作一首屬於自己的歌，就像打字一樣簡單？不需要懂樂理，也不用會樂器，只要輸入幾個關鍵字，一段動人的旋律就能隨之誕生。這聽起來像是科幻電影的情節，但現在，它正一步步成為現實。最近，科技圈最熱門的話題之一，莫過於騰訊 AI Lab 正式開源的音樂生成大模型——SongGeneration。這不僅僅是又一個 AI 工具的發布，它更像是一份宣言，宣告著音樂創作的門檻正在被徹底打破，一個「人人皆可創作」的時代或許真的要來了。但是，AI 生成的音樂真的能聽嗎？它能取代專業的音樂人嗎？對我們這些普通人來說，它又意味著什麼？別急，讓我們一起來看看這個引發熱議的 SongGeneration 究竟是何方神聖。等等，SongGeneration 到底是什麼？簡單來說，SongGeneration 是騰訊 AI Lab 研發的一款 AI 模型，專門用來「寫歌」。它的目標非常明確，就是要解決過去 AI 音樂生成領域普遍存在的三大難題：音質差、缺乏音樂性、生成速度慢。過去的 AI 音樂，常常給人一種「塑膠感」，聽起來生硬、沒有靈魂。但 SongGeneration 採用了一種創新的融合架構，在提升音質的同時，還保持了極快的生成速度，甚至在某些方面，表現得比一些需要付費的商業模型還要好。更重要的是，它開源了。這意味著，無論你是開發者、內容創作者，還是純粹對音樂有興趣的玩家，都可以免費使用甚至進行二次開發，這為整個 AI 音樂生態系統注入了巨大的活力。不只是「聽個響」，這些功能讓創作變簡單了 SongGeneration 最吸引人的地方，在於它把複雜的音樂創作過程，簡化成了幾個直覺的步驟。你不需要再面對複雜的編曲軟體，只需要動動手指，就能玩轉音樂。給點文字，靈感就來：這是最基本也最神奇的功能。你只要輸入一些描述性的文字，比如「夏日午後、慵懶的爵士樂」或「熱血、激昂的電子搖滾」，SongGeneration 就能根據你的指令，生成一段符合情境與風格的完整音樂。上傳一段旋律，風格跟著走：這個功能實在太酷了。你可以上傳一段自己喜歡的音樂（大約 10 秒鐘就夠了），無論是流行、搖滾還是中國風，模型會自動「學習」這段音樂的風格，然後創作出一段全新的、但風格一致的曲子。這對於想快速找到特定風格配樂的影片創作者來說，簡直是福音。人聲、伴奏分開來，後期製作超方便：這點真的非常專業。很多 AI 音樂生成器只能產出一個完整的音檔，但 SongGeneration 可以自動將「人聲」和「伴奏」分離成兩個獨立的音軌。這代表什麼？代表你可以單獨調整人聲的音量，甚至替換掉不喜歡的樂器，為後續的混音和再創作提供了極大的彈性，讓它從一個「玩具」真正進化成「生產力工具」。聲音也能複製？音色克隆黑科技：除了風格，它還能模仿「音色」。透過上傳一段人聲，模型可以生成帶有相似音色和情感的歌聲，對於需要虛擬人演唱或特定聲音表情的場景，這項功能潛力無限。如果你想親身體驗，可以直接到 Hugging Face 的體驗頁面玩玩看，感受一下 AI 的創作力。技術宅的視角：它憑什麼這麼厲害？當然，要實現上述這些神奇功能，背後需要強大的技術支撐。SongGeneration 的核心亮點在於：獨門壓縮技術 (Music Codec)：音樂檔案通常很大，AI 要學習起來很吃力。騰訊自研了一套壓縮技術，能把高品質的音樂以極低的位元速率壓縮成 AI 容易理解的「代碼」，這大大降低了學習的負擔，也讓生成音樂的結構更完整、細節更豐富。精幹的 3B 參數模型：在動輒千億參數的 AI 模型世界裡，SongGeneration 約 30 億（3B）的參數規模並不算龐大。但它卻能在音質和音樂性等多個維度上，媲美甚至超越一些商業級的閉源模型，這顯示了其架構的優越性。海量數據的「餵養」：這個模型是經過海量中英文歌曲「訓練」出來的，這確保了它對各種音樂風格都有很好的理解和生成能力。社群怎麼看？是革命還是泡沫？任何新技術的出現，都會伴隨著讚美與質疑。SongGeneration 也不例外。我們整理了各大技術論壇和社群的討論，發現大家的看法相當多元。

Jun 23, 2025 Read →