想像一下,只要點擊影片中的吉他,就能瞬間分離出它的獨奏聲。Meta 全新發布的 SAM Audio 模型,透過文字、視覺和時間軸指令,徹底改變了我們處理音訊的方式。這不只是 AI 的技術突破,更是創作者的一大福音。本文將帶您一探這項技術如何運作,以及它為何讓音訊工程變得如此親民。
還記得 Meta 之前發布的那個「Segment Anything Model (SAM)」嗎?那個只要點一下圖片裡的任何東西,就能自動幫你完成去背的神奇 AI。老實說,那時候大家都在想:如果這項技術能用在「聲音」上,該有多好?
你猜怎麼著?這一天真的來了。
Meta 正式推出了 SAM Audio,這不僅僅是另一個 AI 模型,它更像是音訊編輯界的「Photoshop 魔術棒」。一直以來,音訊處理都是個讓人頭痛的領域,工具零散、操作複雜,想要把人聲從嘈雜的背景中乾淨地分離出來,往往需要專業工程師花上大把時間。但 SAM Audio 的出現,似乎準備要打破這個高不可攀的門檻。
這項技術的核心概念其實很簡單:它讓「聽覺」變得像「視覺」一樣容易被選取和編輯。
三種直覺指令,精準鎖定你想要的聲音
SAM Audio 之所以特別,不在於它有多複雜的參數,而在於它「聽得懂」人類的指令。它不再要求使用者去調整頻率或波形,而是透過三種非常直覺的方式來告訴 AI:「嘿,我要這個聲音。」
這三種提示(Prompting)方式,每一種都對應了不同的使用情境,讓我們來仔細看看。
1. 文字指令 (Text Prompting):說出你想要的
這大概是最簡單粗暴的方式了。如果你想要一段錄音裡的狗叫聲,你只需要輸入「狗叫聲 (dog barking)」;如果你想要保留歌手的聲音,就輸入「歌聲 (singing voice)」。
這背後的邏輯與現在流行的圖像生成 AI 很像,但它是反過來的。SAM Audio 會分析整段複雜的音訊混合物,然後根據你的文字描述,像個聽話的助手一樣,把符合描述的音軌單獨「抓」出來給你。這對於要在長篇錄音中尋找特定音效的剪輯師來說,簡直省下了無數個小時。
2. 視覺指令 (Visual Prompting):看哪裡,點哪裡
這功能聽起來有點科幻,但它卻是 SAM Audio 最讓人驚艷的地方。試想一下,你在編輯一支樂團演奏的影片,想要單獨聽聽鼓手的節奏是否準確。
在過去,你可能需要原始的分軌檔案。但現在,透過 SAM Audio 的視覺提示功能,你只需要在影片畫面上「點擊」那組鼓,AI 就會自動辨識這個物體,並把與之對應的聲音分離出來。這種視覺與聽覺的同步處理,讓影音創作者在後製時能擁有前所未有的直覺體驗。
3. 時間區段指令 (Span Prompting):業界首創的精準控制
這點是 Meta 特別自豪的「業界首創」。有時候,我們需要的不是某個特定的物體聲音,而是「這段時間內」發生的聲音事件。
Span Prompting 允許使用者在音訊波形上直接框選一段時間範圍。這有點像是我們在文書軟體裡反白一段文字一樣,你告訴模型:「我只在乎這幾秒鐘發生的事情。」透過標記特定的時間段,AI 能更精確地鎖定並處理該區間內的音訊特徵。這對於需要極高精確度的專業混音或科學研究來說,提供了極大的控制權。
從創作者到科學家,應用場景無所不在
你也許會問,這對我有什麼影響?其實,SAM Audio 的潛力遠比我們想像的廣泛。以前音訊分割和編輯是一個破碎的市場,充滿了各種單一用途的工具。但作為一個統一的模型,SAM Audio 正在改變這一切。
- 內容創作者與 Podcaster: 這是最直接的受惠者。想像你在戶外錄製 Vlog 或 Podcast,背景有惱人的車流聲或鄰居的狗叫聲。以前你可能要忍痛放棄這段素材,現在只需幾個指令,就能把干擾音濾除,保留清晰的人聲。
- 音樂人與製作人: 對於音樂創作來說,能夠瞬間從混音成品中提取出吉他獨奏或特定樂器,對於取樣(Sampling)或學習編曲都是巨大的幫助。
- 影視後製: 剪輯師不再需要為了分離對白與環境音而焦頭爛額,工作流程將變得更加流暢。
- 科學研究與無障礙科技: 這點比較少人提到,但同樣重要。科學家可以用它來分析特定野生動物的叫聲,排除環境雜音;聽障輔助科技也能利用這項技術,在吵雜環境中更精準地分離出對話聲音,提升使用者的生活品質。
開源精神:現在就能親自體驗
Meta 在 AI 領域一直保持著相當開放的態度,這次也不例外。如果你是開發者,或是單純對新科技充滿好奇的玩家,你不需要乾等。
- 開發者資源: 你可以直接前往 Github 或 Hugging Face 下載模型權重與程式碼,進行研究或將其整合到自己的應用程式中。
- 一般用戶試玩: 就算你不會寫程式也沒關係。Meta 推出了全新的 Segment Anything Playground。你可以在這個網頁平台上,上傳自己的音訊或影片,親手玩玩看這項「聲音魔術」,體驗一下指哪裡、聽哪裡的快感。
結語:AI 多模態處理的新篇章
SAM Audio 的出現,標誌著 AI 多模態處理(Multimodal Processing)又往前邁進了一大步。它不再只是處理單一的文字或圖片,而是開始理解聲音、影像與時間之間的複雜關係。
這項工具將原本複雜的訊號處理工程,轉化為每個人都能理解的直覺互動。雖然我們不知道未來還會有什麼黑科技出現,但至少現在,處理聲音不再是專業工程師的專利,而是每位創作者都能輕鬆上手的日常。
常見問題解答 (FAQ)
Q1:SAM Audio 是免費的嗎? 是的,Meta 秉持開源精神,已經公開了 SAM Audio 的模型權重和程式碼,開發者可以免費下載研究。對於一般使用者,也可以透過線上的 Segment Anything Playground 免費體驗其功能。
Q2:這個模型支援哪些類型的檔案輸入? SAM Audio 支援音訊檔案以及影片檔案。特別是在處理影片時,它可以結合視覺提示(點擊畫面物體)來進行聲音分離,這是純音訊工具無法做到的。
Q3:它跟一般的降噪軟體有什麼不同? 一般的降噪軟體通常是全面性地壓低背景噪音,有時會犧牲音質。SAM Audio 則是透過「語意理解」來運作,它能辨識並「分離」出特定的聲音(例如:只留下吉他聲,或是只去掉狗叫聲),提供了比傳統降噪更精細、更具創意的編輯選擇。
Q4:我可以用它來做什麼? 應用範圍非常廣!包括但不限於:去除 Podcast 背景雜音、從影片中提取特定樂器聲、製作卡拉 OK 伴奏(分離人聲)、或是輔助聽障人士在吵雜環境中聽清對話。


