Meta 最新 AI 雙重奏:SAM 3 與 SAM 3D 如何攜手讓電腦看懂真實世界
繼SAM 2發布後的一年多,Meta 同步發表了新一代視覺模型 SAM 3 與 SAM 3D。前者能聽懂指令並在影片中精準追蹤物體,後者則能將平面照片瞬間轉化為立體模型。這兩項技術的結合,不僅改變了影像編輯的邏輯,更讓電腦視覺從「識別」進化到了「空間理解」。本文將帶您一探這兩大模型的技術核心、實際應用以及它們如何改變我們的數位生活。
想像一下,你正拿著手機拍攝家裡的寵物狗在草地上奔跑的影片。過去,如果你想在影片中把狗狗單獨「摳」出來,加上特效,可能需要逐幀修圖,或者依賴不怎麼聰明的自動選取工具。
但現在,情況完全不同了。
Meta 就在稍早發布了兩項重磅更新:SAM 3 (Segment Anything Model 3) 和 SAM 3D。這不僅僅是版本號的跳轉,而是一種質的飛躍。如果說之前的 AI 像是一個剛學會認圖的孩子,那麼現在的 SAM 3 已經學會了聽懂大人的指令,甚至具備了記憶力,而 SAM 3D 則讓它擁有了空間感,知道物體在三維世界裡長什麼樣。
這兩項技術正在悄悄改變創作者剪輯影片的方式,以及我們在網路上購物、看世界的體驗。讓我們把這兩塊拼圖拼在一起,看看 Meta 到底端出了什麼好菜。
SAM 3:聽得懂人話的視覺大師
先從 SAM 3 說起。它的前輩 SAM 1 和 SAM 2 已經證明了「萬物皆可分割」的能力,但 SAM 3 變得更聰明、更直覺。
最明顯的進化在於溝通方式。以前你可能需要在那裡點點點,或者畫個框框告訴 AI 你要選什麼。現在?你只需要打字說:「選取那隻企鵝」或者「把所有穿紅衣服的人標出來」。SAM 3 引入了開放詞彙(Open Vocabulary)的理解能力,這意味著它能把你的文字指令和眼前的畫面連結起來。
除此之外,它在處理影片時的表現也讓人印象深刻。影片中最難搞的就是物體會動、會轉身、甚至會被遮擋後又出現。SAM 3 延續並強化了記憶機制,即便那隻企鵝游到了冰山後面再游出來,AI 依然認得它是同一隻企鵝,不會跟丟。這對於正在使用 Instagram 創作短影音的人來說,絕對是個好消息。Meta 甚至計畫將這項技術整合進 Instagram 的「Edits」功能中,讓手機剪輯變得像魔法一樣簡單。
SAM 3D:從平面跳進立體空間
如果 SAM 3 是負責「看清」物體,那麼 SAM 3D 就是負責「重塑」物體。
一直以來,從單張 2D 照片還原出 3D 模型都是電腦視覺領域的聖杯。過去的模型多半是用合成數據訓練的,也就是用電腦繪製的完美 3D 模型來教 AI。但現實世界是雜亂的,光線不均勻,物體互相遮擋。
SAM 3D 的突破點在於它吃下了大量的真實世界影像。它包含兩個專用模型:
- SAM 3D Objects: 專門處理椅子、鞋子、檯燈這類物品。
- SAM 3D Body: 專門處理人類複雜的肢體動作。
這意味著,當你在 Facebook Marketplace 上看到一張二手椅子的照片時,這項技術可以幫助系統理解這張椅子的立體結構。透過「View in Room」功能,你甚至能將這張虛擬還原的椅子擺進自家客廳的照片裡,看看風格搭不搭。這不再是簡單的貼圖,而是具有透視關係的空間模擬。
當 SAM 3 遇上 SAM 3D:強強聯手的統一架構
這兩者的發布並非巧合,它們其實是互補的。
試想一個場景:你拍了一段街舞影片。
- 首先,SAM 3 出場。你輸入指令「追蹤那位穿白T恤的舞者」。SAM 3 會精準地將舞者從複雜的背景中分離出來,無論他怎麼跳動旋轉。
- 接著,SAM 3D 接手。它分析 SAM 3 選取出來的影像,推算出舞者的 3D 骨架和身體形狀。
這背後的技術架構相當精妙。Meta 採用了一種稱為 MHR (Meta Momentum Human Rig) 的新格式來處理人體模型,它聰明地將「骨架結構」與「肌肉皮膚」分開運算。這讓生成的 3D 人偶動作更自然,不會出現那種像是橡皮人一樣詭異的扭曲。
此外,為了讓這些模型更接地氣,Meta 建立了一個龐大的數據引擎。他們不是只靠算力硬拼,而是引入了人類回饋機制。當 AI 生成了幾個可能的 3D 形狀時,由人類來判斷哪個最像真的,只有在遇到 AI 實在搞不定的難題時,才交給專業的 3D 藝術家去修正。這種「人機協作」的訓練方式,讓模型迅速學會了人類的視覺常識。
現實層面的考量:並非完美無缺
雖然這些功能聽起來很夢幻,但我們必須保持客觀,目前的技術仍有其物理限制。
以 SAM 3D 為例,它在處理極其精細的物體時,解析度仍有待加強。如果你想要還原一個雕工繁複的古董,目前的模型可能只能還原個大概,細節處會顯得有些模糊。
另一個挑戰是物理互動。目前的 SAM 3D Objects 是一次專注處理一個物體。如果照片裡是一堆亂七八糟堆在一起的雜物,AI 很難理解它們之間互相擠壓、受力的物理狀態。它看得到形狀,但還不懂得重量和材質的物理特性。
至於 SAM 3D Body,雖然全身動作抓得很準,但在處理手部細節時仍顯吃力。畢竟手指的動作實在太靈活多變,有時候連專業的手部追蹤設備都會出錯,更何況是單靠一張照片。
結語
SAM 3 與 SAM 3D 的同步登場,展示了 Meta 在 AI 視覺領域的野心。他們不只是想讓電腦「看見」像素,而是要讓電腦像人一樣,理解畫面中的語義(這是什麼?)以及空間結構(它在哪裡?長怎樣?)。
這項技術正在迅速從實驗室走向我們的手機。無論是 Instagram 上的創作者,還是想在網路上買家具的消費者,都將直接受惠。雖然距離完美的數位孿生還有一段路要走,但這扇通往 3D 理解的大門,已經被徹底推開了。
常見問題解答 (FAQ)
Q1:SAM 3 和 SAM 3D 有什麼本質上的區別? 簡單來說,SAM 3 是「平面分割大師」,它專注於在圖片或影片中精確地識別並選取物體,不管是用點選還是文字指令。而 SAM 3D 是「立體造物主」,它的任務是將這些被識別出來的 2D 圖像轉化為具有空間感的 3D 模型。兩者經常搭配使用,先分割、後重建。
Q2:一般使用者要如何體驗這些功能? 主要有三種途徑:
- Segment Anything Playground: Meta 提供的網頁版試玩平台,可以上傳照片體驗分割與 3D 重建功能。
- Instagram: SAM 3 的技術即將整合進 Instagram 的影片編輯工具「Edits」中,用於特效製作。
- Facebook Marketplace: SAM 3D 技術將支援「View in Room」功能,讓用戶預覽商品在真實空間的樣子。
Q3:SAM 3 支援哪些類型的指令? SAM 3 支援多模態輸入。除了傳統的「點擊」和「畫框」之外,它最強大的功能是支援「自然語言」指令(例如輸入文字:「追蹤那隻黑色的狗」)。此外,它也支援視覺提示,你可以框選一個範例,AI 就會自動找出畫面中所有類似的物體。
Q4:這些模型是開源的嗎? 是的,Meta 延續了其開放研究的傳統。SAM 3 和 SAM 3D 的模型權重(Checkpoints)、推論程式碼以及相關的數據集(如 SA-3DAO)都已釋出,供研究人員和開發者在 Hugging Face 等平台上取用。
Q5:SAM 3D 在處理人體時提到的 MHR 是什麼? MHR (Meta Momentum Human Rig) 是 Meta 開發的一種新 3D 人體網格格式。它的特點是將「骨架」與「身體外型」分開計算。這讓 AI 生成的人體模型不僅動作準確,而且結構符合解剖學邏輯,非常適合用於動畫製作或虛擬替身應用。
Q6:這些模型目前最大的弱點是什麼? 目前的挑戰主要在於精細度與物理邏輯。例如 SAM 3D 生成的模型表面細節可能不夠高清,且在處理物體間複雜的堆疊、擠壓等物理互動時,尚無法做到完全真實。此外,手部等細微肢體動作的捕捉準確度也有待提升。
相關資源與連結:


