BEN2：精準影像前景分割的 AI 解決方案

在影像處理領域，如何快速且準確地去除背景，一直是業界關注的重點。傳統方法依賴綠幕技術或手動摳圖，耗時且成本高昂。如今，BEN2 (Background Erase Network 2) 透過深度學習技術，帶來了一種更高效、準確的前景分割方案。

什麼是 BEN2？

BEN2 是由 Prama LLC 開發的深度學習模型，專門用於影像與影片的背景移除與前景分割。該技術基於創新的 置信度引導摳圖 (Confidence Guided Matting, CGM) 管道，特別擅長處理細緻區域，如頭髮、透明物體邊緣等。BEN2 能夠在 高解析度圖像 (4K) 上運作，並支援 GPU 加速，大幅提升處理速度。

BEN2 的核心技術

1. 置信度引導摳圖 (CGM)

BEN2 首先使用基礎模型進行初步前景分割，並生成一張前景掩碼 (mask)。然而，影像中的部分像素，特別是邊緣區域，可能會產生較低的分割置信度。這時，置信度映射 (confidence map) 會識別這些不確定區域，進一步傳遞給 精細化網絡 (Refiner Network) 進行優化。

2. 精細化網絡 (Refiner Network)

Refiner Network 針對 邊緣細節處理，例如髮絲、透明材質、複雜光影區域等，透過多尺度特徵融合與上下文信息補償，提升前景分割的準確性。

3. 深度學習架構與數據集訓練

BEN2 採用了高效的 編碼器-解碼器 (Encoder-Decoder) 架構，並在 DIS5k 與 Prama LLC 自有的 22K 分割數據集 上進行訓練，使其能適應不同場景與光照條件。

4. 高效能 GPU 加速

BEN2 支援 CUDA，並可在 NVIDIA GPU 上執行加速。根據官方測試結果：

1080p 圖像處理時間：6 秒內
4K 圖像處理時間：約 20 秒 這使得 BEN2 在專業應用場景中擁有極高的實用性。

BEN2 的效能對比

我們來看看 BEN2 與其他影像分割模型的比較。

Custom Closed Source Dataset 測試結果

模型	IoU	Accuracy
BEN_Base	0.88	0.90
BEN_Base+Refiner	0.905	0.96
BiRefNet	0.93	0.96
RMBG2	0.935	0.96
BEN2_Base	0.95	0.98
BEN2_Base+Refiner	0.96	0.985

在 Custom Closed Source Dataset 上，BEN2 在 IoU 和 Accuracy 指標上皆優於其他模型，特別是 BEN2_Base+Refiner 取得了 0.96 的 IoU 與 0.985 的 Accuracy，展現極高的分割能力。

DIS5k Validation Dataset 測試結果

模型	IoU	Accuracy
BEN_Base	0.83	0.97
BEN_Base+Refiner	0.85	0.975
BiRefNet	0.835	0.975
RMBG2	0.825	0.975
BEN2_Base	0.825	0.98
BEN2_Base+Refiner	0.835	0.98

在 DIS5k Validation Dataset 上，BEN2 的 Accuracy 指標較其他模型略高，但 IoU 變化不明顯。這意味著 BEN2 在影像邊緣處理上的準確度更勝一籌。

BEN2 的應用場景

BEN2 具備高精度與高效率的前景分割能力，可應用於多種專業場景：

1. 電商與產品攝影

在電商領域，產品圖片背景通常需要去除，以便更好地合成至不同場景中。BEN2 能夠高效處理 產品邊緣與細節，如衣物、飾品、玻璃製品等，確保清晰且自然的分割效果。

2. 影視後期製作

影視後期中，傳統綠幕技術雖然成熟，但對光線與場景佈置要求較高。BEN2 可在 普通背景下進行高精度摳圖，大幅簡化後期製作流程。

3. AR/VR 與虛擬主播

BEN2 可用於 虛擬直播、AR 應用，自動去除背景，讓虛擬主播無需綠幕就能擁有乾淨背景。

4. 批量圖像處理

BEN2 提供 批量圖像處理 API，適用於需要大規模影像分割的應用場景，如社群媒體內容創作、廣告設計等。

如何使用 BEN2？

1. 在線體驗 BEN2

想嘗試 BEN2 的效果？你可以透過以下連結測試： 👉 BEN2 在線 Demo

huggingface測試使用

2. 開發與集成

如果你是開發者，BEN2 也提供 API，方便整合到你的應用程式中。

GitHub 倉庫：https://github.com/PramaLLC/BEN2
HuggingFace 模型庫：https://huggingface.co/PramaLLC/BEN2

總結

BEN2 透過深度學習技術，為影像與影片的前景分割提供了一種高效、精準的解決方案。其 置信度引導摳圖 (CGM) 技術、高分辨率處理能力、GPU 加速，讓影像去背變得更加輕鬆。無論是 電商、影視、AR/VR 還是批量影像處理，BEN2 都能提供專業級的分割效果。

現在，就試試 BEN2，看看它能如何幫助你的影像處理工作吧！

分享至:

Featured Partners

SPONSORED

DMflow.chat

DMflow.chat: 您的智能AI夥伴，提升客戶互動、創造卓越體驗。

Learn More

SPONSORED

DMflow.chat

探索DMflow.chat，立即開啟AI驅動的客戶服務新時代。

Learn More

SPONSORED

videoweaver.app

Video Weaver: 瀏覽器內完成專業影片剪輯，無需下載、即刻創作。

Learn More

SPONSORED

DMflow.chat

DMflow.chat: 您的智能AI夥伴，提升客戶互動、創造卓越體驗。

Learn More

SPONSORED

DMflow.chat

探索DMflow.chat，立即開啟AI驅動的客戶服務新時代。

Learn More

SPONSORED

videoweaver.app

Video Weaver: 瀏覽器內完成專業影片剪輯，無需下載、即刻創作。

Learn More

Recommended for You

讓 …

tool

讓設計動起來：多模態 Lottie 動畫生成器 OmniLottie 完整解析

或許讀者會好奇，每次打開手機應用程式，那些流暢又精緻的加載動畫究竟是如何製作出來的？這些通常被稱為 Lottie 的向量動畫格式，因為體積非常小、放大縮小都不失真，而且在網頁或手機端運行極度順暢，長久以來廣受開發者與設計師的喜愛。老實說，製作這些向量動畫從來都不簡單。傳統的工作流程需要專業設計師透過複雜的軟體，逐格調整關鍵影格與數學曲線。這個過程極度耗時。不過，開源社群最近迎來了一項令人振奮的突破，那就是 OmniLottie 專案。作為一款完整整合的多模態 Lottie 生成器家族，它甚至強勢入選了電腦視覺領域頂級會議 CVPR 2026。這項技術的出現，讓原本繁瑣的動畫製作過程變得就像寫幾句文字一樣簡單。為什麼 Lottie 動畫這麼難搞？事情是這樣的長久以來，人工智慧在生成點陣圖或一般影片上已經取得了巨大的進展。大家只要輸入一段文字，就能得到一張栩栩如生的圖片。然而，向量動畫完全是另一回事。向量動畫依賴的是數學公式與參數化的圖形節點，這需要極高的精確度。 OmniLottie 巧妙地解決了這個痛點。它利用預先訓練的視覺語言模型（VLMs），讓系統具備了理解複雜指令的能力。這意味著，原本只能由人類大腦構思的幾何變換與時間軸控制，現在可以直接交由 AI 來運算處理。打破單一輸入限制，圖文影音全包辦傳統的生成工具通常只接受文字提示詞，這在實際應用上往往不夠直覺。OmniLottie 的核心亮點在於它全面支援多模態輸入。這就像是委託一位專業動畫師，委託人不僅可以口頭描述需求，還可以拿著參考圖片或影片給他看。它主要支援三大生成任務：第一是文本到 Lottie 生成。使用者只要輸入一段簡單的文字描述，像是「一個紅色的球出現，上下彈跳後慢慢消失」，系統就會直接生成對應的複雜向量動畫。第二是圖文到 Lottie 生成。如果單純用文字難以描述特定的設計風格，使用者可以直接提供一張靜態圖片，並搭配文字指引。模型會以此作為視覺基礎，賦予靜態圖片動態效果。第三個功能最令人驚豔，也就是影片轉 Lottie。它可以直接讀取一段普通的 MP4 影片，然後從中提取動態特徵，將其完美轉換為輕量級的 Lottie 動畫格式。如果想要親自體驗這種神奇的轉換過程，任何人都可以前往開發團隊部署在Hugging Face Space 的線上展示介面動手玩玩看。藏在引擎蓋底下的硬核技術與友善門檻這聽起來需要極其龐大的運算資源，對吧？其實不然。它的硬體門檻比想像中來得親民。根據 OmniLottie 官方網站釋出的技術文件，這個模型是建立在 Qwen/Qwen2.5-VL-3B-Instruct 基礎模型之上進行微調的。目前發布的 OmniLottie (4B) 模型權重檔案大小約為 8.46 GB。對於想要在本地端部署這套系統的開發者來說，執行推理大約需要消耗 15.2G 的 GPU 記憶體。換句話說，一張當前主流的中高階顯示卡就能順利讓它跑起來。開發團隊也展現了極高的開源精神。目前所有的推理程式碼、模型權重以及訓練程式碼都已經對外公開。無論是想要整合進既有專案的企業團隊，還是純粹喜歡鑽研技術的獨立開發者，都能毫無阻礙地取得這些資源。給未來研究者的超級大禮包：兩百萬筆資料與評估協議任何強大的人工智慧模型背後，都少不了海量資料的支撐。為了解決向量動畫領域長期缺乏優質訓練資料的問題，團隊同步釋出了一個龐大的寶庫，也就是 MMLottie-2M 資料集。這個資料集採用 cc-by-nc-sa-4.0 授權，裡面包含了高達兩百萬個具備豐富註解的多模態 Lottie 動畫樣本。這就像是給了 AI 兩百萬本圖文並茂的教科書，讓它能徹底學會向量動畫的語言。此外，為了解決過去各家模型各說各話、難以客觀比較的問題，他們還建立了一套名為 MMLottieBench 的標準化測試集。這套評估協議包含了 900 個精選測試樣本，其中精準劃分了 450 個真實世界樣本與 450 個合成樣本，並平均涵蓋了前面提到的三大核心生成任務。這為後續的模型開發設定了一個清晰明確的比較標準。

Mar 9, 2026 Read →

F …

tool

FASHN VTON v1.5 登場：消費級顯卡也能跑的高畫質虛擬試穿 AI，細節保留更勝以往

FASHN VTON v1.5 是一款全新的開源虛擬試穿 AI 模型，採用 Apache-2.0 授權，允許商業用途。這款模型最大的特色在於直接在「像素空間」生成影像，而非傳統的潛在空間，能保留更多衣物材質細節。更棒的是，它只需要 8GB VRAM 的消費級顯卡即可運行。本文將詳細解析其技術架構、優勢以及如何安裝使用。對於經常在網上買衣服的人來說，最大的痛點莫過於「這件衣服穿在我身上到底好看不好看」。雖然虛擬試穿（Virtual Try-On，簡稱 VTON）技術已經存在一段時間，但過去的解決方案往往面臨兩個極端：要麼是效果極佳但需要昂貴算力的閉源商業軟體，要麼是效果平平、安裝複雜的開源專案。最近，FASHN AI 團隊發布了 FASHN VTON v1.5，這可能正是開發者和電商平台一直在尋找的平衡點。這款模型不僅開源（採用 Apache-2.0 授權），而且可以在一般的遊戲顯卡上運行。這意味著什麼，這代表高品質的虛擬試穿技術不再是科技巨頭的專利，中小型開發者甚至個人愛好者也能在家用電腦上部署這項技術。這款模型究竟有何特別之處，為什麼它選擇了一條與眾不同的技術路徑，以及它在實際應用中的表現如何，讓我們來仔細看看。告別模糊細節：像素空間生成的優勢在探討 FASHN VTON v1.5 之前，得先聊聊目前主流的 AI 生成技術。大多數基於擴散模型（Diffusion Models）的圖像生成工具，為了節省運算資源，通常會使用變分自動編碼器（VAE）將圖像壓縮到「潛在空間（Latent Space）」進行處理。雖然這樣速度快，但就像把圖片存成低畫質 JPEG 一樣，解壓縮後往往會丟失許多微小的細節。 FASHN VTON v1.5 選擇了一條不同的路。它直接在 RGB 像素空間（Pixel Space）進行操作。這聽起來可能只是技術術語的差異，但對於時尚產業來說，這可是天壤之別。這意味著衣物上的精細紋理、複雜的圖案，甚至是品牌 Logo 上的文字，都不會因為編碼壓縮而變得模糊不清。這種方法採用了 12x12 的區塊嵌入（Patch Embedding），完全消除了 VAE 編碼帶來的信息損失。如果您曾經因為虛擬試穿後的衣服看起來像是一團模糊的色塊而感到失望，那麼這種像素級生成的技術，正是為了解決這個問題而生的。無遮罩推論：讓衣服自然「穿」在身上傳統的虛擬試穿模型通常需要一個「遮罩（Mask）」，也就是需要人工或演算法先指定「這裡是身體，這裡是衣服，請把衣服填進這個區域」。這種做法最大的缺點是，新衣服的形狀會被舊衣服的輪廓限制住。試想一下，如果你原本穿著一件羽絨外套，想試穿一件緊身背心，傳統模型往往會不知所措，或者生成的影像看起來非常不自然。 FASHN VTON v1.5 引入了無遮罩推論（Maskless Inference）機制。它不需要預先分割遮罩，模型會自己學習衣服與身體的邊界。這讓衣物能夠展現其自然的垂墜感和形態，完全不受模特兒原始穿著的形狀限制。更重要的是，這種處理方式對於保持「身體特徵」非常有效。無論是模特兒身上的刺青、原本的體型特徵，甚至是佩戴的文化服飾（例如希賈布 Hijab），都能在換裝過程中被完整保留下來。這對於追求真實感和尊重多元文化的時尚應用來說，是一個巨大的進步。親民的硬體需求：消費級顯卡的福音談到 AI 模型，大家最擔心的通常是硬體門檻。動輒需要 A100 這種企業級顯卡的要求，往往讓許多開發者望而卻步。FASHN VTON v1.5 在這方面展現了極大的誠意。

Jan 29, 2026 Read →

會 …

tool

會思考的 AI 畫家？騰訊 HunyuanImage 3.0-Instruct 讓圖像編輯更懂你

你是否厭倦了 AI 繪圖工具「聽不懂人話」的窘境？騰訊最新推出的 HunyuanImage 3.0-Instruct 不僅僅是生成圖片，它更像是一位會先思考再動筆的藝術家。透過獨特的思維鏈（CoT）技術與強大的多模態架構，這款模型在理解複雜指令、精準修圖與多圖融合上展現了驚人的實力。本文將帶你深入了解這款開源模型的技術亮點與實際應用。 AI 繪圖的下一步：不僅是畫，更要懂老實說，目前的 AI 繪圖工具雖然厲害，但常常讓人感到挫折。你想要修改畫面中的一個小細節，結果 AI 卻把整張圖的背景都換掉了，這種「牽一髮動全身」的尷尬情況屢見不鮮。這是因為大多數模型只是在執行命令，並沒有真正理解圖像中的邏輯關係。騰訊推出的 HunyuanImage 3.0-Instruct 正是為了解決這個痛點而生。這款模型最大的特色在於它「會思考」。它不僅僅是一個圖像生成器，更是一個原生的多模態模型，能夠將視覺理解與精準的圖像合成完美結合。這意味著，當你發出指令時，它會先像人類畫家一樣，觀察現有的畫面，思考構圖與邏輯，然後才開始動筆。這款模型基於 800 億參數的 MoE（混合專家）架構構建，其中有 130 億參數處於活躍狀態。這種設計讓它在保持高效能的同時，擁有了深度的理解能力，能夠生成高品質、高保真度的圖像。對於那些追求細節的創作者來說，這無疑是一個令人興奮的消息。擁有「思維鏈」的大腦：它如何理解你的意圖？我們常說 AI 像個黑盒子，你丟進去指令，它吐出結果，中間發生了什麼沒人知道。但 HunyuanImage 3.0-Instruct 不一樣，它引入了一種名為「原生思維鏈」（Native Chain-of-Thought, CoT）的機制。這是什麼概念呢？簡單來說，模型在執行你的指令之前，會先進行一段「內心獨白」。它會分析你的要求，拆解複雜的步驟，並規劃如何執行才能最符合你的預期。配合騰訊自家研發的 MixGRPO 演算法，這個過程讓模型能夠處理非常複雜的指令，確保最終生成的結果與人類的偏好高度一致。這就像是原本的 AI 是一個只會聽關鍵字的學徒，叫他畫蘋果他就畫蘋果；而現在的 AI 變成了一位資深設計師，你會告訴他「我想要一顆蘋果放在桌上，光線要從左邊來，感覺要有點憂鬱」，他會先消化這些情緒與邏輯，再呈現出你想要的作品。這對於需要精細控制的專業工作流來說，是一個巨大的進步。精準修圖：只動該動的地方對於設計師或一般使用者來說，最大的惡夢莫過於修圖時破壞了原本完美的畫面。HunyuanImage 3.0-Instruct 在這方面展現了強大的「外科手術式」編輯能力。想像一下，你有一張完美的風景照，但想在草地上加一隻狗，或者把路邊的垃圾桶移除。傳統的 AI 可能會重繪整個區塊，導致草地紋理改變或光影不連貫。但這款模型能夠在添加、移除或修改特定元素時，保持非目標區域完全不變。它懂得分辨哪些是主角，哪些是背景，並小心翼翼地維護畫面的完整性。此外，多圖融合也是它的一大亮點。如果你想把 A 照片裡的人物，無縫放進 B 照片的場景中，這款模型能夠提取不同來源的元素，並將它們合成為一個統一、協調的輸出結果。光影、透視、色調，它都會自動幫你調整到最自然的狀態，彷彿這些元素原本就屬於同一個畫面。開源與社群：讓創意自由流動技術再強，如果鎖在實驗室裡也沒用。騰訊這次選擇將 HunyuanImage 3.0-Instruct 開源，顯示了他們推動社群發展的決心。這意味著開發者、研究人員和藝術家都可以直接訪問這些最先進的工具，並在此基礎上探索新的想法。你可以在 Github 上找到相關的程式碼與技術細節，或者直接到 Hugging Face 下載模型權重進行測試。對於硬體資源有限的使用者，他們甚至貼心地提供了蒸餾版（Distilled Version），讓更多人能夠在較低配置的設備上體驗高效的圖像生成與編輯。這種開放的態度有助於建立一個充滿活力的圖像生成生態系統。當全球的開發者都能參與優化與應用開發時，我們將會看到更多令人驚嘆的應用場景出現，從遊戲設計、廣告創意到個人娛樂，可能性是無限的。常見問題解答 (FAQ) 為了讓大家更清楚這款模型的特性，這裡整理了一些關鍵的問答： Q1：HunyuanImage 3.0-Instruct 與一般的文生圖模型有什麼不同？一般的模型通常是單向的，即從文字到圖像。而 HunyuanImage 3.0-Instruct 是原生的多模態模型，它能同時理解圖像和文字。這讓它在「圖生圖」或「圖像編輯」的任務上表現得更出色，因為它能看懂原圖的內容，而不僅僅是依賴文字描述。

Jan 29, 2026 Read →