Meta AI 再出王牌！開源 DINOv3 模型，視覺 AI 的遊戲規則要變了？

Meta AI 近日開源了新一代通用影像辨識模型 DINOv3。它憑藉強大的「自我監督學習」能力，無需人工標註就能在多項視覺任務中達到頂尖水準，從環境監測到醫療影像，其應用潛力正引發全球開發者的熱烈討論。

最近，AI 圈最熱門的話題莫過於 Meta AI 正式開源了他們最新的通用影像辨識模型——DINOv3。消息一出，立刻在全球的開發者和研究社群中掀起波瀾。這款模型最驚人的地方在於，它採用了「自我監督學習」框架，簡單來說，就是 AI 自己看圖學本事，完全不需要人類在一旁費力地標註「這是貓」、「那是狗」。這項突破，可以說是為電腦視覺領域開啟了一扇新的大門。

什麼是「自我監督學習」？為什麼它這麼重要？

讓我們先聊聊這個聽起來有點玄乎的技術。過去，要訓練一個聰明的影像辨識模型，背後是成千上萬的人工標註工作。工程師們需要準備海量的圖片，並一張一張地告訴模型圖片裡有什麼。這個過程不僅耗時耗力，成本也高得嚇人。

但 DINOv3 徹底改變了這個遊戲規則。

它透過自我監督學習，能從沒有任何標註的影像中自主學習、歸納並提取關鍵特徵。想像一下，就像一個嬰兒透過觀察世界來認識萬物，而不是靠父母拿著字卡教學。這項創新不僅大幅降低了資料準備的門檻和成本，更讓 AI 在那些資料稀少或標註極其昂貴的領域（例如專業的醫學影像或罕見的物種辨識）展現出前所未有的潛力。

社群媒體上的開發者們也證實了這一點，許多回饋都指出，DINOv3 在多項基準測試中的表現，足以和 SigLIP 2、Perception Encoder 這些頂尖模型一較高下，甚至在某些任務上更勝一籌，展現了它驚人的通用性。

不只看得懂，還看得精！DINOv3 的高解析度特徵

DINOv3 的另一個殺手鐧，是它高品質、高解析度的密集特徵表示能力。這是什麼意思呢？

簡單來說，它既能掌握影像的「全局樣貌」，也能捕捉到畫面中那些極其微小的「局部細節」。就像我們看一幅畫，既能欣賞整體的構圖與意境，也能注意到畫家在角落裡藏的一個精巧簽名。這種「遠近皆宜」的視覺能力，讓 DINOv3 在處理各種視覺任務時都游刃有餘。

無論是影像分類、物體偵測、語意分割，還是更複雜的影像檢索和深度估計，DINOv3 都能提供強而有力的支援。更厲害的是，它的能力不限於處理我們日常手機拍的照片，還能輕鬆駕馭衛星影像、醫學影像（如 X 光或 CT 掃描）等高度專業且複雜的資料類型，為跨領域的 AI 應用打下了堅實的基礎。

數據會說話：DINOv3 的實力到底有多強？

空口無憑，我們直接來看數據。根據 Meta AI 公布的效能比較表，DINOv3 的表現確實令人驚豔。

任務 (TASK)	基準 (BENCHMARK)	DINOv3	DINOv2	SigLIP 2	PE
分割 (Segmentation)	ADE-20k	55.9	49.5	42.7	38.9
深度估計 (Depth estimation)	NYU ↓	0.309	0.372	0.494	0.436
影片追蹤 (Video tracking)	DAVIS	83.3	76.6	62.9	49.8
實例檢索 (Instance retrieval)	Met	55.4	44.6	13.9	10.6
影像分類 (Image classification)	ImageNet ReaL	90.4	89.9	90.5	90.4
影像分類 (Image classification)	ObjectNet	79.0	66.4	78.6	80.2
細粒度影像分類	iNaturalist 2021	89.8	86.1	82.7	87.0

從表格中可以清楚看到：

在影像分割、影片追蹤、實例檢索和細粒度影像分類等任務上，DINOv3 的分數遙遙領先，把前代或其他模型甩在身後。
在深度估計任務中，分數越低代表表現越好（注意 NYU 旁邊的向下箭頭），DINOv3 以 0.309 的成績再次奪冠。
即便在傳統的影像分類任務上，DINOv3 也與 SigLIP 2 和 PE 等專為分類設計的模型表現得旗鼓相當，展現了其全面的實力。

這些數據證明了 DINOv3 不僅僅是一個概念，而是一個真正強大且可靠的工具。

從實驗室到真實世界：DINOv3 的廣泛應用場景

這麼強大的模型，到底能用在哪裡？DINOv3 的通用性和高效能，讓它在許多產業都充滿了想像空間。

環境監測： 分析衛星影像，監測森林砍伐、冰川融化或土地使用變化，為環境保護和資源管理提供關鍵數據。
自動駕駛： 透過更精準的物體偵測和場景分割，大幅提升自動駕駛系統對道路環境（如行人、車輛、交通號誌）的感知能力，讓行車更安全。
醫療保健： 在醫學影像分析中，DINOv3 可以輔助醫生偵測早期病灶、精準分割器官或腫瘤，進而提升診斷的效率與準確性。
智慧安防： 其強大的人員識別和行為分析能力，能讓安防監控系統變得更加智慧，即時預警潛在風險。

對於許多中小型企業和研究機構來說，DINOv3 的開源更是一個福音。它提供了一個低成本接觸頂尖 AI 技術的絕佳機會，尤其是在資料和運算資源都相對有限的情況下。

開源賦能：如何開始使用 DINOv3？

Meta AI 這次不僅僅是發表一篇論文，而是將 DINOv3 的完整訓練程式碼和預訓練模型，以商業友善的授權方式完全開源。這意味著無論是個人開發者還是商業公司，都能自由地使用和修改。

輕鬆上手： 開發者可以透過 PyTorch Hub 和 Hugging Face Transformers 等主流平台輕鬆載入模型。
多種選擇： Meta 提供了從 21M 到 7B 參數的多種模型規模，無論你的運算資源是高階伺服器還是個人電腦，都能找到適合的版本。
貼心資源： 官方還提供了下游任務的評估程式碼和範例筆記本，幫助開發者快速上手，將 DINOv3 整合到自己的專案中。

專案網址： https://github.com/facebookresearch/dinov3

結語：視覺 AI 的新篇章，以及我們需要思考的事

DINOv3 的發布，無疑是 Meta AI 在電腦視覺領域的一次技術飛躍，更是對整個開源 AI 生態的巨大貢獻。它的自我監督學習能力和多任務適應性，為開發者提供了前所未有的自由度和靈活性。從環境到醫療，從自駕到安防，DINOv3 正在加速 AI 視覺技術的落地，協助我們建構一個更智慧、更高效的未來。

當然，技術的進步也伴隨著新的挑戰。社群上也有聲音提醒，DINOv3 這類強大模型的廣泛應用，可能會帶來數據隱私和演算法偏見等潛在風險。未來，如何在享受技術紅利的同時，確保其在實際部署中的倫理與公平，是我們需要共同關注和解決的課題。

分享至:

Featured Partners

SPONSORED

videoweaver.app

Video Weaver: 瀏覽器內完成專業影片剪輯，無需下載、即刻創作。

Learn More

SPONSORED

DMflow.chat

DMflow.chat: 您的智能AI夥伴，提升客戶互動、創造卓越體驗。

Learn More

SPONSORED

DMflow.chat

探索DMflow.chat，立即開啟AI驅動的客戶服務新時代。

Learn More

SPONSORED

videoweaver.app

Video Weaver: 瀏覽器內完成專業影片剪輯，無需下載、即刻創作。

Learn More

SPONSORED

DMflow.chat

DMflow.chat: 您的智能AI夥伴，提升客戶互動、創造卓越體驗。

Learn More

SPONSORED

DMflow.chat

探索DMflow.chat，立即開啟AI驅動的客戶服務新時代。

Learn More

Recommended for You

G …

tool

GLM-4.6V 登場：視覺感知與執行動作的無縫整合

GLM-4.6V 系列模型正式亮相，帶來 106B 與 9B 兩個版本，分別針對雲端高效能與本地低延遲場景。本文將解析其原生 Function Calling 能力如何打通「看」與「做」的界線，並深入探討其長文檔理解、前端代碼生成以及混合圖文創作的實際應用。同時附上詳細評測數據與部署資源。視覺模型的新里程碑：不僅僅是「看懂」人工智能領域的發展總讓人目不暇給。才剛習慣語言模型能說會道，多模態模型（Multimodal AI）又把標準拉高了一個檔次。這次 GLM-4.6V 的發布，帶來了一個相當有趣的訊號：模型不再滿足於「看圖說話」，它們開始嘗試「看圖辦事」。 GLM-4.6V 系列推出了兩個版本。一個是針對雲端和高效能運算集群設計的基礎模型 GLM-4.6V (106B)，另一個則是為了本地部署和低延遲應用優化的輕量級模型 GLM-4.6V-Flash (9B)。這兩款模型在訓練時都將上下文窗口擴展到了 128k token，這意味著它們能一次處理的資訊量相當驚人。這不僅僅是參數量的堆疊。這次更新最核心的突破在於「原生 Function Calling（函數調用）」的整合。這聽起來可能有點技術化，但簡單來說，這就是讓 AI 從一個只會評論的觀察者，變成了一個能動手解決問題的執行者。打通感知與行動：原生視覺驅動的工具使用以往的多模態模型在處理任務時，通常需要先把看到的圖片轉成文字描述，再根據文字去調用工具。這中間的轉換往往會丟失細節，甚至產生誤解。 GLM-4.6V 採取了不同的路徑。它引入了 Native Multimodal Function Calling。這意味著，圖片、螢幕截圖或是文檔頁面，可以直接作為工具的輸入參數，不需要經過文字轉換這道手續。想像一下，當你把一張複雜的報表截圖丟給模型，它不需要先「翻譯」成文字，而是直接「看著」圖片去調用搜尋工具或計算工具，最後輸出的結果（不管是圖表還是渲染後的頁面）也能直接整合進推理鏈中。這真正實現了從「視覺感知」到「理解」，再到「執行」的閉環。對於開發者來說，這為構建能夠處理真實商業場景的 AI Agent（代理人）提供了更統一的技術地基。混合圖文創作：像人類一樣組織內容內容創作者可能會對 Interleaved Image-Text Content Generation（交錯圖文內容生成）這個功能特別感興趣。過去我們讓 AI 寫文章配圖，通常是分開進行的：先寫字，再找圖。但 GLM-4.6V 能夠處理包含文檔、用戶輸入和工具檢索圖片在內的多模態語境。它在生成內容的過程中，會主動調用搜尋和檢索工具，收集並篩選額外的文字和視覺素材。最終生成的結果，是根據任務量身定做的、圖文並茂的連貫內容。這就像是一位經驗豐富的編輯，懂得在文字的關鍵處插入佐證的圖片，而不是生硬地拼湊素材。長文檔與複雜圖表的剋星在處理商業文件時，最讓人頭痛的往往是那些格式複雜的 PDF 或掃描件。GLM-4.6V 具備 Multimodal Document Understanding 能力，可以處理高達 128K token 的多文檔或長文檔輸入。這有個很大的優勢：它把格式豐富的頁面直接當作圖片來理解。也就是說，它能同時讀懂文字、排版、圖表、表格和圖片。這避免了傳統 OCR（光學字元識別）技術先把所有東西轉成純文字時，丟失排版結構或表格錯位的問題。對於需要分析大量財報或技術手冊的專業人士來說，這能節省大量的校對時間。前端工程師的 AI 助手：從截圖到代碼對於網頁開發者而言，Frontend Replication & Visual Editing 是一個非常實用的功能。

Dec 9, 2025 Read →

B …

tool

ByteDance Vidi2 登場：精準掌控影片理解與生成的多模態模型

ByteDance Vidi2 震撼登場！深入了解字節跳動如何透過這款大型多模態模型，實現對長影片的精準理解與生成。Vidi2 不僅能精確定位影片中「穿棕色西裝的男人打鼓」等特定事件，更在基準測試中超越 Gemini 3 Pro 與 GPT-5 (Preview)。探索 Vidi2 核心技術，預見影片剪輯的未來！這是一個內容創作者與開發者都會深感共鳴的場景：你手邊有一段長達三十分鐘的影片，卻為了尋找某個特定畫面——比如「穿著棕色西裝的男人在室內打鼓」——而在時間軸上來回拖曳，耗費大量時間。這種大海撈針的過程，往往讓人感到枯燥且效率低落。 ByteDance（字節跳動）的智慧創作團隊（Intelligent Creation Team）近期發布了 Vidi2，這是一款針對影片理解與生成所設計的大型多模態模型（Large Multimodal Models）。Vidi2 不僅僅是「看過」影片，它還能理解影片中發生的細節，並精確指出事件發生的時間與位置。根據官方發布的報告，這款模型在特定的基準測試上，表現甚至超越了 Gemini 3 Pro (Preview) 與 GPT-5 等知名模型。這篇文章將帶領讀者一探 Vidi2 的核心技術、全新的評測基準，以及它如何改變影片剪輯的未來。什麼是 Vidi2？從單純觀看到精準定位 Vidi2 是 ByteDance 推出的第二代多模態模型，專注於解決影片處理中的兩大難題：影片理解（Video Understanding）與影片生成（Video Creation）。與一般的視覺模型不同，Vidi2 具備一種稱為「細粒度時空定位」（Fine-grained Spatio-Temporal Grounding, STG）的能力。這聽起來可能有點技術性，但原理其實很直觀。當你輸入一段文字描述時，Vidi2 能做兩件事：時間定位：找出這段描述在影片中出現的確切時間段（Timestamps）。空間定位：在該時間段的每一幀畫面中，用邊框（Bounding Boxes）精確標示出目標物件。這意味著模型不僅知道「發生了什麼」，還知道「在哪裡」以及「在畫面中的哪個位置」發生。這種端到端的能力，讓複雜的編輯場景變得簡單許多，例如自動切換視角、理解劇情走向，或是根據畫面構圖進行智慧裁切。為什麼這很重要？對於影片編輯軟體而言，能夠理解畫面內容是自動化的基礎。Vidi2 展示的應用場景包括「Smart Split」（智慧拆分），它可以自動將長影片剪輯成精彩短片，重新構圖以適應手機直式螢幕，甚至自動生成標題與字幕。這對於需要大量處理素材的創作者來說，無疑是一大福音。重新定義標準：VUE-STG 與 VUE-TR-V2 基準測試為了證明 Vidi2 的實力，研究團隊發現現有的測試標準並不足以完全衡量模型的能耐。因此，他們引入了兩個全新的基準測試（Benchmark），這也是本次發布的一大亮點。 VUE-STG：挑戰長影片的時空定位現有的數據集通常影片較短，難以測試模型對長內容的理解能力。VUE-STG 針對這點進行了四項關鍵改進：影片長度跨度大：涵蓋從 10 秒到 30 分鐘不等的影片，這要求模型具備長文本和長時間跨度的推理能力。查詢格式優化：將查詢轉換為名詞片語，同時保留句子的表達力，更貼近人類自然的搜尋習慣。高品質標註：所有的時間範圍和物件邊框均經過人工精確標註，確保測試結果的準確性。更嚴謹的評估指標：採用改進的 vIoU 和 tIoU 機制，針對多片段的時空評估進行優化。 VUE-TR-V2：升級版的時間檢索除了空間定位，團隊也升級了之前的時間檢索基準，推出了 VUE-TR-V2。這個新版本平衡了影片長度的分佈，並引入了更多「用戶風格」的查詢語句。這意味著測試情境更接近真實世界中人們搜尋影片的方式，而不僅僅是實驗室裡的理想狀況。

Dec 2, 2025 Read →

A …

tool

Apple 罕見出招！開源 AI 模型 FastVLM，但開發者先別高興得太早

Apple 最近在 Hugging Face 平台上悄悄發布了幾個月前發布的的視覺語言模型 FastVLM。這一舉動震驚了整個 AI 社群，畢竟 Apple 一向以其封閉的生態系統聞名。然而，這次的「開源」附帶了嚴格的條件——僅限於學術研究。這究竟是 Apple 擁抱開放文化的一小步，還是另有盤算？過去，當我們談到 Apple，腦中浮現的總是「封閉花園」、「生態壁壘」這些詞。他們家的硬體和軟體總是緊密結合，自成一格。但最近，這個科技巨頭似乎開始鬆動了。 Apple 在知名 AI 開發者社群 Hugging Face 上，發布了一系列機器學習模型，其中最引人注目的就是 FastVLM 和 MobileCLIP2。這對研究人員來說無疑是個好消息，但對於想將這些模型應用於商業產品的開發者來說，可能就要失望了。這款叫 FastVLM 的模型，到底強在哪？我們先來聊聊主角 FastVLM。它是一款「視覺語言模型」（Vision-Language Model, VLM），簡單來說，就是能同時理解圖片和文字的 AI。你可以給它一張圖，然後用文字問它問題，它能像人一樣看懂圖並回答你。聽起來很酷，對吧？ FastVLM 的厲害之處在於它的效率。從名字中的「Fast」就能猜到，它的反應速度和處理效率都經過了優化。Apple 這次還很貼心地提供了不同大小的版本，從輕巧的 0.5B（5 億參數）到強大的 7.76B 版本（官方稱其為 7B，但我們都知道實際更大一些，這在業界也算常見）。 FastVLM-0.5B: https://huggingface.co/apple/FastVLM-0.5B FastVLM-1.5B: https://huggingface.co/apple/FastVLM-1.5B 完整的模型集： https://huggingface.co/collections/apple/fastvlm-68ac97b9cd5cacefdd04872e 不只如此，Apple 還提供了一個線上示範，讓你可以親身體驗 FastVLM 的威力，甚至連原始碼都一併附上，誠意滿滿。線上示範與原始碼： https://huggingface.co/spaces/apple/fastvlm-webgpu 那 MobileCLIP2 又是什麼？與 FastVLM 一同亮相的還有 MobileCLIP2。CLIP 類型的模型專門用來建立文字和圖像之間的連結。你可以把它想像成一個「翻譯官」，能告訴 AI 「貓」這個詞和一張貓的照片是相關的。而「Mobile」這個詞則暗示了它的設計初衷——為行動裝置而生。這意味著 MobileCLIP2 在效能和功耗上都進行了特別優化，非常適合在 iPhone 或 iPad 這類裝置上運行。 MobileCLIP2 模型集： https://huggingface.co/collections/apple/mobileclip2-68ac947dcb035c54bcd20c47 開源的背後：那條「僅限研究」的紅線看到這裡，你可能會想：「太棒了！我可以用 Apple 的模型來開發新的 App 了！」

Aug 30, 2025 Read →