ByteDance Vidi2 登場：精準掌控影片理解與生成的多模態模型

ByteDance Vidi2 震撼登場！深入了解字節跳動如何透過這款大型多模態模型，實現對長影片的精準理解與生成。Vidi2 不僅能精確定位影片中「穿棕色西裝的男人打鼓」等特定事件，更在基準測試中超越 Gemini 3 Pro 與 GPT-5 (Preview)。探索 Vidi2 核心技術，預見影片剪輯的未來！

這是一個內容創作者與開發者都會深感共鳴的場景：你手邊有一段長達三十分鐘的影片，卻為了尋找某個特定畫面——比如「穿著棕色西裝的男人在室內打鼓」——而在時間軸上來回拖曳，耗費大量時間。這種大海撈針的過程，往往讓人感到枯燥且效率低落。

ByteDance（字節跳動）的智慧創作團隊（Intelligent Creation Team）近期發布了 Vidi2，這是一款針對影片理解與生成所設計的大型多模態模型（Large Multimodal Models）。Vidi2 不僅僅是「看過」影片，它還能理解影片中發生的細節，並精確指出事件發生的時間與位置。根據官方發布的報告，這款模型在特定的基準測試上，表現甚至超越了 Gemini 3 Pro (Preview) 與 GPT-5 等知名模型。

這篇文章將帶領讀者一探 Vidi2 的核心技術、全新的評測基準，以及它如何改變影片剪輯的未來。

什麼是 Vidi2？從單純觀看到精準定位

Vidi2 是 ByteDance 推出的第二代多模態模型，專注於解決影片處理中的兩大難題：影片理解（Video Understanding）與影片生成（Video Creation）。

與一般的視覺模型不同，Vidi2 具備一種稱為「細粒度時空定位」（Fine-grained Spatio-Temporal Grounding, STG）的能力。這聽起來可能有點技術性，但原理其實很直觀。當你輸入一段文字描述時，Vidi2 能做兩件事：

時間定位：找出這段描述在影片中出現的確切時間段（Timestamps）。
空間定位：在該時間段的每一幀畫面中，用邊框（Bounding Boxes）精確標示出目標物件。

這意味著模型不僅知道「發生了什麼」，還知道「在哪裡」以及「在畫面中的哪個位置」發生。這種端到端的能力，讓複雜的編輯場景變得簡單許多，例如自動切換視角、理解劇情走向，或是根據畫面構圖進行智慧裁切。

為什麼這很重要？

對於影片編輯軟體而言，能夠理解畫面內容是自動化的基礎。Vidi2 展示的應用場景包括「Smart Split」（智慧拆分），它可以自動將長影片剪輯成精彩短片，重新構圖以適應手機直式螢幕，甚至自動生成標題與字幕。這對於需要大量處理素材的創作者來說，無疑是一大福音。

重新定義標準：VUE-STG 與 VUE-TR-V2 基準測試

為了證明 Vidi2 的實力，研究團隊發現現有的測試標準並不足以完全衡量模型的能耐。因此，他們引入了兩個全新的基準測試（Benchmark），這也是本次發布的一大亮點。

VUE-STG：挑戰長影片的時空定位

現有的數據集通常影片較短，難以測試模型對長內容的理解能力。VUE-STG 針對這點進行了四項關鍵改進：

影片長度跨度大：涵蓋從 10 秒到 30 分鐘不等的影片，這要求模型具備長文本和長時間跨度的推理能力。
查詢格式優化：將查詢轉換為名詞片語，同時保留句子的表達力，更貼近人類自然的搜尋習慣。
高品質標註：所有的時間範圍和物件邊框均經過人工精確標註，確保測試結果的準確性。
更嚴謹的評估指標：採用改進的 vIoU 和 tIoU 機制，針對多片段的時空評估進行優化。

VUE-TR-V2：升級版的時間檢索

除了空間定位，團隊也升級了之前的時間檢索基準，推出了 VUE-TR-V2。這個新版本平衡了影片長度的分佈，並引入了更多「用戶風格」的查詢語句。這意味著測試情境更接近真實世界中人們搜尋影片的方式，而不僅僅是實驗室裡的理想狀況。

從官方公布的數據來看，Vidi2 在這兩個基準測試上的表現相當亮眼，尤其是在處理長影片和複雜查詢時，展現出了極高的準確度。

性能對比：與 GPT-5 和 Gemini 的較量

在技術報告中，最引人注目的莫過於性能對比圖表。在 VUE-STG（時空定位）和 VUE-TR-V2（時間檢索）的測試中，Vidi2 的數據條明顯高於其他競爭對手。

具體來說，在 VUE-STG 的測試中，Vidi2 在 tIoU（時間交集聯集比）和 vIoU（影片交集聯集比）等指標上，分數均大幅領先。報告中特別將其與 Gemini 3 Pro (Preview) 和 GPT-5 進行了比較，結果顯示 Vidi2 這種針對性優化的模型，在特定的影片理解任務上，能夠超越通用的超大型模型。

這其實反映了一個趨勢：雖然通用大模型什麼都懂一點，但在特定領域（如精細的影片時空定位）上，專門優化的模型往往能提供更精準的結果。當然，Vidi2 在通用的影片問答（Video QA）基準測試上，也取得了與同規模開源模型相當的競爭力。

實際應用：Smart Split 與未來展望

技術再強，終究要回歸應用。Vidi2 的技術已經開始在實際工具中展現潛力。報告中展示了一個名為「TikTok Studio」的介面截圖，其中的 Smart Split 功能就是 Vidi2 能力的具體展現。

想像一下，你上傳了一段長達一小時的旅遊 Vlog，Vidi2 可以自動幫你：

識別精彩片段：找出最有趣的時刻。
重新構圖：將橫向影片裁切成適合手機觀看的直向影片，同時確保主角始終在畫面中央（這需要強大的 STG 能力）。
生成字幕與標題：理解對話與情境，自動配上文字。

這不僅節省了剪輯時間，更降低了影片創作的門檻。

目前，Vidi2 的相關代碼與評測腳本已經在 GitHub 上開源，官方也承諾「Demo Coming Very Soon」。對於開發者和研究人員來說，這是一個深入研究多模態影片理解的絕佳資源。

常見問題解答 (FAQ)

Q1：Vidi2 具體能做什麼？ Vidi2 是一款大型多模態模型，主要功能包括影片理解與生成。它最核心的特色是「細粒度時空定位」（STG），能夠根據文字指令，精確找出影片中對應的時間片段，並在畫面中框出目標物件。此外，它也具備影片問答（Video QA）和時間檢索的能力。

Q2：Vidi2 與其他模型（如 GPT-4V 或 Gemini）有何不同？ 雖然許多模型都具備視覺理解能力，但 Vidi2 特別強化了對「長影片」的理解以及「精確定位」的能力。在官方提出的 VUE-STG 和 VUE-TR-V2 基準測試中，Vidi2 在時空定位的準確度上表現優異，甚至在這些特定任務上超越了部分通用的專有模型。

Q3：什麼是 Spatio-Temporal Grounding (STG)？ STG 指的是「時空定位」。簡單來說，就是當你問模型「哪裡有一隻在奔跑的狗？」時，模型不僅能告訴你「在 2 分 30 秒到 2 分 45 秒之間」，還能在這些畫面上畫出一個框，直接指出狗的位置。這是實現自動化精細剪輯的關鍵技術。

Q4：我可以去哪裡使用或下載 Vidi2？ ByteDance 目前已在 GitHub 上發布了相關的報告、評測代碼以及基準測試數據集（VUE-STG 與 VUE-TR-V2）。官方表示演示（Demo）即將推出。

GitHub 頁面： https://github.com/bytedance/vidi
專案網頁： https://bytedance.github.io/vidi-website/

Q5：Vidi2 支援多長的影片？ 根據其提出的基準測試 VUE-STG，Vidi2 的設計考量了長文本推理，能夠處理從短短 10 秒到長達 30 分鐘左右的影片內容，這比許多僅能處理短片段的模型更具實用性。

分享至:

Featured Partners

SPONSORED

DMflow.chat

DMflow.chat: 您的智能AI夥伴，提升客戶互動、創造卓越體驗。

Learn More

SPONSORED

DMflow.chat

探索DMflow.chat，立即開啟AI驅動的客戶服務新時代。

Learn More

SPONSORED

videoweaver.app

Video Weaver: 瀏覽器內完成專業影片剪輯，無需下載、即刻創作。

Learn More

SPONSORED

DMflow.chat

DMflow.chat: 您的智能AI夥伴，提升客戶互動、創造卓越體驗。

Learn More

SPONSORED

DMflow.chat

探索DMflow.chat，立即開啟AI驅動的客戶服務新時代。

Learn More

SPONSORED

videoweaver.app

Video Weaver: 瀏覽器內完成專業影片剪輯，無需下載、即刻創作。

Learn More

Recommended for You

G …

tool

GLM-4.6V 登場：視覺感知與執行動作的無縫整合

GLM-4.6V 系列模型正式亮相，帶來 106B 與 9B 兩個版本，分別針對雲端高效能與本地低延遲場景。本文將解析其原生 Function Calling 能力如何打通「看」與「做」的界線，並深入探討其長文檔理解、前端代碼生成以及混合圖文創作的實際應用。同時附上詳細評測數據與部署資源。視覺模型的新里程碑：不僅僅是「看懂」人工智能領域的發展總讓人目不暇給。才剛習慣語言模型能說會道，多模態模型（Multimodal AI）又把標準拉高了一個檔次。這次 GLM-4.6V 的發布，帶來了一個相當有趣的訊號：模型不再滿足於「看圖說話」，它們開始嘗試「看圖辦事」。 GLM-4.6V 系列推出了兩個版本。一個是針對雲端和高效能運算集群設計的基礎模型 GLM-4.6V (106B)，另一個則是為了本地部署和低延遲應用優化的輕量級模型 GLM-4.6V-Flash (9B)。這兩款模型在訓練時都將上下文窗口擴展到了 128k token，這意味著它們能一次處理的資訊量相當驚人。這不僅僅是參數量的堆疊。這次更新最核心的突破在於「原生 Function Calling（函數調用）」的整合。這聽起來可能有點技術化，但簡單來說，這就是讓 AI 從一個只會評論的觀察者，變成了一個能動手解決問題的執行者。打通感知與行動：原生視覺驅動的工具使用以往的多模態模型在處理任務時，通常需要先把看到的圖片轉成文字描述，再根據文字去調用工具。這中間的轉換往往會丟失細節，甚至產生誤解。 GLM-4.6V 採取了不同的路徑。它引入了 Native Multimodal Function Calling。這意味著，圖片、螢幕截圖或是文檔頁面，可以直接作為工具的輸入參數，不需要經過文字轉換這道手續。想像一下，當你把一張複雜的報表截圖丟給模型，它不需要先「翻譯」成文字，而是直接「看著」圖片去調用搜尋工具或計算工具，最後輸出的結果（不管是圖表還是渲染後的頁面）也能直接整合進推理鏈中。這真正實現了從「視覺感知」到「理解」，再到「執行」的閉環。對於開發者來說，這為構建能夠處理真實商業場景的 AI Agent（代理人）提供了更統一的技術地基。混合圖文創作：像人類一樣組織內容內容創作者可能會對 Interleaved Image-Text Content Generation（交錯圖文內容生成）這個功能特別感興趣。過去我們讓 AI 寫文章配圖，通常是分開進行的：先寫字，再找圖。但 GLM-4.6V 能夠處理包含文檔、用戶輸入和工具檢索圖片在內的多模態語境。它在生成內容的過程中，會主動調用搜尋和檢索工具，收集並篩選額外的文字和視覺素材。最終生成的結果，是根據任務量身定做的、圖文並茂的連貫內容。這就像是一位經驗豐富的編輯，懂得在文字的關鍵處插入佐證的圖片，而不是生硬地拼湊素材。長文檔與複雜圖表的剋星在處理商業文件時，最讓人頭痛的往往是那些格式複雜的 PDF 或掃描件。GLM-4.6V 具備 Multimodal Document Understanding 能力，可以處理高達 128K token 的多文檔或長文檔輸入。這有個很大的優勢：它把格式豐富的頁面直接當作圖片來理解。也就是說，它能同時讀懂文字、排版、圖表、表格和圖片。這避免了傳統 OCR（光學字元識別）技術先把所有東西轉成純文字時，丟失排版結構或表格錯位的問題。對於需要分析大量財報或技術手冊的專業人士來說，這能節省大量的校對時間。前端工程師的 AI 助手：從截圖到代碼對於網頁開發者而言，Frontend Replication & Visual Editing 是一個非常實用的功能。

Dec 9, 2025 Read →

A …

tool

Apple 罕見出招！開源 AI 模型 FastVLM，但開發者先別高興得太早

Apple 最近在 Hugging Face 平台上悄悄發布了幾個月前發布的的視覺語言模型 FastVLM。這一舉動震驚了整個 AI 社群，畢竟 Apple 一向以其封閉的生態系統聞名。然而，這次的「開源」附帶了嚴格的條件——僅限於學術研究。這究竟是 Apple 擁抱開放文化的一小步，還是另有盤算？過去，當我們談到 Apple，腦中浮現的總是「封閉花園」、「生態壁壘」這些詞。他們家的硬體和軟體總是緊密結合，自成一格。但最近，這個科技巨頭似乎開始鬆動了。 Apple 在知名 AI 開發者社群 Hugging Face 上，發布了一系列機器學習模型，其中最引人注目的就是 FastVLM 和 MobileCLIP2。這對研究人員來說無疑是個好消息，但對於想將這些模型應用於商業產品的開發者來說，可能就要失望了。這款叫 FastVLM 的模型，到底強在哪？我們先來聊聊主角 FastVLM。它是一款「視覺語言模型」（Vision-Language Model, VLM），簡單來說，就是能同時理解圖片和文字的 AI。你可以給它一張圖，然後用文字問它問題，它能像人一樣看懂圖並回答你。聽起來很酷，對吧？ FastVLM 的厲害之處在於它的效率。從名字中的「Fast」就能猜到，它的反應速度和處理效率都經過了優化。Apple 這次還很貼心地提供了不同大小的版本，從輕巧的 0.5B（5 億參數）到強大的 7.76B 版本（官方稱其為 7B，但我們都知道實際更大一些，這在業界也算常見）。 FastVLM-0.5B: https://huggingface.co/apple/FastVLM-0.5B FastVLM-1.5B: https://huggingface.co/apple/FastVLM-1.5B 完整的模型集： https://huggingface.co/collections/apple/fastvlm-68ac97b9cd5cacefdd04872e 不只如此，Apple 還提供了一個線上示範，讓你可以親身體驗 FastVLM 的威力，甚至連原始碼都一併附上，誠意滿滿。線上示範與原始碼： https://huggingface.co/spaces/apple/fastvlm-webgpu 那 MobileCLIP2 又是什麼？與 FastVLM 一同亮相的還有 MobileCLIP2。CLIP 類型的模型專門用來建立文字和圖像之間的連結。你可以把它想像成一個「翻譯官」，能告訴 AI 「貓」這個詞和一張貓的照片是相關的。而「Mobile」這個詞則暗示了它的設計初衷——為行動裝置而生。這意味著 MobileCLIP2 在效能和功耗上都進行了特別優化，非常適合在 iPhone 或 iPad 這類裝置上運行。 MobileCLIP2 模型集： https://huggingface.co/collections/apple/mobileclip2-68ac947dcb035c54bcd20c47 開源的背後：那條「僅限研究」的紅線看到這裡，你可能會想：「太棒了！我可以用 Apple 的模型來開發新的 App 了！」

Aug 30, 2025 Read →

M …

tool

MiniCPM-V 4.5橫空出世：80億參數模型，視覺能力真的超越GPT-4o？

AI圈又迎來重磅消息！OpenBMB發布了僅有80億參數的視覺語言模型MiniCPM-V 4.5，並宣稱其在多項視覺基準測試中擊敗了GPT-4o、Gemini Pro等業界巨頭。這究竟是噱頭還是真材實料？本文將帶您深入解析這款模型的驚人能力、背後技術以及它為開源社群帶來的深遠影響。 AI競賽風雲再起，小模型也能挑戰巨人？近來，人工智慧的發展速度快得讓人幾乎喘不過氣。就在大家還在驚嘆於GPT-4o和Gemini等大型模型的強大能力時，一個名為MiniCPM-V 4.5的「小傢伙」卻悄悄地登上了舞台，並直接向這些行業巨頭發起了挑戰。你沒聽錯，來自開源社群OpenBMB的這款最新模型，僅用了80億（8B）的參數規模，就敢宣稱在綜合視覺語言能力上超越了像GPT-4o和Qwen2.5-VL（72B）這樣的重量級選手。這聽起來有點不可思議，對吧？一個參數規模相差近10倍的模型，是怎麼實現這種越級挑戰的？讓我們一起來看看它到底有哪些真本事。數字會說話：性能評測見真章空口無憑，數據是最有力的證明。在衡量多模態模型綜合能力的權威評測集OpenCompass上，MiniCPM-V 4.5取得了平均77.2分的驚人成績。這分數意味著什麼？這意味著它不僅超越了前代模型，更是在多個關鍵指標上，勝過了目前廣泛使用的專有模型，如GPT-4o和Gemini Pro。在300億參數以下的模型中，它無疑是當前性能最強的。評測數據顯示，MiniCPM-V 4.5在多個維度上都展現了極強的競爭力。老實說，當一個輕量級選手在賽場上展現出與重量級冠軍相匹敵甚至更強的力量時，你很難不對它刮目相看。不僅是看懂，更是「看透」：三大核心亮點解析光看跑分可能還是有點抽象。MiniCPM-V 4.5的強大並非紙上談兵，而是體現在各種具體的應用場景中。 1. AI界的「火眼金睛」：頂級OCR與文件解析你是否曾被模糊不清、角度刁鑽的圖片文字，或是潦草的手寫筆記搞得頭痛不已？MiniCPM-V 4.5在這方面堪稱專家。得益於LLaVA-UHD架構，它能處理高達180萬像素的超高解析度影像，而且使用的視覺token（可以理解為模型處理圖像的計算單元）比大多數模型少4倍。這帶來的好處是雙重的：既提升了效率，又保證了準確性。想像一下，即使面對一張寫滿了密集、潦草字跡的會議紀錄，MiniCPM-V 4.5也能準確無誤地將其轉換為數位文字。在權威的OCRBench測試中，它的表現甚至超過了GPT-4o，這在文件數位化、智慧表單填寫等領域有著巨大的應用潛力。 2. 動態世界也能掌握：高效的長影片理解能力過去，讓AI理解影片是一件非常消耗資源的事情。如果要處理的影片長一點、畫質高一點，計算成本就會直線飆升。 MiniCPM-V 4.5透過一個創新的「統一3D-Resampler」技術徹底改變了這個局面。它能實現高達96倍的影片token壓縮率——舉例來說，一段其他模型可能需要1536個token來處理的影片片段，MiniCPM-V 4.5只需要64個！這項技術突破，讓它能夠以高達10FPS（每秒10幀）的刷新率來「觀看」和理解影片，這已經非常接近人類的感知了。無論是分析長時間的監控錄影，還是快速抓取體育賽事的精彩瞬間，都變得輕而易舉、效率極高。 3. 像人一樣思考：可控的「快思」與「慢想」人類在解決問題時，有時依賴直覺快速反應（快思），有時則需要深入分析、邏輯推理（慢想）。MiniCPM-V 4.5巧妙地引入了這種混合思維模式。它支援「快速思考」模式，用於處理常規、高頻的任務，以求達到最佳效率；同時也支援「深度思考」模式，用來解決更複雜、需要多步驟推理的問題。更棒的是，這兩種模式可以根據使用者的需求靈活切換，完美兼顧了效率與性能。實測見真章：看看它的實際表現理論說了這麼多，不如來看看幾個生活中的實際例子，感受一下它的威力。場景一：路痴的救星試想一個常見的駕駛情境：你開車到一個陌生的路口，急著想知道去下一個出口要多久。這時，模型可以分析你拍下的路牌照片，準確識別上面的所有文字訊息（例如「East Perth」和「James St & Wellington St」），還能結合距離（700米）和普遍的城市交通規則（如限速），快速估算出大致需要的行車時間。這種結合視覺辨識與現實世界常識進行推理的能力，非常實用。場景二：行動的百科全書如果你在博物館裡對某個展品感興趣，但又看不懂旁邊的說明牌，怎麼辦？只需拍張照，MiniCPM-V 4.5就能化身為你的專屬解說員。例如，當它分析一張始祖鳥（Archaeopteryx）化石的照片時，它不僅能立刻認出這是什麼，還能頭頭是道地講解它的生物學意義——比如它是連接恐龍和鳥類的關鍵物種，擁有羽毛、爪子等混合特徵，是演化論的重要證據。這種專業程度，簡直就像一位隨身的古生物學家。人人都能上手：開放的生態與便捷的部署 MiniCPM-V 4.5最強大的地方，或許還在於它的開放性。OpenBMB團隊深知，好的工具要讓大家都能用上，才能發揮最大價值。因此，無論你是想在自己的筆電上用CPU跑（支援llama.cpp和ollama），還是需要在伺服器上進行高吞吐量的推理（支援SGLang和vLLM），它都提供了完整的解決方案。此外，還有各種量化版本（如int4、GGUF）和便捷的微調工具，甚至提供了iOS App，讓開發者和AI愛好者可以輕鬆地將其應用到自己的專案中。你可以在 HuggingFace 上找到模型，並在 GitHub 上查看完整的程式碼和使用指南。總結：AI的未來屬於更高效、更開放的社群 MiniCPM-V 4.5的出現，不僅僅是一款新模型的發布，它更像是一個宣言：模型的性能並不完全取決於參數的堆砌。透過更優秀的架構設計、更高效的訓練方法和更聰明的演算法，小模型同樣可以爆發出驚人的能量。它向我們證明了，開源社群的力量正在不斷推動AI技術的邊界，讓頂尖的技術不再是少數科技巨頭的專利。對於廣大開發者和中小企業來說，這無疑是一個令人振奮的好消息。一個更開放、更高效、更普及的AI時代，或許已經悄然來臨。常見問題解答 (FAQ) Q1: MiniCPM-V 4.5 和 GPT-4o 相比，主要優勢是什麼？

Aug 26, 2025 Read →