tool

ByteDance Vidi2 登場:精準掌控影片理解與生成的多模態模型

December 2, 2025
Updated Dec 2
1 min read

ByteDance Vidi2 震撼登場! 深入了解字節跳動如何透過這款大型多模態模型,實現對長影片的精準理解與生成。Vidi2 不僅能精確定位影片中「穿棕色西裝的男人打鼓」等特定事件,更在基準測試中超越 Gemini 3 Pro 與 GPT-5 (Preview)。探索 Vidi2 核心技術,預見影片剪輯的未來!

這是一個內容創作者與開發者都會深感共鳴的場景:你手邊有一段長達三十分鐘的影片,卻為了尋找某個特定畫面——比如「穿著棕色西裝的男人在室內打鼓」——而在時間軸上來回拖曳,耗費大量時間。這種大海撈針的過程,往往讓人感到枯燥且效率低落。

ByteDance(字節跳動)的智慧創作團隊(Intelligent Creation Team)近期發布了 Vidi2,這是一款針對影片理解與生成所設計的大型多模態模型(Large Multimodal Models)。Vidi2 不僅僅是「看過」影片,它還能理解影片中發生的細節,並精確指出事件發生的時間與位置。根據官方發布的報告,這款模型在特定的基準測試上,表現甚至超越了 Gemini 3 Pro (Preview) 與 GPT-5 等知名模型。

這篇文章將帶領讀者一探 Vidi2 的核心技術、全新的評測基準,以及它如何改變影片剪輯的未來。

什麼是 Vidi2?從單純觀看到精準定位

Vidi2 是 ByteDance 推出的第二代多模態模型,專注於解決影片處理中的兩大難題:影片理解(Video Understanding)影片生成(Video Creation)

與一般的視覺模型不同,Vidi2 具備一種稱為「細粒度時空定位」(Fine-grained Spatio-Temporal Grounding, STG)的能力。這聽起來可能有點技術性,但原理其實很直觀。當你輸入一段文字描述時,Vidi2 能做兩件事:

  1. 時間定位:找出這段描述在影片中出現的確切時間段(Timestamps)。
  2. 空間定位:在該時間段的每一幀畫面中,用邊框(Bounding Boxes)精確標示出目標物件。

這意味著模型不僅知道「發生了什麼」,還知道「在哪裡」以及「在畫面中的哪個位置」發生。這種端到端的能力,讓複雜的編輯場景變得簡單許多,例如自動切換視角、理解劇情走向,或是根據畫面構圖進行智慧裁切。

為什麼這很重要?

對於影片編輯軟體而言,能夠理解畫面內容是自動化的基礎。Vidi2 展示的應用場景包括「Smart Split」(智慧拆分),它可以自動將長影片剪輯成精彩短片,重新構圖以適應手機直式螢幕,甚至自動生成標題與字幕。這對於需要大量處理素材的創作者來說,無疑是一大福音。

重新定義標準:VUE-STG 與 VUE-TR-V2 基準測試

為了證明 Vidi2 的實力,研究團隊發現現有的測試標準並不足以完全衡量模型的能耐。因此,他們引入了兩個全新的基準測試(Benchmark),這也是本次發布的一大亮點。

VUE-STG:挑戰長影片的時空定位

現有的數據集通常影片較短,難以測試模型對長內容的理解能力。VUE-STG 針對這點進行了四項關鍵改進:

  • 影片長度跨度大:涵蓋從 10 秒到 30 分鐘不等的影片,這要求模型具備長文本和長時間跨度的推理能力。
  • 查詢格式優化:將查詢轉換為名詞片語,同時保留句子的表達力,更貼近人類自然的搜尋習慣。
  • 高品質標註:所有的時間範圍和物件邊框均經過人工精確標註,確保測試結果的準確性。
  • 更嚴謹的評估指標:採用改進的 vIoU 和 tIoU 機制,針對多片段的時空評估進行優化。

VUE-TR-V2:升級版的時間檢索

除了空間定位,團隊也升級了之前的時間檢索基準,推出了 VUE-TR-V2。這個新版本平衡了影片長度的分佈,並引入了更多「用戶風格」的查詢語句。這意味著測試情境更接近真實世界中人們搜尋影片的方式,而不僅僅是實驗室裡的理想狀況。

從官方公布的數據來看,Vidi2 在這兩個基準測試上的表現相當亮眼,尤其是在處理長影片和複雜查詢時,展現出了極高的準確度。

性能對比:與 GPT-5 和 Gemini 的較量

在技術報告中,最引人注目的莫過於性能對比圖表。在 VUE-STG(時空定位)和 VUE-TR-V2(時間檢索)的測試中,Vidi2 的數據條明顯高於其他競爭對手。

具體來說,在 VUE-STG 的測試中,Vidi2 在 tIoU(時間交集聯集比)和 vIoU(影片交集聯集比)等指標上,分數均大幅領先。報告中特別將其與 Gemini 3 Pro (Preview) 和 GPT-5 進行了比較,結果顯示 Vidi2 這種針對性優化的模型,在特定的影片理解任務上,能夠超越通用的超大型模型。

這其實反映了一個趨勢:雖然通用大模型什麼都懂一點,但在特定領域(如精細的影片時空定位)上,專門優化的模型往往能提供更精準的結果。當然,Vidi2 在通用的影片問答(Video QA)基準測試上,也取得了與同規模開源模型相當的競爭力。

實際應用:Smart Split 與未來展望

技術再強,終究要回歸應用。Vidi2 的技術已經開始在實際工具中展現潛力。報告中展示了一個名為「TikTok Studio」的介面截圖,其中的 Smart Split 功能就是 Vidi2 能力的具體展現。

想像一下,你上傳了一段長達一小時的旅遊 Vlog,Vidi2 可以自動幫你:

  1. 識別精彩片段:找出最有趣的時刻。
  2. 重新構圖:將橫向影片裁切成適合手機觀看的直向影片,同時確保主角始終在畫面中央(這需要強大的 STG 能力)。
  3. 生成字幕與標題:理解對話與情境,自動配上文字。

這不僅節省了剪輯時間,更降低了影片創作的門檻。

目前,Vidi2 的相關代碼與評測腳本已經在 GitHub 上開源,官方也承諾「Demo Coming Very Soon」。對於開發者和研究人員來說,這是一個深入研究多模態影片理解的絕佳資源。


常見問題解答 (FAQ)

Q1:Vidi2 具體能做什麼? Vidi2 是一款大型多模態模型,主要功能包括影片理解與生成。它最核心的特色是「細粒度時空定位」(STG),能夠根據文字指令,精確找出影片中對應的時間片段,並在畫面中框出目標物件。此外,它也具備影片問答(Video QA)和時間檢索的能力。

Q2:Vidi2 與其他模型(如 GPT-4V 或 Gemini)有何不同? 雖然許多模型都具備視覺理解能力,但 Vidi2 特別強化了對「長影片」的理解以及「精確定位」的能力。在官方提出的 VUE-STG 和 VUE-TR-V2 基準測試中,Vidi2 在時空定位的準確度上表現優異,甚至在這些特定任務上超越了部分通用的專有模型。

Q3:什麼是 Spatio-Temporal Grounding (STG)? STG 指的是「時空定位」。簡單來說,就是當你問模型「哪裡有一隻在奔跑的狗?」時,模型不僅能告訴你「在 2 分 30 秒到 2 分 45 秒之間」,還能在這些畫面上畫出一個框,直接指出狗的位置。這是實現自動化精細剪輯的關鍵技術。

Q4:我可以去哪裡使用或下載 Vidi2? ByteDance 目前已在 GitHub 上發布了相關的報告、評測代碼以及基準測試數據集(VUE-STG 與 VUE-TR-V2)。官方表示演示(Demo)即將推出。

Q5:Vidi2 支援多長的影片? 根據其提出的基準測試 VUE-STG,Vidi2 的設計考量了長文本推理,能夠處理從短短 10 秒到長達 30 分鐘左右的影片內容,這比許多僅能處理短片段的模型更具實用性。

分享至:
Featured Partners

© 2026 Communeify. All rights reserved.