震撼彈!Gemini 2.5 Pro 讓影片「開口說話」,6小時長片、程式碼互動全搞定!

Google 最新 AI 模型 Gemini 2.5 Pro 在影片理解上取得驚人突破,不僅能處理超長影片,還能將影片內容轉化為互動應用程式和動畫,甚至進行精細的時間推理。快來看看這個技術如何改寫我們與視訊內容互動的未來,以及它為開發者們帶來了哪些令人興奮的可能性!


哇!Google AI 又放大絕了?這回輪到影片理解大升級!

嘿,各位開發者和科技愛好者們,準備好大開眼界了嗎?Google AI 最近可是又憋了個大招!他們家鼎鼎大名的 Gemini 系列模型,又添了兩位新成員:Gemini 2.5 Pro PreviewGemini 2.5 Flash。老實說,這兩個傢伙的出現,簡直是視訊理解領域的一大步啊!

你可能會想,有這麼誇張嗎?嗯,數據會說話。Gemini 2.5 Pro 在一些關鍵的視訊理解基準測試中,表現可是頂尖的,甚至在相同的測試條件下(比如一樣的提示和視訊幀數),把像 GPT-4.1 這樣的新模型都比了下去。更厲害的是,它在某些具挑戰性的基準上,表現幾乎能和那些專門為特定任務微調過的模型一較高下,像是 YouCook2 密集字幕和 QVHighlights 時刻檢索這些。

那如果預算比較吃緊呢?別擔心,Gemini 2.5 Flash 就是為這種情況準備的,它提供了一個非常有競爭力的替代方案,讓你不用花大錢也能享受到強大的視訊理解能力。

影片不只能看,還能「玩」?Gemini 2.5 的神奇魔法!

Gemini 2.5 最讓人興奮的一點,是它作為一個「原生多模式模型」——也就是說,它天生就能同時理解文字、聲音、影像,甚至程式碼——首次能夠把視聽資訊和程式碼等其他資料格式無縫地結合起來。聽起來很玄乎?別急,讓我用幾個酷炫的例子來解釋一下 Gemini 2.5 是怎麼玩轉影片的。

魔法一:讓 YouTube 影片變成你的專屬學習 App!

想像一下,你看到一個很棒的 YouTube 教學影片,如果能直接把它變成一個互動式的學習工具,那該有多好?Gemini 2.5 Pro 就能辦到!有一個叫做 Video To Learning App 的 Google AI Studio 入門應用程式,就是用 Gemini 2.5 來讓影片學習變得更有效、更有趣。

它是怎麼運作的呢?首先,模型會「看」一個 YouTube 影片的網址,然後你給它一個文字提示,告訴它你想怎麼分析這個影片。接下來,Gemini 2.5 Pro 就會開始分析影片內容,並為這個學習應用程式制定詳細的規格,把影片裡的重點都抓出來。最酷的是,它還能直接把這些規格丟回給 Gemini 2.5 Pro,讓它生成應用程式的程式碼!就像變魔術一樣,一個視力矯正模擬器應用程式就這麼誕生了。

Gemini 2.5 Flash 也能達到類似的效果,這讓我們看到了在教育和互動內容創作領域,視訊應用還有多少新奇的可能性等待我們去發掘。是不是很期待?

魔法二:一句話,影片秒變 p5.js 動畫!

如果你覺得把影片變 App 還不夠看,那這個肯定能讓你驚呼。Gemini 2.5 Pro 還有個超能力,就是能根據影片內容生成動態動畫,而且只需要你給它一個簡單的提示!這對自動內容生成,或是製作更容易理解的影片摘要來說,簡直是開了新大門。

舉個例子,開發團隊給了 Gemini 2.5 Pro 一個關於 Google Project Astra 的影片,然後提示它:「用 p5.js 建立一個動畫,涵蓋影片中出現的不同地標」。你猜怎麼著?Gemini 2.5 Pro 仔細分析了影片的每個鏡頭,然後就真的製作出了一個對應的 p5.js 動畫!這個動畫還會按照影片的時間順序,顯示出 Gemini 2.5 Pro 識別出來的地標,例如下圖中看到的 “The Gherkin”(小黃瓜大樓)。

看到自己的影片內容能這麼輕鬆地變成另一種藝術形式,是不是覺得創意無限了?

火眼金睛!Gemini 2.5 Pro 幫你抓住影片的每個精彩瞬間

除了創造新東西,Gemini 2.5 Pro 在「理解」影片內容方面也是一把好手。它非常擅長利用視聽提示來辨識影片中的特定時刻,而且準確度比以前的視訊處理系統高出不少。

想想看,一部冗長的發表會影片,要從中找到所有提到某個產品的片段,是不是很花時間?在一段長達 10 分鐘的 Google Cloud Next ‘25 開幕主題演講影片中,Gemini 2.5 Pro 就成功利用影片中的聲音和畫面提示,準確地找出了跟產品簡報相關的 16 個不同片段。例如,它能清楚標示出在 1 分 24 秒介紹了 Ironwood (TPU),在 1 分 43 秒提到了 Gemini 2.5 Pro,在 1 分 53 秒展示了 Gemini 2.5 Flash,並能簡要描述每個產品的重點。

這種能力對於快速定位資訊、影片剪輯、內容索引等應用來說,實在是太有用了!

時間都去哪兒了?Gemini 2.5 Pro 的時間推理超能力

你以為它只能找到片段而已嗎?那你就小看 Gemini 2.5 Pro 了。憑藉它先進的時刻檢索功能,它還能解決一些更細微的時間推理問題,比如「計數」。

在一個關於 Astra 專案的影片範例中,模型被問到:「主角在這支影片中,總共在幾個不同的場景裡使用了他的手機?」 你知道嗎?Gemini 成功統計出主角在 17 個不同的場景中使用了手機,從在辦公室介紹 Pixel 手機和 Project Astra,到在公寓外查看門禁碼,再到在洗衣房用手機查看洗滌符號等等。

這種細緻入微的理解能力,讓我們對 AI 如何「看懂」影片有了全新的認識。

想自己動手玩?用 Gemini 2.5 打造你的影片黑科技!

說了這麼多,你是不是也手癢想試試看了?好消息是,Gemini 2.5 Flash 和 Pro 中的視訊理解功能,現在已經可以在 Google AI StudioGemini APIVertex AI 中使用了!更棒的是,透過 Gemini API 和 Google AI Studio,你可以直接支援 YouTube 影片,這意味著任何人都能夠打造出可以存取數十億支影片的應用程式。想想看,這有多大的潛力!

而且,Google 還貼心地提供了一個「低」媒體解析度參數。用了這個參數,Gemini 2.5 Pro 能夠處理大約 6 小時的影片,或是高達 200 萬個「標記」(Token,可以理解為 AI 理解資訊的最小單位) 的上下文。這對於很多需要處理長影片的應用場景來說,是一個更具成本效益的選擇,而且在視訊理解效能上依然很有競爭力。比如說,在 VideoMME 這個基準測試上,使用低解析度參數的準確率是 84.7%,跟標準模式的 85.2% 相比,差距非常小。

看到社群中已經開始湧現出這麼多創新的影片應用程式,我們也感到非常興奮,迫不及待想看看各位開發者們會用 Gemini 2.5 創造出什麼樣的驚喜!

幕後英雄們,謝謝啦!

當然,這麼厲害的技術背後,肯定有一群默默耕耘的英雄。我們要特別感謝 Aaron Wade,他創建了前面提到的視訊學習應用程式,並在部落格文章中展示了視力矯正模擬器的範例。同時,也要感謝 Sergi Caelles、Boyu Wang 和 Saarthak Khanna 在評估方面的貢獻,Angeliki Lazaridou 提供的啟發性範例,Paul Natsev 和 Jean-Baptiste Alayrac 提出的寶貴建議,以及整個 Gemini 視訊理解團隊的努力!

資料來源

Advancing the frontier of video understanding with Gemini 2.5

分享至:
DMflow.chat Ad
廣告

DMflow.chat

DMflow.chat: 您的智能對話夥伴,提升客戶互動體驗。

Learn More

© 2025 Communeify. All rights reserved.