震撼彈!Gemini 2.5 Pro 讓影片「開口說話」,6小時長片、程式碼互動全搞定!

Google 最新 AI 模型 Gemini 2.5 Pro 在影片理解上取得驚人突破,不僅能處理超長影片,還能將影片內容轉化為互動應用程式和動畫,甚至進行精細的時間推理。快來看看這個技術如何改寫我們與視訊內容互動的未來,以及它為開發者們帶來了哪些令人興奮的可能性!


哇!Google AI 又放大絕了?這回輪到影片理解大升級!

嘿,各位開發者和科技愛好者們,準備好大開眼界了嗎?Google AI 最近可是又憋了個大招!他們家鼎鼎大名的 Gemini 系列模型,又添了兩位新成員:Gemini 2.5 Pro PreviewGemini 2.5 Flash。老實說,這兩個傢伙的出現,簡直是視訊理解領域的一大步啊!

你可能會想,有這麼誇張嗎?嗯,數據會說話。Gemini 2.5 Pro 在一些關鍵的視訊理解基準測試中,表現可是頂尖的,甚至在相同的測試條件下(比如一樣的提示和視訊幀數),把像 GPT-4.1 這樣的新模型都比了下去。更厲害的是,它在某些具挑戰性的基準上,表現幾乎能和那些專門為特定任務微調過的模型一較高下,像是 YouCook2 密集字幕和 QVHighlights 時刻檢索這些。

那如果預算比較吃緊呢?別擔心,Gemini 2.5 Flash 就是為這種情況準備的,它提供了一個非常有競爭力的替代方案,讓你不用花大錢也能享受到強大的視訊理解能力。

影片不只能看,還能「玩」?Gemini 2.5 的神奇魔法!

Gemini 2.5 最讓人興奮的一點,是它作為一個「原生多模式模型」——也就是說,它天生就能同時理解文字、聲音、影像,甚至程式碼——首次能夠把視聽資訊和程式碼等其他資料格式無縫地結合起來。聽起來很玄乎?別急,讓我用幾個酷炫的例子來解釋一下 Gemini 2.5 是怎麼玩轉影片的。

魔法一:讓 YouTube 影片變成你的專屬學習 App!

想像一下,你看到一個很棒的 YouTube 教學影片,如果能直接把它變成一個互動式的學習工具,那該有多好?Gemini 2.5 Pro 就能辦到!有一個叫做 Video To Learning App 的 Google AI Studio 入門應用程式,就是用 Gemini 2.5 來讓影片學習變得更有效、更有趣。

它是怎麼運作的呢?首先,模型會「看」一個 YouTube 影片的網址,然後你給它一個文字提示,告訴它你想怎麼分析這個影片。接下來,Gemini 2.5 Pro 就會開始分析影片內容,並為這個學習應用程式制定詳細的規格,把影片裡的重點都抓出來。最酷的是,它還能直接把這些規格丟回給 Gemini 2.5 Pro,讓它生成應用程式的程式碼!就像變魔術一樣,一個視力矯正模擬器應用程式就這麼誕生了。

Gemini 2.5 Flash 也能達到類似的效果,這讓我們看到了在教育和互動內容創作領域,視訊應用還有多少新奇的可能性等待我們去發掘。是不是很期待?

魔法二:一句話,影片秒變 p5.js 動畫!

如果你覺得把影片變 App 還不夠看,那這個肯定能讓你驚呼。Gemini 2.5 Pro 還有個超能力,就是能根據影片內容生成動態動畫,而且只需要你給它一個簡單的提示!這對自動內容生成,或是製作更容易理解的影片摘要來說,簡直是開了新大門。

舉個例子,開發團隊給了 Gemini 2.5 Pro 一個關於 Google Project Astra 的影片,然後提示它:「用 p5.js 建立一個動畫,涵蓋影片中出現的不同地標」。你猜怎麼著?Gemini 2.5 Pro 仔細分析了影片的每個鏡頭,然後就真的製作出了一個對應的 p5.js 動畫!這個動畫還會按照影片的時間順序,顯示出 Gemini 2.5 Pro 識別出來的地標,例如下圖中看到的 “The Gherkin”(小黃瓜大樓)。

看到自己的影片內容能這麼輕鬆地變成另一種藝術形式,是不是覺得創意無限了?

火眼金睛!Gemini 2.5 Pro 幫你抓住影片的每個精彩瞬間

除了創造新東西,Gemini 2.5 Pro 在「理解」影片內容方面也是一把好手。它非常擅長利用視聽提示來辨識影片中的特定時刻,而且準確度比以前的視訊處理系統高出不少。

想想看,一部冗長的發表會影片,要從中找到所有提到某個產品的片段,是不是很花時間?在一段長達 10 分鐘的 Google Cloud Next ‘25 開幕主題演講影片中,Gemini 2.5 Pro 就成功利用影片中的聲音和畫面提示,準確地找出了跟產品簡報相關的 16 個不同片段。例如,它能清楚標示出在 1 分 24 秒介紹了 Ironwood (TPU),在 1 分 43 秒提到了 Gemini 2.5 Pro,在 1 分 53 秒展示了 Gemini 2.5 Flash,並能簡要描述每個產品的重點。

這種能力對於快速定位資訊、影片剪輯、內容索引等應用來說,實在是太有用了!

時間都去哪兒了?Gemini 2.5 Pro 的時間推理超能力

你以為它只能找到片段而已嗎?那你就小看 Gemini 2.5 Pro 了。憑藉它先進的時刻檢索功能,它還能解決一些更細微的時間推理問題,比如「計數」。

在一個關於 Astra 專案的影片範例中,模型被問到:「主角在這支影片中,總共在幾個不同的場景裡使用了他的手機?」 你知道嗎?Gemini 成功統計出主角在 17 個不同的場景中使用了手機,從在辦公室介紹 Pixel 手機和 Project Astra,到在公寓外查看門禁碼,再到在洗衣房用手機查看洗滌符號等等。

這種細緻入微的理解能力,讓我們對 AI 如何「看懂」影片有了全新的認識。

想自己動手玩?用 Gemini 2.5 打造你的影片黑科技!

說了這麼多,你是不是也手癢想試試看了?好消息是,Gemini 2.5 Flash 和 Pro 中的視訊理解功能,現在已經可以在 Google AI StudioGemini APIVertex AI 中使用了!更棒的是,透過 Gemini API 和 Google AI Studio,你可以直接支援 YouTube 影片,這意味著任何人都能夠打造出可以存取數十億支影片的應用程式。想想看,這有多大的潛力!

而且,Google 還貼心地提供了一個「低」媒體解析度參數。用了這個參數,Gemini 2.5 Pro 能夠處理大約 6 小時的影片,或是高達 200 萬個「標記」(Token,可以理解為 AI 理解資訊的最小單位) 的上下文。這對於很多需要處理長影片的應用場景來說,是一個更具成本效益的選擇,而且在視訊理解效能上依然很有競爭力。比如說,在 VideoMME 這個基準測試上,使用低解析度參數的準確率是 84.7%,跟標準模式的 85.2% 相比,差距非常小。

看到社群中已經開始湧現出這麼多創新的影片應用程式,我們也感到非常興奮,迫不及待想看看各位開發者們會用 Gemini 2.5 創造出什麼樣的驚喜!

幕後英雄們,謝謝啦!

當然,這麼厲害的技術背後,肯定有一群默默耕耘的英雄。我們要特別感謝 Aaron Wade,他創建了前面提到的視訊學習應用程式,並在部落格文章中展示了視力矯正模擬器的範例。同時,也要感謝 Sergi Caelles、Boyu Wang 和 Saarthak Khanna 在評估方面的貢獻,Angeliki Lazaridou 提供的啟發性範例,Paul Natsev 和 Jean-Baptiste Alayrac 提出的寶貴建議,以及整個 Gemini 視訊理解團隊的努力!

資料來源

Advancing the frontier of video understanding with Gemini 2.5

Share on:
Previous: 簡直是開發者的福音!Gemini API 隱式快取登場,Token 成本狂降 75%!
Next: AI 音樂創作震撼彈!階躍星辰攜手 ACE Studio 開源「音躍 ACE-Step」,15 秒極速生歌還能改歌詞?
DMflow.chat

DMflow.chat

廣告

DMflow.chat:智慧整合,創新溝通!除了持久記憶與客製欄位外,更支持真人與 AI 的靈活轉換,無縫連接資料庫與表單,讓網頁互動更靈活高效。

簡直是開發者的福音!Gemini API 隱式快取登場,Token 成本狂降 75%!
14 May 2025

簡直是開發者的福音!Gemini API 隱式快取登場,Token 成本狂降 75%!

簡直是開發者的福音!Gemini API 隱式快取登場,Token 成本狂降 75%! 還在為 AI 開發的 Token 費用煩惱嗎?Google Gemini API 推出了超方便的「...

Google 新 AI 模型 Gemini 2.5 Flash 安全性引關注?部分評分竟低於前代!
4 May 2025

Google 新 AI 模型 Gemini 2.5 Flash 安全性引關注?部分評分竟低於前代!

Google 新 AI 模型 Gemini 2.5 Flash 安全性引關注?部分評分竟低於前代! Google 最新發布的 Gemini 2.5 Flash 預覽版以其速度和效率吸引目...

Google 新武器 Gemini 2.5 Flash 來了!更快、更聰明,還能讓你控制「思考」?
23 April 2025

Google 新武器 Gemini 2.5 Flash 來了!更快、更聰明,還能讓你控制「思考」?

Google 新武器 Gemini 2.5 Flash 來了!更快、更聰明,還能讓你控制「思考」? Google 最新發表的 Gemini 2.5 Flash 不僅速度飛快,更導入創新的...

Google Veo 2 登陸 AI Studio!免費試玩,人人都能變身 AI 導演?
16 April 2025

Google Veo 2 登陸 AI Studio!免費試玩,人人都能變身 AI 導演?

Google Veo 2 登陸 AI Studio!免費試玩,人人都能變身 AI 導演? Google 最新的 AI 影片生成模型 Veo 2 終於在 AI Studio 開放免費試用了...

Gemini 2.5 震撼登場:不只會算,更會「想」!AI 如何為企業帶來深度思考力?
9 April 2025

Gemini 2.5 震撼登場:不只會算,更會「想」!AI 如何為企業帶來深度思考力?

Gemini 2.5 震撼登場:不只會算,更會「想」!AI 如何為企業帶來深度思考力? Google 最新 AI 模型 Gemini 2.5 登場!不只更聰明,還具備「思考」能力,為企業...

Google Gemini 2.5 Pro API 定價公布:開發者熱議,使用量激增 80%
6 April 2025

Google Gemini 2.5 Pro API 定價公布:開發者熱議,使用量激增 80%

Google Gemini 2.5 Pro API 定價公布:開發者熱議,使用量激增 80% Google 正式公布了備受期待的 Gemini 2.5 Pro API 定價方案。雖然價格...

全方位新世代AI:ChatGPT-4o的進化與應用
30 June 2024

全方位新世代AI:ChatGPT-4o的進化與應用

圖片來自OpenAI GPT-4o ChatGPT-4o的與眾不同之處 於5月13日面世的ChatGPT-4o,代表「全能」的”o”,是OpenAI推出的最前沿AI模型。相較於前身GPT...

Mistral Large 2:突破性的人工智能語言模型
25 July 2024

Mistral Large 2:突破性的人工智能語言模型

Mistral Large 2:突破性的人工智能語言模型 Mistral Large 2 是一款新一代的大型語言模型,具有卓越的成本效益、速度和性能。它支持多種語言和編程語言,並在多個基準測試...

Google Gemini 2.5 Pro API 定價公布:開發者熱議,使用量激增 80%
6 April 2025

Google Gemini 2.5 Pro API 定價公布:開發者熱議,使用量激增 80%

Google Gemini 2.5 Pro API 定價公布:開發者熱議,使用量激增 80% Google 正式公布了備受期待的 Gemini 2.5 Pro API 定價方案。雖然價格...