
DMflow.chat
廣告
DMflow.chat:智慧整合,創新溝通!除了持久記憶與客製欄位外,更支持真人與 AI 的靈活轉換,無縫連接資料庫與表單,讓網頁互動更靈活高效。
Google 最新 AI 模型 Gemini 2.5 Pro 在影片理解上取得驚人突破,不僅能處理超長影片,還能將影片內容轉化為互動應用程式和動畫,甚至進行精細的時間推理。快來看看這個技術如何改寫我們與視訊內容互動的未來,以及它為開發者們帶來了哪些令人興奮的可能性!
嘿,各位開發者和科技愛好者們,準備好大開眼界了嗎?Google AI 最近可是又憋了個大招!他們家鼎鼎大名的 Gemini 系列模型,又添了兩位新成員:Gemini 2.5 Pro Preview 和 Gemini 2.5 Flash。老實說,這兩個傢伙的出現,簡直是視訊理解領域的一大步啊!
你可能會想,有這麼誇張嗎?嗯,數據會說話。Gemini 2.5 Pro 在一些關鍵的視訊理解基準測試中,表現可是頂尖的,甚至在相同的測試條件下(比如一樣的提示和視訊幀數),把像 GPT-4.1 這樣的新模型都比了下去。更厲害的是,它在某些具挑戰性的基準上,表現幾乎能和那些專門為特定任務微調過的模型一較高下,像是 YouCook2 密集字幕和 QVHighlights 時刻檢索這些。
那如果預算比較吃緊呢?別擔心,Gemini 2.5 Flash 就是為這種情況準備的,它提供了一個非常有競爭力的替代方案,讓你不用花大錢也能享受到強大的視訊理解能力。
Gemini 2.5 最讓人興奮的一點,是它作為一個「原生多模式模型」——也就是說,它天生就能同時理解文字、聲音、影像,甚至程式碼——首次能夠把視聽資訊和程式碼等其他資料格式無縫地結合起來。聽起來很玄乎?別急,讓我用幾個酷炫的例子來解釋一下 Gemini 2.5 是怎麼玩轉影片的。
想像一下,你看到一個很棒的 YouTube 教學影片,如果能直接把它變成一個互動式的學習工具,那該有多好?Gemini 2.5 Pro 就能辦到!有一個叫做 Video To Learning App 的 Google AI Studio 入門應用程式,就是用 Gemini 2.5 來讓影片學習變得更有效、更有趣。
它是怎麼運作的呢?首先,模型會「看」一個 YouTube 影片的網址,然後你給它一個文字提示,告訴它你想怎麼分析這個影片。接下來,Gemini 2.5 Pro 就會開始分析影片內容,並為這個學習應用程式制定詳細的規格,把影片裡的重點都抓出來。最酷的是,它還能直接把這些規格丟回給 Gemini 2.5 Pro,讓它生成應用程式的程式碼!就像變魔術一樣,一個視力矯正模擬器應用程式就這麼誕生了。
Gemini 2.5 Flash 也能達到類似的效果,這讓我們看到了在教育和互動內容創作領域,視訊應用還有多少新奇的可能性等待我們去發掘。是不是很期待?
如果你覺得把影片變 App 還不夠看,那這個肯定能讓你驚呼。Gemini 2.5 Pro 還有個超能力,就是能根據影片內容生成動態動畫,而且只需要你給它一個簡單的提示!這對自動內容生成,或是製作更容易理解的影片摘要來說,簡直是開了新大門。
舉個例子,開發團隊給了 Gemini 2.5 Pro 一個關於 Google Project Astra 的影片,然後提示它:「用 p5.js 建立一個動畫,涵蓋影片中出現的不同地標」。你猜怎麼著?Gemini 2.5 Pro 仔細分析了影片的每個鏡頭,然後就真的製作出了一個對應的 p5.js 動畫!這個動畫還會按照影片的時間順序,顯示出 Gemini 2.5 Pro 識別出來的地標,例如下圖中看到的 “The Gherkin”(小黃瓜大樓)。
看到自己的影片內容能這麼輕鬆地變成另一種藝術形式,是不是覺得創意無限了?
除了創造新東西,Gemini 2.5 Pro 在「理解」影片內容方面也是一把好手。它非常擅長利用視聽提示來辨識影片中的特定時刻,而且準確度比以前的視訊處理系統高出不少。
想想看,一部冗長的發表會影片,要從中找到所有提到某個產品的片段,是不是很花時間?在一段長達 10 分鐘的 Google Cloud Next ‘25 開幕主題演講影片中,Gemini 2.5 Pro 就成功利用影片中的聲音和畫面提示,準確地找出了跟產品簡報相關的 16 個不同片段。例如,它能清楚標示出在 1 分 24 秒介紹了 Ironwood (TPU),在 1 分 43 秒提到了 Gemini 2.5 Pro,在 1 分 53 秒展示了 Gemini 2.5 Flash,並能簡要描述每個產品的重點。
這種能力對於快速定位資訊、影片剪輯、內容索引等應用來說,實在是太有用了!
你以為它只能找到片段而已嗎?那你就小看 Gemini 2.5 Pro 了。憑藉它先進的時刻檢索功能,它還能解決一些更細微的時間推理問題,比如「計數」。
在一個關於 Astra 專案的影片範例中,模型被問到:「主角在這支影片中,總共在幾個不同的場景裡使用了他的手機?」 你知道嗎?Gemini 成功統計出主角在 17 個不同的場景中使用了手機,從在辦公室介紹 Pixel 手機和 Project Astra,到在公寓外查看門禁碼,再到在洗衣房用手機查看洗滌符號等等。
這種細緻入微的理解能力,讓我們對 AI 如何「看懂」影片有了全新的認識。
說了這麼多,你是不是也手癢想試試看了?好消息是,Gemini 2.5 Flash 和 Pro 中的視訊理解功能,現在已經可以在 Google AI Studio、Gemini API 和 Vertex AI 中使用了!更棒的是,透過 Gemini API 和 Google AI Studio,你可以直接支援 YouTube 影片,這意味著任何人都能夠打造出可以存取數十億支影片的應用程式。想想看,這有多大的潛力!
而且,Google 還貼心地提供了一個「低」媒體解析度參數。用了這個參數,Gemini 2.5 Pro 能夠處理大約 6 小時的影片,或是高達 200 萬個「標記」(Token,可以理解為 AI 理解資訊的最小單位) 的上下文。這對於很多需要處理長影片的應用場景來說,是一個更具成本效益的選擇,而且在視訊理解效能上依然很有競爭力。比如說,在 VideoMME 這個基準測試上,使用低解析度參數的準確率是 84.7%,跟標準模式的 85.2% 相比,差距非常小。
看到社群中已經開始湧現出這麼多創新的影片應用程式,我們也感到非常興奮,迫不及待想看看各位開發者們會用 Gemini 2.5 創造出什麼樣的驚喜!
當然,這麼厲害的技術背後,肯定有一群默默耕耘的英雄。我們要特別感謝 Aaron Wade,他創建了前面提到的視訊學習應用程式,並在部落格文章中展示了視力矯正模擬器的範例。同時,也要感謝 Sergi Caelles、Boyu Wang 和 Saarthak Khanna 在評估方面的貢獻,Angeliki Lazaridou 提供的啟發性範例,Paul Natsev 和 Jean-Baptiste Alayrac 提出的寶貴建議,以及整個 Gemini 視訊理解團隊的努力!
Advancing the frontier of video understanding with Gemini 2.5
DMflow.chat:智慧整合,創新溝通!除了持久記憶與客製欄位外,更支持真人與 AI 的靈活轉換,無縫連接資料庫與表單,讓網頁互動更靈活高效。
簡直是開發者的福音!Gemini API 隱式快取登場,Token 成本狂降 75%! 還在為 AI 開發的 Token 費用煩惱嗎?Google Gemini API 推出了超方便的「...
Google 新 AI 模型 Gemini 2.5 Flash 安全性引關注?部分評分竟低於前代! Google 最新發布的 Gemini 2.5 Flash 預覽版以其速度和效率吸引目...
Google 新武器 Gemini 2.5 Flash 來了!更快、更聰明,還能讓你控制「思考」? Google 最新發表的 Gemini 2.5 Flash 不僅速度飛快,更導入創新的...
Google Veo 2 登陸 AI Studio!免費試玩,人人都能變身 AI 導演? Google 最新的 AI 影片生成模型 Veo 2 終於在 AI Studio 開放免費試用了...
Gemini 2.5 震撼登場:不只會算,更會「想」!AI 如何為企業帶來深度思考力? Google 最新 AI 模型 Gemini 2.5 登場!不只更聰明,還具備「思考」能力,為企業...
Google Gemini 2.5 Pro API 定價公布:開發者熱議,使用量激增 80% Google 正式公布了備受期待的 Gemini 2.5 Pro API 定價方案。雖然價格...
圖片來自OpenAI GPT-4o ChatGPT-4o的與眾不同之處 於5月13日面世的ChatGPT-4o,代表「全能」的”o”,是OpenAI推出的最前沿AI模型。相較於前身GPT...
Mistral Large 2:突破性的人工智能語言模型 Mistral Large 2 是一款新一代的大型語言模型,具有卓越的成本效益、速度和性能。它支持多種語言和編程語言,並在多個基準測試...
Google Gemini 2.5 Pro API 定價公布:開發者熱議,使用量激增 80% Google 正式公布了備受期待的 Gemini 2.5 Pro API 定價方案。雖然價格...
By continuing to use this website, you agree to the use of cookies according to our privacy policy.