震撼彈！Gemini 2.5 Pro 讓影片「開口說話」，6小時長片、程式碼互動全搞定！

Google 最新 AI

AI 模型 Gemini 2.5 P

news

震撼彈！Gemini 2.5 Pro 讓影片「開口說話」，6小時長片、程式碼互動全搞定！

2025-05-14

Google 最新 AI 模型 Gemini 2.5 Pro 在影片理解上取得驚人突破，不僅能處理超長影片，還能將影片內容轉化為互動應用程式和動畫，甚至進行精細的時間推理。快來看看這個技術如何改寫我們與視訊內容互動的未來，以及它為開發者們帶來了哪些令人興奮的可能性！

哇！Google AI 又放大絕了？這回輪到影片理解大升級！

嘿，各位開發者和科技愛好者們，準備好大開眼界了嗎？Google AI 最近可是又憋了個大招！他們家鼎鼎大名的 Gemini 系列模型，又添了兩位新成員：Gemini 2.5 Pro Preview 和 Gemini 2.5 Flash。老實說，這兩個傢伙的出現，簡直是視訊理解領域的一大步啊！

你可能會想，有這麼誇張嗎？嗯，數據會說話。Gemini 2.5 Pro 在一些關鍵的視訊理解基準測試中，表現可是頂尖的，甚至在相同的測試條件下（比如一樣的提示和視訊幀數），把像 GPT-4.1 這樣的新模型都比了下去。更厲害的是，它在某些具挑戰性的基準上，表現幾乎能和那些專門為特定任務微調過的模型一較高下，像是 YouCook2 密集字幕和 QVHighlights 時刻檢索這些。

那如果預算比較吃緊呢？別擔心，Gemini 2.5 Flash 就是為這種情況準備的，它提供了一個非常有競爭力的替代方案，讓你不用花大錢也能享受到強大的視訊理解能力。

影片不只能看，還能「玩」？Gemini 2.5 的神奇魔法！

Gemini 2.5 最讓人興奮的一點，是它作為一個「原生多模式模型」——也就是說，它天生就能同時理解文字、聲音、影像，甚至程式碼——首次能夠把視聽資訊和程式碼等其他資料格式無縫地結合起來。聽起來很玄乎？別急，讓我用幾個酷炫的例子來解釋一下 Gemini 2.5 是怎麼玩轉影片的。

魔法一：讓 YouTube 影片變成你的專屬學習 App！

想像一下，你看到一個很棒的 YouTube 教學影片，如果能直接把它變成一個互動式的學習工具，那該有多好？Gemini 2.5 Pro 就能辦到！有一個叫做 Video To Learning App 的 Google AI Studio 入門應用程式，就是用 Gemini 2.5 來讓影片學習變得更有效、更有趣。

它是怎麼運作的呢？首先，模型會「看」一個 YouTube 影片的網址，然後你給它一個文字提示，告訴它你想怎麼分析這個影片。接下來，Gemini 2.5 Pro 就會開始分析影片內容，並為這個學習應用程式制定詳細的規格，把影片裡的重點都抓出來。最酷的是，它還能直接把這些規格丟回給 Gemini 2.5 Pro，讓它生成應用程式的程式碼！就像變魔術一樣，一個視力矯正模擬器應用程式就這麼誕生了。

Gemini 2.5 Flash 也能達到類似的效果，這讓我們看到了在教育和互動內容創作領域，視訊應用還有多少新奇的可能性等待我們去發掘。是不是很期待？

魔法二：一句話，影片秒變 p5.js 動畫！

如果你覺得把影片變 App 還不夠看，那這個肯定能讓你驚呼。Gemini 2.5 Pro 還有個超能力，就是能根據影片內容生成動態動畫，而且只需要你給它一個簡單的提示！這對自動內容生成，或是製作更容易理解的影片摘要來說，簡直是開了新大門。

舉個例子，開發團隊給了 Gemini 2.5 Pro 一個關於 Google Project Astra 的影片，然後提示它：「用 p5.js 建立一個動畫，涵蓋影片中出現的不同地標」。你猜怎麼著？Gemini 2.5 Pro 仔細分析了影片的每個鏡頭，然後就真的製作出了一個對應的 p5.js 動畫！這個動畫還會按照影片的時間順序，顯示出 Gemini 2.5 Pro 識別出來的地標，例如下圖中看到的 “The Gherkin”（小黃瓜大樓）。

看到自己的影片內容能這麼輕鬆地變成另一種藝術形式，是不是覺得創意無限了？

火眼金睛！Gemini 2.5 Pro 幫你抓住影片的每個精彩瞬間

除了創造新東西，Gemini 2.5 Pro 在「理解」影片內容方面也是一把好手。它非常擅長利用視聽提示來辨識影片中的特定時刻，而且準確度比以前的視訊處理系統高出不少。

想想看，一部冗長的發表會影片，要從中找到所有提到某個產品的片段，是不是很花時間？在一段長達 10 分鐘的 Google Cloud Next ‘25 開幕主題演講影片中，Gemini 2.5 Pro 就成功利用影片中的聲音和畫面提示，準確地找出了跟產品簡報相關的 16 個不同片段。例如，它能清楚標示出在 1 分 24 秒介紹了 Ironwood (TPU)，在 1 分 43 秒提到了 Gemini 2.5 Pro，在 1 分 53 秒展示了 Gemini 2.5 Flash，並能簡要描述每個產品的重點。

這種能力對於快速定位資訊、影片剪輯、內容索引等應用來說，實在是太有用了！

時間都去哪兒了？Gemini 2.5 Pro 的時間推理超能力

你以為它只能找到片段而已嗎？那你就小看 Gemini 2.5 Pro 了。憑藉它先進的時刻檢索功能，它還能解決一些更細微的時間推理問題，比如「計數」。

在一個關於 Astra 專案的影片範例中，模型被問到：「主角在這支影片中，總共在幾個不同的場景裡使用了他的手機？」你知道嗎？Gemini 成功統計出主角在 17 個不同的場景中使用了手機，從在辦公室介紹 Pixel 手機和 Project Astra，到在公寓外查看門禁碼，再到在洗衣房用手機查看洗滌符號等等。

這種細緻入微的理解能力，讓我們對 AI 如何「看懂」影片有了全新的認識。

想自己動手玩？用 Gemini 2.5 打造你的影片黑科技！

說了這麼多，你是不是也手癢想試試看了？好消息是，Gemini 2.5 Flash 和 Pro 中的視訊理解功能，現在已經可以在 Google AI Studio、Gemini API 和 Vertex AI 中使用了！更棒的是，透過 Gemini API 和 Google AI Studio，你可以直接支援 YouTube 影片，這意味著任何人都能夠打造出可以存取數十億支影片的應用程式。想想看，這有多大的潛力！

而且，Google 還貼心地提供了一個「低」媒體解析度參數。用了這個參數，Gemini 2.5 Pro 能夠處理大約 6 小時的影片，或是高達 200 萬個「標記」(Token，可以理解為 AI 理解資訊的最小單位) 的上下文。這對於很多需要處理長影片的應用場景來說，是一個更具成本效益的選擇，而且在視訊理解效能上依然很有競爭力。比如說，在 VideoMME 這個基準測試上，使用低解析度參數的準確率是 84.7%，跟標準模式的 85.2% 相比，差距非常小。

看到社群中已經開始湧現出這麼多創新的影片應用程式，我們也感到非常興奮，迫不及待想看看各位開發者們會用 Gemini 2.5 創造出什麼樣的驚喜！

幕後英雄們，謝謝啦！

當然，這麼厲害的技術背後，肯定有一群默默耕耘的英雄。我們要特別感謝 Aaron Wade，他創建了前面提到的視訊學習應用程式，並在部落格文章中展示了視力矯正模擬器的範例。同時，也要感謝 Sergi Caelles、Boyu Wang 和 Saarthak Khanna 在評估方面的貢獻，Angeliki Lazaridou 提供的啟發性範例，Paul Natsev 和 Jean-Baptiste Alayrac 提出的寶貴建議，以及整個 Gemini 視訊理解團隊的努力！

資料來源

Advancing the frontier of video understanding with Gemini 2.5

分享至:

Featured Partners

SPONSORED

DMflow.chat

探索DMflow.chat，立即開啟AI驅動的客戶服務新時代。

Learn More

SPONSORED

videoweaver.app

Video Weaver: 瀏覽器內完成專業影片剪輯，無需下載、即刻創作。

Learn More

SPONSORED

DMflow.chat

DMflow.chat: 您的智能AI夥伴，提升客戶互動、創造卓越體驗。

Learn More

SPONSORED

scribis.app

Scribis: 字幕編輯、語音轉錄文字、即時顯示轉錄文字。

Learn More

SPONSORED

DMflow.chat

探索DMflow.chat，立即開啟AI驅動的客戶服務新時代。

Learn More

SPONSORED

videoweaver.app

Video Weaver: 瀏覽器內完成專業影片剪輯，無需下載、即刻創作。

Learn More

SPONSORED

DMflow.chat

DMflow.chat: 您的智能AI夥伴，提升客戶互動、創造卓越體驗。

Learn More

SPONSORED

scribis.app

Scribis: 字幕編輯、語音轉錄文字、即時顯示轉錄文字。

Learn More

Recommended for You

G …

news

Gemini 3 Flash：Google 如何打破「聰明即緩慢」的 AI 慣例？

還記得嗎？過去挑選 AI 模型時，總感覺像在做一道兩難的選擇題：究竟要選一個「腦袋好，但反應慢、價格貴」的頂級模型，還是要一個「反應快、便宜，但偶爾會犯傻」的輕量級選手？這就像在追求速度與智慧之間，被迫做出取捨。 Google 最新的力作 Gemini 3 Flash 徹底改寫了這套規則。它不只快，還聰明得令人驚訝，而且價格出乎意料地親民。這款模型專為需要「高頻率互動」的工作流程而生，目標明確：證明強大的智慧完全可以跟閃電般的速度並存。數據會說話：速度與智力雙重升級當說 Gemini 3 Flash 又快又聰明時，這並非空口無憑。它在各項關鍵測試中的表現，讓人眼前一亮：程式設計強者：在代理式程式設計（agentic coding）的 SWE-bench Verified 評測中，Gemini 3 Flash 拿下了 78% 的高分。這不僅超越了先前的 2.5 系列，甚至擊敗了自家的旗艦老大哥 Gemini 3 Pro。這意味著在自動化撰寫程式碼方面，它不僅反應靈敏，而且品質極高。頂尖邏輯：在衡量研究生等級推理能力的 GPQA Diamond 測試中，它取得了 90.4% 的驚人成績，證明其邏輯思考能力已達頂尖水準。多模態全能：在處理圖片與影片的 MMMU Pro 測試中，它獲得了 81.2% 的分數，與 Gemini 3 Pro 不相上下。 Gemini 3 Flash 在「品質」、「成本」和「速度」這三個通常互相牽制的維度上，找到了近乎完美的甜蜜點。開發者的即時戰力：跟得上思考速度的智慧對於開發者而言，Gemini 3 Flash 的出現不僅僅是升級，更是一種工作流的解放。它專為「迭代式開發（iterative development）」打造，這意味著它能以極低的延遲提供 Pro 等級的程式碼編寫能力。無論是建構代理系統（Agentic systems）還是需要即時反應的應用程式，它都能輕鬆駕馭。以下是 Gemini 3 Flash 在實際開發場景中的幾個亮點應用：

Dec 18, 2025 Read →

掌 …

news

掌握 Google 最新影像模型：Nano Banana Pro 開發者實戰手冊

想要深入了解 Google 最新的 Nano Banana Pro (Gemini 3 Pro Image) 模型嗎？本文將帶領讀者從環境設定、API 串接，到掌握其獨特的「思考能力」與「搜尋整合」功能。無論是追求 4K 高畫質輸出，還是複雜的圖文整合，這份完整指南將協助開發者充分發揮這款 AI 工具的潛力，打造令人驚艷的創意應用。建議搭配原文https://x.com/GoogleAIStudio/article/1992267030050083091 導言：AI 繪圖的全新進化想像一下，如果 AI 不僅僅是聽從指令畫圖，而是像一位真正的藝術家一樣，在動筆前會先仔細思考構圖、邏輯甚至去查閱最新的資料，那會是什麼樣的體驗？Google AI Studio 最新推出的 Nano Banana Pro（即 Gemini 3 Pro Image）正是這樣一款突破性的工具。相較於強調速度與性價比的 Flash 版本（Nano Banana），這款 Pro 版本引入了更為高階的功能：它具備「思考」能力、能結合 Google 搜尋結果，甚至支援驚人的 4K 解析度輸出。對於開發者與專業創作者來說，這意味著創作複雜、高精細度應用的門檻大幅降低。這不僅僅是畫素的提升，更是創作邏輯的轉變。接下來，本文將一步步拆解如何使用這款強大的工具。 1. Google AI Studio：開發者的最佳試驗場對於終端使用者來說，或許透過 Gemini App 就能體驗到新模型的功能，但對於開發者而言，Google AI Studio 才是真正展現身手的地方。這裡不僅是用來測試提示詞（Prompts）的沙盒，更是未來透過 Gemini API 建構應用程式的起點。要開始使用 Nano Banana Pro，你需要前往 Google AI Studio 並登入 Google 帳號。在模型選擇器中，請準確選取 Nano Banana Pro (Gemini 3 Pro Image)。這裡有一個關鍵差異需要注意：與普通的 Nano Banana 不同，Pro 版本沒有免費層級。這意味著在開始之前，必須確保專案已連結計費帳戶。雖然這聽起來增加了一些門檻，但考慮到其提供的功能，這筆投資往往是值得的。

Nov 24, 2025 Read →

A …

news

AI 日報 Google 全面更新 Gemini 3 模型與開發工具，Antigravity 平台重新定義程式碼編寫

Google 本週發布了震撼科技圈的重大更新，不僅推出了推理能力大幅提升的 Gemini 3 模型，更展示了全新的 Antigravity 開發平台，試圖徹底改變開發者與 AI 的協作模式。從終端機的 CLI 工具到學術研究的 Scholar Labs，甚至是微軟與 Anthropic 的戰略結盟，本文將深入剖析這些變革如何影響未來的工作流。科技圈的節奏總是讓人目不暇給，這週的更新尤其令人感到興奮。Google 似乎決定在同一時間釋放所有累積已久的研發能量，從底層模型到終端應用，幾乎每一個環節都迎來了重大升級。這不僅僅是版本號的跳轉，更像是一種宣告：AI 正在從單純的對話機器人，轉變為能夠主動規劃、執行並完成複雜任務的「代理人」（Agent）。如果您是一名開發者，或者密切關注 AI 工具如何改變工作方式的人，那麼 Gemini 3 的發布以及伴隨而來的 Antigravity 平台，絕對是值得花時間深入了解的轉折點。這篇文章將詳細拆解這些新工具的實際應用場景，並整合最新的產業動態。 1. Gemini 3：推理與「Vibe Coding」的全新高度 Google 正式推出了 Gemini 3 模型，這是目前該公司最智慧的模型。這次升級的核心不在於單純的數據堆疊，而在於「推理能力（Reasoning）」的質變。什麼是 Vibe Coding？大家可能聽過「Prompt Engineering」（提示工程），但 Gemini 3 強調的是 “Vibe Coding”。這是一個相當有趣的詞彙，意指開發者不再需要拘泥於完美的語法或死板的指令，而是可以透過自然語言，將腦中的「感覺」或「高層次想法」傳達給 AI。 Gemini 3 在處理模糊指令、長文本上下文（Context）以及複雜工具調用方面表現出色。這意味著，當您說「做一個看起來很復古、有點 80 年代風格的網頁遊戲」時，它不僅能理解您的美學要求，還能處理背後的多步驟規劃、編寫程式碼並生成豐富的視覺效果。視覺與空間推理的突破除了文字和程式碼，Gemini 3 在多模態（Multimodal）理解上也設下了新標準：影片推理（Video Reasoning）：它能以高幀率理解影片內容，從長達數小時的影片中精準定位特定細節，這對於影片剪輯或內容分析來說極具價值。空間推理（Spatial Reasoning）：這點對於機器人技術和 XR（擴展實境）裝置至關重要。模型現在能更準確地預測軌跡、理解螢幕上的使用者意圖（例如滑鼠移動的路徑），這為未來的自動化操作鋪平了道路。 2. Google Antigravity：不只是 IDE，這是 AI 代理的基地如果說 Gemini 3 是大腦，那麼 Google Antigravity 就是它的身體與工作站。

Nov 19, 2025 Read →

震撼彈！Gemini 2.5 Pro 讓影片「開口說話」，6小時長片、程式碼互動全搞定！

哇！Google AI 又放大絕了？這回輪到影片理解大升級！

影片不只能看，還能「玩」？Gemini 2.5 的神奇魔法！

魔法一：讓 YouTube 影片變成你的專屬學習 App！

魔法二：一句話，影片秒變 p5.js 動畫！

火眼金睛！Gemini 2.5 Pro 幫你抓住影片的每個精彩瞬間

時間都去哪兒了？Gemini 2.5 Pro 的時間推理超能力

想自己動手玩？用 Gemini 2.5 打造你的影片黑科技！

幕後英雄們，謝謝啦！

資料來源

DMflow.chat

videoweaver.app

DMflow.chat

scribis.app

DMflow.chat

videoweaver.app

DMflow.chat

scribis.app

Recommended for You

Gemini 3 Flash：Google 如何打破「聰明即緩慢」的 AI 慣例？

掌握 Google 最新影像模型：Nano Banana Pro 開發者實戰手冊

AI 日報 Google 全面更新 Gemini 3 模型與開發工具，Antigravity 平台重新定義程式碼編寫

Leaving Website