Gemini 2.5 Computer Use 終極指南：從入門到實作，打造你的 AI 自動化助理

Google DeepM

oogle DeepMind 推出的 G

d 推出的 Gemini 2.5 C

34;前往 aistudio.googl

式碼：在 GitHub 參考實作

news

Gemini 2.5 Computer Use 終極指南：從入門到實作，打造你的 AI 自動化助理

2025-10-08

Google DeepMind 推出的 Gemini 2.5 Computer Use 模型，讓 AI 真正學會「操作電腦」。這不僅是技術突破，更是自動化的未來。本文將從核心概念、應用場景，到手把手的 Python 實作教學，帶你全面掌握這項強大工具。

你有沒有想過，如果 AI 不僅能跟你對話，還能像一位真人助理，親手「操作」你的電腦或手機應用程式，那會是什麼樣子？它不再只是透過冷冰冰的程式碼傳遞指令，而是能直接看懂畫面，然後點擊按鈕、填寫表單、拖曳檔案。

這聽起來像是科幻電影的情節，但 Google DeepMind 最新發布的 Gemini 2.5 Computer Use 模型，正讓這一切成為現實。這是一個基於 Gemini 2.5 Pro 強大視覺理解與推理能力所打造的特化模型，它的目標很明確：賦予 AI 代理（Agent）一雙能看懂並操作使用者介面（UI）的「手」。

為何我們需要一個會「用電腦」的 AI？

過去的 AI 與軟體互動，大多依賴 API（應用程式介面）。你可以把 API 想像成一個軟體的「點餐單」，AI 只能根據上面寫好的選項來下指令。這種方式雖然高效，但限制非常大。

現實世界中，無數的數位任務——從線上預訂餐廳、填寫複雜的申請表，到管理專案看板——都需要直接與圖形使用者介面（GUI）互動。我們需要點擊、輸入、滾動、選擇下拉選單。這些對人類來說再自然不過的動作，對傳統 AI 而言卻像一道難以跨越的鴻溝。

Gemini 2.5 Computer Use 的出現，就是為了解決這個根本問題。它能讓 AI 代理真正做到：

自動化重複性資料輸入： 不再需要手動複製貼上，讓 AI 為你填寫網站上的各種表單。
執行自動化測試： 模擬真實使用者的操作流程，對網頁應用程式進行端對端的測試。
跨網站研究與資訊整合： 讓 AI 代理瀏覽多個電商網站，蒐集產品資訊、價格和評論，幫助你做出購買決策。

這一步，對於建立更強大、更通用的 AI 代理至關重要。

它是如何運作的？解密幕後的「代理迴圈」

那麼，這個模型究竟是如何像人一樣「看」和「做」的呢？它的核心運作機制，是一個不斷循環的「代理迴圈」（Agent Loop）。整個流程可以簡化成以下四個步驟：

發送請求 (Send a request to the model): 你給 AI 一個任務（例如「幫我找找評分最高的智慧冰箱」），同時附上當前螢幕的截圖。
接收模型回應 (Receive the model response): 模型會「看到」截圖，分析你的請求，然後決定下一步該做什麼。它會回傳一個具體的 UI 操作指令，例如「在座標 (371, 470) 的搜尋框輸入文字」。這個回應還可能包含一個安全決策，提醒你此操作是否存在風險。
執行收到的動作 (Execute the received action): 你的應用程式（用戶端程式碼）接收到這個指令後，便會實際執行這個點擊或輸入的動作。如果模型要求使用者確認，你的程式就需要先跳出提示，等待使用者同意。
擷取新的環境狀態 (Capture the new environment state): 動作完成後，你的程式會擷取一張新的螢幕截圖，連同操作結果一起回傳給模型。

接著，這個過程會從第 2 步重新開始，模型會根據新的畫面決定下一步動作，如此循環往復，直到整個任務完成。

手把手教學：用 Python 和 Playwright 打造你的第一個 AI 代理

理論聽起來很酷，但怎麼實際動手做呢？接下來，我們將使用 Python 和 Playwright（一個強大的瀏覽器自動化工具）來建立一個簡單的 AI 代理。

第 0 步：環境準備

在開始之前，你需要兩樣東西：

安全的執行環境： 由於 AI 代理會實際操作瀏覽器，強烈建議在一個受控的環境中執行，例如沙盒化的虛擬機、容器（Docker），或是一個權限受限的瀏覽器設定檔。
用戶端動作處理器： 你需要編寫程式碼來執行模型產生的指令（例如點擊、輸入）並擷取螢幕畫面。這就是 Playwright 要發揮作用的地方。

第 1 步：安裝必要套件

打開你的終端機，輸入以下指令來安裝 Google Generative AI 和 Playwright 的 Python 函式庫。

pip install google-genai playwright
playwright install chromium

第 2 步：初始化 Playwright 瀏覽器

我們需要建立一個 Python 腳本，並初始化一個由 Playwright 控制的瀏覽器視窗。這將是我們 AI 代理的工作空間。

from playwright.sync_api import sync_playwright

# 1. 設定目標環境的螢幕尺寸
SCREEN_WIDTH = 1440
SCREEN_HEIGHT = 900

# 2. 啟動 Playwright 瀏覽器
# 在生產環境中，請使用沙盒環境
playwright = sync_playwright().start()
# 設定 headless=False 可以在螢幕上看到 AI 的操作過程
browser = playwright.chromium.launch(headless=False)

# 3. 建立具有指定尺寸的上下文和頁面
context = browser.new_context(
    viewport={"width": SCREEN_WIDTH, "height": SCREEN_HEIGHT}
)
page = context.new_page()

# 4. 導航到一個初始頁面開始任務
page.goto("https://www.google.com")

print("瀏覽器已初始化，準備開始任務。")

第 3 步：建構代理迴圈

這是整個專案的核心。我們將實作前面提到的四步迴圈，讓 AI 能夠持續與瀏覽器互動。

首先，我們需要一些輔助函式來執行模型的回應並回傳結果。

# 輔助函式：將模型回傳的正規化座標 (0-999) 轉換為實際像素座標
def denormalize_x(x, screen_width):
    return int(x / 1000 * screen_width)

def denormalize_y(y, screen_height):
    return int(y / 1000 * screen_height)

# 輔助函式：執行模型回傳的 function calls
def execute_function_calls(candidate, page, screen_width, screen_height):
    results = []
    for part in candidate.content.parts:
        if not part.function_call:
            continue
        
        fname = part.function_call.name
        args = part.function_call.args
        print(f"-> 正在執行: {fname}，參數: {args}")

        try:
            if fname == "click_at":
                x = denormalize_x(args["x"], screen_width)
                y = denormalize_y(args["y"], screen_height)
                page.mouse.click(x, y)
            elif fname == "type_text_at":
                x = denormalize_x(args["x"], screen_width)
                y = denormalize_y(args["y"], screen_height)
                page.mouse.click(x, y)
                page.keyboard.type(args["text"])
                if args.get("press_enter", False):
                    page.keyboard.press("Enter")
            # ... 在此處實現其他支援的動作 ...
            else:
                 print(f"警告: 未實現的函式 {fname}")
            
            # 等待頁面加載
            page.wait_for_load_state(timeout=5000)
            results.append((fname, {"status": "success"}))
        except Exception as e:
            print(f"錯誤: 執行 {fname} 時發生錯誤: {e}")
            results.append((fname, {"error": str(e)}))
            
    return results

# 輔助函式：擷取新的螢幕狀態並打包成回傳格式
def get_function_responses(page, results):
    screenshot_bytes = page.screenshot(type="png")
    current_url = page.url
    
    function_responses = []
    for name, result in results:
        response_data = {"url": current_url, **result}
        function_responses.append({
            "name": name,
            "response": response_data,
            "screenshot": screenshot_bytes
        })
    return function_responses

現在，將所有部分組合起來，形成完整的代理迴圈。

# (請確保您已設定好您的 genai API 金鑰)
import google.genai as genai
from google.genai import types

# --- 完整的代理迴圈主程式 ---
try:
    # 1. 設定模型
    model = genai.GenerativeModel(
        'gemini-2.5-computer-use-preview-10-2025',
        tools=[types.Tool(
            computer_use=types.ComputerUse(
                environment=types.Environment.ENVIRONMENT_BROWSER
            )
        )]
    )
    chat = model.start_chat()

    # 2. 初始化任務
    USER_PROMPT = "前往 aistudio.google.com 並搜尋關於 agents 的文件"
    print(f"目標: {USER_PROMPT}")
    
    initial_screenshot = page.screenshot(type="png")
    
    # 3. 進入代理迴圈
    turn_limit = 10
    for i in range(turn_limit):
        print(f"\n--- 第 {i+1} 輪 ---")
        
        # 發送請求給模型
        if i == 0:
            response = chat.send_message(
                [USER_PROMPT, initial_screenshot],
            )
        else:
            response = chat.send_message(function_responses)
            
        # 接收並執行模型的回應
        candidate = response.candidates[0]
        
        if not any(part.function_call for part in candidate.content.parts):
            print("代理完成:", candidate.content.parts[0].text)
            break
        
        results = execute_function_calls(candidate, page, SCREEN_WIDTH, SCREEN_HEIGHT)
        
        # 擷取新狀態並準備下一輪
        print("-> 正在擷取新狀態...")
        function_responses = get_function_responses(page, results)
        
finally:
    # 清理資源
    print("\n任務結束，關閉瀏覽器...")
    browser.close()
    playwright.stop()

AI 的工具箱：支援的 UI 動作

Gemini 2.5 Computer Use 模型可以生成多種 UI 操作指令，以下是一些最常用的：

click_at(x, y): 在指定的座標點擊滑鼠。
type_text_at(x, y, text, ...): 在指定座標點擊後輸入文字。
drag_and_drop(from_x, from_y, to_x, to_y): 拖曳一個元素到另一個位置。
scroll_document(direction): 向特定方向滾動整個頁面。
navigate(url): 直接導航到指定的 URL。
key_combination(keys): 按下組合鍵，如 “Control+C”。

安全性：賦予 AI 強大能力，更要套上「韁繩」

讓 AI 掌握電腦的控制權是一把雙面刃。惡意使用、網路釣魚、誤操作等風險也隨之而來。因此，從一開始就建立完善的安全護欄至關重要。Google 提供了多層次的防護措施：

人類參與迴圈 (Human-in-the-Loop): 當模型的回應中包含 require_confirmation 的安全決策時，你的程式必須暫停並請求使用者確認，才能繼續執行。你不能編寫程式碼繞過這個請求。
自訂安全指令: 開發者可以提供自訂的系統指令，來限制模型的行為。例如，你可以設定規則，禁止 AI 點擊任何「同意服務條款」的按鈕，或是在進行任何金融交易前都必須獲得使用者授權。
安全執行環境: 再次強調，在沙盒化的環境中執行代理，可以大幅限制潛在的負面影響。

開發者有責任謹慎對待這些風險，並實施適當的安全措施。

demo影片

結論與下一步

Gemini 2.5 Computer Use 的推出，不僅是 AI 技術的一大步，也為人機互動的未來開啟了全新的想像空間。一個真正能理解我們、並為我們分擔數位世界繁瑣任務的通用 AI 代理，或許已經離我們不遠了。

準備好開始打造你的 AI 助理了嗎？

立即試用： 前往由 Browserbase 託管的展示環境，親身體驗它的操作。
查看範例程式碼： 在 GitHub 參考實作中找到更完整的程式碼範例。
加入社群： 在開發者論壇中分享你的想法和回饋，與全球的開發者一同塑造這項技術的未來。
文檔: https://ai.google.dev/gemini-api/docs/computer-use

分享至:

Featured Partners

SPONSORED

DMflow.chat

DMflow.chat: 您的智能AI夥伴，提升客戶互動、創造卓越體驗。

Learn More

SPONSORED

videoweaver.app

Video Weaver: 瀏覽器內完成專業影片剪輯，無需下載、即刻創作。

Learn More

SPONSORED

scribis.app

Scribis: 字幕編輯、語音轉錄文字、即時顯示轉錄文字。

Learn More

SPONSORED

DMflow.chat

探索DMflow.chat，立即開啟AI驅動的客戶服務新時代。

Learn More

SPONSORED

DMflow.chat

DMflow.chat: 您的智能AI夥伴，提升客戶互動、創造卓越體驗。

Learn More

SPONSORED

videoweaver.app

Video Weaver: 瀏覽器內完成專業影片剪輯，無需下載、即刻創作。

Learn More

SPONSORED

scribis.app

Scribis: 字幕編輯、語音轉錄文字、即時顯示轉錄文字。

Learn More

SPONSORED

DMflow.chat

探索DMflow.chat，立即開啟AI驅動的客戶服務新時代。

Learn More

Recommended for You

G …

news

Gemini 3 Flash：Google 如何打破「聰明即緩慢」的 AI 慣例？

還記得嗎？過去挑選 AI 模型時，總感覺像在做一道兩難的選擇題：究竟要選一個「腦袋好，但反應慢、價格貴」的頂級模型，還是要一個「反應快、便宜，但偶爾會犯傻」的輕量級選手？這就像在追求速度與智慧之間，被迫做出取捨。 Google 最新的力作 Gemini 3 Flash 徹底改寫了這套規則。它不只快，還聰明得令人驚訝，而且價格出乎意料地親民。這款模型專為需要「高頻率互動」的工作流程而生，目標明確：證明強大的智慧完全可以跟閃電般的速度並存。數據會說話：速度與智力雙重升級當說 Gemini 3 Flash 又快又聰明時，這並非空口無憑。它在各項關鍵測試中的表現，讓人眼前一亮：程式設計強者：在代理式程式設計（agentic coding）的 SWE-bench Verified 評測中，Gemini 3 Flash 拿下了 78% 的高分。這不僅超越了先前的 2.5 系列，甚至擊敗了自家的旗艦老大哥 Gemini 3 Pro。這意味著在自動化撰寫程式碼方面，它不僅反應靈敏，而且品質極高。頂尖邏輯：在衡量研究生等級推理能力的 GPQA Diamond 測試中，它取得了 90.4% 的驚人成績，證明其邏輯思考能力已達頂尖水準。多模態全能：在處理圖片與影片的 MMMU Pro 測試中，它獲得了 81.2% 的分數，與 Gemini 3 Pro 不相上下。 Gemini 3 Flash 在「品質」、「成本」和「速度」這三個通常互相牽制的維度上，找到了近乎完美的甜蜜點。開發者的即時戰力：跟得上思考速度的智慧對於開發者而言，Gemini 3 Flash 的出現不僅僅是升級，更是一種工作流的解放。它專為「迭代式開發（iterative development）」打造，這意味著它能以極低的延遲提供 Pro 等級的程式碼編寫能力。無論是建構代理系統（Agentic systems）還是需要即時反應的應用程式，它都能輕鬆駕馭。以下是 Gemini 3 Flash 在實際開發場景中的幾個亮點應用：

Dec 18, 2025 Read →

掌 …

news

掌握 Google 最新影像模型：Nano Banana Pro 開發者實戰手冊

想要深入了解 Google 最新的 Nano Banana Pro (Gemini 3 Pro Image) 模型嗎？本文將帶領讀者從環境設定、API 串接，到掌握其獨特的「思考能力」與「搜尋整合」功能。無論是追求 4K 高畫質輸出，還是複雜的圖文整合，這份完整指南將協助開發者充分發揮這款 AI 工具的潛力，打造令人驚艷的創意應用。建議搭配原文https://x.com/GoogleAIStudio/article/1992267030050083091 導言：AI 繪圖的全新進化想像一下，如果 AI 不僅僅是聽從指令畫圖，而是像一位真正的藝術家一樣，在動筆前會先仔細思考構圖、邏輯甚至去查閱最新的資料，那會是什麼樣的體驗？Google AI Studio 最新推出的 Nano Banana Pro（即 Gemini 3 Pro Image）正是這樣一款突破性的工具。相較於強調速度與性價比的 Flash 版本（Nano Banana），這款 Pro 版本引入了更為高階的功能：它具備「思考」能力、能結合 Google 搜尋結果，甚至支援驚人的 4K 解析度輸出。對於開發者與專業創作者來說，這意味著創作複雜、高精細度應用的門檻大幅降低。這不僅僅是畫素的提升，更是創作邏輯的轉變。接下來，本文將一步步拆解如何使用這款強大的工具。 1. Google AI Studio：開發者的最佳試驗場對於終端使用者來說，或許透過 Gemini App 就能體驗到新模型的功能，但對於開發者而言，Google AI Studio 才是真正展現身手的地方。這裡不僅是用來測試提示詞（Prompts）的沙盒，更是未來透過 Gemini API 建構應用程式的起點。要開始使用 Nano Banana Pro，你需要前往 Google AI Studio 並登入 Google 帳號。在模型選擇器中，請準確選取 Nano Banana Pro (Gemini 3 Pro Image)。這裡有一個關鍵差異需要注意：與普通的 Nano Banana 不同，Pro 版本沒有免費層級。這意味著在開始之前，必須確保專案已連結計費帳戶。雖然這聽起來增加了一些門檻，但考慮到其提供的功能，這筆投資往往是值得的。

Nov 24, 2025 Read →

A …

news

AI 日報 Google 全面更新 Gemini 3 模型與開發工具，Antigravity 平台重新定義程式碼編寫

Google 本週發布了震撼科技圈的重大更新，不僅推出了推理能力大幅提升的 Gemini 3 模型，更展示了全新的 Antigravity 開發平台，試圖徹底改變開發者與 AI 的協作模式。從終端機的 CLI 工具到學術研究的 Scholar Labs，甚至是微軟與 Anthropic 的戰略結盟，本文將深入剖析這些變革如何影響未來的工作流。科技圈的節奏總是讓人目不暇給，這週的更新尤其令人感到興奮。Google 似乎決定在同一時間釋放所有累積已久的研發能量，從底層模型到終端應用，幾乎每一個環節都迎來了重大升級。這不僅僅是版本號的跳轉，更像是一種宣告：AI 正在從單純的對話機器人，轉變為能夠主動規劃、執行並完成複雜任務的「代理人」（Agent）。如果您是一名開發者，或者密切關注 AI 工具如何改變工作方式的人，那麼 Gemini 3 的發布以及伴隨而來的 Antigravity 平台，絕對是值得花時間深入了解的轉折點。這篇文章將詳細拆解這些新工具的實際應用場景，並整合最新的產業動態。 1. Gemini 3：推理與「Vibe Coding」的全新高度 Google 正式推出了 Gemini 3 模型，這是目前該公司最智慧的模型。這次升級的核心不在於單純的數據堆疊，而在於「推理能力（Reasoning）」的質變。什麼是 Vibe Coding？大家可能聽過「Prompt Engineering」（提示工程），但 Gemini 3 強調的是 “Vibe Coding”。這是一個相當有趣的詞彙，意指開發者不再需要拘泥於完美的語法或死板的指令，而是可以透過自然語言，將腦中的「感覺」或「高層次想法」傳達給 AI。 Gemini 3 在處理模糊指令、長文本上下文（Context）以及複雜工具調用方面表現出色。這意味著，當您說「做一個看起來很復古、有點 80 年代風格的網頁遊戲」時，它不僅能理解您的美學要求，還能處理背後的多步驟規劃、編寫程式碼並生成豐富的視覺效果。視覺與空間推理的突破除了文字和程式碼，Gemini 3 在多模態（Multimodal）理解上也設下了新標準：影片推理（Video Reasoning）：它能以高幀率理解影片內容，從長達數小時的影片中精準定位特定細節，這對於影片剪輯或內容分析來說極具價值。空間推理（Spatial Reasoning）：這點對於機器人技術和 XR（擴展實境）裝置至關重要。模型現在能更準確地預測軌跡、理解螢幕上的使用者意圖（例如滑鼠移動的路徑），這為未來的自動化操作鋪平了道路。 2. Google Antigravity：不只是 IDE，這是 AI 代理的基地如果說 Gemini 3 是大腦，那麼 Google Antigravity 就是它的身體與工作站。

Nov 19, 2025 Read →

Gemini 2.5 Computer Use 終極指南：從入門到實作，打造你的 AI 自動化助理

為何我們需要一個會「用電腦」的 AI？

它是如何運作的？解密幕後的「代理迴圈」

手把手教學：用 Python 和 Playwright 打造你的第一個 AI 代理

第 0 步：環境準備

第 1 步：安裝必要套件

第 2 步：初始化 Playwright 瀏覽器

第 3 步：建構代理迴圈

AI 的工具箱：支援的 UI 動作

安全性：賦予 AI 強大能力，更要套上「韁繩」

demo影片

結論與下一步

DMflow.chat

videoweaver.app

scribis.app

DMflow.chat

DMflow.chat

videoweaver.app

scribis.app

DMflow.chat

Recommended for You

Gemini 3 Flash：Google 如何打破「聰明即緩慢」的 AI 慣例？

掌握 Google 最新影像模型：Nano Banana Pro 開發者實戰手冊

AI 日報 Google 全面更新 Gemini 3 模型與開發工具，Antigravity 平台重新定義程式碼編寫

Leaving Website