Gemini 2.5 Computer Use 终极指南：从入门到实作，打造你的 AI 自动化助理

Google DeepMind 推出的 Gemini 2.5 Computer Use 模型，让 AI 真正学会「操作电脑」。这不仅是技术突破，更是自动化的未来。本文将从核心概念、应用场景，到手把手的 Python 实作教学，带你全面掌握这项强大工具。

你有没有想过，如果 AI 不仅能跟你对话，还能像一位真人助理，亲手「操作」你的电脑或手机应用程式，那会是什么样子？它不再只是透过冷冰冰的程式码传递指令，而是能直接看懂画面，然后点击按钮、填写表单、拖曳档案。

这听起来像是科幻电影的情节，但 Google DeepMind 最新发布的 Gemini 2.5 Computer Use 模型，正让这一切成为现实。这是一个基于 Gemini 2.5 Pro 强大视觉理解与推理能力所打造的特化模型，它的目标很明确：赋予 AI 代理（Agent）一双能看懂并操作使用者介面（UI）的「手」。

为何我们需要一个会「用电脑」的 AI？

过去的 AI 与软体互动，大多依赖 API（应用程式介面）。你可以把 API 想像成一个软体的「点餐单」，AI 只能根据上面写好的选项来下指令。这种方式虽然高效，但限制非常大。

现实世界中，无数的数位任务——从线上预订餐厅、填写复杂的申请表，到管理专案看板——都需要直接与图形使用者介面（GUI）互动。我们需要点击、输入、滚动、选择下拉选单。这些对人类来说再自然不过的动作，对传统 AI 而言却像一道难以跨越的鸿沟。

Gemini 2.5 Computer Use 的出现，就是为了解决这个根本问题。它能让 AI 代理真正做到：

自动化重复性资料输入： 不再需要手动复制贴上，让 AI 为你填写网站上的各种表单。
执行自动化测试： 模拟真实使用者的操作流程，对网页应用程式进行端对端的测试。
跨网站研究与资讯整合： 让 AI 代理浏览多个电商网站，搜集产品资讯、价格和评论，帮助你做出购买决策。

这一步，对于建立更强大、更通用的 AI 代理至关重要。

它是如何运作的？解密幕后的「代理回圈」

那么，这个模型究竟是如何像人一样「看」和「做」的呢？它的核心运作机制，是一个不断循环的「代理回圈」（Agent Loop）。整个流程可以简化成以下四个步骤：

发送请求 (Send a request to the model): 你给 AI 一个任务（例如「帮我找找评分最高的智慧冰箱」），同时附上当前萤幕的截图。
接收模型回应 (Receive the model response): 模型会「看到」截图，分析你的请求，然后决定下一步该做什么。它会回传一个具体的 UI 操作指令，例如「在座标 (371, 470) 的搜寻框输入文字」。这个回应还可能包含一个安全决策，提醒你此操作是否存在风险。
执行收到的动作 (Execute the received action): 你的应用程式（用户端程式码）接收到这个指令后，便会实际执行这个点击或输入的动作。如果模型要求使用者确认，你的程式就需要先跳出提示，等待使用者同意。
撷取新的环境状态 (Capture the new environment state): 动作完成后，你的程式会撷取一张新的萤幕截图，连同操作结果一起回传给模型。

接着，这个过程会从第 2 步重新开始，模型会根据新的画面决定下一步动作，如此循环往复，直到整个任务完成。

手把手教学：用 Python 和 Playwright 打造你的第一个 AI 代理

理论听起来很酷，但怎么实际动手做呢？接下来，我们将使用 Python 和 Playwright（一个强大的浏览器自动化工具）来建立一个简单的 AI 代理。

第 0 步：环境准备

在开始之前，你需要两样东西：

安全的执行环境： 由于 AI 代理会实际操作浏览器，强烈建议在一个受控的环境中执行，例如沙盒化的虚拟机器、容器（Docker），或是一个权限受限的浏览器设定档。
用户端动作处理器： 你需要编写程式码来执行模型产生的指令（例如点击、输入）并撷取萤幕画面。这就是 Playwright 要发挥作用的地方。

第 1 步：安装必要套件

打开你的终端机，输入以下指令来安装 Google Generative AI 和 Playwright 的 Python 函式库。

pip install google-genai playwright
playwright install chromium

第 2 步：初始化 Playwright 浏览器

我们需要建立一个 Python 脚本，并初始化一个由 Playwright 控制的浏览器视窗。这将是-我们 AI 代理的工作空间。

from playwright.sync_api import sync_playwright

# 1. 设定目标环境的萤幕尺寸
SCREEN_WIDTH = 1440
SCREEN_HEIGHT = 900

# 2. 启动 Playwright 浏览器
# 在生产环境中，请使用沙盒环境
playwright = sync_playwright().start()
# 设定 headless=False 可以在萤幕上看到 AI 的操作过程
browser = playwright.chromium.launch(headless=False)

# 3. 建立具有指定尺寸的上下文和页面
context = browser.new_context(
    viewport={"width": SCREEN_WIDTH, "height": SCREEN_HEIGHT}
)
page = context.new_page()

# 4. 导航到一个初始页面开始任务
page.goto("https://www.google.com")

print("浏览器已初始化，准备开始任务。")

第 3 步：建构代理回圈

这是整个专案的核心。我们将实作前面提到的四步回圈，让 AI 能够持续与浏览器互动。

首先，我们需要一些辅助函式来执行模型的回应并回传结果。

# 辅助函式：将模型回传的正规化座标 (0-999) 转换为实际像素座标
def denormalize_x(x, screen_width):
    return int(x / 1000 * screen_width)

def denormalize_y(y, screen_height):
    return int(y / 1000 * screen_height)

# 辅助函式：执行模型回传的 function calls
def execute_function_calls(candidate, page, screen_width, screen_height):
    results = []
    for part in candidate.content.parts:
        if not part.function_call:
            continue
        
        fname = part.function_call.name
        args = part.function_call.args
        print(f"-> 正在执行: {fname}，参数: {args}")

        try:
            if fname == "click_at":
                x = denormalize_x(args["x"], screen_width)
                y = denormalize_y(args["y"], screen_height)
                page.mouse.click(x, y)
            elif fname == "type_text_at":
                x = denormalize_x(args["x"], screen_width)
                y = denormalize_y(args["y"], screen_height)
                page.mouse.click(x, y)
                page.keyboard.type(args["text"])
                if args.get("press_enter", False):
                    page.keyboard.press("Enter")
            # ... 在此处实现其他支援的动作 ...
            else:
                 print(f"警告: 未实现的函式 {fname}")
            
            # 等待页面加载
            page.wait_for_load_state(timeout=5000)
            results.append((fname, {"status": "success"}))
        except Exception as e:
            print(f"错误: 执行 {fname} 时发生错误: {e}")
            results.append((fname, {"error": str(e)}))
            
    return results

# 辅助函式：撷取新的萤幕状态并打包成回传格式
def get_function_responses(page, results):
    screenshot_bytes = page.screenshot(type="png")
    current_url = page.url
    
    function_responses = []
    for name, result in results:
        response_data = {"url": current_url, **result}
        function_responses.append({
            "name": name,
            "response": response_data,
            "screenshot": screenshot_bytes
        })
    return function_responses

现在，将所有部分组合起来，形成完整的代理回圈。

# (请确保您已设定好您的 genai API 金钥)
import google.genai as genai
from google.genai import types

# --- 完整的代理回圈主程式 ---
try:
    # 1. 设定模型
    model = genai.GenerativeModel(
        'gemini-2.5-computer-use-preview-10-2025',
        tools=[types.Tool(
            computer_use=types.ComputerUse(
                environment=types.Environment.ENVIRONMENT_BROWSER
            )
        )]
    )
    chat = model.start_chat()

    # 2. 初始化任务
    USER_PROMPT = "前往 aistudio.google.com 并搜寻关于 agents 的文件"
    print(f"目标: {USER_PROMPT}")
    
    initial_screenshot = page.screenshot(type="png")
    
    # 3. 进入代理回圈
    turn_limit = 10
    for i in range(turn_limit):
        print(f"\n--- 第 {i+1} 轮 ---")
        
        # 发送请求给模型
        if i == 0:
            response = chat.send_message(
                [USER_PROMPT, initial_screenshot],
            )
        else:
            response = chat.send_message(function_responses)
            
        # 接收并执行模型的回应
        candidate = response.candidates[0]
        
        if not any(part.function_call for part in candidate.content.parts):
            print("代理完成:", candidate.content.parts[0].text)
            break
        
        results = execute_function_calls(candidate, page, SCREEN_WIDTH, SCREEN_HEIGHT)
        
        # 撷取新状态并准备下一轮
        print("-> 正在撷取新状态...")
        function_responses = get_function_responses(page, results)
        
finally:
    # 清理资源
    print("\n任务结束，关闭浏览器...")
    browser.close()
    playwright.stop()

AI 的工具箱：支援的 UI 动作

Gemini 2.5 Computer Use 模型可以生成多种 UI 操作指令，以下是一些最常用的：

click_at(x, y): 在指定的座标点击滑鼠。
type_text_at(x, y, text, ...): 在指定座标点击后输入文字。
drag_and_drop(from_x, from_y, to_x, to_y): 拖曳一个元素到另一个位置。
scroll_document(direction): 向特定方向滚动整个页面。
navigate(url): 直接导航到指定的 URL。
key_combination(keys): 按下组合键，如 “Control+C”。

安全性：赋予 AI 强大能力，更要套上「缰绳」

让 AI 掌握电脑的控制权是一把双面刃。恶意使用、网路钓鱼、误操作等风险也随之而来。因此，从一开始就建立完善的安全护栏至关重要。 Google 提供了多层次的防护措施：

人类参与回圈 (Human-in-the-Loop): 当模型的回应中包含 require_confirmation 的安全决策时，你的程式必须暂停并请求使用者确认，才能继续执行。你不能编写程式码绕过这个请求。
自订安全指令: 开发人员可以提供自订的系统指令，来限制模型的行为。例如，你可以设定规则，禁止 AI 点击任何「同意服务条款」的按钮，或是在进行任何金融交易前都必须获得使用者授权。
安全执行环境: 再次强调，在沙盒化的环境中执行代理，可以大幅限制潜在的负面影响。

开发人员有责任谨慎对待这些风险，并实施适当的安全措施。

demo影片

结论与下一步

Gemini 2.5 Computer Use 的推出，不仅是 AI 技术的一大步，也为人机互动的未来开启了全新的想像空间。一个真正能理解我们、并为我们分担数位世界繁琐任务的通用 AI 代理，或许已经离我们不远了。

准备好开始打造你的 AI 助理了吗？

立即试用： 前往由 Browserbase 托管的展示环境，亲身体验它的操作。
查看范例程式码： 在 GitHub 参考实作中找到更完整的程式码范例。
加入社群： 在开发人员论坛中分享你的想法和回馈，与全球的开发人员一同塑造这项技术的未来。
文档: https://ai.google.dev/gemini-api/docs/computer-use

分享到:

Featured Partners

SPONSORED

DMflow.chat

DMflow.chat: Your intelligent AI partner for exceptional customer engagement.

Learn More

SPONSORED

videoweaver.app

Video Weaver: Professional video editing directly in your browser. No downloads required.

Learn More

SPONSORED

DMflow.chat

Discover DMflow.chat and unlock the new era of AI-powered customer service.

Learn More

SPONSORED

DMflow.chat

DMflow.chat: Your intelligent AI partner for exceptional customer engagement.

Learn More

SPONSORED

videoweaver.app

Video Weaver: Professional video editing directly in your browser. No downloads required.

Learn More

SPONSORED

DMflow.chat

Discover DMflow.chat and unlock the new era of AI-powered customer service.

Learn More

Recommended for You

A …

news

AI 日报 Google 全面更新 Gemini 3 模型与开发工具，Antigravity 平台重新定义代码编写

Google 本周发布了震撼科技圈的重大更新，不仅推出了推理能力大幅提升的 Gemini 3 模型，更展示了全新的 Antigravity 开发平台，试图彻底改变开发者与 AI 的协作模式。从终端的 CLI 工具到学术研究的 Scholar Labs，甚至是微软与 Anthropic 的战略结盟，本文将深入剖析这些变革如何影响未来的工作流。科技圈的节奏总是让人目不暇给，这周的更新尤其令人感到兴奋。Google 似乎决定在同一时间释放所有累积已久的研发能量，从底层模型到终端应用，几乎每一个环节都迎来了重大升级。这不仅仅是版本号的跳转，更像是一种宣告：AI 正在从单纯的对话机器人，转变为能够主动规划、执行并完成复杂任务的“代理人”（Agent）。如果您是一名开发者，或者密切关注 AI 工具如何改变工作方式的人，那么 Gemini 3 的发布以及伴随而来的 Antigravity 平台，绝对是值得花时间深入了解的转折点。这篇文章将详细拆解这些新工具的实际应用场景，并整合最新的产业动态。 1. Gemini 3：推理与“Vibe Coding”的全新高度 Google 正式推出了 Gemini 3 模型，这是目前该公司最智慧的模型。这次升级的核心不在于单纯的数据堆叠，而在于“推理能力（Reasoning）”的质变。什么是 Vibe Coding？大家可能听过“Prompt Engineering”（提示工程），但 Gemini 3 强调的是 “Vibe Coding”。这是一个相当有趣的词汇，意指开发者不再需要拘泥于完美的语法或死板的指令，而是可以透过自然语言，将脑中的“感觉”或“高层次想法”传达给 AI。 Gemini 3 在处理模糊指令、长文本上下文（Context）以及复杂工具调用方面表现出色。这意味着，当您说“做一个看起来很复古、有点 80 年代风格的网页游戏”时，它不仅能理解您的美学要求，还能处理背后的多步骤规划、编写代码并生成丰富的视觉效果。视觉与空间推理的突破除了文字和代码，Gemini 3 在多模态（Multimodal）理解上也设下了新标准：影片推理（Video Reasoning）：它能以高帧率理解影片内容，从长达数小时的影片中精准定位特定细节，这对于影片剪辑或内容分析来说极具价值。空间推理（Spatial Reasoning）：这点对于机器人技术和 XR（扩展现实）装置至关重要。模型现在能更准确地预测轨迹、理解萤幕上的使用者意图（例如滑鼠移动的路径），这为未来的自动化操作铺平了道路。 2. Google Antigravity：不只是 IDE，这是 AI 代理的基地如果说 Gemini 3 是大脑，那么 Google Antigravity 就是它的身体与工作站。

Nov 19, 2025 Read →

G …

news

Gemini 3 强势登场：从“Vibe Coding”到 SVG 艺术，它如何重塑开发体验？

Google 正式推出 Gemini 3，这不仅是模型参数的升级，更是“代理编码 (Agentic Coding)”的实际应用落地。从击败 GPT-5.1 的基准测试数据，到全新的 Google Antigravity 开发平台，本文将带您深入了解 Gemini 3 如何透过强大的推理能力与 SVG 生成技术，彻底改变开发者的工作流程。我们更将透过一张“骑单车的鹈鹕”SVG 图像，实证其惊人的空间理解力。科技圈总是不缺新名词，但当 Google AI Studio 的产品负责人 Logan Kilpatrick 说出：“无论你是经验丰富的开发者，还是只凭感觉写程式的 ‘Vibe Coder’，Gemini 3 都能帮你将任何想法变为现实”时，我们知道这次的情况不太一样。 Gemini 3 的出现，标志着 AI 助手从“聊天机器人”正式转职为“行动代理人 (Agent)”。它不再只是被动地回答问题，而是建立在最先进的推理基础上，主动规划、执行并解决复杂问题。核心概念：什么是“代理编码 (Agentic Coding)”？过去我们使用 AI 写程式，往往是“一段一段”地贴上代码，然后自己当胶水把它们黏起来。Gemini 3 试图改变这个流程。透过新推出的 Google Antigravity 平台，开发者与 AI 的关系发生了变化。开发者现在更像是一位“架构师”，负责制定高层次的目标；而 Gemini 3 则指挥多个 AI 代理人，在编辑器、终端机 (Terminal) 和浏览器之间协作。这意味着模型可以处理长跨度 (Long-horizon) 的任务。例如，它可以在整个代码库中进行重构、除错，甚至实作新功能，而不会因为档案太多而“忘记”上下文。这解决了过去模型在处理多档案专案时容易断片的问题。 Vibe Coding：自然语言就是唯一的语法 “Vibe Coding”是这次发布中最有趣的词汇之一。它的核心理念是：只要感觉对了，程式就出来了。得益于 Gemini 3 强大的指令依从性 (Instruction Following)，开发者不再需要深陷于繁琐的语法细节。你只需要用自然语言清晰地描述你的“Vibe”（想法或创意），模型就能处理背后复杂的多步骤规划和实作。Google AI Studio 的“Build Mode”甚至允许用户只用一个提示词，就生成一个功能完整的全端应用程式。

Nov 19, 2025 Read →

A …

news

AI日报：OpenAI客户破百万、Gemini API重大更新、UMG与Udio联手重塑AI音乐版图

2025年11月6日，AI领域风起云涌。OpenAI迎来百万企业客户的里程碑，Google持续强化其Gemini生态系统，而音乐产业巨头UMG与AI新创Udio的历史性和解，更可能彻底改变AI生成内容的未来游戏规则。本文将带您快速掌握今日最值得关注的AI发展。 OpenAI的新花招：ChatGPT查询可以“插队”了你有没有过这种经验？向ChatGPT下了一个复杂的指令，看着它辛苦地跑了半天，才突然想到：“哎呀，有个重点忘了说！”结果只能眼睁睁看着它生成完不满意的答案，然后重来一次。好消息是，这种令人扼腕的时刻可能要成为历史了。OpenAI宣布为ChatGPT推出查询暂停功能。现在，当你发现一个正在运行的查询需要调整时，可以直接打断它，加入新的背景信息或修改需求，而不需要从头开始。这功能听起来简单，但对于需要深度研究或使用像GPT-5 Pro这种强大模型的用户来说，简直是天大的福音。模型会根据你“插队”的新指令即时调整回应方向，让整个互动过程变得更加流畅且高效。你只需要在侧边栏点击“更新”，就能轻松补充细节或澄清要求。 Google不断进化：Gemini API结构化输出更听话了 Google宣布强化Gemini API的结构化输出（Structured Outputs）功能。这次更新扩大了对OpenAPI的支持，并且能更好地遵循开发者在schema中定义的属性顺序。这代表什么？简单来说，就是Gemini现在更能精准地按照你设定的“模板”来回复。这对于数据撷取、自动填写数据库等任务至关重要。更棒的是，这也为复杂的多代理（multi-agent）系统铺平了道路——一个代理的标准化输出，可以直接变成下一个代理的标准化输入，中间不再需要繁琐的格式转换，让协作变得天衣无缝。 Gemini CLI工具链更新，开发者生态系再扩张不只API，Google同样在为开发者打造更便利的命令行工具。最新的Gemini CLI v0.12.0版本更新带来了一系列令人兴奋的功能。最引人注目的就是加入了三个新的合作伙伴扩展功能： Hugging Face：让开发者可以直接在命令行中存取Hugging Face Hub的庞大资源。 Monday.com：可以用自然语言分析你的项目进度、更新任务看板。 Data Commons：能够查询庞大的公开数据集，让你的AI回应有更扎实的数据支撑。此外，这次更新还推出了“智慧模型路由”功能。Gemini CLI会自动判断你的任务复杂度，简单的查询就交给轻巧的Flash模型，复杂的分析或创意任务则动用更强大的Pro模型。这样不仅能确保最佳效果，还能聪明地节省你的API配额。当然，如果你想自己指定模型，也随时可以手动切换。 Perplexity的野心：在AWS上启用万亿参数模型当模型参数达到万亿级别时，如何有效率地运行就成了一大挑战。单一节点的GPU内存根本无法负荷，必须依靠多节点部署。知名AI公司Perplexity发布了他们最新的研究成果：一套能在AWS EFA（Elastic Fabric Adapter）上高效运行万亿参数模型的MoE（Mixture-of-Experts）内核。这项技术突破解决了在多节点之间进行专家并行运算时的延迟问题，其性能甚至超越了现有的顶尖方案。简单来说，Perplexity找到了在云端平台上部署超大规模模型的钥匙，让这些过去只存在于顶尖实验室的“巨兽”模型，有了商业化应用的可能。 Cursor新突破：用语义搜索让AI Agent更懂你的代码 AI写代码的工具越来越多，但要让AI真正理解一个庞大而复杂的代码库，并做出精准的修改，依然非常困难。 AI代码编辑器Cursor发表文章，阐述他们如何通过“语义搜索”大幅提升其Agent的准确率。传统的grep指令只能做文字匹配，但Cursor训练了自家的嵌入模型，让Agent能用自然语言理解代码的“意图”。例如，你可以直接问：“我们在哪里处理身份验证？”Agent就能精准定位到相关的代码片段。根据他们的A/B测试，在引入语义搜索后，AI Agent的问答准确率平均提升了12.5%，在大型代码库中，代码的留存率（即AI写的代码被开发者保留下来的比例）甚至提高了2.6%。这证明了，要让AI成为真正的开发伙伴，深度理解是不可或缺的一步。 OpenAI的商业化大成功：达成百万企业客户里程碑从一个非营利研究机构，到如今成为AI领域的商业巨头，OpenAI的成长速度令人惊叹。OpenAI骄傲地宣布，他们已经达成了100万企业付费客户的里程碑，成为史上成长最快的商业平台之一。这个数字涵盖了所有付费使用OpenAI技术的组织，无论是通过ChatGPT for Work，还是直接使用其开发者平台。从金融服务、医疗保健到零售业，Amgen、Cisco、摩根士丹利等行业巨头都已加入其客户行列。随着企业客户的激增，OpenAI也推出了更多为企业设计的工具，例如AgentKit和“公司知识库”，帮助企业更轻松地将AI整合到内部运营和团队工作流程中，实现从个人使用到全公司范围的影响力转变。音乐产业大地震：UMG-Udio协议背后的权力游戏最后，让我们来关注一则可能对整个生成式AI领域产生深远影响的新闻。环球音乐集团（UMG）与AI音乐生成平台Udio达成了一项历史性的协议。这不仅仅是为了解决一场重大的版权诉讼，更是对AI音乐市场未来架构的根本性重塑。这项协议，特别是其核心的“禁止下载”政策，象征着AI音乐“蛮荒西部”时代的终结。核心剖析：“禁止下载”的真正目的这场戏剧性转变的起点是UMG等唱片公司对Udio的版权诉讼，指控其使用大量受版权保护的音乐来训练模型。然而，UMG的目的显然不是要摧毁Udio，而是要收编它。协议的核心机制，就是Udio立即实施的“禁止下载”政策。这项政策不仅禁止下载MP3，更关键的是禁止下载“分轨（stems）”文件。对于音乐制作人来说，无法导出单独的乐器音轨，意味着Udio从一个专业创作工具，降级成了一个业余的音乐玩具。此举的策略意图非常明显：建立一个“围墙花园”。所有AI生成的音乐都被永久地困在Udio平台内部，无法被汇出到Spotify、YouTube等平台与UMG的官方曲库竞争，从而遏止了市场蚕食的威胁。双方得失：谁是赢家？谁是输家？对UMG而言：这是一次巨大的战略胜利。他们不仅消除了法律威胁，还将AI从一个竞争对手，转变为一个受其控制、可被追踪和货币化的新型态消费模式。未来，粉丝在Udio上每一次生成“Taylor Swift风格”的音乐，都可能为UMG和Taylor Swift带来收入。对音乐制作人（用户）而言：这无疑是灾难性的。他们在一夜之间丧失了对自己创作成果的所有权和控制权。Udio的价值从一个能产生“资产”（歌曲文件）的工具，变成了一个只能提供短暂娱乐的“体验”。这也迫使专业创作者转向AIVA、Suno Pro等仍提供所有权和商业权利的平台。对AI产业而言： Udio的“倒戈”让其昔日盟友Suno在法律上陷入极度孤立。Udio等于公开承认了其未经授权的训练方式存在法律问题，这使得Suno坚持的“合理使用”辩护变得不堪一击。UMG现在可以集中所有火力，在法庭上寻求对Suno的彻底胜利，为整个AI产业树立一个永久性的法律先例：“授权或者灭亡”。这场协议划定了AI音乐市场的新规则。未来，AI平台将面临一个严峻的选择：要么像Udio一样，与版权方合作，成为一个封闭但合法的“围墙花园”；要么像AIVA一样，专注于服务需要所有权和专业工具的利基市场。而试图游走在灰色地带的“Suno路线”，其战略可行性正变得越来越低。

Nov 6, 2025 Read →