news

AI 日報:AI 代理人的長期記憶難題有解了?Adobe 與 Anthropic 帶來的技術新視野

November 27, 2025
Updated Nov 27
1 min read

面對每天如潮水般湧來的 AI 新訊,大家是否偶爾會感到資訊過載?但說真的,今天的幾個更新確實值得我們停下來好好瞧瞧。從開發者如何讓 AI「記住」更長的工作流程,到創意工作者如何拿回對 AI 的控制權,這些技術進展正在悄悄改變我們與工具的互動方式。

我們不再只是單純地對著聊天機器人下指令,而是在構建更複雜、更持久的協作系統。

這篇文章將帶大家看看 Anthropic 如何解決 AI 工程師的「健忘」問題,Adobe 打算如何用節點式編輯器重塑創作流程,以及 Perplexity 和 Google Gemini 在個人化與教育學習上的新突破。


Anthropic 提出新架構:讓 AI Agent 像人類工程師一樣「交接班」

開發者圈子裡最近常討論一個頭痛的問題:當我們要求 AI 處理一個需要耗時數小時、甚至數天的複雜任務時,它往往會「迷路」。因為目前的 AI 模型受限於 Context Window(上下文視窗),每次新的對話就像是一個剛上班、完全不知道昨天發生什麼事的員工。這對於想要構建長期運行代理(Long-running Agents)的人來說,簡直是場惡夢。

Anthropic 的工程團隊顯然也意識到了這點,他們剛剛發布了一項極具參考價值的研究,名為 Effective harnesses for long-running agents。這不只是一份技術文件,更像是給開發者的一本操作手冊。

雙代理模式:Initializer 與 Coding Agent

他們從人類軟體工程師的「輪班」制度中找到了靈感。既然單個 AI 無法一次搞定所有事,那就把它拆解。Anthropic 提出了一種「雙重解決方案」:

  1. 初始化代理(Initializer Agent):這就像是專案經理或架構師。它的工作是在第一次運行時設置環境,編寫一個 init.sh 腳本,並建立一個 claude-progress.txt 檔案來記錄進度。它還要負責第一次的 Git commit,告訴大家:「嘿,這是我們的起點。」
  2. 編碼代理(Coding Agent):這是實際幹活的工程師。在後續的每一個會話中,它負責進行增量開發。最重要的是,它必須在結束工作前留下「清晰的交接文件」。

解決 AI「貪多嚼不爛」的壞毛病

很有趣的是,Anthropic 發現 Claude 這種等級的模型有兩個常見的失敗模式。第一,它太想表現了,試圖一次把整個 App 寫完(One-shot),結果往往寫到一半就因為超出了上下文限制而中斷,留下一個爛攤子。第二,它有時候會過度自信,隨便看兩眼就覺得「嗯,我做完了」,但其實功能根本沒跑通。

為了對付這些問題,他們引入了幾個關鍵機制:

  • 強制性的功能清單:讓初始化代理先寫好一個詳細的 feature_list.json,裡面列出所有功能並標記為「未通過」。編碼代理每次只能專注於將其中一個功能的狀態改為「通過」。
  • 環境清理與測試:要求 AI 在每次修改代碼後,必須像人類工程師一樣運行測試。如果測試沒過,就不能說自己做完了。這不僅減少了 Bug,也讓下一次接手的 AI 能在一個乾淨的環境中繼續工作。

這套方法讓 AI 不再是憑運氣寫代碼,而是有了紀律和章法。


Adobe Project Graph:拒絕抽獎,創意工作流的「節點化」革命

聊完了硬核的程式開發,我們來看看創意領域。如果你用過生成式 AI 繪圖,一定有過這種感覺:寫 Prompt 就像在買彩券,你永遠不知道下一張圖會長什麼樣。對於專業設計師來說,這種隨機性是不可接受的。

Adobe 剛剛發布了 Project Graph,這可能是創意工作者期待已久的東西。簡單來說,它試圖把 AI 的強大能力塞進一個「可控」的盒子裡。

從「猜謎」到「設計」

Project Graph 是一個基於節點(Node-based)的視覺化編輯器。如果你用過 Blender 的材質節點或是 Unreal Engine 的藍圖,對這個介面一定不陌生。

  • 視覺化流程:你可以把 Photoshop 的功能、AI 模型、各種效果工具,像連連看一樣串接起來。這意味著你可以精確控制每一個步驟,而不是對著對話框祈禱。
  • 工具封裝與分享:這是最酷的部分。一旦你設計好了一套複雜的工作流(例如:自動去背 -> 調色 -> 加陰影 -> 生成背景),你可以把它「打包」成一個簡單的工具。你的同事不需要懂後面的複雜節點,只需要點一下按鈕,就能用上你設計的工作流。

這代表了 Adobe 的一個核心哲學:AI 不應該取代創作的過程,而是應該成為創作者手中的素材。這種模組化、可重複使用的設計,才是有可能進入專業生產線的 AI 應用。


Perplexity 的記憶升級:它終於知道你是誰了

接下來這個更新雖然看似微小,但對每天使用 AI 搜尋的人來說,卻非常貼心。Perplexity 宣布,他們的系統現在能夠「記住」你的對話串和興趣了。

這意味著什麼?以前我們用 AI 搜尋引擎,每次開新視窗都像在跟陌生人說話。但現在,Perplexity 能夠跨模型、跨搜尋模式地調用記憶。

  • 跨時間的上下文:你可以延續幾週前的對話,不需要重新解釋背景。
  • 個人化答案:如果你之前告訴過它你是用 Python 的開發者,下次你問程式問題時,它不會再給你 Java 的範例。

這種「長期記憶」的能力,是 AI 助理從「工具」進化成「夥伴」的關鍵一步。它減少了我們重複輸入背景資訊的時間,讓資訊獲取變得更順暢。


Google Gemini 讓學習變「活」的:互動式圖像功能

最後,Google 在教育領域也沒閒著。Google 官方部落格介紹了 Gemini 的一項新功能——互動式圖像(Interactive Images)。

學習科學告訴我們,被動地看圖表,效果遠不如主動參與。Gemini 現在允許使用者在學習複雜概念(比如生物學的細胞結構或消化系統)時,直接點擊圖片上的各個部分。

  • 點擊即探索:想像一下,你正在讀一篇關於細胞核的文章,以前你只能看旁邊的文字說明。現在,你可以直接點擊圖片中的細胞核,Gemini 就會彈出詳細的定義、解釋,甚至讓你針對這個特定部位進行追問。

這雖然聽起來是個小功能,但它打破了「文字」與「圖像」之間的隔閡,將靜態的教材變成了動態的探索介面,對於學生族群來說絕對是一大福音。


常見問題解答 (FAQ)

為了幫助大家更快速地消化這些資訊,這裡整理了幾個關鍵問題:

Q1:Anthropic 提出的雙代理模式(Initializer & Coding Agent)具體解決了什麼問題?

目前的 AI 模型(如 Claude)在處理長時間、跨多個對話視窗的任務時,常會因為「忘記」之前的進度而導致任務失敗。Anthropic 的解決方案是將任務拆解:Initializer Agent 負責一開始的環境建置和規劃,而 Coding Agent 則負責後續的逐步開發。配合 Git 版本控制和進度日誌檔案,讓 AI 即使在「換班」(開啟新對話)時,也能透過讀取文件迅速掌握狀況,確保專案能持續推進而不中斷。

Q2:Adobe Project Graph 對於不懂程式設計的設計師來說有門檻嗎?

雖然 Project Graph 採用了類似程式設計的「節點式」介面,但它的核心目的是為了讓設計師能以視覺化的方式排列組合創意工具。它的優勢在於,高階創作者可以構建複雜的工作流並將其「封裝」成簡單的工具介面。對於一般使用者來說,他們可能不需要親自去拉線連節點,而是直接使用別人分享出來的、已經封裝好的工具,這反而降低了使用高階 AI 技巧的門檻。

Q3:Perplexity 的記憶功能會不會有隱私疑慮?

任何涉及 AI 記憶個人偏好和歷史紀錄的功能,必然伴隨著隱私考量。Perplexity 強調這是為了提供更精準、更個人化的搜尋體驗。使用者通常可以在設定中管理這些記憶偏好。從實用角度來看,這能大幅減少重複提供背景資訊的麻煩,例如 AI 記住你的程式語言偏好或飲食習慣後,給出的答案會直接切中要害。

Q4:Google Gemini 的互動式圖像功能支援哪些類型的圖片?

目前這項功能主要針對學術和教育類內容進行優化,特別是那些結構複雜、需要標註的圖表,例如生物解剖圖、機械構造圖等。Google 的目標是透過這種互動性(點擊圖片特定區域獲取解釋),將被動的閱讀轉變為和教材的主動探索,從而提升學習成效。

分享至:
Featured Partners

© 2026 Communeify. All rights reserved.