這幾天的 AI 圈子挺熱鬧,不管是底層協議還是我們每天用的工具,都有種「改頭換面」的感覺。說真的,如果你也覺得最近的 AI 代理(Agents)好像卡在某個瓶頸——除了在對話框裡打字什麼也做不了——那麼 Google 新出的 A2UI 協議可能會讓你眼睛一亮。另一邊,Anthropic 也沒閒著,他們把原本要在內部耗費大量人力做的「找碴」工作,交給了一個叫 Bloom 的開源工具。
這兩手棋,其實都在暗示一件事:我們離那種「動動嘴皮子就能自動搞定一切」的未來,又近了一點點。
終於不再只是「陪聊」:Google A2UI 重塑互動邏輯
老實說,現在跟 AI 聊天有時候挺讓人抓狂的。你想要個按鈕直接結帳,或者要張表單填資料,結果 AI 只是吐出一大段文字描述,讓你再去別的地方操作。這效率實在太低。
Google 開發團隊顯然也受夠了這種「只動口不動手」的模式,這才有了 A2UI (Agent-to-User Interface)。這項開源專案的野心不小,它想制定的,是代理驅動介面(Agent-Driven Interfaces)的行業標準。
簡單解釋一下,A2UI 讓 AI 代理擁有了「看菜吃飯」的能力——根據聊天情境,直接甩給你一個最合適的 UI 介面。而且這不是隨便丟一段 HTML 代碼那麼粗糙,它用的是一種宣告式格式。這意味著,同一個 AI 生成的介面,跑在網頁上、Flutter App 裡,甚至是未來的某個新終端上,都能呈現出原生的質感。目前的 v0.8 版本中,Web Components、Angular 和 Flutter 都已經率先支援了。
我覺得這技術最聰明的地方有兩點:
第一是信任問題。試想一下,在未來那個多個 AI 互相協作的網路裡,如果外部 AI 直接把一段 JavaScript 代碼傳給你的主程式執行,那跟把家裡鑰匙給陌生人沒兩樣。A2UI 很機靈地選擇傳遞純數據(JSON)。主程式只負責渲染數據,絕不執行陌生代碼。這招直接解決了跨組織協作最頭痛的安全隱患。
第二是增量更新 (Incrementally Updateable)。這一點對體驗至關重要。想像你在填表,AI 發現你改了預算,它只需要悄悄更新那個價格欄位。這種透過 Server-Sent Events (SSE) 達成的即時流暢度,才是讓 AI 應用像個『正經軟體』的關鍵。
想看代碼的朋友,去他們的 GitHub 翻翻,或者讀讀 Google Developers Blog,乾貨不少。
Anthropic Bloom:用魔法打敗魔法
AI 安全測試,說穿了就是個苦差事。研究員得像個變態一樣,絞盡腦汁想各種刁鑽問題去試探模型的底線。但現在都 2025 年了,模型進化得比人還快,光靠人腦去想這些「坑」,顯然不夠用了。
Bloom 的運作流程有點像個嚴謹的刑偵小組,而你只需要提供一個 『種子配置 (Seed Configuration)』——這就像是測試案的 DNA,Bloom 就會基於此自動生長出各種變體。 它的具體工作流程如下:
Bloom 的運作流程有點像個嚴謹的刑偵小組:
- 理解:先搞清楚我們要測試什麼壞毛病。
- 構思:設計各種讓人防不勝防的對話陷阱。
- 執行:這點很有趣,它不只測對話,還支援 模擬環境 (Simulated Environment)。也就是說,它能觀察 Agent 在寫代碼、用工具甚至執行長期任務時,會不會幹壞事。
- 評判:最後交給另一個模型打分。
為了證明這不是「自吹自擂」,Anthropic 甚至搞出了 Meta-judgment (元評判) 機制,用 AI 來監工 AI 的評分品質。更有趣的是,他們還故意造了一些有缺陷的「模型生物 (Model Organisms)」——有點像醫學實驗裡的小白鼠——來驗證 Bloom 是不是真能抓出毛病。這種科學實驗般的嚴謹態度,倒挺符合 Anthropic 一貫的人設。官方部落格裡有更多細節。
Gemma Scope 2:把黑盒子打開來看
Google DeepMind 在「可解釋性」這塊硬骨頭上又啃下了一口。他們發布的 Gemma Scope 2,說白了就是給 Gemma 3 模型家族配的一台高倍顯微鏡,而且是覆蓋了從 270M 到 27B 全參數範圍的完整套件。。
我們常說神經網絡是黑盒子,只知輸入輸出,不知中間發生了什麼。Gemma Scope 2 利用稀疏自動編碼器(SAEs)和轉碼器,試圖把這個黑盒子變成透明的玻璃箱。
這次更新的技術含量頗高,有兩個亮點值得注意:
第一是引入了 Matryoshka 訓練技術,這能幫助模型偵測到更精準、更有用的概念。
第二是新增的 跳躍轉碼器 (Skip-transcoders) 和 跨層轉碼器 (Cross-layer transcoders)。這讓研究人員不再只能看單層的切片,而是能追蹤訊息如何在複雜的神經網絡裡跨層跳躍和流動。
這規模據說是目前開源界最大的,處理的數據量高達 110 PB。如果你對「AI 到底在想什麼」感興趣,DeepMind 這篇文章值得一讀。
NotebookLM 換心手術:Gemini 3 上線
這大概是筆記控們這兩天最開心的事了。Google 的筆記神器 NotebookLM 終於把引擎換成了 Gemini 3。
之前官方在 X 上就暗示過這是用戶呼聲最高的需求。換了新引擎後,最直觀的感受應該是推理能力和「讀空氣」的能力變強了。處理那種幾百頁的複雜文檔,或者做跨文檔的關聯分析時,應該會少很多那種「一本正經胡說八道」的情況。官方公告在這。
開發者的百寶箱:Codex 與 Qwen 的新玩具
除了上面那些大新聞,還有兩個小工具挺有意思:
OpenAI Codex CLI 支援 Skills: 寫程式最煩重複造輪子。OpenAI 給 Codex CLI 加了個
Skills功能。設計得很貼心,它用了 漸進式揭露 (Progressive Disclosure)——啟動時只給你看個目錄,你需要時才加載詳細內容。這招對節省那寶貴的 Context Window(上下文窗口)很有幫助。文檔傳送門。Qwen-Image-Layered 模型: 阿里雲 Qwen 團隊搞了個能「剝洋蔥」的圖像模型。它不只能生圖,還能將圖像分解成多個獨立的 RGBA 圖層,實現物理級的隔離編輯。更絕的是支援 遞歸分解 (Recursive Decomposition)。想像一下,你把一張圖裡的人扣出來,然後還能繼續把這個人的衣服、頭髮再拆出來,理論上可以無限細分下去。這種俄羅斯套娃式的編輯能力,玩法應該不少。去 HuggingFace Space 試試。
硝煙味十足的產業動態
最後聊聊兩則比較嚴肅的新聞。
Google 槓上 SerpApi: 這場官司其實是遲早的事。Google 正式起訴 SerpApi,指控這家爬蟲公司利用 隱形斗篷 (Cloaking) 技術,並透過不斷變換的假名字和 IP 來欺騙伺服器,惡意規避防護措施。Google 這次是真的火了,因為 SerpApi 不只是抓公開數據,甚至還轉賣了 Google 付費授權 的內容(比如知識面板數據)。這已經不是簡單的「數據抓取」,而是直接動了商業利益的蛋糕。這場官司的結果,可能會重寫爬蟲界的遊戲規則。Google 聲明。
METR 對 Claude Opus 4.5 的極限測試: METR Evals 公布了數據,估計 Claude Opus 4.5 處理那個耗時近 5 小時的複雜任務,成功率大概五五開。但魔鬼藏在細節裡:他們給出的 95% 信心區間 寬得嚇人——從不到 2 小時到超過 20 小時都有可能。這說明了什麼?說明對於這種超級模型,我們目前其實還沒有一把足夠精準的尺子去衡量它的極限。METR 數據。
一些你可能想問的 (FAQ)
Q: A2UI 跟直接吐一段 HTML 代碼有什麼不一樣? A: 差別大了。除了傳輸純數據更安全之外,A2UI 最強的是 增量更新。想像一下,AI 只需輕輕撥動開關或修改一個數字,介面就會即時反應,而不是笨重地重新渲染整個網頁。這種原生應用的流暢感,是傳統 HTML 輸出給不了的。
Q: Bloom 這種工具,普通開發者用得上嗎? A: 說實話,這主要是給做 AI 安全研究的人準備的。你得自己寫 種子配置 (Seed Configuration) 來定義測試的「基因」。門檻是有點高,但如果你們團隊需要確保模型絕對不能出現某種特定壞行為(比如拍馬屁或歧視),那這是一套很強大的自動化刑具。
Q: NotebookLM 升級 Gemini 3 要加錢嗎? A: Google 目前沒提錢的事。通常這種底層模型的升級屬於平台優化,你就當作是免費的性能大補丸,放心用吧。
Q: Google 為什麼非要告 SerpApi?爬蟲不是很常見嗎? A: 這次性質不太一樣。Google 指控的是 SerpApi 用了 隱形斗篷 技術來騙伺服器,而且還轉賣了 Google 花錢買來的授權數據。這已經踩過了「公開數據抓取」的紅線,變成了惡意規避安全機制和侵犯版權。這案子要是 Google 贏了,以後做 AI 數據採集的公司日子恐怕會難過很多。


