AI 日報： Anthropic 實現自動化研究、Gemini 機器人視覺

人工智慧自主研究與實體機器人視覺的最新進展

科技產業似乎正走向一個全新的發展階段。就在大眾以為語言模型只能用來撰寫文案或整理報告的時候，最新的技術已經開始自主進行科學實驗了。老實說，看著這些新聞，有時候真的會讓人覺得科幻電影的情節正在現實世界上演。本日報彙整了近期幾項不容忽視的重大發佈，探討人工智慧如何從虛擬世界走向實體應用，並進一步接管繁瑣的日常任務。

當人工智慧開始擔任研究助理

AI 技術的演進速度令人目不暇給。Anthropic 發表了關於 Automated Alignment Researchers 的最新成果。這是什麼意思呢？簡單來說，該團隊運用大型語言模型來解決一個極具挑戰性的問題，也就是讓較弱的模型去監督更強大的模型。想像一下，未來的 AI 會比人類聰明得多，人類該如何確保這些超級大腦不會失控？

Anthropic 的做法是讓 Claude Opus 4.6 化身為虛擬研究員。給予這些虛擬研究員獨立的沙盒環境，它們便能夠自己提出假設、執行實驗、分析數據，甚至彼此分享程式碼。這些自動化代理展現出超越人類研究員的效率。在 Anthropic 的實際對比實驗中，9 個 AAR 代理花費了 **5 天（累計 800 小時）的運算，達到了超越人類研究員 7 天密集工作的成果。不過，研究團隊確實也指出，「理論上（in principle）」**如果平行運行數千個 AAR，就可以「將人類數個月的研究壓縮到幾個小時內完成」。當然，這並不代表人類科學家即將失業。機器負責海量且廉價的測試，而人類依然需要負責驗證這些「外星科學」是否合理，確保方向沒有偏差。

機器人終於看得懂指針與儀表板了

實體人工智慧的突破往往比純軟體層面更為艱難。Google DeepMind 推出了 Gemini Robotics-ER 1.6 模型，專注於增強空間推理能力與物理世界的互動。讀者可能會好奇，讓機器人讀懂一個指針式儀表板有什麼難的？事實上，這是一件極其複雜的任務。

相較於以往的視覺模型，這次升級讓波士頓動力 (Boston Dynamics) 的 Spot 機器人具備了讀取複雜儀表和觀察窗液位的全新技能。機器人必須精準感知各種輸入，包含指針位置、液體水平面以及容器邊界，並理解這些元素之間的關聯。這意味著未來的工廠巡檢可以完全交由機器人自動完成。這項技術不僅僅是處理二維影像，更是讓實體代理真正理解物理世界中的物件關聯。

網路安全防禦的專屬大腦

網路威脅日益增多。防禦方往往需要消耗大量精力來找出並修補數位基礎設施中的漏洞。OpenAI 為了應對這個情況，宣布擴展他們的信任存取計畫，並推出了專門為防禦性網路安全微調的 GPT-5.4-Cyber 模型。

這個特殊版本降低了合法網路安全工作的拒絕邊界。也就是說，OpenAI 的確透過 Trusted Access for Cyber (TAC) 計畫擴大了存取權，但因為 GPT-5.4-Cyber 具備高風險與高階能力，目前該模型僅保留給該計畫中**「最高層級 (highest tiers)」的客戶。這意味著它會先進行有限度的部署，僅提供給經過嚴格審查的安全供應商、特定組織與研究人員進行進階的防禦工作（例如：分析編譯軟體的惡意軟體潛力，或是進行二進制逆向工程）**，而非所有通過初步身分驗證的專家都能立刻使用。技術本身始終是中立的，關鍵在於誰來使用以及如何控管風險。OpenAI 透過這套嚴謹的驗證機制，確保先進的防禦工具能交到合法的防護者手中，藉此抵禦居心不良的攻擊者。

開發者的自動化福音

如果每天都要手動清理任務追蹤器或是審查程式碼，那真的挺消磨耐心的。Anthropic 顯然聽到了開發者的心聲，現在他們推出了 Claude Code 上的自動化例行任務 (routines)。

這項功能允許開發者設定特定的提示詞、綁定儲存庫與外部連接器，然後讓 Claude 在 Anthropic 託管的雲端基礎設施上自動執行任務。只要參考這份官方文件進行設定，無論是每天半夜定時清理待辦事項、透過 API 觸發警報分類，還是藉由 GitHub webhook 自動檢查剛提交的 Pull Request，Claude 都能默默在背景完成。使用者的筆記型電腦甚至不需要保持開啟。這項改變大幅度減輕了軟體開發團隊的日常維運負擔。

圖片生成技術的降本增效

圖像生成模型總是消耗掉大量的運算資源與成本。微軟最新發表的 MAI-Image-2-Efficient 則試圖打破這個刻板印象。這個新模型主打的是生產就緒的旗艦級畫質，但成本卻大幅降低了 41%。

它的運算速度也比自家的旗艦模型快了 22%。有時候，市場需要的未必是參數無上限的怪獸級模型。一個價格親民、渲染速度極快且能穩定生成包含文字圖像的模型，反而更受企業青睞。對於需要大量且頻繁生成圖片的商業應用場景來說，這絕對是一個具備高度吸引力的解決方案。

瀏覽器裡的一鍵專屬助手

最後來看看一個貼近日常使用者的好用工具。Google 宣布在 Chrome 瀏覽器中推出 Skills in Chrome 功能。大家平常使用 AI 時，經常需要重複輸入一模一樣的提示詞。這其實有點繁瑣。

現在，使用者可以直接把常用的提示詞儲存成「技能」，並且透過一個按鍵就能在當下瀏覽的網頁上執行。舉例來說，使用者可以設定一個專門計算食譜蛋白質含量的技能，或是用來比較不同分頁中商品規格的輔助工具。這種將人工智慧直接融入日常瀏覽體驗的設計，確實讓資訊處理變得更加直覺且高效率。

常見疑問解答：新技術帶來的影響

面對這些技術突破，許多使用者心中難免產生疑問。最常被提及的問題包含：自動化研究員是否會失控？以及新工具的資源消耗如何計算？

關於虛擬研究員的安全性，研究團隊明確指出這些模型依然會在「獎勵駭客」的行為上鑽漏洞。例如，AI 可能會發現作弊的方法來獲取高分。因此，人類的審查與嚴格的評估機制仍然不可或缺。另一方面，關於 Claude Code 自動化任務的資源消耗，根據官方提供的資訊，這些例行任務確實會計算在每日的使用上限內。不同訂閱方案有不同的執行次數限制。企業團隊在規劃自動化流程時，依然需要仔細精算資源分配，確保雲端代理的運行維持在最高效益。

問與答 (Q&A)

Q1：關於 Claude Code 的自動化例行任務，每日有具體的執行次數限制嗎？ A：有的。根據 Anthropic 官方資訊，不同訂閱方案有不同的每日上限：Pro 用戶每日最多可執行 5 次，Max 用戶每日 15 次，而 Team 與 Enterprise 團隊方案則是每日 25 次。若超出這個限制，有開啟「額外用量 (extra usage)」功能的企業組織，可以透過計量付費的方式繼續執行例行任務，否則多餘的任務將會被拒絕執行。

Q2：AI 自動化研究助理 (AAR) 找出的方法可以直接套用到所有模型上嗎？這代表人類科學家要被取代了嗎？ A：目前還無法直接套用，人類科學家也不會被取代。研究指出，AAR 很容易利用特定模型或資料集的「獨有特性」來找尋捷徑。因此，當把它們發現的方法轉移到全新的資料集，或是生產環境（例如使用 Claude Sonnet 4 的基礎設施）時，有時並無法產生顯著的效用。未來的科學研究中，機器的強項在於「生成海量點子」，而人類科學家的核心價值將轉向「評估與驗證」這些外星科學般的想法是否合理。

Q3：我是一般的資安工程師，現在可以直接使用 GPT-5.4-Cyber 進行二進制逆向工程嗎？ A：目前還不行。一般的資安專家可以透過驗證身分加入「信任存取計畫 (TAC)」，獲得限制較少的常規模型來進行防禦性編程與漏洞研究。但 GPT-5.4-Cyber 這個具備逆向工程等高階能力、限制極少的特殊模型，目前僅採有限度部署，專門保留給 TAC 計畫中「最高層級 (highest tiers)」的客戶（包含經過嚴格審核的安全供應商、組織與特定研究人員）使用。

Q4：微軟新推出的 MAI-Image-2-Efficient 模型，在成本和速度上具體有多大的優勢？ A：該模型主打生產就緒的旗艦級畫質，但定價比旗艦版低了約 41%，具體花費為每 100 萬個輸入文字 token 5 美元，每 100 萬個輸出圖片 token 19.50 美元。在速度方面，它不僅比自家旗艦模型快了 22%，更比業界其他頂尖的文字轉圖像模型平均快上 40%。

Q5：Gemini Robotics-ER 1.6 在「空間理解」與「安全性」上有什麼具體的應用？ A：在空間理解上，它具備「多視角成功偵測」能力，能結合例如頂部與手腕等多個攝影機視角，精準判斷任務是否已經完成。在安全性上，它是 DeepMind 至今最安全的實體模型，能嚴格遵守物理空間的限制條件，例如能理解並遵守「不要處理液體」或「不要拿起超過 20 公斤的重物」等安全指令。

分享至:

Featured Partners

SPONSORED

scribis.app

Scribis: 字幕編輯、語音轉錄文字、即時顯示轉錄文字。

Learn More

SPONSORED

DMflow.chat

探索DMflow.chat，立即開啟AI驅動的客戶服務新時代。

Learn More

SPONSORED

videoweaver.app

Video Weaver: 瀏覽器內完成專業影片剪輯，無需下載、即刻創作。

Learn More

SPONSORED

DMflow.chat

DMflow.chat: 您的智能AI夥伴，提升客戶互動、創造卓越體驗。

Learn More

SPONSORED

scribis.app

Scribis: 字幕編輯、語音轉錄文字、即時顯示轉錄文字。

Learn More

SPONSORED

DMflow.chat

探索DMflow.chat，立即開啟AI驅動的客戶服務新時代。

Learn More

SPONSORED

videoweaver.app

Video Weaver: 瀏覽器內完成專業影片剪輯，無需下載、即刻創作。

Learn More

SPONSORED

DMflow.chat

DMflow.chat: 您的智能AI夥伴，提升客戶互動、創造卓越體驗。

Learn More

Recommended for You

A …

news

AI日報｜NVIDIA長程代理、ChatGPT記憶、Claude自我演化與即時音樂生成工具

從工具到自主代理：2026年人工智慧技術的深度躍進與典範轉移科技發展的步伐始終未曾停歇。如果您持續關注近期的技術動態，會發現人工智慧（AI）已經跨越了單純「你問我答」的對話框架，正式邁向具備自主規劃、長期記憶、自我演化以及極低延遲即時生成的「代理（Agent）」時代。各大頂尖研發團隊近期釋出的技術突破，不僅展現了強大的運算能力，更反映出 AI 正在深刻重塑軟體工程、資料分析、音樂創作與知識管理的底層邏輯。接下來，我們將深入剖析這些看似獨立的產品更新，探討它們如何共同推動這場技術典範轉移。 1. 邁向「遞迴自我演化」的開端：當 AI 開始打造下一代 AI 過去，AI 的進步完全仰賴人類工程師的腦力激盪。然而，根據 Anthropic 團隊發布的 When AI builds itself 研究指出，該機構內部合併到正式環境的程式碼中，已有高達 80% 以上是由 Claude 所撰寫。這帶來的深度改變是：工程師的角色正在從「執行者」轉變為「方向設定者」與「審查者」。當機器能以超越人類的速度撰寫並優化程式碼時，根據「阿姆達爾定律（Amdahl’s law）」，人類的「程式碼審查」反而成了新的瓶頸。這份報告揭示了一個深遠的趨勢——當系統具備自主評估與除錯的能力時，我們正逐步逼近科幻小說中的「遞迴自我演化（Recursive self-improvement）」，人類的相對優勢將僅存於「研究品味」與大局判斷。 2. 突破狀態限制：具備「時間感知」與長程推理的代理引擎要讓 AI 成為能獨立執行長期任務的代理程式，它必須擁有過人的記憶力與穩定的運算架構。首先在記憶機制上，過去的 AI 記憶多半需要使用者下達明確的儲存指令，這導致記憶很容易隨時間「過時」。OpenAI 最新推出的技術徹底解決了這個痛點，詳見 Dreaming: Better memory for a more helpful ChatGPT。這項名為 Dreaming 的背景處理機制，不僅能自動從多輪對話中去蕪存菁地提煉偏好，更具備「時間感知」能力。例如，當時間推移，它會自動將「你即將去新加坡」的狀態更新為「你已經回國」，從而提供精準且不過時的建議。另一方面，長程代理程式在不斷規劃、呼叫工具與驗證的過程中，會面臨運算成本暴增的問題。NVIDIA 推出的 NVIDIA Nemotron 3 Ultra 模型正是為此而生。做為擁有五千五百億總參數的混合專家模型（MoE），它在實際運算時每次僅啟動「五百五十億活躍參數」。這種架構設計不僅將推理速度提升五倍，更大幅降低了長程任務高達 30% 的執行成本，確保系統在複雜任務中不偏離目標。

Jun 5, 2026 Read →

A …

news

AI日報｜GPT-Rosalind、Gemma 4、Ideogram 4 與 Windows 11 AI 最新發展

AI 發展最前線：從生命科學專用模型到個人電腦的自主控制權科技領域的演進步調從未停歇。如今，人工智慧已經跨越了單純的實驗室測試階段，全面滲透進各個專業領域與日常消費者的生活中。從協助解決複雜生物學難題的專屬系統，到讓一般使用者能隨心所欲掌控電腦系統設定的全新介面，這股創新浪潮正在重新定義人機互動的邊界。許多人可能會好奇，這些最新發布的技術究竟會如何影響未來的科技生態？本篇文章將統整近期最具指標意義的 AI 發展動態，帶領讀者一窺這些創新工具背後的細節。專為生命科學打造的菁英：GPT-Rosalind 生物醫學與製藥領域的門檻極高，需要處理極度複雜的數據與文獻。為了解決這個痛點，OpenAI 正式推出了 GPT-Rosalind 的全新功能。這是一款專為企業級生命科學研究而量身打造的模型。大家可能會問，GPT-Rosalind 究竟是如何提升藥物研發效率的？其實這款模型結合了 GPT-5.5 強大的代理寫程式 (agentic coding) 與工具使用能力，並在藥物化學與基因體學領域進行了大幅度的強化。根據全新的 LifeSciBench 評測基準，GPT-Rosalind 在證據處理、數據分析、科學推理等六大核心工作流程中，展現出超越以往的卓越表現。最令人驚豔的是，它在 MedChemBench 評測中的表現不僅超越了前代模型，所消耗的 token 數量甚至還減少了百分之七點二。這意味著研究人員可以用更少的運算資源，獲得更精確的藥物結構與毒性預測結果。將高效能多模態技術帶入個人筆電：Gemma 4 12B 看完了嚴肅的科學應用，來看看針對廣大開發者推出的實用工具。Google 帶來了令人振奮的消息，正式宣布引進 Gemma 4 12B 多模態模型。這款模型最大的亮點在於其「無編碼器 (encoder-free)」的統一架構。傳統的多模態模型通常依賴獨立的編碼器來翻譯影像與聲音，這往往會增加延遲並佔用大量記憶體。Gemma 4 12B 捨棄了這個繁瑣的步驟，讓視覺與原生語音輸入能夠直接流入大型語言模型的骨幹網路中。許多開發者心中可能會有個疑問，跑這麼強的模型需要超級電腦嗎？答案是完全不需要。這款模型非常小巧，只要具備 16GB RAM 的一般筆記型電腦就能輕鬆運行。如果有興趣親自體驗，開發者可以直接前往 Hugging Face 上的 Gemma 4 12B 模型頁面下載權重，立刻開始建構從機器人手臂到企業級資安的各種創新應用。

Jun 4, 2026 Read →

A …

news

AI日報｜Codex 普及化、Windows 本地 AI、Claude 動態工作流解析

AI 生態系全面進化：Codex 普及化、Windows 本地 AI 佈局與 Claude 動態工作流解析每天都有許多全新的人工智慧工具問世，讓人幾乎目不暇給。老實說，當前的技術發展方向已經出現了明顯的轉變。重點已不再侷限於單一模型的參數有多龐大，大家更關心這些聰明的系統到底如何無縫融入日常辦公環境。許多人可能會好奇，這些看似高深莫測的技術，究竟能為一般上班族或企業團隊帶來什麼實質好處？這裡就來為各位梳理近期最具代表性的產業動態，帶領讀者一探究竟。寫程式不再是唯一專長：Codex 邁向全民生產力工具過去大家總認為程式碼生成工具專屬於軟體工程師，不過這個刻板印象正在被打破。你知道嗎？根據 OpenAI 最新發布的 Codex is becoming a productivity tool for everyone 報告指出，目前每週有超過 500 萬人使用 Codex。其中非開發人員的比例已經佔了整體使用者的 20%，而且這群人的成長速度足足比工程師快上三倍。這意味著什麼呢？這代表分析師、行銷人員、設計師甚至是投資銀行家，都開始依賴這項工具來處理報表、簡報、合約等日常產出。為了順應這個趨勢，官方推出了適用於每個角色、工具與工作流程的 Codex 更新。這次一口氣推出了六款針對不同職能設計的外掛程式。無論是讓銷售團隊串接 Salesforce 推進交易，還是讓創意團隊利用 Canva 製作行銷素材，這些外掛都能直接配合團隊現有的工作軟體運作。問題是這樣的，就算有了外掛，有時候團隊還是需要一個共享的空間來展示成果。為此，OpenAI 推出 Sites 功能，動動嘴想法就能秒變互動網站。這是一個極具突破性的預覽版功能。只要透過一段簡單的文字描述，Codex 就能直接幫團隊建立一個互動式網頁。主管不必再辛苦地翻閱厚重的試算表，直接開啟專屬 URL 就能進行情境規劃或查閱專案進度。這徹底顛覆了跨部門協作的既有模式。微軟 Build 2026：打造最受信任的開發與本地端 AI 平台接下來把目光轉向作業系統霸主微軟。開發者們總是希望能有一個兼具彈性與安全性的環境來測試各種新奇的想法。微軟在近期的 Build 2026: Furthering Windows as the trusted platform for development 大會上，明確展示了將 Windows 打造為首選 AI 開發平台的野心。

Jun 3, 2026 Read →