AI 日報:DeepMind SIMA 2 震撼登場、OpenAI GPT-5.1 開放 API、Gemini Live 迎來重大更新
每日 AI 趨勢觀察:各大模型競相升級,更強大的 AI 助理與開發者工具正重塑產業樣貌。從 DeepMind 的遊戲 AI 到 OpenAI 的新一代模型,再到 Google Gemini 的多項更新,AI 技術正以前所未有的速度向前邁進。
Google DeepMind 推出 SIMA 2:能與你一同在 3D 虛擬世界中遊玩、推理、學習的 AI 代理人
Google DeepMind 再度帶來驚喜,正式發表了 SIMA 的第二代版本 — SIMA 2。一年前,初代的 SIMA (可擴展、可指導的多重世界代理人) 橫空出世,它是一個能夠在多種虛擬環境中遵循基本指令的通用型 AI。那時,SIMA 的誕生是教導 AI 將語言轉化為 3D 世界中有意義行動的關鍵一步。
如今,SIMA 2 的推出,象徵著 DeepMind 在創造通用且實用 AI 代理人道路上的新里程碑。透過整合 Gemini 模型的強大能力,SIMA 2 不再只是一個指令的執行者,而是進化成一個能與使用者互動的遊戲夥伴。SIMA 2 不僅能理解並執行人類的自然語言指令,現在它還能思考目標、與使用者對話,並隨著時間自我提升。
這項進展是朝向通用人工智慧 (AGI) 邁出的一大步,對於機器人學和 AI 實體化的未來,都將產生深遠的影響。
OpenAI 釋出 GPT-5.1 API:速度與智慧的完美平衡
開發者們請注意!OpenAI 正式在 API 平台中推出了 GPT-5.1,這是 GPT-5 系列的最新模型,專為在代理與程式編寫任務中,平衡智慧與速度而設計。GPT-5.1 能根據任務的複雜性,動態調整其思考時間,這使得它在處理簡單的日常任務時,速度更快且更節省 token。
此外,此模型還新增了「無推理」模式,能在不需要深度思考的任務上,實現更快速的回應,同時依然保有 GPT-5.1 的頂尖智慧。
官方指南:GPT-5.1 提示工程全攻略 (Prompting Guide)
為了幫助開發者充分發揮 GPT-5.1 的潛力,OpenAI 也同步釋出了官方的提示工程指南。這份指南詳細介紹了如何遷移至 GPT-5.1、塑造代理人的個性、引導使用者更新,以及如何優化智慧與指令遵循能力。
這份指南是基於大量的內部測試以及與合作夥伴的協作經驗編寫而成,即使是微小的提示詞調整,也可能帶來可靠性與使用者體驗的巨大提升。
Gemini Live 體驗升級:更自然的語氣、多語言切換與角色扮演
Gemini Live 迎來了重大更新,讓對話體驗更加生動自然。新模型對語氣和細微差別有了更深的理解,互動感受將更貼近真實。
- 嘗試新角色:你可以賦予 Gemini 一個角色、口音或身份。無論是想練習面試,還是想讓日常互動更有趣,都能輕鬆實現。
- 多語言溝通:在一次對話中,毫不費力地切換多種語言甚至方言。
- 調整語速:你可以隨時要求 Gemini 加快或放慢語速。
- 生動的故事演繹:試著讓 Gemini 以凱薩大帝的視角講述羅馬帝國的歷史,它能提供更富戲劇性的敘事,以及更豐富的角色對話。
OpenAI 新研究:透過稀疏電路理解神經網路
神經網路是當今最強大 AI 系統的核心,但其內部運作原理仍然難以捉摸。OpenAI 的最新研究,透過訓練模型以更簡單、更易於追蹤的方式進行思考,試圖揭開神經網路的神秘面紗。這項研究旨在讓我們更深入地理解 AI 是如何工作的。
Google NotebookLM 推出「深度研究」功能並支援更多檔案格式
Google NotebookLM 再次升級,推出了「深度研究」(Deep Research) 功能,能自動化並簡化複雜的線上研究。它就像你的專屬研究員,能綜合詳細報告或推薦相關的文章、論文和網站。
同時,NotebookLM 現在也支援更多檔案類型,包括 Google Sheets、Word 文件 (.docx),並能直接從 Google Drive 加入 PDF,讓你的研究工作流程更加順暢。
Google 升級 Gemini CLI 使用者體驗:終端機互動也可以很優雅
Google 對 Gemini CLI 的使用者體驗進行了重大升級,讓終端機的互動變得更加穩定、直觀且視覺上更為流暢。這次更新徹底改造了 Gemini CLI 的渲染基礎,消除了終端機應用中常見的視覺雜訊。現在,你不再需要忍受閃爍的螢幕或跳動的輸入提示,一切都變得更加平滑。


