AI 日報: GPT-5.2-Codex 定義新標準，Google DeepMind 進軍國家級科學任務

今天的 AI 圈子熱鬧非凡，科技巨頭們似乎約好了一起發布年度級的重磅更新。對於開發者、科學家和企業決策者來說，這是一個必須關注的轉折點。OpenAI 透過 GPT-5.2-Codex 再次拉高了程式碼生成的標準，Mistral AI 在文件處理上展現了驚人的精準度，而 Google 則一口氣在開發工具、模型家族以及國家級科學合作上火力全開。

這篇文章將帶您深入拆解這些新技術的核心亮點，剖析它們如何實際改變我們的工作與科研方式。

OpenAI GPT-5.2-Codex：內建「上下文壓縮」的資安防禦專家

OpenAI 正式推出了 GPT-5.2-Codex，這不只是 GPT-5 的微調版本，而是一個針對真實世界軟體工程進行過極致打磨的完全體。除了在 Windows 環境下的效能顯著提升外，它引入了**「原生上下文壓縮」（Native Context Compression）**能力。這項技術讓模型在處理長篇程式碼重構或遷移任務時，能大幅維持 Token 的使用效率與記憶連貫性，不再因為對話過長而「失憶」。

在效能數據上，GPT-5.2-Codex 在 SWE-Bench Pro 與 Terminal-Bench 2.0 這兩項極具挑戰性的基準測試中，均達到了業界領先水準。

更令人矚目的是它在資安領域的敏銳度。就在上週，安全研究員 Andrew MacPherson 利用該模型的早期版本（GPT-5.1-Codex-Max），在短短一週內發現了 React 框架中的三個未知漏洞。這證實了新模型具備如同資安專家般的「防禦性思維」。為了平衡風險，OpenAI 目前採取「受信任的存取機制」，優先開放給通過審核的安全組織使用，一般付費 ChatGPT 使用者則可即日起在 Codex CLI 和 IDE 擴充功能中體驗其威力。

深入了解 GPT-5.2-Codex 的技術細節

Mistral OCR 3：文件結構化處理的性價比之王

如果你的工作涉及大量掃描文檔或複雜報表，Mistral AI 新發布的 Mistral OCR 3 絕對值得關注。這款模型在表單、低品質掃描件及手寫內容的處理上取得了突破性進展，官方數據顯示其在基準測試中的勝率（Win Rate）比上一代提升了 74%。

它最強大的地方在於能夠精準還原複雜的表格結構，並輸出帶有 HTML 表格標籤的 Markdown 格式。為了讓非工程師也能輕鬆上手，Mistral 推出了 Document AI Playground，用戶只需透過簡單的拖放（Drag-and-drop）介面，就能直接將 PDF 轉換為結構化的 JSON 數據。

對於企業用戶來說，價格是其殺手鐧：標準 API 每處理 1,000 頁僅需 2 美元，若使用批量處理 API（Batch API），價格更低至 1 美元。這對於需要數位化海量歷史檔案的企業來說，是極具吸引力的選擇。

查看 Mistral OCR 3 的完整評測

Anthropic Agent Skills：打造跨平台的 AI 員工標準

Anthropic 正在解決 AI Agent（代理）碎片化的問題。他們發布了 Agent Skills 開放標準，並將其視為如同 MCP (Model Context Protocol) 一般的可攜式協議，Skills 是針對「流程」的標準，區別於 MCP 針對「資料」的連接。這意味著未來開發的技能不僅限於 Claude，還有機會在不同的 AI 平台間互通。

透過與 Notion、Canva、Figma 和 Atlassian 的深度合作，Claude 現在能像員工一樣熟練操作這些工具。例如，它能直接理解 Jira 工單並執行操作，而不僅僅是讀取文字。Claude Team 和 Enterprise 方案的管理員現在可以集中配置這些技能庫，確保團隊中的 AI 助手都在使用經過核准、安全且標準化的工作流程。

閱讀關於 Agent Skills 與 MCP 標準的介紹

Google Conductor：為 Gemini CLI 注入「三思而後行」的靈魂

開發者都知道，直接跳進去寫程式往往是災難的開始。Google 為 Gemini CLI 推出的新擴充功能 Conductor，正是為了推廣「上下文驅動開發」（Context-Driven Development）。

Conductor 的運作機制非常具體：它會協助開發者生成 specs.md（規格書）和 plan.md（計畫書）並保存在代碼庫中。這讓 AI 擁有實體的「記憶」，清楚知道專案的架構與規範。最重要的是，它強調**「先審查計畫，再寫程式」（Review plans before code is written）**，確保開發者始終坐在駕駛座上（Driver’s seat），避免 AI 失控生成出格格不入的代碼。這對於維護歷史悠久的舊專案（Brownfield projects）尤為關鍵。

探索 Google Conductor 的工作流 | GitHub 專案

Google 模型家族擴軍：T5Gemma 2 與 FunctionGemma

Google 的研發引擎持續高速運轉，這次釋出了兩款針對特定場景優化的小型模型：

T5Gemma 2：這是基於 Gemma 3 架構的新一代編碼器-解碼器模型。除了 270M 版本，還提供了 1B 和 4B 參數版本供選擇。技術上，它採用了**「綁定嵌入」（Tied Embeddings）**技術，在大幅縮減模型體積的同時，仍保留了強大的多模態能力與 128K 上下文視窗，非常適合資源受限的端側應用且支援超過 140 種語言，這對於需要跨國部署的邊緣設備來說是一大優勢。。了解 T5Gemma 2 | Hugging Face
FunctionGemma：專為「函式呼叫」微調的模型。Google 展示了一個 “Mobile Actions” 的實際案例：它能離線將使用者的自然語言指令（如「幫我設個明天早上的鬧鐘」）精準轉換為 Android 系統呼叫。這種「本地優先」的設計，完美解決了隱私與延遲問題。查看 FunctionGemma 說明 | Hugging Face

Google DeepMind x 美國能源部：AI 進軍國家級科學任務

這或許是本日影響最深遠的消息。Google DeepMind 宣布支援白宮的「Genesis Mission」，將與美國能源部（DOE）旗下的 17 個國家實驗室展開深度合作。這標誌著 AI 正式成為國家級科學研究的核心驅動力，此外，雙方也將利用 WeatherNext 模型優化颶風預測，這項技術已開始支援美國國家颶風中心。。

合作重點包括：

AI Co-scientist：一個基於 Gemini 的多代理系統，能協助科學家生成研究假設並規劃實驗。
AlphaEvolve & AlphaGenome：預計於 2026 年開放。AlphaEvolve 將專注於設計演算法，而 AlphaGenome 則致力於解碼「非編碼 DNA」，這對於生質能源開發與提升農作物抗逆性將有革命性的幫助。

Google 實用工具更新：筆記神器與防偽驗證

在使用者應用端，Google 帶來了兩個貼心的功能更新：

NotebookLM Data Tables：現在，NotebookLM 可以自動將雜亂的資料(會議逐字稿中的行動項目或多份競品分析報告)整理成乾淨、結構化的表格，並支援匯出到 Google Sheets。這項功能目前優先開放給 Pro 和 Ultra 用戶使用，隨後將推廣至所有用戶。看看 Data Tables 如何運作
Gemini App 影片驗證：面對深偽技術的挑戰，Google 在 Gemini App 中加入了驗證功能。透過 SynthID 水印技術，系統能判斷影片是否由 Google AI 生成。值得注意的是，目前該功能支援的檔案限制為長度 90 秒內、大小 100 MB 以內。了解影片驗證功能

安全與倫理：從監控「思維」到保護青少年

隨著 AI 能力的指數級增長，如何確保其行為符合人類價值觀成為了重中之重。

OpenAI 的思維鏈監控 (CoT Monitorability)：OpenAI 發布研究指出，針對現代推理模型（如 o1, o3），監控其「內在思維鏈」比單純看結果更能有效發現欺騙或偏見。這為未來在高風險領域部署 AI 提供了新的安全思路。閱讀思維鏈監控研究
OpenAI 的青少年保護 (U18)：在更新的 Model Spec 中，OpenAI 引入了**「年齡預測模型」（Age Prediction Model）**，旨在自動偵測並保護未成年帳號。當系統判斷使用者為青少年時，會強制開啟更嚴格的安全護欄。查看青少年保護更新
Anthropic 的去阿諛奉承 (Sycophancy)：Anthropic 在最新的安全措施中強調了減少模型的「阿諛奉承」傾向。新模型將不再為了單純討好用戶而附和錯誤的觀點或強化用戶的妄想（Delusions），致力於提供更客觀、更有原則的互動。了解 Anthropic 的安全措施

常見問題解答 (FAQ)

Q：GPT-5.2-Codex 的「原生上下文壓縮」有什麼好處？ 這項技術讓模型在處理長篇程式碼時，能自動將不重要的資訊「壓縮」，從而在有限的上下文視窗（Context Window）中保留更多關鍵邏輯。這對於大型專案的重構（Refactoring）或跨語言遷移特別有用，能避免模型因為讀不到前面的代碼而產生幻覺。

Q：Mistral OCR 3 的批量處理價格是多少？ Mistral 提供了極具破壞力的定價。標準 API 為每 1,000 頁 2 美元，但如果你使用 Batch API（批量處理），價格會降至 每 1,000 頁 1 美元。這對於不急於即時回傳結果的大量檔案數位化工作來說非常划算。

Q：Google Conductor 產生的 specs.md 是什麼？ 它是 AI 對你專案需求的「理解筆記」。在使用 Conductor 時，AI 會先將你的需求轉化為這份規格文檔，並保存在你的代碼庫中。這樣做的好處是，未來的每一次代碼生成都會基於這份「記憶」，確保風格一致，且你可以隨時修改這份文檔來調整 AI 的開發方向。

Q：我可以用 Gemini App 驗證一部 10 分鐘的影片嗎？ 目前還不行。Google 的 AI 影片驗證功能現階段僅支援 90 秒以內 且檔案大小在 100 MB 以下 的影片。這主要適用於短影音或社交媒體片段的快速查核。

分享至:

Featured Partners

SPONSORED

DMflow.chat

探索DMflow.chat，立即開啟AI驅動的客戶服務新時代。

Learn More

SPONSORED

DMflow.chat

DMflow.chat: 您的智能AI夥伴，提升客戶互動、創造卓越體驗。

Learn More

SPONSORED

videoweaver.app

Video Weaver: 瀏覽器內完成專業影片剪輯，無需下載、即刻創作。

Learn More

SPONSORED

DMflow.chat

探索DMflow.chat，立即開啟AI驅動的客戶服務新時代。

Learn More

SPONSORED

DMflow.chat

DMflow.chat: 您的智能AI夥伴，提升客戶互動、創造卓越體驗。

Learn More

SPONSORED

videoweaver.app

Video Weaver: 瀏覽器內完成專業影片剪輯，無需下載、即刻創作。

Learn More

Recommended for You

A …

news

AI 日報: Google地圖結合Gemini、Sora 2 API正式釋出！6大AI更新總整理

科技日報：Google 地圖全面升級與 Sora 2 帶來全新視覺體驗今天的科技圈充滿驚喜。從日常使用的導航工具大幅躍進，到影音生成技術邁入下一個階段，各家大廠都端出了令人眼睛一亮的更新。不僅一般大眾能享受到更便利的介面，開發者社群也迎來了更穩定的工具與預算控制方案。一起來看看這些新技術如何改變大家的生活與工作模式。 OpenAI Sora 2 影片 API 釋出：畫面不再只靠想像老實說，影片生成的技術進展總讓人感到不可思議。OpenAI 開發團隊這次釋出了由Sora 2 驅動的全新 Video API。這代表開發者現在能直接透過介面精準控制影片內容，不再單純仰賴隨機生成的運氣。先釐清一件事，這回的更新支援自訂角色與物件。也就是說，創作者可以維持影片主角的連貫性。輸出格式方面，無論是適合手機觀看的 9:16 或是傳統 16:9 比例都完全支援。或許有些人會問，影片長度有限制嗎？目前單次可以生成長達 20 秒的片段。若需要更長的故事線，還能使用影片接續功能來擴展場景。加上批次處理作業的支援，大規模生成素材變得相當輕鬆。這對影像工作者來說，確實解決了過去片段無法連貫的痛點。 Google 地圖結合 Gemini：找路也能像跟朋友聊天一樣大家日常生活中最常使用的導航工具，剛剛完成了十多年來最大規模的改版。沒錯，Google 地圖正式整合了 Gemini 模型。找路這件事從此變得相當直覺。以前找餐廳總是要自己滑評論比較半天。現在只要透過 Ask Maps 功能，就像跟朋友對話一樣直接提問。例如問它「附近哪裡有氣氛好又提供素食的餐廳」，系統就能結合即時資訊給出量身打造的建議。除了搜尋方式改變，導航介面也帶來了沉浸式導航。立體的 3D 視角結合真實世界影像，讓路口、車道和斑馬線都清晰可見。甚至在出發前，還能提前預覽目的地的停車場與建築物入口。這種結合空間影像運算的設計，確實讓駕駛過程減少了許多焦慮感，出門在外也更有安全感。 Claude 圖表直接產出：資料視覺化變得超直覺整理報表有時候真的很折磨人。不過Claude 最新的更新直接解決了這個困擾。現在使用者可以在聊天介面中，直接生成互動式圖表與示意圖。這項功能目前已經進入 Beta 測試階段。大家最關心的問題通常是：只有付費會員能用嗎？最棒的一點是，所有方案的使用者都能體驗，完全包含免費版用戶。想像一下，只要丟入一堆繁瑣的數據，AI 就能立刻畫出精美的折線圖或圓餅圖。不需要額外開啟試算表軟體，也不用去學那些讓人頭痛的繪圖語法。這種隨想隨用的直覺操作，確實讓工作效率大幅提升，任何人都能輕鬆解讀數據背後的意義。免費資源的代價：GitHub Copilot 學生方案調整享受免費資源的同時，有時候也得接受一些限制。GitHub 稍早更新了方案說明，針對 GitHub Copilot 的學生方案進行了調整。這聽起來有些可惜，因為高階模型選擇權限有了變化。根據最新文件顯示，GPT-5.4 以及 Claude Opus、Claude Sonnet 等進階模型，目前已取消對學生方案的支援。那麼學生方案到底還有哪些功能？經過驗證的學生依然享有無限次的程式碼補全功能，也能存取 Copilot Chat 與代理功能。付費的 Pro 或是企業版用戶則依然可以自由選擇所有頂級模型。對於正在學習寫程式的學生而言，現有包含的模型其實已經相當夠用，依舊是個不可多得的開發好幫手。開發者的除錯救星：OpenRouter 智慧路由預設啟動 API 路由選擇一直都是個棘手的問題。開發者總是在效能與成本之間來回測試。為了解決這個困擾，OpenRouter 正式將 Auto Exacto 針對包含工具呼叫（tool-calling）的請求預設開啟。對於其他的非工具呼叫請求，使用者仍然需要手動在模型名稱後加上 :exacto 才能啟用此功能

Mar 13, 2026 Read →

A …

news

AI 日報: NVIDIA 開源巨型模型與 Google 訂閱爭議

探索最新人工智慧動態：NVIDIA 開源巨型模型與 Google 訂閱方案引發的社群熱議科技圈的發展步調總是讓人目不暇給。每天都有新的工具問世，試圖改變人類與數位世界互動的模式。說實話，要在這波浪潮中保持敏銳度並不簡單。今天就為各位整理近期最值得關注的幾項重大發表，從底層架構的革新到日常辦公軟體的進化，涵蓋了各種令人驚豔的技術細節。突破效能瓶頸的開源巨作訓練語言模型的成本高昂是業界公認的痛點。為了解決這個難題，NVIDIA 釋出了Nemotron 3 Super 混合架構大模型。NVIDIA 這次的舉動確實相當大膽。這款擁有一千二百億參數的模型，特別採用了混合專家架構。這代表著它在進行推論時，只會啟動其中一小部分的參數。這種設計大幅度提升了運作效率，據說吞吐量足足提高了五倍之多。仔細想想，當系統需要處理多步驟的自主代理任務時，常常會遇到上下文過載的瓶頸。大量的歷史紀錄不斷來回傳輸，導致運算變得異常遲緩。Nemotron 3 Super 具備一百萬個 token 的龐大上下文窗口，正好能妥善保留完整的工作流程狀態。這不僅降低了花費，也避免了系統在複雜任務中迷失方向。平台改版引發的社群波瀾然而，新政策未必總能獲得滿堂彩。近期 Google Antigravity 全新服務架構與訂閱方案的改版，就在社群中引爆了熱烈討論。這個平台原本的立意相當良好，試圖透過點數機制，把市場上頂尖的模型整合在一起，讓開發者能在一個介面下自由切換使用。使用者可以依照需求選擇 Pro 或 Ultra 計畫。如果點數用完了，理論上只要額外付費購買即可。可是問題就出在具體的限制條款上。許多用戶在社群媒體上大吐苦水，指出新設定的模型配額嚴苛到不合常理。有人甚至抱怨，只是進行了一個小時的專案測試，帳號就被限制了整整一週。過長的刷新週期讓許多重度使用者感到十分無奈，這也凸顯了平台在資源分配與用戶體驗之間，還有很大的調整空間。神祕新星展現驚人潛力有時候，最具震撼力的驚喜往往來得很低調。就在市場為訂閱配額爭論時，OpenRouter 平台上悄悄現身了兩款神祕的新模型。這兩款被命名為 Hunter Alpha 與 Healer Alpha 的模型，目前還不知道具體的開發團隊背景，但其展現出的規格已經引起廣泛關注。 Hunter Alpha 是一款參數規模達到一兆的巨獸，同樣具備一百萬 token 的上下文能力。它專門針對代理工作流程打造，特別擅長處理需要長期規劃和複雜推理的任務。另一款 Healer Alpha 則展現了全模態的強大潛力。它結合了視覺、聽覺、推理以及行動能力，彷彿擁有了真實世界的感知器官。這代表它可以直接接收聲音和影像，並據此精準地執行多個步驟的動作。這種等級的穩定性與精確度，絕對是未來發展的重要指標。辦公室生產力的無縫升級技術的進步最終還是要回歸到實際應用層面。對於無數每天與報表和簡報奮戰的上班族而言，Claude 針對 Excel 與 PowerPoint 推出的更新無疑是個極好的消息。過去在處理這類文書工作時，總免不了要在不同的視窗間頻繁切換，複製貼上的過程既枯燥又缺乏效率。現在，Claude 帶來了跨檔案的上下文共享功能。這意味著人工智慧可以將同一個對話脈絡延伸到不同的軟體中。舉例來說，系統可以直接讀取 Excel 裡面的財務數據，理解其中的邏輯後，幫忙整理成一目了然的圖表，接著再無縫將這些重點寫入 PowerPoint 簡報裡。一切就像是有個極度聰明的助理在旁協助，將原本繁雜的流程化繁為簡。網頁資料抓取變得異常簡單資料蒐集一直是許多技術團隊面臨的一大挑戰。想要建立優秀的檢索系統或訓練模型，就必須從網路上抓取大量乾淨的資料。Cloudflare 似乎聽到了開發者的心聲，推出了極具實用價值的 Browser Rendering 爬蟲服務。只要發送一個簡單的 API 請求，這個工具就能自動去探索並抓取整個網站的內容。它會在後台利用無頭瀏覽器來處理那些複雜的動態網頁渲染，然後把結果轉換成乾淨的 Markdown 或是結構化的 JSON 格式。這幫開發者省去了處理反爬蟲機制或解析複雜網頁結構的麻煩事，大幅提升了建構資料庫的效率。重新定義個人電腦的未來看完了現有的工具更新，接著來展望一下未來。電腦作業系統的運作邏輯已經維持了相當長的一段時間，基本架構始終是人類輸入指令，機器被動執行。不過，Perplexity 正在醞釀一個被稱為 Personal Computer 的全新構想。

Mar 12, 2026 Read →

A …

news

AI 日報: 提升生產力必看！掌握 ChatGPT、Gemini 與 Fish Audio 與最新 AI 應用

科技脈動：ChatGPT 視覺化學習指南與 Fish Audio 語音開源震撼彈，一次掌握 AI 最新進展你知道嗎？科技的發展總是出人意料，每天都有新的工具試圖讓生活變得更輕鬆。老實說，面對大量且複雜的資訊，要隨時保持敏銳並不容易。今天整理了幾項備受矚目的科技進展，涵蓋了教育工具、辦公室生產力、社群網路佈局，以及專業開發者不可錯過的語音與程式碼助理更新。讓我們一起看看這些技術如何默默改變大家的日常。讓數學與科學不再抽象：ChatGPT 的視覺互動魔法許多成年人直到現在依然覺得數學與科學概念相當難懂。一項 Gallup 調查顯示，超過一半的美國成年人對數學感到吃力。面對密密麻麻的公式，確實很容易讓人退縮。為了解決這個痛點，ChatGPT 推出了全新的視覺互動學習方式。這項功能涵蓋了超過 70 個核心數學與科學概念。使用者不僅能獲得純文字的解答，還能直接在介面上調整變數。當變數改變時，圖表和結果會即時更新。這種視覺化的互動設計，讓原本死板的方程式瞬間變成可以動手實驗的工具。教育工作者也認為，理解事物背後的運作原理，遠比死背公式來得有效。這項新功能目前已向所有登入方案的使用者全球開放，讓學習過程變得更加生動有趣。告別閃爍的游標：Google Workspace 全新辦公幫手面對空白的文件或試算表，萬事起頭難絕對是多數人的心聲。不過，Google Workspace 帶來了最新的 Gemini 更新，專門針對這個問題提供解方。這些功能首先開放給 Google AI Ultra 與 Pro 的訂閱者使用。在 Docs 中，Gemini 可以根據會議記錄直接生成初稿，還能統一整篇文章的語氣。如果手邊有一份喜愛的旅遊行程範本，它甚至能自動抓取電子郵件中的航班與飯店資訊來填寫。至於 Sheets 則變得更加聰明。只需輸入一段簡單的描述，它就能建立完整的專案清單。這聽起來似乎需要大量手動操作。其實不然。系統會自動填寫遺漏的數據，大幅節省四處搜尋資料的時間。Slides 與 Drive 也迎來了升級，讓簡報設計與跨檔案搜尋變得像和真人對話一樣自然。 Meta 的社群新佈局：招募 Moltbook 核心團隊社群網路的發展總是充滿驚喜。事情是這樣的，Meta 最近招募了 Moltbook 的幕後核心雙人組 Matt Schlicht 與 Ben Parr。他們將正式加入由 Alexandr Wang 帶領的 Meta 超級智慧實驗室。

Mar 11, 2026 Read →