AI 日報: OpenAI 推出超強修圖模型、Meta 顛覆音訊剪輯，盤點本週 AI 巨頭的 5 大重磅更新

本週對於人工智慧領域來說，絕對是熱鬧非凡的一週。從視覺創作到聽覺處理，再到科學研究與日常生產力，幾家科技巨頭不約而同地釋出了令人驚艷的新工具。OpenAI 終於解決了 AI 繪圖「微調」的痛點，Meta 則是用類似修圖的方式來處理聲音，而 Google 則致力於讓你的日常工作流程更順暢。這些更新不只是技術上的堆疊，更直接影響了創作者和專業人士的工作方式。

以下將帶您深入了解這五項可能會改變未來工作型態的重大更新。

1. OpenAI 發表 GPT Image 1.5：精準修圖不再是夢想

對於許多使用過 AI 繪圖工具的人來說，最令人頭痛的往往不是「無中生有」，而是「修改」。常常只是想換掉畫面中的一件衣服，結果整個人物的臉部特徵、光影甚至背景都變了樣。OpenAI 最新發布的 GPT Image 1.5 模型，正是為了解決這個問題而來。

這個新模型最強大的地方在於它的「指令遵循能力」。它能夠在保留原圖核心細節（如光影、構圖、人物外貌）的前提下，精準地執行編輯指令。這意味著使用者可以像使用專業修圖軟體一樣，對 AI 生成的圖片進行微調，無論是更換服裝、調整背景元素，還是進行風格轉換，都能維持高度的一致性。

除了編輯功能，OpenAI 也同步推出了全新的「Images」創作介面。這個介面不僅僅是一個對話框，更像是一個小型的創意工作室，提供了各種預設的風格濾鏡和靈感提示，讓創作過程更加直覺。值得一提的是，新模型的生成速度比前代快了四倍，且 API 的價格降低了 20%，這對於需要大量生成圖片的企業用戶來說，無疑是一個好消息。

2. Meta 推出 SAM Audio：像修圖一樣「圈選」聲音

如果說 OpenAI 解決了視覺編輯的難題，那麼 Meta 則是在聽覺領域投下了一顆震撼彈。Meta 正式發布了 SAM Audio 音訊分離模型，這是其著名的「Segment Anything」系列在音訊領域的最新延伸。

想像一下，你錄製了一段影片，但背景的車流聲蓋過了說話聲，或者你想把一首歌裡的吉他獨奏單獨提取出來。在過去，這需要專業的音訊工程師花費大量時間處理。但 SAM Audio 讓這一切變得異常簡單。它支援三種直覺的指令方式：

文字指令： 直接輸入「狗叫聲」或「人聲」，模型就會自動抓取對應音軌。
視覺指令： 在影片中直接點擊發出聲音的物體（例如正在彈奏的吉他），AI 就會分離出該物體的聲音。
時間區段指令： 這是業界首創的功能，允許使用者標記特定的時間段來鎖定音訊。

這項技術打破了傳統音訊編輯的門檻，讓聲音分離變得像在 Photoshop 裡使用魔術棒一樣簡單。無論是Podcast 製作、影片剪輯還是音樂創作，SAM Audio 都提供了前所未有的靈活性。目前該模型已在 Segment Anything Playground 上開放體驗。

3. Google 推出實驗性 AI 代理人「CC」：你的全能數位秘書

在生產力工具方面，Google Labs 推出了代號為 CC 的全新實驗性 AI 代理人。這款工具建立在 Gemini 模型之上，目標是成為使用者工作與生活中的超級助理。

現代人的工作資料往往散落在各處：Gmail 裡的會議通知、Google Calendar 上的行程、Drive 裡的專案文件。CC 的核心價值在於它能將這些分散的資訊串連起來。每天早上，它會發送一份「Your Day Ahead」簡報到你的信箱，這不只是一份單純的日程表，而是綜合了待辦事項、重要郵件更新和行程的總整理。

更貼心的是，CC 具備主動執行的能力。如果它發現你有一個即將到來的會議，它會自動準備好相關的 Email 草稿或整理出需要的檔案連結。使用者甚至可以透過回信的方式，直接「教導」CC 記住特定的個人偏好或長期任務。目前這項功能已在美國和加拿大針對 Google AI Ultra 用戶開放測試。

4. 在 Gemini 中用 Opal 打造你的專屬「迷你 App」

除了幫你處理雜事，Google 還希望你能自己打造工具。Google 將其開發工具 Opal 直接整合進了 Gemini 網頁版中。這是一個讓一般使用者也能建立「AI 迷你 App」的平台。

Opal 的特點在於其視覺化的編輯器。使用者不需要懂複雜的程式碼，只要透過輸入提示詞（Prompt），就能將想法轉化為一個可重複使用的工具。新的介面甚至能將你的提示詞轉換為清晰的步驟列表，讓你更容易理解並調整 App 的運作邏輯。

這項更新讓 Gemini 的用途不再侷限於單次對話。你可以為自己創建一個專門用來「生成特定格式週報」或「分析財報數據」的迷你 App，並反覆使用。對於那些希望擁有更高客製化 AI 體驗的用戶來說，這是一個相當實用的功能。

5. OpenAI 發表 FrontierScience：AI 科學推理的終極考驗

當我們在討論 AI 能否畫圖或寫信時，OpenAI 已經在思考 AI 能否成為科學家。OpenAI 釋出了一套名為 FrontierScience 的全新評測基準，專門用來評估 AI 在物理、化學和生物學領域的專家級推理能力。

現有的評測大多集中在選擇題，這很難反映真實的科學研究過程。FrontierScience 則包含了兩大類別：「奧林匹亞競賽題」與「研究型任務」。前者由國際奧林匹亞獎牌得主設計，測試高強度的理論推理；後者則由博士級科學家設計，模擬真實的科研場景，評估 AI 是否具備進行原創性研究的潛力。

在初步測試中，OpenAI 透露其內部模型 GPT-5.2 在奧林匹亞題目上取得了 77% 的高分，遠超前代模型。這項計畫的意義在於，它為 AI 進入嚴肅科學研究領域設立了一個明確的標準，也讓我們看見 AI 未來協助人類解開癌症謎團或開發新材料的可能性。

常見問題解答 (FAQ)

Q1：我現在就可以使用 OpenAI 的新 GPT Image 1.5 模型了嗎？ 是的，新的 Images 模型今日起已向所有 ChatGPT 用戶推出，同時也透過 API 以 GPT Image 1.5 的形式提供給開發者。不過，企業版（Business and Enterprise）的存取權限將會在稍後開放。

Q2：Meta 的 SAM Audio 需要付費嗎？ 目前 Meta 將 SAM Audio 開放在 Segment Anything Playground 供大眾體驗，同時也提供模型下載。作為開源研究的一部分，開發者和研究人員可以免費探索其功能，但商業用途可能需參考特定的授權條款。

Q3：Google 的 CC 助理在台灣可以用嗎？ 目前 CC 仍處於早期實驗階段（Early Access），首波僅開放給美國和加拿大的 Google AI Ultra 訂閱戶及付費用戶使用。台灣用戶可能還需要再等等，建議先關注 Google Labs 的後續公告。

Q4：為什麼需要 FrontierScience 這種新的評測標準？ 因為過去的測試多半是選擇題，容易被模型「背誦」答案，無法測出真正的推理能力。FrontierScience 透過開放式問答和複雜的研究任務，更能真實反映 AI 是否具備協助科學家進行突破性研究的能力。

Q5：GPT Image 1.5 提到的「API 價格更便宜」是指多少？ 根據 OpenAI 的說明，GPT Image 1.5 的輸入與輸出價格相較於前一代 GPT Image 1 降低了 20%，這讓開發者能在相同的預算下生成或編輯更多圖片。

分享至:

Featured Partners

SPONSORED

DMflow.chat

DMflow.chat: 您的智能AI夥伴，提升客戶互動、創造卓越體驗。

Learn More

SPONSORED

DMflow.chat

探索DMflow.chat，立即開啟AI驅動的客戶服務新時代。

Learn More

SPONSORED

videoweaver.app

Video Weaver: 瀏覽器內完成專業影片剪輯，無需下載、即刻創作。

Learn More

SPONSORED

DMflow.chat

DMflow.chat: 您的智能AI夥伴，提升客戶互動、創造卓越體驗。

Learn More

SPONSORED

DMflow.chat

探索DMflow.chat，立即開啟AI驅動的客戶服務新時代。

Learn More

SPONSORED

videoweaver.app

Video Weaver: 瀏覽器內完成專業影片剪輯，無需下載、即刻創作。

Learn More

Recommended for You

A …

news

AI 日報: NVIDIA 開源巨型模型與 Google 訂閱爭議

探索最新人工智慧動態：NVIDIA 開源巨型模型與 Google 訂閱方案引發的社群熱議科技圈的發展步調總是讓人目不暇給。每天都有新的工具問世，試圖改變人類與數位世界互動的模式。說實話，要在這波浪潮中保持敏銳度並不簡單。今天就為各位整理近期最值得關注的幾項重大發表，從底層架構的革新到日常辦公軟體的進化，涵蓋了各種令人驚豔的技術細節。突破效能瓶頸的開源巨作訓練語言模型的成本高昂是業界公認的痛點。為了解決這個難題，NVIDIA 釋出了Nemotron 3 Super 混合架構大模型。NVIDIA 這次的舉動確實相當大膽。這款擁有一千二百億參數的模型，特別採用了混合專家架構。這代表著它在進行推論時，只會啟動其中一小部分的參數。這種設計大幅度提升了運作效率，據說吞吐量足足提高了五倍之多。仔細想想，當系統需要處理多步驟的自主代理任務時，常常會遇到上下文過載的瓶頸。大量的歷史紀錄不斷來回傳輸，導致運算變得異常遲緩。Nemotron 3 Super 具備一百萬個 token 的龐大上下文窗口，正好能妥善保留完整的工作流程狀態。這不僅降低了花費，也避免了系統在複雜任務中迷失方向。平台改版引發的社群波瀾然而，新政策未必總能獲得滿堂彩。近期 Google Antigravity 全新服務架構與訂閱方案的改版，就在社群中引爆了熱烈討論。這個平台原本的立意相當良好，試圖透過點數機制，把市場上頂尖的模型整合在一起，讓開發者能在一個介面下自由切換使用。使用者可以依照需求選擇 Pro 或 Ultra 計畫。如果點數用完了，理論上只要額外付費購買即可。可是問題就出在具體的限制條款上。許多用戶在社群媒體上大吐苦水，指出新設定的模型配額嚴苛到不合常理。有人甚至抱怨，只是進行了一個小時的專案測試，帳號就被限制了整整一週。過長的刷新週期讓許多重度使用者感到十分無奈，這也凸顯了平台在資源分配與用戶體驗之間，還有很大的調整空間。神祕新星展現驚人潛力有時候，最具震撼力的驚喜往往來得很低調。就在市場為訂閱配額爭論時，OpenRouter 平台上悄悄現身了兩款神祕的新模型。這兩款被命名為 Hunter Alpha 與 Healer Alpha 的模型，目前還不知道具體的開發團隊背景，但其展現出的規格已經引起廣泛關注。 Hunter Alpha 是一款參數規模達到一兆的巨獸，同樣具備一百萬 token 的上下文能力。它專門針對代理工作流程打造，特別擅長處理需要長期規劃和複雜推理的任務。另一款 Healer Alpha 則展現了全模態的強大潛力。它結合了視覺、聽覺、推理以及行動能力，彷彿擁有了真實世界的感知器官。這代表它可以直接接收聲音和影像，並據此精準地執行多個步驟的動作。這種等級的穩定性與精確度，絕對是未來發展的重要指標。辦公室生產力的無縫升級技術的進步最終還是要回歸到實際應用層面。對於無數每天與報表和簡報奮戰的上班族而言，Claude 針對 Excel 與 PowerPoint 推出的更新無疑是個極好的消息。過去在處理這類文書工作時，總免不了要在不同的視窗間頻繁切換，複製貼上的過程既枯燥又缺乏效率。現在，Claude 帶來了跨檔案的上下文共享功能。這意味著人工智慧可以將同一個對話脈絡延伸到不同的軟體中。舉例來說，系統可以直接讀取 Excel 裡面的財務數據，理解其中的邏輯後，幫忙整理成一目了然的圖表，接著再無縫將這些重點寫入 PowerPoint 簡報裡。一切就像是有個極度聰明的助理在旁協助，將原本繁雜的流程化繁為簡。網頁資料抓取變得異常簡單資料蒐集一直是許多技術團隊面臨的一大挑戰。想要建立優秀的檢索系統或訓練模型，就必須從網路上抓取大量乾淨的資料。Cloudflare 似乎聽到了開發者的心聲，推出了極具實用價值的 Browser Rendering 爬蟲服務。只要發送一個簡單的 API 請求，這個工具就能自動去探索並抓取整個網站的內容。它會在後台利用無頭瀏覽器來處理那些複雜的動態網頁渲染，然後把結果轉換成乾淨的 Markdown 或是結構化的 JSON 格式。這幫開發者省去了處理反爬蟲機制或解析複雜網頁結構的麻煩事，大幅提升了建構資料庫的效率。重新定義個人電腦的未來看完了現有的工具更新，接著來展望一下未來。電腦作業系統的運作邏輯已經維持了相當長的一段時間，基本架構始終是人類輸入指令，機器被動執行。不過，Perplexity 正在醞釀一個被稱為 Personal Computer 的全新構想。

Mar 12, 2026 Read →

A …

news

AI 日報: 提升生產力必看！掌握 ChatGPT、Gemini 與 Fish Audio 與最新 AI 應用

科技脈動：ChatGPT 視覺化學習指南與 Fish Audio 語音開源震撼彈，一次掌握 AI 最新進展你知道嗎？科技的發展總是出人意料，每天都有新的工具試圖讓生活變得更輕鬆。老實說，面對大量且複雜的資訊，要隨時保持敏銳並不容易。今天整理了幾項備受矚目的科技進展，涵蓋了教育工具、辦公室生產力、社群網路佈局，以及專業開發者不可錯過的語音與程式碼助理更新。讓我們一起看看這些技術如何默默改變大家的日常。讓數學與科學不再抽象：ChatGPT 的視覺互動魔法許多成年人直到現在依然覺得數學與科學概念相當難懂。一項 Gallup 調查顯示，超過一半的美國成年人對數學感到吃力。面對密密麻麻的公式，確實很容易讓人退縮。為了解決這個痛點，ChatGPT 推出了全新的視覺互動學習方式。這項功能涵蓋了超過 70 個核心數學與科學概念。使用者不僅能獲得純文字的解答，還能直接在介面上調整變數。當變數改變時，圖表和結果會即時更新。這種視覺化的互動設計，讓原本死板的方程式瞬間變成可以動手實驗的工具。教育工作者也認為，理解事物背後的運作原理，遠比死背公式來得有效。這項新功能目前已向所有登入方案的使用者全球開放，讓學習過程變得更加生動有趣。告別閃爍的游標：Google Workspace 全新辦公幫手面對空白的文件或試算表，萬事起頭難絕對是多數人的心聲。不過，Google Workspace 帶來了最新的 Gemini 更新，專門針對這個問題提供解方。這些功能首先開放給 Google AI Ultra 與 Pro 的訂閱者使用。在 Docs 中，Gemini 可以根據會議記錄直接生成初稿，還能統一整篇文章的語氣。如果手邊有一份喜愛的旅遊行程範本，它甚至能自動抓取電子郵件中的航班與飯店資訊來填寫。至於 Sheets 則變得更加聰明。只需輸入一段簡單的描述，它就能建立完整的專案清單。這聽起來似乎需要大量手動操作。其實不然。系統會自動填寫遺漏的數據，大幅節省四處搜尋資料的時間。Slides 與 Drive 也迎來了升級，讓簡報設計與跨檔案搜尋變得像和真人對話一樣自然。 Meta 的社群新佈局：招募 Moltbook 核心團隊社群網路的發展總是充滿驚喜。事情是這樣的，Meta 最近招募了 Moltbook 的幕後核心雙人組 Matt Schlicht 與 Ben Parr。他們將正式加入由 Alexandr Wang 帶領的 Meta 超級智慧實驗室。

Mar 11, 2026 Read →

A …

news

AI 日報: 微軟 Copilot 幫打工、OpenAI 安全佈局與騰訊 SongGeneration 2 音樂模型

告別純聊天！微軟讓 AI 直接幫你把工作做完，同場加映 Claude 程式碼神助攻與騰訊頂尖 AI 音樂大家最近打開電腦，大概都能感覺到人工智慧的發展又推進到一個全新的層次。說真的，以前大家對 AI 的期待可能只是幫忙寫寫草稿或是回答幾個簡單的問題。但你看現在的情況，各大科技巨頭已經不滿足於這種「問答遊戲」了。眼下的趨勢非常明顯，AI 正逐漸從一個「會說話的百科全書」變成一個「真正能捲起袖子幹活的數位員工」。今天這篇文章將帶大家一覽近期的重磅科技更新。從微軟全新的辦公模式，到 OpenAI 的安全佈局，再到開發者最愛的程式碼審查工具，甚至是能生成廣播級歌曲的音樂模型。準備好了嗎？讓我們來看看這些科技將如何改變日常工作與生活。讓 AI 直接幫你打工：Copilot Cowork 登場你猜怎麼著？大家期盼已久的「自動化辦公」終於有了一次大躍進。微軟最近正式公佈了Copilot Cowork: A new way of getting work done，這項新功能的設計初衷非常直接，就是要讓 Copilot 採取實際行動，而不單單只是跟你聊天。想像一下這個情境。星期一早上，信箱裡塞滿了客戶的回覆，行事曆亂成一團。這時候，只要給 Cowork 下達一個明確的目標，它就會自動根據信件、會議記錄和檔案來理解脈絡。這背後仰賴的是 Work IQ 技術，它能跨越 Outlook、Teams 和 Excel 等軟體收集訊號，並將使用者的請求轉化為具體的執行計畫。很多人可能會問，交給 AI 處理真的安全嗎？它會不會亂發信件？老實說，微軟早就想到了這一點。Cowork 會在背景默默執行計畫，並設定明確的檢查點。它會向你推薦下一步行動，一切都必須經過你的核准才會真正落實。這種模式讓使用者可以同時推進十幾個任務，同時又完全不失去控制權。這真的很聰明。真的非常實用。嚴格把關：OpenAI 收購 Promptfoo 強化系統安全當 AI 越來越聰明，甚至開始接觸企業的核心數據時，安全性自然成了最大的考量。OpenAI 顯然非常清楚這個痛點。他們剛剛宣布 OpenAI 準備收購 Promptfoo，這是一家專門幫助企業在開發階段識別並修復 AI 漏洞的安全平台。這項收購案對企業用戶來說是個巨大的定心丸。隨著越來越多的 AI 助理被部署到真實的工作流程中，企業非常需要系統化的方法來測試代理行為。Ian Webster 和 Michael D’Angelo 帶領的 Promptfoo 團隊，之前就打造了一套強大的開源命令列介面與函式庫，專門用來對大型語言模型進行「紅隊測試」，也就是模擬駭客攻擊來找出系統的弱點。一旦收購完成，這項技術將會直接整合到 OpenAI Frontier 平台中。有人好奇這是否意味著原本的開源專案會被關閉。其實剛好相反，OpenAI 承諾會繼續維護這個開源專案，這對整個開發者社群來說絕對是個好消息。

Mar 10, 2026 Read →