news

AI 日報: OpenAI 推出超強修圖模型、Meta 顛覆音訊剪輯,盤點本週 AI 巨頭的 5 大重磅更新

December 17, 2025
Updated Dec 17
2 min read

本週對於人工智慧領域來說,絕對是熱鬧非凡的一週。從視覺創作到聽覺處理,再到科學研究與日常生產力,幾家科技巨頭不約而同地釋出了令人驚艷的新工具。OpenAI 終於解決了 AI 繪圖「微調」的痛點,Meta 則是用類似修圖的方式來處理聲音,而 Google 則致力於讓你的日常工作流程更順暢。這些更新不只是技術上的堆疊,更直接影響了創作者和專業人士的工作方式。

以下將帶您深入了解這五項可能會改變未來工作型態的重大更新。

1. OpenAI 發表 GPT Image 1.5:精準修圖不再是夢想

對於許多使用過 AI 繪圖工具的人來說,最令人頭痛的往往不是「無中生有」,而是「修改」。常常只是想換掉畫面中的一件衣服,結果整個人物的臉部特徵、光影甚至背景都變了樣。OpenAI 最新發布的 GPT Image 1.5 模型,正是為了解決這個問題而來。

這個新模型最強大的地方在於它的「指令遵循能力」。它能夠在保留原圖核心細節(如光影、構圖、人物外貌)的前提下,精準地執行編輯指令。這意味著使用者可以像使用專業修圖軟體一樣,對 AI 生成的圖片進行微調,無論是更換服裝、調整背景元素,還是進行風格轉換,都能維持高度的一致性。

除了編輯功能,OpenAI 也同步推出了全新的「Images」創作介面。這個介面不僅僅是一個對話框,更像是一個小型的創意工作室,提供了各種預設的風格濾鏡和靈感提示,讓創作過程更加直覺。值得一提的是,新模型的生成速度比前代快了四倍,且 API 的價格降低了 20%,這對於需要大量生成圖片的企業用戶來說,無疑是一個好消息。

2. Meta 推出 SAM Audio:像修圖一樣「圈選」聲音

如果說 OpenAI 解決了視覺編輯的難題,那麼 Meta 則是在聽覺領域投下了一顆震撼彈。Meta 正式發布了 SAM Audio 音訊分離模型,這是其著名的「Segment Anything」系列在音訊領域的最新延伸。

想像一下,你錄製了一段影片,但背景的車流聲蓋過了說話聲,或者你想把一首歌裡的吉他獨奏單獨提取出來。在過去,這需要專業的音訊工程師花費大量時間處理。但 SAM Audio 讓這一切變得異常簡單。它支援三種直覺的指令方式:

  • 文字指令: 直接輸入「狗叫聲」或「人聲」,模型就會自動抓取對應音軌。
  • 視覺指令: 在影片中直接點擊發出聲音的物體(例如正在彈奏的吉他),AI 就會分離出該物體的聲音。
  • 時間區段指令: 這是業界首創的功能,允許使用者標記特定的時間段來鎖定音訊。

這項技術打破了傳統音訊編輯的門檻,讓聲音分離變得像在 Photoshop 裡使用魔術棒一樣簡單。無論是Podcast 製作、影片剪輯還是音樂創作,SAM Audio 都提供了前所未有的靈活性。目前該模型已在 Segment Anything Playground 上開放體驗。

3. Google 推出實驗性 AI 代理人「CC」:你的全能數位秘書

在生產力工具方面,Google Labs 推出了代號為 CC 的全新實驗性 AI 代理人。這款工具建立在 Gemini 模型之上,目標是成為使用者工作與生活中的超級助理。

現代人的工作資料往往散落在各處:Gmail 裡的會議通知、Google Calendar 上的行程、Drive 裡的專案文件。CC 的核心價值在於它能將這些分散的資訊串連起來。每天早上,它會發送一份「Your Day Ahead」簡報到你的信箱,這不只是一份單純的日程表,而是綜合了待辦事項、重要郵件更新和行程的總整理。

更貼心的是,CC 具備主動執行的能力。如果它發現你有一個即將到來的會議,它會自動準備好相關的 Email 草稿或整理出需要的檔案連結。使用者甚至可以透過回信的方式,直接「教導」CC 記住特定的個人偏好或長期任務。目前這項功能已在美國和加拿大針對 Google AI Ultra 用戶開放測試。

4. 在 Gemini 中用 Opal 打造你的專屬「迷你 App」

除了幫你處理雜事,Google 還希望你能自己打造工具。Google 將其開發工具 Opal 直接整合進了 Gemini 網頁版中。這是一個讓一般使用者也能建立「AI 迷你 App」的平台。

Opal 的特點在於其視覺化的編輯器。使用者不需要懂複雜的程式碼,只要透過輸入提示詞(Prompt),就能將想法轉化為一個可重複使用的工具。新的介面甚至能將你的提示詞轉換為清晰的步驟列表,讓你更容易理解並調整 App 的運作邏輯。

這項更新讓 Gemini 的用途不再侷限於單次對話。你可以為自己創建一個專門用來「生成特定格式週報」或「分析財報數據」的迷你 App,並反覆使用。對於那些希望擁有更高客製化 AI 體驗的用戶來說,這是一個相當實用的功能。

5. OpenAI 發表 FrontierScience:AI 科學推理的終極考驗

當我們在討論 AI 能否畫圖或寫信時,OpenAI 已經在思考 AI 能否成為科學家。OpenAI 釋出了一套名為 FrontierScience 的全新評測基準,專門用來評估 AI 在物理、化學和生物學領域的專家級推理能力。

現有的評測大多集中在選擇題,這很難反映真實的科學研究過程。FrontierScience 則包含了兩大類別:「奧林匹亞競賽題」與「研究型任務」。前者由國際奧林匹亞獎牌得主設計,測試高強度的理論推理;後者則由博士級科學家設計,模擬真實的科研場景,評估 AI 是否具備進行原創性研究的潛力。

在初步測試中,OpenAI 透露其內部模型 GPT-5.2 在奧林匹亞題目上取得了 77% 的高分,遠超前代模型。這項計畫的意義在於,它為 AI 進入嚴肅科學研究領域設立了一個明確的標準,也讓我們看見 AI 未來協助人類解開癌症謎團或開發新材料的可能性。


常見問題解答 (FAQ)

Q1:我現在就可以使用 OpenAI 的新 GPT Image 1.5 模型了嗎? 是的,新的 Images 模型今日起已向所有 ChatGPT 用戶推出,同時也透過 API 以 GPT Image 1.5 的形式提供給開發者。不過,企業版(Business and Enterprise)的存取權限將會在稍後開放。

Q2:Meta 的 SAM Audio 需要付費嗎? 目前 Meta 將 SAM Audio 開放在 Segment Anything Playground 供大眾體驗,同時也提供模型下載。作為開源研究的一部分,開發者和研究人員可以免費探索其功能,但商業用途可能需參考特定的授權條款。

Q3:Google 的 CC 助理在台灣可以用嗎? 目前 CC 仍處於早期實驗階段(Early Access),首波僅開放給美國和加拿大的 Google AI Ultra 訂閱戶及付費用戶使用。台灣用戶可能還需要再等等,建議先關注 Google Labs 的後續公告。

Q4:為什麼需要 FrontierScience 這種新的評測標準? 因為過去的測試多半是選擇題,容易被模型「背誦」答案,無法測出真正的推理能力。FrontierScience 透過開放式問答和複雜的研究任務,更能真實反映 AI 是否具備協助科學家進行突破性研究的能力。

Q5:GPT Image 1.5 提到的「API 價格更便宜」是指多少? 根據 OpenAI 的說明,GPT Image 1.5 的輸入與輸出價格相較於前一代 GPT Image 1 降低了 20%,這讓開發者能在相同的預算下生成或編輯更多圖片。

分享至:
Featured Partners

© 2026 Communeify. All rights reserved.