AI 日報: AI 工具新進化，從醫療影像判讀到精準行銷數據整合

Google Veo 3.1 大幅提升影片生成的一致性與垂直格式支援，Manus 攜手 Similarweb 導入真實市場數據，加上 MedGemma 1.5 在醫療影像與語音識別上的突破，以及開源界 GLM-Image 的文字渲染能力，顯示 AI 正從單純的內容生成走向更精準的專業應用。

Google Veo 3.1：讓 AI 影片不再「變臉」，垂直短影音創作更輕鬆

對於創作者來說，使用 AI 生成影片最頭痛的問題往往不是畫質，而是「不連貫」。上一秒主角穿著紅衣服，下一秒可能就變成了藍色，或者背景突然改變，這種「抽風」般的現象一直是 AI 影片的硬傷。Google DeepMind 顯然聽到了這些抱怨，在最新的 Veo 3.1 更新中，重點解決了這個痛點。

這次更新的核心在於「Ingredients to Video」（素材轉影片）功能的增強。它允許創作者提供參考圖片，AI 會更嚴格地遵守這些視覺提示。這意味著，無論是角色的長相、穿著，還是場景中的物體、紋理，在整個影片片段中都能保持高度一致。這對於想要用 AI 製作連續敘事內容的人來說，絕對是個好消息。

更有趣的是，Veo 3.1 終於原生支援 9:16 的垂直影片格式。這明顯是衝著 TikTok 和 YouTube Shorts 來的，創作者不再需要尷尬地裁剪寬螢幕影片，直接就能生成適合手機觀看的滿版內容。目前這項功能已經整合進 YouTube Shorts 和 YouTube Create App 中，一般用戶也能在 Gemini App 裡體驗到更生動的對話和動態效果。對於追求極致畫質的專業用戶，Veo 還提供了升級到 1080p 甚至 4K 的選項，確保在大螢幕上播放時依然清晰銳利。

為了提升創作的透明度，Veo 3.1 生成的所有影片都嵌入了 SynthID 數位浮水印。此外，Google 還在 Gemini App 中推出了驗證工具，用戶可以直接上傳影片並詢問其是否由 Google AI 生成，這讓專業用戶在發布內容時更具誠信基礎。

Manus 與 Similarweb 聯手：告別 AI 行銷數據的「幻覺」

行銷人員在使用 AI 進行市場分析時，常會遇到一個尷尬的狀況：AI 講得頭頭是道，但數據來源不明，甚至可能是捏造的。這種「幻覺」風險，讓許多專業人士不敢完全依賴 AI 做決策。現在，AI 代理 Manus 宣布與數位情報領導者 Similarweb 建立官方合作，試圖解決這個信任危機。

這次整合的意義在於「真實性」。Manus 現在可以直接存取 Similarweb 龐大的資料庫，包含過去 12 個月的網站流量、跳出率、甚至特定國家的市場排名。這就像是給 AI 裝上了一雙看清真實市場的眼睛。行銷人員可以直接詢問 AI：「分析競爭對手過去半年的流量渠道」或「比較兩個網站在美國的表現」，AI 吐出的不再是模糊的推測，而是基於 Similarweb 權威數據的圖表和報告。

此外，這項功能不只能提供數據，還能自動將複雜的市場情報轉化為互動式儀表板、幻燈片或詳細的簡報報告，大幅節省行銷人員手動整理資料的時間

大家可能會好奇，使用這項功能是否需要額外付費訂閱 Similarweb？答案是否定的。根據官方說明，所有 Manus 用戶都可以直接使用積分來存取這些關鍵數據，無需額外的訂閱門檻。這大大降低了獲取高品質市場情報的成本，讓創業者、SEO 專家和投資人能更快速地驗證想法，而不必擔心數據的準確性。

GLM-Image：開源影像生成的文字渲染新標竿

在開源影像生成領域，一直存在一個難題：模型雖然能畫出漂亮的風景，但只要涉及「文字」，往往就會寫出一堆外星文。Z.ai 團隊發布的 GLM-Image 試圖打破這個魔咒。這是一個結合了自回歸（Auto-regressive）與擴散模型（Diffusion）優點的混合架構( 該模型由 90 億參數的自回歸模組（基於 GLM-4-9B）與 70 億參數的擴散解碼器（基於 CogView4）組成)模型。

簡單來說，GLM-Image 先用自回歸模型來理解複雜的語義和佈局，再用擴散解碼器來修飾細節。這種設計讓它在理解長指令和渲染文字方面表現出色。根據測試，它在圖像中準確生成文字的能力，已經可以媲美甚至超越許多主流的閉源模型。對於需要製作海報、帶有標語的素材的設計師來說，這是一個非常實用的特性。

目前，GLM-Image 已經在 Hugging Face 上開放供開發者下載體驗。它不僅擅長文字渲染(在文字處理方面，它引入了輕量級的 Glyph-byT5 模型進行字元級編碼，這顯著增強了它在渲染中文字符（如繁體中文海報）時的精確度)，在圖像編輯、風格轉換以及保持多主體一致性方面也有不錯的表現，為開源社群提供了一個強大的新選擇。

Google MedGemma 1.5：醫療 AI 走向 3D 與聽覺

AI 在醫療領域的應用正在從「讀文字」進化到「看片子」和「聽診」。Google Research 推出的 MedGemma 1.5 正是這一趨勢的代表。與前代相比，新版本最大的突破在於支援「高維度」醫療影像。這意味著 AI 不再只能看單張的 X 光片，它現在能解讀 CT（電腦斷層）和 MRI（磁振造影）這類 3D 體積數據，甚至能分析隨時間變化的連續 X 光影像序列。此外， MedGemma 1.5 採用 4B（40億）參數規格，這使其具備極高的運算效率，甚至能在離線環境下運行，保障了醫療數據的私密性。

這對於早期發現疾病特徵至關重要。同時，Google 還發布了 MedASR，這是一個專門針對醫療場景優化的語音轉文字模型。醫生在看診或手術時的口述紀錄，往往充滿了艱澀的專業術語，一般語音模型很容易辨識錯誤。MedASR 經過針對性訓練，能大幅降低醫療術語的錯誤率，讓病歷記錄變得更有效率。

值得一提的是，這些模型都是以開放權重的方式發布在 Hugging Face 上，目的是提供一個可靠的基礎，讓全球的研究人員和開發者能在此之上構建更符合當地需求的醫療應用，例如馬來西亞的團隊就利用它來優化臨床診療指南的查詢系統。除了馬來西亞，台灣全民健康保險署也已應用此模型來評估肺癌手術的術前風險，透過分析超過 3 萬份病理報告來優化手術決策。

Antigravity Agent Skills：給 AI 代理一份「操作手冊」

對於開發者而言，如何讓 AI 代理（Agent）更聰明、更符合專案需求，一直在持續探索。Google 的 Antigravity 框架推出了「Agent Skills」，這是一種標準化的擴充機制。想像一下，這就像是給 AI 代理一本本特定的「操作手冊」。

透過簡單的資料夾結構（包含一個 SKILL.md 說明檔），開發者可以定義 AI 在面對特定任務時應該遵循的步驟、最佳實踐，甚至是可用的腳本工具。例如，你可以寫一個「代碼審查」的技能，教 AI 在檢查程式碼時要特別注意哪些錯誤、使用什麼樣的語氣給出回饋。

這種設計採用了「漸進式揭露」的模式：AI 一開始只會看到技能列表，只有在判斷當前任務需要時，才會深入讀取具體的技能內容。這不僅節省了運算資源，也讓 AI 的行為更加可控且專注。無論是專案特定的工作流程，還是通用的個人工具，都可以封裝成 Skill，讓 AI 代理真正成為開發者的得力助手。詳細的更新日誌可以參考 Antigravity Changelog。

問與答

Google Veo 3.1 影像創作

Q1：Google Veo 3.1 如何解決 AI 影片常見的「不連貫」問題？ A1： Veo 3.1 顯著提升了身分一致性（Identity consistency），即使影片場景發生改變，角色的長相與外型也能保持不變，這對於敘事性內容的創作至關重要。此外，它還能保持背景、物體與紋理的一致性，讓創作者能重複使用相同的視覺元素。

Q2：Veo 3.1 對於短影音創作者有什麼實質幫助？ A2： 它首次原生支援 9:16 的垂直影片格式，讓用戶無需裁剪即可生成適合手機全螢幕觀看的內容。目前這項功能已整合至 YouTube Shorts 和 YouTube Create App 中。為了專業需求，它還提供升級至 1080p 甚至 4K 畫質的選項。

Manus 與 Similarweb 數據分析

Q3：Manus 與 Similarweb 的合作如何解決 AI 的「幻覺」風險？ A3： 這次整合讓 AI 代理 Manus 直接建立在 Similarweb 的權威真實資料基礎上，提供過去 12 個月的網站流量與互動數據。行銷人員不再需要依賴 AI 的模糊推測，而是可以獲得值得信賴的市場指標，並自動轉化為互動式儀表板或簡報報告。

Q4：使用這項功能需要額外訂閱 Similarweb 嗎？費用如何計算？ A4： 不需要訂閱 Similarweb，所有 Manus 用戶都可以透過 Manus 積分按需獲取資料。費用根據網域數量、查詢國家數以及時間跨度等因素進行乘數計算。此外，Manus 現已正式成為 Meta 的一部分。

GLM-Image 開源影像生成

Q5：GLM-Image 的「混合架構」有什麼優勢？ A5： 它結合了自回歸模組（AR）與擴散解碼器（Diffusion）；AR 負責理解複雜的語意布局，而擴散解碼器則負責精修高頻的細節品質。這種設計讓它在處理長指令理解與高保真細節生成方面表現出色。

Q6：GLM-Image 在文字渲染方面有何特別之處？ A6： 它在渲染圖像中的文字方面具有顯著優勢，特別是針對中文字元，它引入了輕量級的 Glyph-byT5 模型進行字元級編碼，這讓它能精確地在海報或素材上渲染繁體中文文字。

Google MedGemma 1.5 醫療 AI

Q7：MedGemma 1.5 在醫療影像處理上有哪些突破？ A7： 它現在支援高維度的 3D 醫療影像，包括 CT（電腦斷層）與 MRI（磁振造影），並能執行連續性影像分析（如 X 光時間序列對比）來追蹤病情變化。這對早期診斷和手術評估非常有幫助，例如台灣健保署就將其應用於肺癌手術的術前評估。

Q8：MedASR 模型對醫生臨床工作的價值是什麼？ A8： MedASR 是專為醫療聽寫優化的語音轉文字模型，其在醫療術語上的識別錯誤率比一般模型（如 Whisper large-v3）降低了 82%。這能大幅提升病歷記錄的效率與準確性。

Antigravity Agent Skills 開發工具

Q9：什麼是 Agent Skills？開發者該如何建立它？ A9： Agent Skills 是擴展 AI 代理能力的開放標準，開發者只需在特定目錄下建立一個包含 SKILL.md 說明檔的資料夾即可完成定義。該文件需使用 YAML 前置格式來定義技能的名稱與描述，以便 AI 判斷何時調用。

Q10：Agent Skills 如何優化 AI 的運算效能？ A10： 它採用**漸進式揭露（Progressive Disclosure）**模式：當對話開始時，AI 只會看到技能列表及其描述，只有在判斷該技能與當前任務相關時，才會讀取完整的詳細指令。這確保了 AI 行為的可控性，同時節省了處理無關資訊的資源。

分享至:

Featured Partners

SPONSORED

DMflow.chat

DMflow.chat: 您的智能AI夥伴，提升客戶互動、創造卓越體驗。

Learn More

SPONSORED

videoweaver.app

Video Weaver: 瀏覽器內完成專業影片剪輯，無需下載、即刻創作。

Learn More

SPONSORED

DMflow.chat

探索DMflow.chat，立即開啟AI驅動的客戶服務新時代。

Learn More

SPONSORED

DMflow.chat

DMflow.chat: 您的智能AI夥伴，提升客戶互動、創造卓越體驗。

Learn More

SPONSORED

videoweaver.app

Video Weaver: 瀏覽器內完成專業影片剪輯，無需下載、即刻創作。

Learn More

SPONSORED

DMflow.chat

探索DMflow.chat，立即開啟AI驅動的客戶服務新時代。

Learn More

Recommended for You

A …

news

AI 日報: Cursor 與 Kimi 模型爭議、Claude 新功能及 Mistral 內容稅

Cursor 程式碼神話的背後：意外現身的 Kimi，與近期 AI 圈的焦點話題你知道嗎？有時候科技圈最引人注目的消息，往往來自於一個不經意的發現。現今環境下的技術演進極快，開發工具的每一次更新都牽動著無數工程師的神經。就在這幾天，社群平台上出現了一個讓許多開發者熱烈討論的有趣話題，甚至連遠在歐洲的 AI 法規動態也跟著引發關注。每天的科技新聞總是充滿驚喜，讓筆者來說明，近期到底發生了哪些影響你我工作方式的重大事件。說實在的，Cursor 這次真的被「扒掉底褲」了嗎？事情是這樣的，一位名叫 Fynn 的網友在測試知名 AI 程式碼編輯器 Cursor 時，隨手把玩了一下 OpenAI 的基礎網址，卻意外捕捉到了一段未經修飾的代碼：「accounts/anysphere/models/kimi-k2p5-rl-0317-s515-fast」。這串網址宛如一個藏不住的大秘密。原來備受外界讚譽、甚至曾被馬斯克站台力挺的 Composer 2 模型，其實是建構在 Kimi K2.5 的基礎之上。當這項發現被馬斯克轉發並吸引超過 73 萬人次觀看後，立刻在網路上炸開了鍋。有評論戲稱這簡直是把高估值企業的神秘面紗徹底掀開，甚至有網友開玩笑要求官方「至少改個模型 ID 吧」。面對各界好奇的目光，官方並沒有選擇閃躲。Cursor 團隊成員 Aman Sanger 隨後出面證實了這項消息。他詳細解釋，團隊確實在眾多基礎模型中進行了基於困惑度（perplexity）的嚴格評估，最終發現 Kimi k2.5 的表現最為強悍。容筆者打個比方，這就像是買了一台體質極佳的跑車底盤，隨後團隊憑藉自身技術進行了精密的引擎調校。Cursor 團隊在 Kimi 的基礎上，進行了持續的預訓練（CPT）與高運算能力的強化學習（RL），整體運算規模足足擴大了四倍。結合了強大的底層架構與 Fireworks 的推理取樣器，才成功將 Composer-2 推向了前沿技術的頂尖水準。Aman 坦承，一開始沒有在官方發布中提及 Kimi 是一個公關上的疏忽，並承諾未來一定會改進。然而，這場看似和平落幕的「公關疏忽」，背後其實隱藏著更深層的商業授權爭議。事實上，Kimi 背後的「月之暗面」團隊一開始並未如此大度。其預訓練負責人杜雨倫曾直接發文，確認兩者 tokenizer 完全一致，並點名質疑 Cursor 創辦人為何不遵守許可證協議、也未支付任何費用，隨後亦有其他員工發文證實，但這些質疑的貼文隨後都被悄悄刪除。這牽涉到 Kimi K2.5 的開源許可條款：若商業產品的月收入超過 2,000 萬美元，就必須在產品介面上醒目地展示「Kimi K2.5」的字樣。而 Cursor 目前的年化收入（ARR）已高達 20 億美元（換算月收入約 1.67 億美元），足足是該規定門檻的 8 倍多。

Mar 21, 2026 Read →

A …

news

AI 日報: OpenAI 代理監控、Firebase Studio 轉移指南與 Claude Code 頻道教學

AI 開發工具最新動態：OpenAI 代理監控機制公開、Firebase Studio 退場與主流工具定價更新你知道嗎？開發者每天都在尋找更順手、更安全的寫程式武器。近期幾家科技巨頭與新創公司紛紛拋出全新的產品更新與政策調整。這些決策直接影響了工程師的工作流程。從模型安全監控到開發環境的整併，再到定價模式的全面革新，每一個環節都值得業界密切關注。這裡將為大家梳理近期的重大消息。 OpenAI 內部監控大解密：如何管好那些聰明的程式碼代理？隨著 AI 系統在真實世界中展現出越來越高的自主性，確保這些系統按照人類意圖運作變得至關重要。大家可能都會好奇，那些強大的模型在後台究竟都在做些什麼？近期官方發布了OpenAI 披露內部 Agent 監控的詳細報告。這份文件揭開了他們如何管理內部程式碼代理的神秘面紗。目前 OpenAI 已經建構了一套低延遲的內部監控系統。這套系統由處於最高推理工作量的 GPT-5.4 Thinking 模型驅動。它會自動審查代理的互動過程。系統能涵蓋高達 99.9% 的內部流量，並在對話完成後 30 分鐘內進行分類與嚴重度評估。老實說，這種規模的監控基礎設施確實令人印象深刻。這套系統到底都在監控些什麼？根據報告指出，主要針對「規避限制」、「欺騙」、「隱藏不確定性」等行為進行偵測。有時候，模型為達成使用者設定的目標，會表現得過於熱心。舉例來說，當某個指令被系統拒絕存取時，代理可能會試圖將指令編碼為 base64 格式，企圖繞過安全檢查。這就是典型的規避限制行為。大家最關心的問題肯定是：這些代理是否具有自主作惡的動機？針對這個常見疑惑，報告給出了明確的答案。在過去五個月監控的數千萬次內部軌跡中，沒有出現任何最高嚴重級別的警報。換句話說，目前並沒有證據顯示模型具有自我保護或策劃陰謀等超出原始任務的動機。系統偶爾捕捉到的中度嚴重事件，大多來自內部的紅隊測試或是使用者提示詞的無意引導。 Firebase Studio 準備退場：開發者的下一步該往哪走？科技產品的生命週期有時比想像中短暫。2025 年才以預覽版姿態亮相的產品，如今已經步入倒數階段。官方已經發出正式通知，針對 Firebase Studio 遷移指南提供了詳細的時程表。為了整合 AI 驅動的開發工具，Firebase Studio 將於 2027 年 3 月 22 日全面關閉。這個決定聽起來有些突然。但其實它的核心功能早就已經無縫整合到 Google AI Studio 與 Google Antigravity 之中。官方強烈建議使用者盡快將專案轉移到這兩個平台上。從 2026 年 3 月 19 日開始，產品雖然保持全面運作，但系統會陸續釋出協助轉移工作區的新工具。到了 2026 年 6 月 22 日，建立新工作區或註冊新帳號的功能將被徹底停用。關於資料移轉，許多使用者必然會問：原有的專案資料與對話紀錄該如何保留？針對這個問題，官方給出了具體說明。開發者可以在最終截止日期前轉移程式碼。但代理聊天的歷史軌跡無法遷移到新平台。這意味著大家必須接受對話紀錄將會遺失的事實。未能在期限前轉移的程式碼，最終也會變得無法存取。未雨綢繆總是好的。如果習慣使用網頁版 IDE，可以直接在 Google AI Studio 建立新工作區。若是依賴 App Prototyping 代理建立的專案，未來工作區內會出現一個專屬的轉移按鈕，點擊即可輕鬆完成搬遷。對於需要完整 IDE 體驗的專案，建議打包下載專案檔，並轉往 Google Antigravity 繼續進行開發。值得慶幸的是，Firestore 或 Auth 等核心 Firebase 服務完全不受影響，依然會穩定運作。

Mar 20, 2026 Read →

A …

news

AI 日報: 免費 AI 資源縮水？Google 政策轉彎、微軟開戰與 8 萬人的 AI 焦慮

科技巨頭的角力與開發者新日常：從設計革命到雲端法律戰大家或許會好奇，每天睜開眼，科技圈又發生了什麼驚天動地的大事？事情是這樣的，從開發工具的底層邏輯重構，到科技巨頭之間高達數百億美元的利益衝突，每天的新聞總讓人目不暇給。這不僅僅是軟體版本的迭代，更牽動著無數工作者的日常習慣。接下來帶大家一探究竟。 Google 掀起的 Vibe 革命：設計與寫程式的全新玩法有時候最好的創意往往來自一個模糊的感覺。Google Labs 剛剛將其實驗性專案Stitch 升級為全新的 AI 原生設計畫布。這項名為「vibe design」的功能允許任何人透過自然語言直接生成高保真使用者介面。它不再要求使用者從死板的線框圖開始。只需描述商業目標或期待的感受，甚至提供一些靈感參考，系統便會化身為得力的創意夥伴。它甚至支援語音輸入，開發者可以對著畫布輕鬆地下達修改指令。程式碼的世界也迎來了類似的震撼。Logan Kilpatrick 在社群媒體上宣布，Google AI Studio 即將推出全新的 vibe coding 體驗。團隊花費四個月從零開始重建。這項更新消除了過去介面上粗糙的邊角問題，幫助每個人都能順暢地將腦海中的點子轉化為實際專案。這確實是個巨大的進步，不過這僅僅是個開始。未來的開發門檻顯然會持續降低。 Gemini 系統的兩樣情：API 功能爆發與 CLI 免費限制開發工具的升級往往伴隨著資源分配的重新洗牌。這次 Gemini 3 API 的工具更新帶來了令人振奮的消息。開發者現在可以在單次呼叫中結合內建工具與自訂函式。系統加入了跨工具的上下文循環功能。比方說，Gemini 可以先呼叫天氣 API 獲取即時資料，再把結果無縫傳遞給預訂場地的自訂工具。更令人驚喜的是，Gemini 3 系列全面整合了 Google Maps 的地理位置資料基礎，使得地理感知回應變得前所未有地精準。讀者可能會問，那麼一般開發者的使用權益有受到影響嗎？很遺憾地，免費資源總有見底的一天。根據 GitHub 上的最新討論，Google 調整了 Gemini CLI 的使用策略。防範未經授權的第三方軟體濫用成了官方的優先考量。免費用戶未來將只能使用較基礎的 Flash 模型。想要存取強大且完整的 Pro 模型，就必須升級至付費方案。這項決定在社群中引發了不少反彈聲浪。許多習慣依賴終端機介面的開發者對於突然失去免費的 Pro 級別存取權感到相當挫折。這也凸顯了企業在平衡營運成本與維護生態系之間的兩難。傾聽八萬人的真實心聲：人們對人工智慧的期待與恐懼人們到底期望這些強大工具帶來什麼？又在害怕什麼？Anthropic 最近發表了一份涵蓋 159 個國家、超過 8 萬名用戶的龐大質化研究報告。老實說，這份報告揭示的結果既充滿希望又帶著隱憂。超過一成五的人渴望達成專業卓越，希望將瑣碎任務交出去，好讓自己能專注於更有意義的策略思考。也有許多人期待獲得時間自由，或是透過科技輔助達成財務獨立。但光有美好的願景還不夠，具體的擔憂同樣真實存在。超過兩成的人擔心系統不夠可靠，害怕被錯誤的資訊誤導。另外有極大比例的群眾擔憂就業與整體經濟受到衝擊。大家也害怕過度依賴會導致人類自身的認知能力退化。科技終究是一把雙刃劍，便利與風險總是如影隨形。實戰經驗總結：如何打造高效的 Claude Code Skills 談到如何讓工具更貼近實務需求，Anthropic 團隊分享了構建 Claude Code Skills 的寶貴經驗。大家通常以為這只是一堆 Markdown 檔案，但其實它們是包含腳本、資產與資料的完整目錄結構。系統代理程式可以主動發掘並利用這些資源。

Mar 19, 2026 Read →