news

AI 日報: AI 工具新進化,從醫療影像判讀到精準行銷數據整合

January 14, 2026
Updated Jan 14
2 min read

Google Veo 3.1 大幅提升影片生成的一致性與垂直格式支援,Manus 攜手 Similarweb 導入真實市場數據,加上 MedGemma 1.5 在醫療影像與語音識別上的突破,以及開源界 GLM-Image 的文字渲染能力,顯示 AI 正從單純的內容生成走向更精準的專業應用。


Google Veo 3.1:讓 AI 影片不再「變臉」,垂直短影音創作更輕鬆

對於創作者來說,使用 AI 生成影片最頭痛的問題往往不是畫質,而是「不連貫」。上一秒主角穿著紅衣服,下一秒可能就變成了藍色,或者背景突然改變,這種「抽風」般的現象一直是 AI 影片的硬傷。Google DeepMind 顯然聽到了這些抱怨,在最新的 Veo 3.1 更新 中,重點解決了這個痛點。

這次更新的核心在於「Ingredients to Video」(素材轉影片)功能的增強。它允許創作者提供參考圖片,AI 會更嚴格地遵守這些視覺提示。這意味著,無論是角色的長相、穿著,還是場景中的物體、紋理,在整個影片片段中都能保持高度一致。這對於想要用 AI 製作連續敘事內容的人來說,絕對是個好消息。

更有趣的是,Veo 3.1 終於原生支援 9:16 的垂直影片格式。這明顯是衝著 TikTok 和 YouTube Shorts 來的,創作者不再需要尷尬地裁剪寬螢幕影片,直接就能生成適合手機觀看的滿版內容。目前這項功能已經整合進 YouTube Shorts 和 YouTube Create App 中,一般用戶也能在 Gemini App 裡體驗到更生動的對話和動態效果。對於追求極致畫質的專業用戶,Veo 還提供了升級到 1080p 甚至 4K 的選項,確保在大螢幕上播放時依然清晰銳利。

為了提升創作的透明度,Veo 3.1 生成的所有影片都嵌入了 SynthID 數位浮水印。此外,Google 還在 Gemini App 中推出了驗證工具,用戶可以直接上傳影片並詢問其是否由 Google AI 生成,這讓專業用戶在發布內容時更具誠信基礎。

Manus 與 Similarweb 聯手:告別 AI 行銷數據的「幻覺」

行銷人員在使用 AI 進行市場分析時,常會遇到一個尷尬的狀況:AI 講得頭頭是道,但數據來源不明,甚至可能是捏造的。這種「幻覺」風險,讓許多專業人士不敢完全依賴 AI 做決策。現在,AI 代理 Manus 宣布與數位情報領導者 Similarweb 建立官方合作,試圖解決這個信任危機。

這次整合的意義在於「真實性」。Manus 現在可以直接存取 Similarweb 龐大的資料庫,包含過去 12 個月的網站流量、跳出率、甚至特定國家的市場排名。這就像是給 AI 裝上了一雙看清真實市場的眼睛。行銷人員可以直接詢問 AI:「分析競爭對手過去半年的流量渠道」或「比較兩個網站在美國的表現」,AI 吐出的不再是模糊的推測,而是基於 Similarweb 權威數據的圖表和報告。

此外,這項功能不只能提供數據,還能自動將複雜的市場情報轉化為互動式儀表板、幻燈片或詳細的簡報報告,大幅節省行銷人員手動整理資料的時間

大家可能會好奇,使用這項功能是否需要額外付費訂閱 Similarweb?答案是否定的。根據官方說明,所有 Manus 用戶都可以直接使用積分來存取這些關鍵數據,無需額外的訂閱門檻。這大大降低了獲取高品質市場情報的成本,讓創業者、SEO 專家和投資人能更快速地驗證想法,而不必擔心數據的準確性。

GLM-Image:開源影像生成的文字渲染新標竿

在開源影像生成領域,一直存在一個難題:模型雖然能畫出漂亮的風景,但只要涉及「文字」,往往就會寫出一堆外星文。Z.ai 團隊發布的 GLM-Image 試圖打破這個魔咒。這是一個結合了自回歸(Auto-regressive)與擴散模型(Diffusion)優點的混合架構( 該模型由 90 億參數的自回歸模組(基於 GLM-4-9B)與 70 億參數的擴散解碼器(基於 CogView4)組成)模型。

簡單來說,GLM-Image 先用自回歸模型來理解複雜的語義和佈局,再用擴散解碼器來修飾細節。這種設計讓它在理解長指令和渲染文字方面表現出色。根據測試,它在圖像中準確生成文字的能力,已經可以媲美甚至超越許多主流的閉源模型。對於需要製作海報、帶有標語的素材的設計師來說,這是一個非常實用的特性。

目前,GLM-Image 已經 在 Hugging Face 上開放 供開發者下載體驗。它不僅擅長文字渲染(在文字處理方面,它引入了輕量級的 Glyph-byT5 模型進行字元級編碼,這顯著增強了它在渲染中文字符(如繁體中文海報)時的精確度),在圖像編輯、風格轉換以及保持多主體一致性方面也有不錯的表現,為開源社群提供了一個強大的新選擇。

Google MedGemma 1.5:醫療 AI 走向 3D 與聽覺

AI 在醫療領域的應用正在從「讀文字」進化到「看片子」和「聽診」。Google Research 推出的 MedGemma 1.5 正是這一趨勢的代表。與前代相比,新版本最大的突破在於支援「高維度」醫療影像。這意味著 AI 不再只能看單張的 X 光片,它現在能解讀 CT(電腦斷層)和 MRI(磁振造影)這類 3D 體積數據,甚至能分析隨時間變化的連續 X 光影像序列。此外, MedGemma 1.5 採用 4B(40億)參數規格,這使其具備極高的運算效率,甚至能在離線環境下運行,保障了醫療數據的私密性。

這對於早期發現疾病特徵至關重要。同時,Google 還發布了 MedASR,這是一個專門針對醫療場景優化的語音轉文字模型。醫生在看診或手術時的口述紀錄,往往充滿了艱澀的專業術語,一般語音模型很容易辨識錯誤。MedASR 經過針對性訓練,能大幅降低醫療術語的錯誤率,讓病歷記錄變得更有效率。

值得一提的是,這些模型都是以開放權重的方式發布在 Hugging Face 上,目的是提供一個可靠的基礎,讓全球的研究人員和開發者能在此之上構建更符合當地需求的醫療應用,例如馬來西亞的團隊就利用它來優化臨床診療指南的查詢系統。除了馬來西亞,台灣全民健康保險署也已應用此模型來評估肺癌手術的術前風險,透過分析超過 3 萬份病理報告來優化手術決策。

Antigravity Agent Skills:給 AI 代理一份「操作手冊」

對於開發者而言,如何讓 AI 代理(Agent)更聰明、更符合專案需求,一直在持續探索。Google 的 Antigravity 框架推出了「Agent Skills」,這是一種標準化的擴充機制。想像一下,這就像是給 AI 代理一本本特定的「操作手冊」。

透過簡單的資料夾結構(包含一個 SKILL.md 說明檔),開發者可以定義 AI 在面對特定任務時應該遵循的步驟、最佳實踐,甚至是可用的腳本工具。例如,你可以寫一個「代碼審查」的技能,教 AI 在檢查程式碼時要特別注意哪些錯誤、使用什麼樣的語氣給出回饋。

這種設計採用了「漸進式揭露」的模式:AI 一開始只會看到技能列表,只有在判斷當前任務需要時,才會深入讀取具體的技能內容。這不僅節省了運算資源,也讓 AI 的行為更加可控且專注。無論是專案特定的工作流程,還是通用的個人工具,都可以封裝成 Skill,讓 AI 代理真正成為開發者的得力助手。詳細的更新日誌可以參考 Antigravity Changelog

問與答

Google Veo 3.1 影像創作

Q1:Google Veo 3.1 如何解決 AI 影片常見的「不連貫」問題? A1: Veo 3.1 顯著提升了身分一致性(Identity consistency),即使影片場景發生改變,角色的長相與外型也能保持不變,這對於敘事性內容的創作至關重要。此外,它還能保持背景、物體與紋理的一致性,讓創作者能重複使用相同的視覺元素。

Q2:Veo 3.1 對於短影音創作者有什麼實質幫助? A2: 它首次原生支援 9:16 的垂直影片格式,讓用戶無需裁剪即可生成適合手機全螢幕觀看的內容。目前這項功能已整合至 YouTube ShortsYouTube Create App 中。為了專業需求,它還提供升級至 1080p 甚至 4K 畫質的選項。


Manus 與 Similarweb 數據分析

Q3:Manus 與 Similarweb 的合作如何解決 AI 的「幻覺」風險? A3: 這次整合讓 AI 代理 Manus 直接建立在 Similarweb 的權威真實資料基礎上,提供過去 12 個月的網站流量與互動數據。行銷人員不再需要依賴 AI 的模糊推測,而是可以獲得值得信賴的市場指標,並自動轉化為互動式儀表板或簡報報告

Q4:使用這項功能需要額外訂閱 Similarweb 嗎?費用如何計算? A4: 不需要訂閱 Similarweb,所有 Manus 用戶都可以透過 Manus 積分按需獲取資料。費用根據網域數量、查詢國家數以及時間跨度等因素進行乘數計算。此外,Manus 現已正式成為 Meta 的一部分。


GLM-Image 開源影像生成

Q5:GLM-Image 的「混合架構」有什麼優勢? A5: 它結合了自回歸模組(AR)與擴散解碼器(Diffusion);AR 負責理解複雜的語意布局,而擴散解碼器則負責精修高頻的細節品質。這種設計讓它在處理長指令理解高保真細節生成方面表現出色。

Q6:GLM-Image 在文字渲染方面有何特別之處? A6: 它在渲染圖像中的文字方面具有顯著優勢,特別是針對中文字元,它引入了輕量級的 Glyph-byT5 模型進行字元級編碼,這讓它能精確地在海報或素材上渲染繁體中文文字。


Google MedGemma 1.5 醫療 AI

Q7:MedGemma 1.5 在醫療影像處理上有哪些突破? A7: 它現在支援高維度的 3D 醫療影像,包括 CT(電腦斷層)與 MRI(磁振造影),並能執行連續性影像分析(如 X 光時間序列對比)來追蹤病情變化。這對早期診斷和手術評估非常有幫助,例如台灣健保署就將其應用於肺癌手術的術前評估。

Q8:MedASR 模型對醫生臨床工作的價值是什麼? A8: MedASR 是專為醫療聽寫優化的語音轉文字模型,其在醫療術語上的識別錯誤率比一般模型(如 Whisper large-v3)降低了 82%。這能大幅提升病歷記錄的效率與準確性。


Antigravity Agent Skills 開發工具

Q9:什麼是 Agent Skills?開發者該如何建立它? A9: Agent Skills 是擴展 AI 代理能力的開放標準,開發者只需在特定目錄下建立一個包含 SKILL.md 說明檔的資料夾即可完成定義。該文件需使用 YAML 前置格式來定義技能的名稱與描述,以便 AI 判斷何時調用。

Q10:Agent Skills 如何優化 AI 的運算效能? A10: 它採用**漸進式揭露(Progressive Disclosure)**模式:當對話開始時,AI 只會看到技能列表及其描述,只有在判斷該技能與當前任務相關時,才會讀取完整的詳細指令。這確保了 AI 行為的可控性,同時節省了處理無關資訊的資源。

分享至:
Featured Partners

© 2026 Communeify. All rights reserved.