AI日報 | Claude Code 資安外掛登場！Bonsai Image 實現手機本地生成，OpenMOSS 語音黑科技升級

AI 最新情報：在手機跑 3GB 生圖模型成真？Claude、騰訊與開源社群的近期亮點

你知道嗎？硬體規格往往是阻礙創意落地的最大門檻。每當討論到高品質的 AI 圖片生成，腦海中浮現的通常是需要昂貴顯示卡與龐大伺服器運算的畫面。不過事情總有例外。老實說，目前的技術發展已經將這些龐然大物壓縮到可以放進口袋裡。

今天為大家整理了幾項業界備受矚目的技術進展。從完全能在本地端運行的極致壓縮生圖模型，到幫助開發者即時抓出漏洞的程式碼審查工具，再到語音生成與 API 價格的市場變動。接下來就帶大家逐一了解這些具體細節。

手機端也能流暢出圖：PrismML 推出極致壓縮的 Bonsai Image 4B

提到邊緣運算 AI，大家可能會好奇：把一個動輒十幾 GB 的模型塞進手機裡，到底現不現實？PrismML 團隊給出了一個相當驚艷的答案。他們最新發布的 Bonsai Image 4B 公告震驚了開發者社群。這個專為本地裝置設計的擴散模型家族，真正實現了從筆記型電腦到智慧型手機的高品質圖片生成。

這聽起來像是某種黑科技。其實這完全仰賴於量化技術的突破。Bonsai Image 4B 提供了兩種截然不同的變體。第一種是追求極致體積的「1-bit Bonsai Image 4B」，它將 Transformer 權重壓縮為二元數值 (-1 與 +1)，其 Transformer 核心部分甚至不到 1GB（僅 0.93 GB），而包含文本編碼器與 FP16 VAE 等元件在蘋果晶片上的完整部署負載 (deployment payload) 大小也僅約 3.42 GB。對比原本高達近 16GB (15.97 GB) 的 FLUX.2 Klein 4B 完整部署大小，這樣的瘦身幅度令人難以置信。第二種則是兼顧品質的「Ternary Bonsai Image 4B」，也就是三元模型。它在權重中加入了一個「零」的狀態 (-1、0、+1)，稍微增加了一點記憶體佔用，卻大幅提升了視覺品質與提示詞的還原度。

如果想親自測試這些本地端圖片生成的效果，官方已經將資源全面開放。開發者可以直接前往 Hugging Face 上的 Bonsai Image 專區獲取模型。團隊也提供了基於 WebGPU 的線上體驗空間讓大家直接在瀏覽器感受生成速度。對於喜歡探究底層技術的人，這份技術白皮書詳細記錄了他們的研發過程，並且所有的實作程式碼都在 GitHub 專案中以 Apache-2.0 授權開源。

寫程式時的隱形安全網：Claude Code 專屬安全外掛登場

把目光轉向開發者日常。寫程式碼是一件充滿創造力的事情，但修補安全漏洞絕對不是。多數時候，安全審查都會落在專案即將合併的最後一刻，這讓除錯過程變得異常痛苦。

Anthropic 團隊顯然注意到了這個痛點。他們透過官方社群發布了針對 Claude Code 的安全指引外掛。這不僅僅是一個普通的語法檢查器，它會在你輸入程式碼的當下，像個有經驗的同事一樣坐在旁邊幫你抓漏。

根據 Claude Code 官方文件的詳細說明，這個外掛的運作邏輯非常聰明。它包含三個不同層次的檢查機制。第一層是針對每次檔案編輯的快速字串比對，用來攔截已知的高風險模式。第二層則會在每個對話回合結束時，由後台模型針對變更內容進行審查。第三層最為嚴謹，當 Claude 透過其 Bash 工具執行提交 (commit) 或推送 (push) 程式碼時，代理系統會讀取周圍的上下文，判斷是否存在複雜的資安風險（請注意，如果是開發者從自己的終端機 shell 手動執行的 commit 則不會觸發此審查）。更棒的是，開發者可以自行編寫團隊專屬的安全規則，這讓資安控管變得更加自然且融入日常開發流程中。

擁抱開源社群：騰訊 Hy-MT2 模型全面轉換為 Apache 2.0 授權

開源模型的授權條款一直是產業界關注的焦點。畢竟，模型再強大，如果不能自由用於商業用途，對於新創團隊與企業來說就等於是一張看得到吃不到的大餅。

近期中國開源模型界傳來了一個好消息。根據騰訊混元官方發布的動態，旗下的 Hy-MT2 系列模型已經正式將授權協議更改為極具彈性的 Apache 2.0。這意味著開發者現在擁有極大的自由度，可以將這些模型用於學術研究、商業化應用、微調以及開發衍生作品，再也不必擔心繁瑣的附加條款。

目前 Hy-MT2 的兩個版本在 Hugging Face 的熱門排行榜上分別佔據了第一與第四的位置。將如此具有競爭力的模型完全開放給社群，無疑會激發出更多有趣的應用場景。對於想要嘗試建立自有大語言模型的企業來說，現在正是著手評估與測試的好時機。

AI 語音生成的再進化：OpenMOSS 帶來更細膩的聽覺體驗

看完視覺與文字邏輯，我們來聊聊聽覺。語音生成技術最近有著突破性的進展，特別是在多語言支援與情緒停頓的控制上。

OpenMOSS 團隊剛釋出了兩款重量級的音訊模型。首先是 MOSS-TTS-v1.5 語音合成模型。相比前一代，v1.5 版本將支援的語言一口氣擴展到了 31 種，涵蓋了粵語、荷蘭語、芬蘭語甚至斯瓦希里語等。在語音複製方面，它解決了長短音訊參照不穩定的問題，讓複製出來的聲音更加一致。

最讓人眼睛一亮的功能是它的「精確停頓控制」。以往我們很難要求 AI 在特定的字句前停頓幾秒鐘，現在只需要在文字中插入類似 [pause 3.2s] 的標籤，系統就會乖乖照做。想像一下，當你讓 AI 朗讀一首古詩時，它能在說出詩名後自然地停頓 3.2 秒再開始朗讀內容，這種節奏感讓合成語音聽起來更像真實人類。

除了人聲，環境音的生成也迎來了升級。團隊同步推出的 MOSS-SoundEffect-v2.0 音效模型採用了擴散 Transformer (DiT) 架構與流匹配技術。只要輸入自然語言提示詞，就能生成長達 30 秒、48 kHz 高取樣率的環境音效。無論是「公園裡大聲吠叫的狗」還是各種都市環境音，都能輕鬆生成，這對遊戲開發者與影片創作者來說絕對是個超級工具。

大幅降低測試門檻：小米 MiMo API 宣佈全面調降價格

所有這些強大的模型與服務，最終都要回歸到開發成本的考量上。只要運算成本夠低，市場上就會湧現出無數新奇的應用。

對於依賴雲端 API 的開發者，這裡有個絕對不容錯過的資訊。根據小米 MiMo 開發者平台的官方公告，MiMo-V2.5 系列 API 進行了永久性的價格調整。這次的降價幅度高達 99%，而且計費方式不再區分輸入長度。

此外，使用額度計畫 (Token Plan) 的容量也提升到了原本的 5 到 8 倍，同時官方也全量重置了當前有效用戶的額度。這樣的定價策略大幅降低了開發者進行大規模測試與應用落地的財務壓力。有了更便宜的算力支援，我們可以期待未來會有更多依賴即時資料處理的創新服務進入大眾視野。

問與答 (Q&A)

Q1：PrismML 推出 Bonsai Image 4B 生圖模型，最大的技術突破是什麼？它真的能放進手機裡嗎？ A：最大的突破在於利用極致的量化技術（將 Transformer 權重壓縮為二元或三元數值），讓高品質的擴散模型能直接在 iPhone 等本地端設備上流暢運行。其中，追求極致壓縮的「1-bit Bonsai Image 4B」模型，其 Transformer 核心部位大小僅 0.93 GB，就算加上文本編碼器等元件，在蘋果晶片上的完整部署大小也僅約 3.42 GB，大幅降低了記憶體與硬體門檻。

Q2：Claude Code 新推出的安全指引外掛，會不會在開發者手動提交流程時造成干擾？ A：不會的。這個外掛分為三層審查機制，其中最嚴格的「第三層深度代理審查」只會在 Claude 代理程式透過其 Bash 工具自動嘗試執行提交 (commit) 或推送 (push) 時才會觸發。如果是開發者自己從終端機 (Shell) 手動執行的 commit 指令，系統是不會進行攔截與審查的，因此不會打斷開發者原本的日常工作節奏。

Q3：騰訊將 Hy-MT2 模型的授權協議改為 Apache 2.0，這對新創團隊與企業有什麼實質幫助？ A：過去開源模型的授權往往伴隨繁瑣的限制（例如原本的社群授權協議）。改為 Apache 2.0 授權後，意味著賦予了開發社群最大的自由度。開發者現在可以完全無後顧之憂地將 Hy-MT2 用於學術研究、商業化應用、微調以及開發各種衍生產品，不必再擔心踩到商業使用的版權紅線。

Q4：OpenMOSS 最新的語音合成模型 MOSS-TTS-v1.5，要如何讓 AI 說話聽起來更像真人？ A：除了支援多達 31 種語言外，它導入了非常實用的「精確停頓控制」功能。開發者只要在想要停頓的句子中間加上標籤，例如 [pause 3.2s]，AI 就會乖乖在該處停頓 3.2 秒再繼續說話。這種自訂節奏與情緒空白的能力，能大幅提升語音合成的自然度與擬真感。

Q5：小米 MiMo-V2.5 系列 API 這次的降價方案有多瘋狂？ A：這次是永久性的價格調整，最高降價幅度達到了驚人的 99%。除了價格打折外，計費方式也全面簡化，不再區分輸入的長度，並且將額度計畫 (Token Plan) 的容量直接加碼提升至原本的 5 到 8 倍，同時全量重置了現有用戶的額度，這對需要大量運算資源的開發者來說是一大福音。

分享至:

Featured Partners

SPONSORED

DMflow.chat

DMflow.chat: 您的智能AI夥伴，提升客戶互動、創造卓越體驗。

Learn More

SPONSORED

scribis.app

Scribis: 字幕編輯、語音轉錄文字、即時顯示轉錄文字。

Learn More

SPONSORED

videoweaver.app

Video Weaver: 瀏覽器內完成專業影片剪輯，無需下載、即刻創作。

Learn More

SPONSORED

DMflow.chat

探索DMflow.chat，立即開啟AI驅動的客戶服務新時代。

Learn More

SPONSORED

DMflow.chat

DMflow.chat: 您的智能AI夥伴，提升客戶互動、創造卓越體驗。

Learn More

SPONSORED

scribis.app

Scribis: 字幕編輯、語音轉錄文字、即時顯示轉錄文字。

Learn More

SPONSORED

videoweaver.app

Video Weaver: 瀏覽器內完成專業影片剪輯，無需下載、即刻創作。

Learn More

SPONSORED

DMflow.chat

探索DMflow.chat，立即開啟AI驅動的客戶服務新時代。

Learn More

Recommended for You

A …

news

AI日報：GPT-5.6系列登場、Muse Spark 1.1發布、ChatGPT Work與Sites上線、Claude反思功能、Mistral版控系統

AI日報：GPT-5.6系列登場、Muse Spark 1.1發布、ChatGPT Work與Sites上線、Claude反思功能、Mistral版控系統科技領域的演進腳步從未停歇。今天各大廠紛紛祭出重磅更新，從能夠接手繁雜專案的智慧工作站，到全面革新的多模態推論模型，每一項進展都牽動著未來的軟體開發與日常工作模式。接下來將為大家逐一梳理這些令人興奮的新消息。 Anthropic 推出 Claude 反思功能檢視工作習慣你知道嗎？每天頻繁使用 AI 工具，往往會忘記停下來檢視這些習慣是否真的有幫助。Anthropic 最新推出了 Claude 反思功能，邀請使用者回顧過去 1 個月至一整年的對話模式。這項功能提供一個專屬的儀表板，清楚顯示你最常在哪個時段使用 Claude，以及花費最多時間的任務類型。老實說，這對調整工作步調非常有幫助。這項設計巧妙地結合了 4D AI 流暢度架構，涵蓋委派、描述、判斷與勤勉四個面向。系統會給出實用的操作建議。舉例來說，與其每次都重新解釋背景，系統會建議你直接建立一個專案。隱私保護同樣做得滴水不漏，無痕對話與醫療整合資料都會被排除在外，絕對保障敏感資訊的安全。這項新功能目前已向開啟記憶功能的 Free、Pro 與 Max 用戶推出測試版。 OpenAI 發布 GPT-5.6 模型系列接下來看看 OpenAI 的大動作。GPT-5.6 模型系列正式登場。這次帶來了頂級旗艦款 Sol、適合日常協作的 Terra，以及主打極致成本效益的 Luna。說真的，這次的效能提升相當驚人。Sol 在程式碼編寫、網路安全與科學研究等專業領域的表現，皆創下極高的效能測試分數。處理極度複雜的任務時，OpenAI 引入了 ultra 設定。這個模式會預設協調四個智慧體同步處理平行工作流。如果需要更多的運算時間，還有 max 選項能讓系統反覆推敲並修改方案。整體而言，Terra 與 Luna 用更少的輸出 token 達成超越以往的結果，同時大幅降低花費。這對需要精算預算的開發團隊來說，絕對是個好消息。

Jul 10, 2026 Read →

A …

news

AI日報｜Grok 4.5 聯合發布、GPT-Live 全雙工語音、SWE-1.7 開發突破、GRAM 安全開關、本地模型編程實測

AI日報｜Grok 4.5 聯合發布、GPT-Live 全雙工語音、SWE-1.7 開發突破、GRAM 安全開關、本地模型編程實測科技領域每天都在推陳出新。從程式開發到日常語音對話，各家公司紛紛端出令人驚豔的解決方案。讓我解釋一下，這些新工具究竟能為日常工作帶來哪些實質幫助。以下是今天的重點消息彙整。 Grok 4.5 攜手 Cursor，打造更順暢的開發體驗寫程式常常會卡在奇怪的邏輯盲點。老實說，遇到這種情況真的很讓人挫折。為了解決這類痛點，SpaceXAI 攜手知名開發環境 Cursor 共同訓練並推出了全新的 Grok 4.5 混合專家模型。大家可以前往 SpaceXAI 的官方發布網頁了解這款最新模型。它專門處理那些耗時且棘手的運算任務，包含軟體工程、資料科學或是複雜的金融分析，提供了極高的處理效率。除此之外，在 Cursor 的官方發布網頁中也詳細說明了這項深度合作。訓練過程不僅納入了 Cursor 的資料，還讓模型從開發者與代理工具的互動中學習。透過豐富的強化學習訓練，這個模型學會了如何從錯誤中自我恢復。這確實讓開發過程變得更加順暢。它處理指令的速度高達每秒 80 個 token，並且在資源消耗上表現得極為節省（減少了約 4.2 倍的 token 消耗）。對於每天需要處理大量程式碼的開發者來說，這無疑是一個好消息。 OpenAI 推出 GPT-Live，實現全雙工自然語音交流除了專業的開發工具，日常使用的語音科技也有了明顯進展。語音助理常常給人一種冷冰冰、一板一眼的感覺。OpenAI 全新推出的 GPT-Live 試圖打破這個刻板印象。這個模型採用了全雙工架構。這代表什麼呢？這表示系統能夠同時聆聽與說話。有人可能會問，GPT-Live 和過去的語音模式到底有什麼差別？事情是這樣的。傳統系統需要等你說完才能接話，常常會出現尷尬的空白停頓。GPT-Live 則會適時發出「嗯嗯」或「了解」的聲音，讓交流感覺就像和真人聊天一樣自然。當遇到需要查資料或推理事物的情況時，它會偷偷把任務交給背景運行的 GPT-5.5 處理。這項多工處理能力，大幅提升了互動的真實感。 Cognition 發表 SWE-1.7，以低成本達成前沿開發智慧開發軟體時，控制預算往往和追求品質互相衝突。不過，Cognition 最近發表的 SWE-1.7 模型證明了兩者其實可以兼得。它展現了極高的性價比。團隊大幅改善了基礎架構與訓練資料的精準度。

Jul 9, 2026 Read →

A …

news

AI日報：Claude 跨平台升級、Meta 媒體生成模型登場、微軟降低 Copilot 成本、中國語言模型市占成長

AI日報：Claude 跨平台升級、Meta 媒體生成模型登場、微軟降低 Copilot 成本、中國語言模型市占成長你知道嗎？人工智慧領域每天都有許多新鮮事發生。從各家科技巨頭的策略調整，到開源模型的推陳出新，這些技術正悄悄改變你我的工作方式。今天為大家整理了最新的 AI 發展動態，讓我們一起來看看這些令人振奮的進展。 Anthropic 延長 Claude Fable 5 體驗期至 7 月 12 日老實說，誰不喜歡免費體驗最新技術呢？Anthropic 聽到使用者的心聲了。他們正式宣布，將 Claude Fable 5 的推廣體驗期延長至 2026 年 7 月 12 日。這意味著現有的付費訂閱戶可以獲得更多的喘息空間，盡情測試這款強大的新模型。根據 Anthropic 官方說明的資訊，Pro、Max、Team 以及具備進階席位的企業用戶，都可以在這段期間內免費使用每週額度 50% 的 Claude Fable 5。當使用者達到這個 50% 的門檻後，系統也不會立刻中斷服務。你可以選擇使用預付點數繼續享受 Fable 5 的強大功能，或者輕鬆切換回其他 Claude 模型，繼續消耗原本的訂閱額度。這個彈性的機制非常有幫助。企業與開發團隊不需要擔心產生額外的意外費用，也能充分評估這款新模型是否符合團隊的日常工作需求。如果你的團隊還沒嘗試過，現在絕對是個好時機。

Jul 8, 2026 Read →