AI日報 | Claude Opus 4.8 動態工作流震撼釋出，端側與開源模型效能大爆發

AI 發展日報：Claude Opus 4.8 推出震撼動態工作流，端側與開源模型迎來效能大爆發

說實話，每天追蹤人工智慧技術的最新進展，有時候的確會讓人喘不過氣。昨天才剛弄懂一個新名詞，今天馬上又冒出另一個全新的運算架構。你知道嗎？這正是整個科技圈最令人著迷的地方。今天的精選內容將帶領讀者一窺幾款剛釋出的重磅模型與實用工具。從雲端巨頭的旗艦模型重大更新，一路到可以直接在老舊筆電上順暢執行的端側技術，每一個環節都充滿了值得細細品味的技術巧思。

Claude Opus 4.8 與 Claude Code 動態工作流展現驚人協作力

Anthropic 正式釋出了備受市場矚目的 Claude Opus 4.8。這款新模型建立在 Opus 4.7 的堅實基礎上，不僅維持了原本的定價，更在各項基準測試中展現出極度可靠的判斷力。

業界一直存在一個非常有趣的現象。過去許多語言模型總喜歡不懂裝懂，自信滿滿地給出錯誤答案，或是聲稱完成了根本沒做好的任務。這次 Opus 4.8 團隊特別強調了「誠實度」這項特質。根據早期測試者的實際回饋，它在遇到不確定的狀況時，會主動標記潛在的疑慮。比起前一代，忽略程式碼漏洞的機率足足降低了四倍之多。這聽起來可能有些微不足道，但對於每天要處理海量程式碼的工程師來說，絕對是一個能讓人安心入睡的升級。使用者現在還能透過全新的 Effort Control (努力控制) 功能，精準掌控模型在單一任務上投入的運算資源，甚至可以切換到價格只要舊版模型快速模式三分之一的快速模式。

說到寫程式，就不得不提同步在 Claude Code 推出的一項名為動態工作流 (Dynamic workflows) 的新功能。這項功能完美展示了 AI 如何處理超大規模的軟體工程問題。想像一下，原本需要整個工程團隊耗費好幾個季度才能完成的程式庫遷移專案，現在可以縮短到幾天內搞定。系統會動態編寫協調腳本，在單一工作階段中同時啟動數十甚至數百個並行運作的子代理程式 (subagents)，並且在向使用者回報之前，仔細驗證自己的輸出結果。

著名的 JavaScript 執行環境 Bun 最近就利用這個功能，在短短 11 天內完成了大約 75 萬行程式碼從 Zig 到 Rust 的轉換。這種極端複雜的協作，正是 Opus 4.8 結合動態工作流所帶來的實質技術突破。

Step 3.7 Flash 展現極致性價比與視覺代理能力

看完雲端巨頭的精采表現，來看看開源與 API 領域的強力黑馬。Step 3.7 Flash 的登場，無疑為代理程式 (Agent) 的執行效率立下了一個全新的標竿。

這款模型擁有高達 198B 的總參數量，但活躍參數僅有 11B。雖然乍看之下體積龐大，實際上它的推理成本卻低得驚人。開發團隊將這款模型放上了 Hugging Face 以及 GitHub 供各界研究使用。它在處理程式碼編寫與軟體工程任務，例如 SWE-bench Pro 上，展現了極高水準的準確度。

更有趣的是它對多模態與視覺搜尋的掌控力。Step 3.7 Flash 不只能夠看懂複雜的網頁介面、文件和圖表，還能直接根據它所「看到」的視覺脈絡撰寫程式碼或是呼叫外部工具。這種將視覺辨識與邏輯推理無縫結合的設計，讓它在處理複雜的網頁搜尋與長尾實體辨識時，能發揮出遠超同級別模型的實力。越是這種看似低調的模型，越能在實際部署時帶來意想不到的驚喜。

LFM2.5-8B-A1B 讓老舊硬體也能輕巧運行專家混合模型

曾經想過在一台效能普通的筆記型電腦上運行強大的專家混合模型 (MoE) 嗎？Liquid AI 最新推出的 LFM2.5-8B-A1B 讓這件事成為了現實。

社群裡許多人開玩笑說，這款模型就算是用「馬鈴薯」等級的日常消費級硬體也能跑得動。這其實一點也不誇張，大家隨時可以到 Hugging Face 下載它的 GGUF 格式檔案親自體驗一番。它是一款專為端側設備設計的混合架構模型，經歷了高達 38T 權杖 (tokens) 的預訓練與大規模增強式學習。

與前一代版本相比，最顯著的改變在於上下文長度一口氣擴展到了 128K，並且詞彙表大小直接翻倍，藉此大幅提升了非拉丁語系的標記化 (Tokenization) 效率。它在保持極低硬體需求的同時，依舊具備出色的工具呼叫能力與指令遵循水準，甚至支援 llama.cpp、vLLM 與 SGLang 等多種推理框架。未來的手機或輕薄筆電，都將擁有一個完全離線且具備高度隱私保護的專屬數位助理。將強大算力壓縮進日常設備，的確是目前科技發展極為關鍵的一個方向。

Qwen-Image-Bench 擔任客觀評分 AI 圖像的專職裁判

隨著文字生成圖像技術越來越普及，一個不可避免的難題浮出了水面。如何客觀地評估這些 AI 生成的圖片到底好不好？為了解決這個痛點，Qwen 團隊推出了 Qwen-Image-Bench (同步開源於 GitHub)，並帶來了一位名為 Q-Judger 的專屬 AI 裁判。

Q-Judger 是一個基於 Qwen3.6-27B 微調而成的視覺語言模型。它的運作原理非常直觀，只要輸入提示詞與生成的圖片，模型就會運用思維鏈 (Chain-of-Thought) 進行縝密的推理，最後輸出一段結構化的 JSON 評分資料。

評分的標準可不馬虎，總共涵蓋了五個極為細緻的主要維度。

品質 (Quality)：嚴格檢視物理邏輯與材質紋理是否合理，並檢查雜訊與邊緣清晰度。
美學 (Aesthetics)：關注構圖平衡、色彩和諧度與光影氛圍，甚至包含人物解剖的保真度。
對齊度 (Alignment)：檢查圖片是否精準呈現了提示詞要求的數量、動作與空間佈局關係。
真實世界還原度 (Real-world Fidelity)：嚴格把關社會偏見、文化公平性與安全合規性。
創意生成 (Creative Generation)：專注於視覺敘事能力、鏡頭語言與各種設計應用潛力。

這種將感性美學轉化為具體量化指標的嘗試，確實為未來的圖像生成領域提供了更清晰的優化指南。

PaddleOCR-VL 1.6 刷新文件解析與光學辨識的準確度極限

最後，來看看一個極度實用卻經常被低估的領域。光學字元辨識與複雜文件解析。PaddlePaddle 官方最新發布的 PaddleOCR-VL 1.6 在這方面交出了一張令人驚豔的成績單。

根據官方公布的數據，這款視覺語言模型，在嚴苛的 OmniDocBench 評測中創下了 96.33% 的全新 SOTA 紀錄。有興趣的開發者可以前往 Hugging Face 頁面查看它的實際規格。

更讓人振奮的是，它在處理複雜的表格結構、古代文獻、罕見字元，甚至是難以辨識的印章與圖表時，都有著突破性的進步。對於需要建立大型語言模型 (LLM) 知識庫或是檢索增強生成 (RAG) 系統的企業端來說，能夠提供高品質的資料導入，簡直是一大福音。這款模型完全相容於 v1.5 架構，標榜隨插即用，完全省去了痛苦的系統轉移過程。

如今的科技發展跳脫了單純比拚參數量大小的迷思，轉向追求實用性、推理精準度，以及探討如何在不同的硬體限制下發揮最大價值。這股不斷追求運算效率與極致應用的浪潮，勢必還會持續帶來更多顛覆想像的創新。

問與答

Q1：什麼是 Claude 的「動態工作流 (Dynamic workflows)」？它在實際應用上有什麼驚人的表現？ A1： 動態工作流是一項能讓 Claude 處理超大規模軟體工程問題的全新功能。它會動態編寫協調腳本，在單一工作階段中同時啟動數十到數百個並行運作的子代理程式 (subagents)，並在向使用者回報之前仔細驗證結果。在實際應用上，知名 JavaScript 執行環境 Bun 的開發者利用此功能，在短短 11 天內成功將高達約 75 萬行的程式碼從 Zig 轉換為 Rust，且通過了 99.8% 的測試套件。

Q2：Step 3.7 Flash 宣稱極具性價比，它的實際參數量為何？在視覺代理能力上有什麼特殊突破？ A2： Step 3.7 Flash 是一款總參數達 198B（包含 196B 的語言主幹與 1.8B 的視覺編碼器）、但活躍參數約僅有 11B 的混合專家模型 (MoE)。除了能看懂複雜的網頁介面和圖表，它最大的突破在於能使用「Python 工具」與圖像進行深度互動（例如裁切、縮放、繪製邊界框），甚至在未經特殊訓練的情況下，自然地展現出將「視覺工具」與「非視覺工具」組合使用的能力來完成複雜任務。

Q3：為什麼 Liquid AI 的 LFM2.5-8B-A1B 能夠在一般的筆記型電腦甚至手機上順暢運行？ A3： LFM2.5-8B-A1B 是一款專為端側設備設計的混合專家模型，它採用了「僅推理 (reasoning-only)」的設計策略。由於端側設備經常受限於運算資源，該模型極少的活躍參數讓每個推理權杖 (token) 的計算成本變得非常低，在不犧牲速度的情況下大幅提升品質。此外，它提供包含 llama.cpp、MLX 等多種框架的首日支援，在 Apple M5 Max 晶片上甚至能達到每秒解碼 253 個權杖的極速表現。它也將詞彙表翻倍至 128K，大幅提升了非拉丁語系（如中文、阿拉伯文等）的處理效率。

Q4：AI 生成的圖片經常難以客觀評價，Qwen 團隊的 Q-Judger 裁判模型是如何解決這個問題的？ A4： Q-Judger 是一個基於 Qwen3.6-27B 微調的視覺語言模型。當輸入提示詞與圖片後，它會啟用「思維鏈 (Chain-of-Thought)」進行縝密推理，並輸出結構化的 JSON 評分資料。它嚴格根據五個主要維度進行量化評估：品質 (Quality)、美學 (Aesthetics)、對齊度 (Alignment)、真實世界還原度 (Real-world Fidelity) 以及創意生成 (Creative Generation)，將主觀的美感轉化為客觀的優化指標。

Q5：對於需要建立知識庫的企業來說，PaddleOCR-VL 1.6 這次的發布帶來了哪些實質幫助？ A5： PaddleOCR-VL 1.6 在嚴苛的 OmniDocBench 評測中創下了 96.33% 的全新 SOTA 紀錄，超越了許多開源與商業解決方案。它顯著提升了處理複雜表格、古典文本、罕見字元，以及印章和圖表辨識的準確度。更重要的是，它完全相容於 v1.5 架構，企業開發者可以實現零轉移成本的「隨插即用 (plug-and-play)」部署，輕鬆將高品質資料導入 LLM 或是 RAG 系統中。

分享至:

Featured Partners

SPONSORED

scribis.app

Scribis: 字幕編輯、語音轉錄文字、即時顯示轉錄文字。

Learn More

SPONSORED

DMflow.chat

DMflow.chat: 您的智能AI夥伴，提升客戶互動、創造卓越體驗。

Learn More

SPONSORED

videoweaver.app

Video Weaver: 瀏覽器內完成專業影片剪輯，無需下載、即刻創作。

Learn More

SPONSORED

DMflow.chat

探索DMflow.chat，立即開啟AI驅動的客戶服務新時代。

Learn More

SPONSORED

scribis.app

Scribis: 字幕編輯、語音轉錄文字、即時顯示轉錄文字。

Learn More

SPONSORED

DMflow.chat

DMflow.chat: 您的智能AI夥伴，提升客戶互動、創造卓越體驗。

Learn More

SPONSORED

videoweaver.app

Video Weaver: 瀏覽器內完成專業影片剪輯，無需下載、即刻創作。

Learn More

SPONSORED

DMflow.chat

探索DMflow.chat，立即開啟AI驅動的客戶服務新時代。

Learn More

Recommended for You

A …

news

AI日報：Cursor爆發零日漏洞、手機端27B模型Bonsai誕生、Claude專屬教師助手登場

AI日報：Cursor爆發零日漏洞、手機端27B模型Bonsai誕生、Claude專屬教師助手登場你知道嗎？科技圈每天的新聞總是多到讓人喘不過氣。各種新模型與技術推陳出新，有時候連專家都得花上好一番功夫才能消化。不過別擔心，這裡已經將最新鮮、最具話題性的科技焦點整理完畢。從能在手機上跑的超大語言模型，到引發資安疑慮的開發工具漏洞，今天帶來滿滿的實用資訊。接下來，請放慢腳步，細細品味這些科技新知。把27B大模型塞進手機裡？PrismML真的辦到了說實話，一直以來要在本地端裝置流暢運行大型語言模型，硬體規格總是一道難以跨越的高牆。如今PrismML正式發布了Bonsai 27B，這可是全球首個能夠在智慧型手機本地端順暢運作的27B級別大語言模型。這聽起來有點不可思議，對吧？讓我來解釋一下。PrismML團隊透過獨創的1-bit量化技術與Intelligence Density理念，硬生生地將這個龐然大物壓縮到僅剩下3.9GB。這麼輕巧的體積，讓使用者完全不需要依賴雲端伺服器，就能直接在手機上執行複雜的多模態任務。這種做法的好處顯而易見。不僅大幅降低了網路傳輸造成的延遲，更重要的是，資料完全不需要離開使用者的手機。對於那些極度重視隱私保護的用戶來說，這無疑是一個巨大的福音。如果有興趣一探究竟，可以直接前往PrismML官網查看更多技術細節。忽視資安通報？Cursor被爆零日漏洞，開發者的安全誰來顧？許多開發者愛用的AI輔助寫程式工具Cursor，最近惹上了大麻煩。資安研究機構Mindgard公開披露了一個嚴重等級極高的零日漏洞，引發了整個開發圈的譁然。 Let me explain。這是一個看似簡單卻極度危險的漏洞。當開發者在Windows系統上透過Cursor開啟一個專案資料夾時，只要這個資料夾的根目錄裡藏著一個惡意竄改過的 git.exe 檔案，Cursor就會在沒有任何警告、也不需要任何點擊授權的情況下，直接自動執行它。這等於是把大門敞開，讓駭客輕鬆取得任意程式碼執行的權限。最讓資安界不滿的是，Mindgard表示他們早在數個月前（2025年12月）就通報了這個問題。然而，Cursor官方卻遲遲沒有給出有意義的回應，甚至在經歷了七個月的時間與七十多個版本更新後，漏洞依然存在。在溝通無效的情況下，研究團隊只好祭出「全面公開披露」這個最後手段。想了解防護建議的開發者，強烈建議閱讀Mindgard的完整分析報告。懂得「適時閉嘴」的AI？OpenMOSS開源即時視訊流模型影片分析一直是一項極度消耗運算資源的挑戰。OpenMOSS團隊最近開源了專為即時視訊流理解設計的110億參數模型，名為MOSS-VL-Realtime。這個模型最讓人驚豔的地方，在於它支援高達256K的超長上下文。這代表使用者可以在影片播放的任何一個時間點，隨時向AI提出問題。 Here’s the thing，這個模型有一個非常擬人化的特色，那就是具備主動保持沉默的能力。當畫面中的視覺資訊不足，或是還沒有出現關鍵事件時，它會選擇安靜等待，直到獲取更多畫面後再給出準確回答。這種懂得「適時閉嘴」的特性，讓它在智慧監控與即時分析領域顯得特別有價值。這不僅節省了不必要的運算浪費，也大幅提高了回答的準確度。開發者們可以透過OpenMOSS的GitHub頁面取得原始碼並親自體驗。連語氣都能模仿！Google分享Gemini 3.5即時語音翻譯應用語言隔閡一直是全球化發展的一大痛點。Google AI開發者官方帳號最近分享了各大開發團隊如何巧妙運用Gemini 3.5 Live Translate來打造全球多語言應用程式。這款強大的模型支援超過70種語言的即時翻譯。最厲害的是，它並非只是冷冰冰地將文字轉換出來。它能夠保留說話者原始的語調、語速甚至是音高。這種自然的互動方式，讓跨語言溝通變得無比流暢。東南亞的超級應用程式Grab正積極探索這項技術，試圖打破駕駛與乘客之間的溝通障礙。此外，像是LiveKit、Software Mansion與VisionAgents等頂尖團隊，也已經成功將其整合到自家服務中。他們開發出了超低延遲的多語言即時視訊通話、直播串流翻譯，以及能夠動態切換語言的全新體驗。大家可以前往Google AI開發者的X平台貼文觀看實際的展示影片。備課救星駕到！Anthropic推出教師專屬Claude助手教育工作者平時的工作量已經夠繁重了，如果能有一位不知疲倦的得力助手該有多好？Anthropic宣布推出Claude for Teachers，專門為美國K-12階段的教育工作者提供免費的高級AI服務。這款工具可不是隨便聊聊天的機器人。它內建了全美五十州的教學標準與專業的課程資源。老師們只需要輸入幾個簡單的需求，Claude就能迅速協助生成完全符合課綱的教案，甚至能針對不同學習程度的學生提供差異化的教材。隱私問題當然也是大家最關心的焦點。Anthropic特別強調，這項服務享有專門的隱私保護條款，完全符合FERPA規範。師生之間的對話與所有資料，絕對不會被拿來作為訓練模型的素材。想了解更多申請細節，可以參考Anthropic的官方公告。機器人的大腦再進化，小米開源380億參數具身智慧模型要讓機器人真正理解這個世界，一套強大的大腦系統是不可或缺的。小米機器人團隊最新發表並開源了參數規模高達380億的世界基礎模型Xiaomi-Robotics-U0。這個模型基於EMU3.5架構進行初始化，它採用了統一的標記空間來同步處理文字、圖像與具身觀察數據。這讓它能夠輕鬆勝任文字生成圖片、場景生成、狀態轉移，甚至是一整段影片的生成任務。為了讓運算更有效率，小米團隊還搭配推出了專屬的FlashAR加速技術，並且完美支援vLLM。在單張H20顯示卡上，這項技術竟然將高解析度圖像的生成速度一口氣提升了82倍以上。這毫無疑問為未來的通用機器人控制系統打下了極為強大的基礎。開發者目前已經可以從Hugging Face上的Xiaomi-Robotics-U0頁面下載相關權重。用3D遊戲來當考卷？全新AI評測方式打破常規傳統的靜態文字選擇題，真的能準確測出AI的實力嗎？開發者社群近期推出了一個名為WorldBuild Bench的全新基準測試，決定換個更有趣、也更嚴苛的方式來考試。

Jul 15, 2026 Read →

A …

news

AI日報｜Cura 1T 兆級醫療模型、Seedream 5.0 顛覆影像編輯、J-Wash 權重洗腦工具登場

AI日報｜Cura 1T 兆級醫療模型、Seedream 5.0 顛覆影像編輯、J-Wash 權重洗腦工具登場你知道嗎？人工智慧的發展似乎每天都在帶來意想不到的驚喜。從探討大型語言模型是否具備不同的文化性格，到醫療領域專屬的兆級參數巨獸，再到讓每個人都能輕鬆修改影像與模型權重的實用工具，今天的科技圈依舊充滿活力。讓大家一起來看看這些令人興奮的新進展。語言與模型如何塑造 AI 的性格？解析 Claude 隱藏的價值觀人們經常會問，人工智慧在回答沒有標準答案的問題時，究竟是基於什麼樣的價值觀？這正是 Anthropic 最新研究探討的核心議題。根據他們發布的 Claude’s values across models and languages 報告，AI 的性格會隨著使用的語言以及模型版本的不同而產生明顯變化。事情是這樣的，研究團隊分析了數十萬次對話，將 Claude 的價值觀濃縮成四個主要維度。包含順從與謹慎、溫暖與嚴謹、深入與簡潔，以及坦誠與執行力。觀察家們發現，Sonnet 4.6 表現得更加溫暖且順從，經常會肯定使用者的想法。Opus 4.7 則偏向嚴謹與謹慎，有時甚至會主動提醒潛在風險。這種差異完美反映了不同模型在訓練過程中所採取的行為引導策略。更有趣的是，當人們用不同的語言與 Claude 交流時，它的態度也會跟著改變。以阿拉伯語或印地語進行對話時，Claude 往往展現出更多的溫暖與順從。當切換到英語或俄語時，它會變得更加嚴謹與謹慎。這背後的原因可能源自於各語言訓練資料的組成差異，或是為了迎合不同文化的對話規範。對於跨國企業而言，了解這種語境差異，將有助於更精準地掌握 AI 產出的語氣與品質。團隊協作的新利器，Claude Artifacts 支援多人編輯與公開分享老實說，過去在團隊中分享程式碼或設計原型，總免不了各種版本傳遞的麻煩。現在，這個痛點終於迎來了完美的解決方案。ClaudeDevs 在社群平台上宣布，Claude Code 中的 Artifacts 正式支援公開分享與多人即時編輯功能。這意味著什麼呢？開發團隊現在可以直接將製作好的 Artifact 以連結形式公開發布。任何取得連結的人都能輕鬆查看這些原型工具。更棒的是，它現在具備了多人連線遊玩般的協作能力。團隊成員可以同時在同一個專案上進行編輯，徹底告別過去那種互傳檔案的繁瑣流程。目前這項功能已經開放給 Team 與 Enterprise 方案的使用者。

Jul 14, 2026 Read →

A …

news

AI日報｜Apple提告OpenAI竊密、Grok CLI爆隱私爭議、Claude Fable 5 獲高度認可

AI日報｜Apple提告OpenAI竊密、Grok CLI爆隱私爭議、Claude Fable 5 獲高度認可 Apple正式提告OpenAI涉嫌竊取硬體商業機密，引發AI產業高度關注；xAI開放Grok 4.5與Grok Build免費體驗，但Grok CLI同步爆出完整程式碼儲存庫上傳的隱私爭議。此外，本篇整理Claude Fable 5獲Cognition高度評價、Google AI Studio推出免費自訂網址、MuScriptor開源音樂轉錄模型、LingBot-VA 2.0機器人控制模型，以及OpenAI ChatGPT Work、Codex等最新AI新聞與技術更新。 Grok 4.5 與 Grok Build 開放免費體驗說實話，xAI 這次的動作相當引人注目。Grok 4.5 現在正式向免費用戶開放了。大家只要擁有 X 或 Grok 帳號，就可以直接體驗 Grok Build 的強大功能。一開始這看起來只是個簡單的推廣策略。但這就來解釋一下，這項決策無疑會吸引大量新使用者加入，甚至可能改變市場生態。以往這些高階模型總是被鎖在付費牆後，現在終於有機會免費試用。想要測試最新語言模型潛力的開發者，千萬別錯過這個機會。 Grok 4.5 is now available to try on the free tier. Use Grok Build with any X or Grok account. We’re excited to hear your feedback.https://t.co/NYsa0Ar9eo pic.twitter.com/5H0C2kgrEI

Jul 13, 2026 Read →