Step 3.7 Flash 深度解析：從顧問模式到 GUI 操控，看懂 198B 模型的極致效率

為什麼開發者都在關注 Step 3.7 Flash？揭開這款 MoE 視覺語言模型的實戰潛力

人們總以為大型語言模型體積越大，運作起來就越笨重。這其實是個常見的迷思。仔細想想，當硬體與演算法進步到特定階段，效率與規模早就可以兼得了。由開發團隊推出的 Step 3.7 Flash 徹底顛覆了這個刻板印象。這款全新亮相的模型不僅僅是單純回答問題，它具體展現了人工智慧如何真正在數位環境中採取行動，為代理程式的執行效率立下了一個全新的標竿。

兼具龐大知識與輕巧運算的 MoE 架構

要了解它的特別之處，得先看看引擎蓋底下的規格。這是一個總參數量高達 198B 的混合專家（MoE）視覺語言模型。裡面包含了 196B 的語言主幹，搭配上 1.8B 的視覺編碼器。雖然聽起來極度巨大，但有趣的地方來了——它在每次生成內容時，實際上只會喚醒約 11B 的活躍參數。

這種精巧的設計帶來了驚人的運算效率。它每秒最高可以處理高達 400 個權杖（tokens），讓冗長的運算過程變得流暢無比。更貼心的是它的彈性設計。這款模型具備 256K 的超大上下文長度，還獨創了「低、中、高」三種推理等級。開發人員可以依照當下的專案需求，靈活地在速度、運算成本以及認知複雜度之間找到最完美的平衡點。

聊聊成本破壞者：獨創的顧問模式到底有多省？

說實話，商業應用最在乎的往往是預算。Step 3.7 Flash 在這方面有一個非常聰明的機制，也就是所謂的 「顧問模式（Advisor Mode）」。這個設計可以說是將性價比推向了極致。

運作原理其實相當直觀。在處理軟體工程或寫程式的任務時，Step 3.7 Flash 會扮演第一線的「執行者」。它負責呼叫各種工具，進行枯燥的反覆運算。遇到順利的情況，它就一路把工作默默做完。只有當它卡關了，例如遇到需要複雜計畫擬定，或是反覆嘗試卻不斷失敗的關鍵瓶頸時，它才會向上層更大型的「顧問模型」發出求救訊號。

這種分工模式帶來了極大的優勢。它能以每次任務平均只要 0.19 美元 的銅板價成本，達成媲美 Claude Opus 4.6 高達 97% 的程式碼編寫水準。要知道，後者每次任務的成本大約高達 1.76 美元。如果再加上 API 的 快取命中（cache hit） 優勢，輸入價格甚至能壓低到 每百萬權杖 0.04 美元。這對需要大量處理日常任務的企業來說，無疑是個極大的誘因。

看懂並動手做：視覺與邏輯的完美融合

這款模型最讓人眼睛一亮的地方，絕對是它對圖形化介面與多模態資訊的掌控力。面對高解析度的圖片，或是需要極度精細感知的任務，Step 3.7 Flash 具備了直接呼叫 Python 工具 的能力。它可以完全自主地對圖片進行裁切、局部放大縮小，甚至精準地繪製出邊界框。

最神奇的是它展現出了一種未經刻意訓練的湧現能力。它能夠非常自然地將視覺工具與非視覺工具組合在一起使用。

舉個實際的例子，它可以自己先動手寫出一套前端網頁的程式碼。接著，它會透過 圖形使用者介面（GUI）工具 打開網頁瀏覽器，像個真人測試員一樣，去檢查自己剛寫好的網頁長什麼樣子。一旦發現畫面渲染結果有問題，它會根據眼睛看到的狀況，回頭去修改剛剛的程式碼。

這種將視覺辨識與邏輯推理無縫結合的設計，讓它在處理複雜網頁搜尋與長尾實體辨識時，發揮出遠超同級別對手的實力。

企業級的精準搜尋與代理執行可靠度

要將人工智慧導入真實世界的商業流程，穩定度絕對是第一考量。在衡量代理程式可靠性的 ClawEval-1.1 嚴格測試環境中，Step 3.7 Flash 拿下了 67.1 分 的亮眼成績。

這個數字代表它在執行多步驟的複雜任務時，能夠嚴格遵守人類設定的系統限制，並且有效避開各種充滿惡意的對抗性陷阱。

遇到不懂的問題時，它不會瞎掰。在 BrowseComp 搜尋測試 中，它達到了 75.82% 的高準確率。當面對極具挑戰性的任務時，它會廣泛且精準地去搜尋學術論文、官方規則以及各類案例分析。它跳脫了單純依賴內建記憶權重的限制，轉而主動進行跨來源的資訊交叉驗證。

這種實事求是的態度，正是企業在挑選自動化工具時最看重的特質。

開發者友善：全面擁抱開源生態與本地硬體部署

講了這麼多強大的功能，大家最關心的還是該如何取得並親自體驗。開發團隊將這款心血結晶放上了開源社群，任何人都可以直接前往 Hugging Face 與 GitHub 取得相關資源，將其運用於各種軟體工程任務。

官方提供了極高的生態相容性。它在上線首日就全面支援：

vLLM
SGLang
Hugging Face Transformers
llama.cpp

這意味著無論工程團隊習慣使用哪一種開發環境，都能輕鬆無痛地將它整合進去。

有人可能會好奇，這麼龐大的參數怪獸真的可以在本地端跑得動嗎？答案是肯定的。透過 GGUF 格式的量化壓縮技術，只要手邊擁有：

配備 128GB 統一記憶體 的 Mac Studio 或 MacBook Pro
搭載 120GB 記憶體 的 AMD 系統
或 NVIDIA DGX Station

就能完全在本地端離線運行這款強大的模型。

這對於那些對資料隱私有著極度嚴格要求的企業來說，絕對是一個極具吸引力的解決方案。越是這種看似低調卻實用的架構，越能在實際部署時帶來意想不到的驚喜。

問與答 (Q&A)

Q1：Step 3.7 Flash 的模型架構有何特別之處？真的跑得很快嗎？ A1： Step 3.7 Flash 是一款總參數量高達 198B 的混合專家 (MoE) 視覺語言模型，包含 196B 的語言主幹與 1.8B 的視覺編碼器。它的巧妙之處在於每次生成時僅會活化約 11B 的參數，這讓它在擁有 256K 超大上下文長度的同時，還能展現出每秒處理最高 400 個權杖 (tokens) 的驚人吞吐量。

Q2：文章中提到的「顧問模式 (Advisor Mode)」是如何幫企業省錢的？ A2： 在顧問模式下，Step 3.7 Flash 會擔任第一線的「執行者」來呼叫工具與反覆運算，只有遇到複雜計畫或嚴重卡關時，才向更大型的顧問模型求助。透過這種分工，單次任務的平均成本僅約 0.19 美元，卻能達到 Claude Opus 4.6（單次任務成本約 1.76 美元）高達 97% 的程式碼編寫水準。若配合 API 的快取命中，輸入價格甚至能降至每百萬權杖 0.04 美元。

Q3：Step 3.7 Flash 在「看圖」和「操作介面」上有什麼突破？ A3： 它將視覺辨識與邏輯推理完美結合，能直接使用「Python 工具」對圖片進行裁切、縮放與繪製邊界框。更令人驚豔的是它具備將視覺與非視覺工具組合使用的湧現能力，例如：它可以自己寫出前端程式碼，接著透過圖形使用者介面 (GUI) 打開網頁瀏覽器檢視渲染結果，並根據它所「看到」的畫面回頭修改程式碼。

Q4：如果我們企業很重視資料隱私，可以在本地端 (Local) 部署這款模型嗎？ A4： 完全可以。開發團隊已將模型開源並支援 vLLM、SGLang 以及 llama.cpp 等主流框架。透過 GGUF 格式的量化壓縮技術，只要手邊配備 128GB 統一記憶體的 Mac Studio / Macbook Pro，或是搭載 120GB 記憶體的 AMD 系統與 NVIDIA DGX Station，就能在本地端實現完全離線、確保隱私的流暢運行。

分享至:

Featured Partners

SPONSORED

scribis.app

Scribis: 字幕編輯、語音轉錄文字、即時顯示轉錄文字。

Learn More

SPONSORED

DMflow.chat

探索DMflow.chat，立即開啟AI驅動的客戶服務新時代。

Learn More

SPONSORED

DMflow.chat

DMflow.chat: 您的智能AI夥伴，提升客戶互動、創造卓越體驗。

Learn More

SPONSORED

videoweaver.app

Video Weaver: 瀏覽器內完成專業影片剪輯，無需下載、即刻創作。

Learn More

SPONSORED

scribis.app

Scribis: 字幕編輯、語音轉錄文字、即時顯示轉錄文字。

Learn More

SPONSORED

DMflow.chat

探索DMflow.chat，立即開啟AI驅動的客戶服務新時代。

Learn More

SPONSORED

DMflow.chat

DMflow.chat: 您的智能AI夥伴，提升客戶互動、創造卓越體驗。

Learn More

SPONSORED

videoweaver.app

Video Weaver: 瀏覽器內完成專業影片剪輯，無需下載、即刻創作。

Learn More

Recommended for You

L …

tool

LongCat-2.0 技術解析：1.6 兆參數 MoE、百萬上下文、LSA 與 N-gram Embedding 全面解讀

LongCat-2.0 技術解析：1.6 兆參數 MoE、百萬上下文、LSA 與 N-gram Embedding 全面解讀 LongCat-2.0 是美團（Meituan）開源的 1.6 兆（1.6T）參數混合專家（MoE）大型語言模型，支援 100 萬（1M）上下文，並以超過 5 萬片中國 AI ASIC 晶片完成 35 兆 Token 預訓練。本篇完整解析 LongCat Sparse Attention（LSA）、N-gram Embedding、Agentic 工作流、SWE-bench 與 Terminal-Bench 表現，以及中國 AI 算力平台的大規模訓練實踐與技術創新。模型概覽與核心參數規範 LongCat-2.0 是由美團（Meituan）研發並開源的大規模混合專家（MoE）語言模型。作為 LongCat 系列的最新一代架構，該模型在繼承 LongCat-Flash 優點的基礎上，通過稀疏維度擴展與索引機制優化，顯著提升了模型在處理複雜邏輯與長上下文任務時的表徵效率。下表總結了 LongCat-2.0 的核心技術規範：規格項目技術指標總參數規模 1.6 萬億 (1.6 Trillion) 每 Token 激活參數約 480 億 (48 Billion) 預訓練 Token 總量超過 35 萬億 (35 Trillion) 支持最大上下文長度 100 萬 (1M Context) 訓練基礎設施：中國算力集群之穩定性分析 LongCat-2.0 的研發成功，驗證了在前沿模型訓練中採用中國算力平台的可行性與技術韌性。其訓練環境與穩定性指標如下：

Jul 13, 2026 Read →

M …

tool

Mistral AI Leanstral 1.5 深度解析：MoE 架構、Lean 4 形式驗證與部署指南

Mistral AI Leanstral 1.5 深度解析：MoE 架構、Lean 4 形式驗證與部署指南 Mistral AI 釋出開源模型 Leanstral 1.5！本文深度解構其 119B MoE 稀疏激活架構，剖析 miniF2F 滿分與 PutnamBench 等博士級數學推理表現，並提供 vLLM 本地部署與 AI Agent 整合指南。立即掌握任務關鍵型系統的形式驗證新利器！ 1. 前言：形式驗證的新紀元隨著 Mistral AI 釋出 Leanstral 1.5，開源社群在形式化證明（Formal Verification）與自動定理證明（ATP）領域正式進入了高產出的全新時代。作為 Mistral Small 4 家族的專業化分支，該模型並非通用型大語言模型（LLM），而是針對 Lean 4 證明助手與程式碼語義分析高度優化的「程式碼代理模型」（Code Agent Model）。開源社群的戰略價值：Leanstral 1.5 採用 Apache-2.0 授權，徹底打破了過去高品質數學推理能力被閉源模型（如 OpenAI o1 系列）壟斷的局面。對於追求軟體供應鏈安全與高可靠系統設計的開發者而言，這是一次重量級的技術釋放。 2. 模型架構深度解析：高效 MoE 與稀疏激活機制從系統架構師的角度來看，Leanstral 1.5 的核心優勢在於其精密的混合專家模型（MoE, Mixture of Experts）設計。透過極高的活躍參數稀疏性（Active Parameter Sparsity），它在保持強大推理能力的同時，顯著降低了推理過程中的計算負載與記憶體頻寬壓力。項目規格細節與架構參數總參數規模 (Total Parameters) 1190 億 (119B) 活躍參數規模 (Active Parameters) 每個 Token 僅激活約 65 億 (6.5B) 專家配置 (Expert Configuration) 總計 128 個專家，採 4-of-128 稀疏激活路徑上下文長度 (Context Length) 標準支援 256k tokens (架構設計上限) 建議最佳化設置官方建議 context ≤ 200k tokens 以維持最佳邏輯一致性輸入與輸出模式支援多模態輸入（文字與圖像），輸出為純文字這種 4-of-128 的配置讓模型在處理長序列推理時，能更精準地調用特定專業領域的專家節點，進而提升「邏輯收斂性」，大幅減少在複雜證明樹搜索中的發散問題。

Jul 13, 2026 Read →

N …

tool

NVIDIA Audex 多模態模型技術全解析：30B MoE 架構、百萬上下文與語音雙模態 AI 新紀元

NVIDIA Audex 技術專文：統一音訊與文字的強大雙模態智慧 1. 導論：從文字推理到音訊智慧的全面演進在人工智慧邁向全能多模態（Omni-modal）的進程中，技術架構師面臨的核心挑戰在於：如何在賦予大型語言模型（LLM）音訊感知與生成能力的同時，不損害其原有的邏輯推理深度？ NVIDIA 正式推出 Nemotron-Labs-Audex 系列模型（包含 30B-A3B 與 2B 版本），其開發的核心理念即為「統一音訊智慧且不退化文字智慧」（Unified Audio Intelligence Without Regressing on Text Intelligence）。這套模型不僅在音訊理解與語音生成任務中表現卓越，更完整保留了 Nemotron 系列在複雜邏輯推理、超長上下文處理及指令對齊方面的實力，為開發者提供了穩定且全能的雙模態解決方案。模型資源官方連結 Audex-30B-A3B: Hugging Face 頁面 Audex-2B: Hugging Face 頁面 2. 強大且全能的多模態能力 (Multimodal Capabilities) Audex 突破了過往專用型模型的限制，將多元的音訊處理任務整合於單一的 Transformer 架構中。該模型原生支援以下六大核心任務：語音理解與分析 (Audio Understanding)：辨識環境音、音樂特徵及語音脈絡。語音辨識 (Speech Recognition/ASR)：實現高精準度的音訊轉文字。語音翻譯 (Speech Translation/AST)：支援跨語言（xx -> en）的即時語音對文字翻譯。文字轉語音 (Text-to-Speech/TTS)：自然流暢的語音合成。音訊生成 (Audio Generation/TTA)：根據文本描述生成特定的環境音效或音樂。語音對語音生成 (Speech-to-Speech/S2S)：實現端到端的語音交互，跳過中間文本轉換以降低延遲。 3. 模型架構與參數規格深度解析 Audex 採用混合專家架構（MoE）與稠密架構並行的策略，以滿足不同運算資源場景的需求。其 30B 版本基於 Nemotron-Cascade-2-30B-A3B 文本模型構建，展現了極高的參數利用率。

Jul 13, 2026 Read →