OpenAI 震撼發布 gpt-oss-120b 與 gpt-oss-20b：開源 AI 的新里程碑？深入解析其架構、性能與安全挑戰

發佈於: 2025-08-06 • 更新於: 2025-08-06 • 2 分鐘閱讀

OpenAI 正式開源 gpt-oss-120b 及 gpt-oss-20b 兩款強大推理模型。本文將深入探討其創新的 MoE 架構、與 GPT-4o 等模型的性能比較、多語言能力，以及 OpenAI 在開源模型安全方面的考量與對策。

就在昨天 (2025 年 8 月 5 日)，OpenAI 投下了一顆震撼彈，宣布釋出兩款全新的開源權重推理模型：gpt-oss-120b 和 gpt-oss-20b。這不僅是 OpenAI 對開源社群的一次重要回饋，更可能預示著 AI 開發典範的又一次轉變。

這兩款模型採用了對開發者友善的 Apache 2.0 授權，專為需要強大指令遵循、工具使用（如網路搜尋和 Python 程式碼執行）以及複雜推理能力的「智慧體工作流」(agentic workflows) 而設計。

然而，開源從來都是一體兩面。它在賦予開發者極大自由度的同時，也帶來了潛在的風險。一旦模型被釋出，有心人士就可能對其進行微調，繞過安全護欄。那麼，OpenAI 這次是如何在創新與安全之間取得平衡的呢？讓我們一起深入探討這些模型的裡裡外外。

不只是更大的模型：深入了解 MoE 架構與量化技術

首先，我們來看看這兩款模型的硬體規格。gpt-oss 系列並非傳統的巨無霸模型，而是採用了更聰明、更高效的「專家混合」(Mixture-of-Experts, MoE) 架構。

你可以把 MoE 想像成一個頂尖的顧問團隊。傳統模型就像一位全才顧問，試圖解決所有問題；而 MoE 模型則擁有一群各有所長的專家，每次只會啟動最相關的幾位專家來處理任務。這種設計大幅提高了模型的效率。

gpt-oss-120b：擁有 1168 億個總參數，但在每次推理時，每個 token 只需動用約 51 億個「活性」參數。
gpt-oss-20b：擁有 209 億個總參數，活性參數則為 36 億。

更重要的是，OpenAI 採用了 MXFP4 格式進行權重量化。這項技術大幅壓縮了模型的記憶體佔用，讓原本遙不可及的巨型模型變得親民許多。現在，120b 模型可以在單張 80GB 的 GPU 上運行，而 20b 模型甚至在 16GB 記憶體的系統上也能順暢工作。這無疑為廣大獨立開發者和研究人員開啟了新的大門。

性能評測：gpt-oss 的實力到底如何？

說了這麼多，它們的實際表現又如何呢？OpenAI 在多個權威基準測試中，將 gpt-oss 與自家其他模型（包括 o3, o3-mini, o4-mini）進行了比較。

挑戰頂級模型的推理與知識能力

從官方公布的數據來看，gpt-oss-120b 的表現相當亮眼：

在 AIME（數學競賽） 和 MMLU（大學程度多任務理解） 等測試中，gpt-oss-120b 的準確率全面超越了 o3-mini，並且緊追 o4-mini。
即使是體積小了 6 倍的 gpt-oss-20b，其表現也出奇地具有競爭力，在某些任務上甚至能與 o3-mini 並駕齊驅。

醫療領域的黑馬

最令人驚訝的，莫過於它在醫療領域的表現。在 HealthBench（模擬真實醫病對話） 的評測中，gpt-oss-120b 的性能不僅大幅超越了 GPT-4o (gpt-4o) 和 o4-mini，甚至幾乎與頂尖的閉源模型 o3 打平。

這項成果意義重大。對於全球許多受限於隱私和成本的醫療環境來說，一個強大且可本地部署的開源 AI 模型，可能為智慧醫療帶來革命性的改變。

強大的多語言與程式碼能力

在 MMMLU（多語言基準測試） 中，gpt-oss-120b 在 14 種語言上展現了卓越的能力，平均表現非常接近 o4-mini 的高推理模式。而在 Codeforces（程式碼競賽） 和 SWE-Bench（軟體工程） 等測試中，其表現同樣出色，證明了它在程式碼生成和理解方面的強大實力。

獨特功能：Harmony Chat 格式與智慧體工具

gpt-oss 的強大之處不僅在於性能，更在於其為「智慧體」應用量身打造的設計。

Harmony Chat 格式

這是一種自訂的聊天格式，透過特殊的 token 來劃分訊息邊界，並明確定義了不同角色的指令層級：系統 > 開發者 > 使用者 > 助理 > 工具。這種層級結構讓開發者能更精準地控制模型的行為，防止使用者透過惡意提問來覆寫系統指令。

此外，該格式還引入了「頻道」(channels) 的概念，如 analysis (用於 CoT 思考鏈)、commentary (用於工具呼叫) 和 final (用於最終呈現給使用者的答案)，讓模型的思考過程更加透明可控。

可變推理與內建工具

開發者可以透過在系統提示中加入 Reasoning: low/medium/high 等關鍵字，來動態調整模型的「思考深度」。這讓開發者可以在效能與延遲成本之間找到最佳平衡點。

模型也內建了多種智慧體工具：

瀏覽工具：允許模型搜尋和開啟網頁，獲取其知識庫以外的即時資訊。
Python 工具：讓模型能在一個安全的 Jupyter Notebook 環境中執行程式碼。
自訂函式：開發者可以像使用 OpenAI API 一樣，定義自己的工具函式供模型呼叫。

安全性：開源浪潮下的深思熟慮

談到開源，安全永遠是繞不開的話題。OpenAI 顯然對此進行了深入的思考和準備。他們提出了一個尖銳的問題：惡意行為者能否將 gpt-oss-120b 微調成一個具有高度危險能力的工具？

為了回答這個問題，OpenAI 進行了嚴格的「對抗性微調」測試：

模擬攻擊：他們模擬了一個技術高超、擁有充足運算資源的攻擊者，試圖將模型微調到在「生化」、「網路安全」和「AI 自我改進」等高風險領域達到「高能力」閾值。
測試結果：結論是令人鬆一口氣的。即使利用 OpenAI 領先的訓練技術棧進行了強化的微調，gpt-oss-120b 也未能達到高風險能力的門檻。
與現有開源模型的比較：此外，評估發現，釋出 gpt-oss-120b 並不會顯著提升現有開源模型在生物安全等領域的能力上限，因為目前市面上已經有其他開源模型的性能與之相當接近。

這表明，雖然風險依然存在，但 OpenAI 已經採取了負責任的步驟來評估和溝通這些風險。

現存挑戰與開發者須知

當然，gpt-oss 也不是完美的。官方報告坦誠地指出了幾個需要注意的挑戰：

指令遵循：雖然模型對已知的「越獄」(Jailbreaks) 攻擊有不錯的防禦力，但在嚴格遵循「系統提示」優先於「使用者提示」的「指令層級」方面，其表現不如 o4-mini。這意味著開發者需要自行設計更周全的防護機制。
幻覺思考鏈 (CoT)：OpenAI 決定不對模型的思考鏈進行內容限制。這樣做的好處是方便學術界研究 CoT 的可監控性，但同時也意味著 開發者絕不能直接將模型的原始思考過程展示給終端使用者，必須先進行過濾或摘要。
事實幻覺：與所有大型語言模型一樣，gpt-oss 也會產生事實性錯誤。雖然內建的瀏覽工具可以緩解這個問題，但在不使用工具的情況下，其準確性仍低於更大的閉源模型。

結論

gpt-oss-120b 和 gpt-oss-20b 的釋出，無疑是開源 AI 社群的一大福音。它們不僅性能強大、效率出眾，更重要的是，它們在設計之初就充分考慮了智慧體應用的需求，並透過量化技術降低了使用門檻。

OpenAI 在安全方面的審慎評估也為其他公司樹立了良好的榜樣。然而，皮球現在傳到了開發者社群的手中。如何負責任地使用這些強大的工具，如何在創新的同時確保安全，將是我們共同面臨的課題。

這是一個令人興奮的開始。我們可以期待，在 gpt-oss 的推動下，一個更加開放、多元且充滿活力的 AI 生態系統將加速到來。

常見問題解答 (FAQ)

Q1：我需要什麼樣的硬體才能運行這些模型？ A1： 由於採用了 MXFP4 量化技術，硬體門檻大幅降低。gpt-oss-120b 模型可以在單張 80GB VRAM 的 GPU（如 NVIDIA H100）上運行。而 gpt-oss-20b 模型的要求更低，可以在擁有 16GB 記憶體的系統上運行，這使得更多開發者能夠接觸和使用。

Q2：這些模型與 GPT-4o 相比如何？ A2： 從官方數據來看，gpt-oss-120b 在多項基準測試中的表現與 o4-mini (一個與 GPT-4o 同等級但可能規模較小的模型) 非常接近，甚至在特定領域（如醫療對話）超越了它。然而，它並非設計來完全取代像 GPT-4o 這樣的頂尖閉源模型，後者在某些方面的綜合能力可能依然更強。gpt-oss 的核心優勢在於其開放性、可客製化以及為智慧體工作流設計的特定功能。

Q3：使用這些開源模型是否存在安全風險？ A3： 是的，所有開源模型都存在被濫用的風險。但 OpenAI 已經進行了主動的風險評估，他們模擬了惡意攻擊者對模型進行微調，結論是即便如此，模型也難以達到生物或網路安全領域的「高危險」能力。儘管如此，OpenAI 強調，維護安全的責任現在由整個開發者社群共同承擔，開發者在使用時必須實施自己的安全措施。

分享至:

DMflow.chat

DMflow.chat: 您的智能對話夥伴，提升客戶互動體驗。

Learn More

Qwen3-4B-Thinking-2507 登場：4B 模型也能擁有 256K 超長上下文與頂尖推理能力？

AI 領域再次迎來震撼彈！全新發布的 Qwen3-4B-Thinking-2507 模型，不僅在推理能力上實現巨大飛躍，更在一個僅 4B 參數的輕量級模型中， …

August 7, 2025

騰訊混元再出招！開源四款輕量級 AI 模型，讓筆電手機都能跑的智慧大腦

騰訊混元團隊再次震撼 AI 社群，正式開源四款從 0.5B 到 7B 的小尺寸模型。這些模型專為消費級硬體設計，具備驚人的 256k …

August 4, 2025

Z.ai 發布新一代旗艦模型 GLM-4.5：性能全面超越，劍指 AI 代理新時代

AI 領域的黑馬 Z.ai 再掀波瀾！全新發布的 GLM-4.5 和 GLM-4.5-Air 模型不僅在參數規模上令人矚目，更以創新的「混合推理模式」和在多項 …

July 30, 2025

Qwen3-Coder：挑戰 Claude Sonnet 4，阿里通義千問釋出最強程式碼模型

阿里雲通義千問團隊正式發布 Qwen3-Coder，這款擁有 4800 億參數的 MoE 模型在程式碼和 Agentic 任務上表現卓越，原生支援 256K …

July 23, 2025

位元組跳動開源 Seed-X：70億輕量模型挑戰 GPT-4 翻譯霸權？

AI 圈又有新震撼！位元組跳動（ByteDance）旗下 Seed 團隊近期開源了一款名為 Seed-X 的多語言翻譯模型。令人驚訝的是，它僅以 70 …

July 22, 2025

Liquid AI 發表 LFM2：號稱市場最快的終端裝置基礎模型，效能與速度兼備

新創公司 Liquid AI 推出了第二代基礎模型 LFM2，專為手機、筆電、AI PC 等邊緣裝置設計。本文將深入探討 LFM2 的三大模型、其驚人的效能表 …

July 11, 2025