Meta 震撼彈！開源 Llama 4 多模態 AI 登場，效能驚人挑戰 GPT-4！

發佈於: 2025-04-06 • 更新於: 2025-04-06 • 2 分鐘閱讀

Meta 最新力作 Llama 4 系列 AI 模型正式開源！原生多模態、超長上下文、專家混合架構， Llama 4 Scout 與 Maverick 效能強悍，更有巨獸級 Behemoth 蓄勢待發。立即了解這場 AI 革命！

嘿，各位 AI 玩家和科技迷們，注意啦！Meta 最近可是丟下了一顆重磅炸彈，正式推出了他們迄今為止最強大的開源 AI 模型系列—— Llama 4！這次首發就帶來了兩位猛將：Llama 4 Scout 和 Llama 4 Maverick。這可不只是小打小鬧的更新，感覺像是 AI 界要掀起新一波浪潮了。

你可能會想，又一個 AI 模型，有什麼大不了的？嗯，這次 Llama 4 可不是鬧著玩的。Meta 不僅提升了模型的聰明程度，還首次採用了「專家混合」（MoE）架構，並且讓它們天生就具備「多模態」能力，也就是說，它們不只能讀懂文字，還能看懂圖片甚至影片！這對未來我們如何跟 AI 互動，簡直打開了新世界的大門。

Llama 4 家族大揭秘？先來認識 Scout 和 Maverick

這次 Meta 一口氣推出兩個模型，各有神通，滿足不同需求。

Llama 4 Scout：輕巧高效，上下文長到離譜！

先來看看這位「偵察兵」Llama 4 Scout。它擁有 1090 億總參數，但活躍參數只有 170 億，還有 16 位「專家」協同工作。聽起來好像還好？厲害的在後面！

它的最大亮點是支援 1000 萬（沒錯，你沒看錯，是 10M！）的上下文長度。這是什麼概念？想像一下，這等於能一口氣處理超過 20 小時的影片內容，或是把超長的報告、程式碼庫一次丟給它分析。而且，經過 Int4 量化後，它居然只需要一張 NVIDIA H100 GPU 就能跑起來！這對開發者來說簡直是福音。

效能方面，Llama 4 Scout 在各種基準測試中，把 Google 的 Gemma 3、Gemini 2.0 Flash-Lite，還有 Mistral 3.1 都甩在身後。對於需要處理大量資訊、又希望模型相對輕巧的應用場景，Scout 看起來是個絕佳選擇。

Llama 4 Maverick：全能高手，挑戰頂級模型的狠角色！

接著是「獨行俠」Llama 4 Maverick。它的總參數高達 4000 億，活躍參數一樣是 170 億，但專家數量暴增到 128 位！上下文長度也達到 100 萬。

Maverick 的目標顯然是衝著頂級效能來的。在知名的 LMSYS 大型模型排行榜上，它的實驗性聊天版本拿下了第二名（ELO 分數 1417），僅次於閉源的 Gemini 2.5 Pro！更驚人的是，它在推理和程式碼能力上，居然能用比 DeepSeek-v3 少一半的活躍參數，達到跟對方差不多的水準。這意味著極高的效率和性價比。

Meta 說 Maverick 是他們產品中的主力模型，特別適合做通用的聊天助理、精確的圖像理解和創意寫作。想打造複雜的 AI 應用，Maverick 絕對是個值得關注的選項。

還沒完？巨獸 Llama 4 Behemoth 正在醞釀中！

以為這樣就結束了嗎？還沒呢！Meta 還預告了真正的「巨獸」—— Llama 4 Behemoth！這個模型預計在未來幾個月內登場，參數總數可能接近 2 兆（2T）！活躍參數也高達 2880 億，專家數 16 位。

雖然 Behemoth 還在訓練中，但目前在 STEM（科學、技術、工程、數學）相關的基準測試中，它已經超越了 GPT-4.5、Claude Sonnet 3.7 和 Gemini 2.0 Pro！聽起來是不是很嚇人？Meta 透露，他們就是用 Behemoth 作為「老師」，透過一種叫做「共同蒸餾」（codistillation）的技術來訓練 Maverick，大幅提升了小模型的品質。我們就拭目以待這個龐然大物的正式亮相吧！

背後的技術魔法？MoE、多模態與訓練巧思

Llama 4 系列之所以這麼強大，背後有不少技術革新。

首次採用「專家混合」（MoE）架構

這是 Llama 家族第一次使用 MoE。簡單來說，MoE 架構就像一個團隊裡有很多不同領域的專家。當模型處理一個任務（一個 token）時，並不需要動用所有專家（全部參數），只需要喚醒其中幾位相關的專家就行。

這樣做有什麼好處？最直接的就是效率！無論是訓練模型還是實際運行（推理），都更節省計算資源。用同樣的計算量，MoE 模型通常能達到比傳統「密集型」模型更好的效果。像 Maverick 有 4000 億總參數，但實際活躍的只有 170 億，這讓它運行起來更快、成本更低。

天生多模態：文字、圖像、影像一起來！

Llama 4 從設計之初就是原生多模態模型。Meta 採用了一種叫做「早期融合」（early fusion）的技術，讓模型可以直接將文字、圖像甚至影片的資訊（tokens）無縫整合在一起處理。

這跟以前先把圖像資訊轉成文字再餵給模型的做法不同，早期融合讓模型能更深入地理解圖文之間的關聯。Meta 還升級了視覺編碼器（基於 MetaCLIP 但有改良），並開發了新的訓練方法 MetaP 來優化超參數設定。

更聰明的訓練策略

為了打造出色的 Llama 4，Meta 在訓練上也下了不少功夫：

MetaP 技術： 一種新的訓練技術，可以更可靠地設定模型的一些關鍵超參數。
多語言能力： 在超過 200 種語言上進行了預訓練，其中 100 多種語言的訓練資料超過 10 億 token，多語言 token 總量是 Llama 3 的 10 倍！
效率至上： 使用 FP8 精度進行訓練，在不犧牲品質的前提下，確保了極高的計算效率（在 32K GPU 上訓練 Behemoth 時達到 390 TFLOPs/GPU）。
海量資料： 總訓練資料超過 30 兆 token，是 Llama 3 的兩倍多，涵蓋了文字、圖像和影片等多樣化資料集。
中期訓練強化： 在預訓練後，還進行了所謂的「中期訓練」，使用特殊資料集來強化核心能力，特別是擴展上下文長度，這也是 Scout 能達到 1000 萬上下文的關鍵。

精雕細琢：讓模型更聰明、更實用

模型預訓練好只是第一步，接下來的「後期訓練」（post-training）同樣重要，目的是讓模型更符合人類的期望，更擅長對話和遵循指令。

Meta 這次調整了策略，採用了 輕量級監督微調（SFT） -> 線上強化學習（RL） -> 輕量級直接偏好優化（DPO） 的流程。他們發現，如果 SFT 和 DPO 做得太「重」，反而會限制模型在 RL 階段的探索，影響在推理、程式碼等方面的表現。

所以，他們用 Llama 模型當「裁判」，篩掉了超過 50% 被標記為「簡單」的資料，只在剩下的較難資料上做輕量級 SFT。接著，在多模態的線上 RL 階段，透過精心挑選較難的提示（prompts），實現了效能的躍升。他們還用了「持續線上 RL」策略，不斷訓練、不斷用模型篩選出中高難度的提示，在計算效率和準確性之間取得了很好的平衡。最後再用輕量級 DPO 來處理一些回應品質的邊緣案例。

正是這一整套精心設計的流程，加上從 Behemoth 那裡學來的「知識」（共同蒸餾），才讓 Maverick 在保持智慧的同時，也具備了出色的對話能力和圖像理解力。

對於 Scout 的超長上下文能力，Meta 也用了特殊技巧。他們在 256K 的上下文長度下進行預訓練和後期訓練，賦予了模型長度泛化的基礎。關鍵創新在於使用了不含位置嵌入的交錯注意力層（interleaved attention layers without positional embeddings），並在推理時對注意力進行溫度縮放，稱之為 iRoPE 架構（i 代表交錯，RoPE 代表旋轉位置嵌入）。聽起來很技術流，但效果就是讓 Scout 能處理那驚人的 1000 萬 token！

此外，兩個模型都訓練了大量的圖像和影片幀，讓它們具備廣泛的視覺理解能力，甚至能理解多張圖片的時間順序或關聯性。模型預訓練時最多能處理 48 張圖片，後期測試中處理 8 張圖片效果良好。Scout 在圖像標註（grounding）方面也很出色，能將用戶提示與圖像中的相關區域對應起來。

安全第一，絕不馬虎！

談到 AI，安全和責任絕對是重中之重。Meta 強調他們在開發 Llama 4 的每個階段都整合了保護措施，從預訓練的資料過濾，到後期訓練的安全資料整合，再到開發者可以調整的系統級防護。

他們提供了一系列開源工具來幫助開發者：

Llama Guard: 用於檢測輸入或輸出是否違反開發者自訂政策的安全模型。
Prompt Guard: 偵測惡意提示（如越獄攻擊）或包含注入內容的提示。
CyberSecEval: 幫助評估和降低生成式 AI 網路安全風險的工具。

Meta 還提到了他們透過自動化和人工方式進行的「紅隊演練」（red-teaming）來壓力測試模型，甚至開發了新的 GOAT（Generative Offensive Agent Testing） 技術，模擬中等技能的攻擊者進行多輪互動，以更快地發現潛在漏洞。

正視偏見問題

老實說，所有領先的 AI 模型都面臨偏見問題，尤其是在有爭議的政治和社會議題上，由於網路訓練資料的特性，模型可能會有傾向性。Meta 的目標是消除模型偏見，確保 Llama 能理解並闡述爭議性問題的雙方觀點，不偏袒任何一方。

他們表示 Llama 4 在這方面取得了顯著進步：

在爭議性政治和社會議題上，拒絕回答的情況大幅減少（從 Llama 3.3 的 7% 降至 2% 以下）。
回應的平衡性顯著提高（不平等拒絕回應的比例低於 1%）。
在有爭議議題上表現出強烈政治傾向的比率，與 Grok 相當，且只有 Llama 3.3 的一半。

雖然取得了進展，但 Meta 也承認還有更多工作要做，會繼續努力降低模型的偏見。

立即體驗 Llama 4 生態系！

心動了嗎？想親手試試 Llama 4？

Meta 已經將 Llama 4 Scout 和 Llama 4 Maverick 模型開放下載，你可以直接前往 llama.com 或 Hugging Face 獲取。預計很快也會透過各大雲端平台、邊緣運算合作夥伴提供。

你也可以在 WhatsApp、Messenger、Instagram Direct 或 Meta.AI 網站上，體驗由 Llama 4 驅動的 Meta AI 最新版本。

Llama 4 的登場，不只是一個新模型的發布，更像是 Meta 對開放 AI 生態系統的又一次重要貢獻。從超長上下文到原生多模態，再到 MoE 架構帶來的高效率，Llama 4 無疑為開發者和研究人員提供了更強大的工具。接下來就看社群如何利用這些新模型，創造出更多令人驚豔的應用了！對了，Meta 還預告在 4 月 29 日的 LlamaCon 上會分享更多願景，有興趣的朋友可以關注一下。

免責聲明： 本文基於公開資訊撰寫，模型具體效能和應用效果可能因使用方式和場景而異。

分享至:

DMflow.chat

DMflow.chat: 您的智能對話夥伴，提升客戶互動體驗。

Learn More

Google 新推 AI 試衣 App「Doppl」：手機一拍，任何衣服都能穿上身！

還在對著螢幕想像衣服穿在自己身上的樣子嗎？Google 最新推出的 AI 虛擬試衣應用 Doppl，讓你只需一張全身照，就能輕鬆「試穿」任何看到的服飾。這項黑 …

June 27, 2025

AI 版權戰的雙面刃：Anthropic 贏了官司卻輸了道德？一文看懂這場里程碑判決的深層意義

AI 新創公司 Anthropic 在一場備受矚目的版權訴訟中獲得了部分勝利。法院裁定，使用「合法購買」的書籍來訓練 AI 模型屬於「合理使用」。然而，這場勝 …

June 26, 2025

Midjourney 終於能做影片了！V1 模型深度評測：是藝術家神器，還是功能半殘品？

AI 繪圖王者 Midjourney 正式推出首款影片生成模型 V1！我們將深入評測它的優缺點，並與 OpenAI Sora、Runway 等主流工具一較高 …

June 23, 2025

蘋果新 Speech API 實測：速度輾壓 OpenAI Whisper，但準確度是硬傷？

蘋果在 WWDC 2025 推出全新 Speech API，實測轉錄速度比 OpenAI Whisper 快 55%！本文帶你深入了解其本地運算的隱私優勢，同 …

June 23, 2025

麻省理工震撼研究：常用ChatGPT，你的大腦真的會變「懶」嗎？揭開認知負債的驚人真相

你是否也曾驚嘆於 ChatGPT 的強大，認為它能解決所有寫作難題？麻省理工學院（MIT）一項突破性的大腦研究揭示了一個令人不安的事實：過度依賴 AI 可能正 …

June 23, 2025

EchoLeak 風暴：你的 M365 Copilot 正在悄悄洩漏機密嗎？一個零點擊 AI 漏洞的深度解析

最近，一個名為「EchoLeak」的零點擊 AI 漏洞震驚了整個資安圈。它能讓攻擊者在您毫不知情的情況下，僅僅透過一封電子郵件，就竊取您 Microsoft …

June 13, 2025

Llama 4 家族大揭秘？先來認識 Scout 和 Maverick

Llama 4 Scout：輕巧高效，上下文長到離譜！

Llama 4 Maverick：全能高手，挑戰頂級模型的狠角色！

還沒完？巨獸 Llama 4 Behemoth 正在醞釀中！

背後的技術魔法？MoE、多模態與訓練巧思

首次採用「專家混合」（MoE）架構

天生多模態：文字、圖像、影像一起來！

更聰明的訓練策略

精雕細琢：讓模型更聰明、更實用

安全第一，絕不馬虎！

正視偏見問題

立即體驗 Llama 4 生態系！

DMflow.chat

Related Posts

Google 新推 AI 試衣 App「Doppl」：手機一拍，任何衣服都能穿上身！

AI 版權戰的雙面刃：Anthropic 贏了官司卻輸了道德？一文看懂這場里程碑判決的深層意義

Midjourney 終於能做影片了！V1 模型深度評測：是藝術家神器，還是功能半殘品？

蘋果新 Speech API 實測：速度輾壓 OpenAI Whisper，但準確度是硬傷？

麻省理工震撼研究：常用ChatGPT，你的大腦真的會變「懶」嗎？揭開認知負債的驚人真相

EchoLeak 風暴：你的 M365 Copilot 正在悄悄洩漏機密嗎？一個零點擊 AI 漏洞的深度解析