撼動 AI 界的開源新星：BAGEL 多模態模型，功能直逼 GPT-4o、Gemini 2.0！

發佈於: 2025-05-28 • 更新於: 2025-05-28 • 1 分鐘閱讀

來自ByteDance的開源統一多模態模型 BAGEL 正式登場！它不僅擁有與 GPT-4o、Gemini 2.0 相媲美的強大功能，更以其原生的多模態架構，在影像生成方面展現出令人驚豔的精確度與真實感。現在，程式碼與模型均已開源，人人都能體驗其魅力！

BAGEL 是什麼？不只是一個「貝果」這麼簡單！

你可能聽過各種 AI 模型，但 BAGEL 絕對是近期最值得關注的焦點之一。想像一下，一個模型就能像人類一樣，同時理解文字、圖像，甚至影片，並且能根據你的指令，創作出全新的內容。這就是 BAGEL 的核心能力——一個統一多模態模型 (Unified Multimodal Model)。

「多模態」這個詞聽起來有點專業，其實說穿了，就是指模型能處理多種類型的資訊。好比我們人類，可以用眼睛看、用耳朵聽、用嘴巴說，BAGEL 也是這樣，它能「看懂」圖片，也能「理解」你的文字指令，然後再「畫」出新的圖片，或是跟你「聊」起來。

更厲害的是，BAGEL 採用的是原生多模態架構。這代表它不是簡單地把處理文字和處理圖像的兩個獨立模型拼湊在一起，而是在底層設計上就將兩者融合。這樣的好處是什麼呢？就像一個天生就能左右開弓的運動員，BAGEL 在處理圖文任務時，會更加協調和高效，產生的影像也因此更加精確、逼真，細節滿滿。

開發團隊（來自ByteDance）在 2025 年 5 月 20 日正式發布了 BAGEL。他們的目標很明確：提供一個可以媲美甚至超越像 GPT-4o 和 Gemini 2.0 這樣頂尖商業模型的開源選擇。這意味著，開發者和研究人員可以自由地對 BAGEL 進行微調、優化，甚至部署到任何地方，不再受限於特定平台的束縛。

聽起來是不是很酷？別急，我們接下來會深入了解 BAGEL 的各項神奇功能。

BAGEL 的拿手好戲：不只是聊天，還能「玩」出新花樣！

BAGEL 的功能可不只侷限於簡單的問答。它就像一個多才多藝的藝術家和思考者，能完成多種複雜的任務。讓我們來看看它有哪些令人驚豔的「才藝」：

聊出新境界：不只是文字，更能圖文並茂

當然，基本的聊天功能是少不了的。你可以像跟朋友聊天一樣，向 BAGEL 提問、尋求建議。但 BAGEL 的聊天更進一步，它可以處理混合格式的輸入和輸出。也就是說，你可以給它一張圖片，然後用文字問它：「這張圖裡是什麼？」或者，你也可以讓它根據一段文字描述，生成相應的圖片，然後繼續圍繞這張圖片進行對話。

例如，你可以上傳一張米開朗基羅的大衛雕像照片，然後問 BAGEL：「告訴我關於這張圖片的資訊。」它不僅能認出這是大衛雕像，還能告訴你這是米開朗基羅的著名作品，甚至能進一步解釋雕像的背景和意義。想知道更多關於藝術家的資訊？沒問題，繼續問下去，BAGEL 樂於奉陪！

生成萬物：從文字到逼真影像，想像力是唯一限制

這是 BAGEL 最令人興奮的功能之一。它基於對大規模、交錯的影片和網路數據的預訓練，能夠生成高擬真度、照片般真實的圖像、影片影格，甚至是圖文並茂的內容。

厲害的地方在於，這些交錯數據經過適當的對齊後，培養了模型一種自然的「多模態思維鏈 (Multimodal Chain-of-Thought)」。簡單來說，就是在生成視覺內容之前，模型會先「思考」一下，就像人類創作前會先構思一樣。

試著給它一個指令，比如：「一張廢棄舊藥房裡三個古董玻璃魔法藥水的照片：第一個是藍色的，標籤是『SDXL』；第二個是紅色的，標籤是『BAGEL』；第三個是綠色的，標籤是『FLUX』。」你會驚訝地發現，BAGEL 不僅能準確理解每個細節，還能生成一張符合描述且充滿氛圍感的圖片。

妙手編輯：保留細節，智慧調整

BAGEL 不僅能從零開始創作，還是一位出色的影像編輯大師。透過對交錯影片片段的預訓練，BAGEL 自然學會了在編輯過程中保留視覺特徵和細節，同時還能捕捉影片中複雜的視覺動態。這使得它在影像編輯方面非常高效。

更重要的是，BAGEL 繼承了視覺語言模型的強大推理能力，使其「智慧編輯」能力遠超傳統的基礎編輯工具。你可以給它一張人物肖像，然後下一個指令，比如「他蹲下來摸了摸狗的頭」，BAGEL 就能理解並生成相應的編輯效果，而且看起來非常自然。

風格變變變：一鍵穿越不同藝術次元

想把蒙娜麗莎變成 3D 動畫風格嗎？對 BAGEL 來說，這簡直是小菜一碟！憑藉其對視覺內容和風格的深刻理解，BAGEL 可以輕鬆地將圖像從一種風格轉換到另一種風格，甚至在完全不同的世界觀之間切換——而這一切，僅僅需要極少的對齊數據。

這意味著你可以盡情發揮創意，將寫實照片轉換成卡通風格、油畫風格，甚至是充滿未來感的賽博龐克風格。BAGEL 為你的想像力插上了翅膀。

自由導航：在虛擬與現實間穿梭

透過從影片中學習，BAGEL有效地從「最大的模擬器」——真實世界——中提取導航知識。這使得它能夠在各種環境中進行導航，包括科幻世界、藝術畫作，甚至能以不同的旋轉角度或視角呈現。

想像一下，你可以給它一張古風街道的圖片，然後告訴它「0.4 秒後向前移動」，BAGEL 就能生成一個模擬在該場景中向前移動的短影片或連續影格。這種能力為互動式體驗和虛擬世界探索開啟了新的大門。

創意組合：多輪對話，無縫銜接

BAGEL 從影片、網路和語言數據中學習了廣泛的知識和能力，使其能夠進行推理、模擬物理動態、預測未來影格等等——所有這些都透過一個統一的多模態介面實現。

憑藉其強大的組合能力，BAGEL 可以無縫地參與多輪對話。例如，你可以先讓它生成一個「空靈的仙女或精靈角色扮演者，穿著由祖母綠和銀色等柔和神秘色彩的精緻面料製成的飄逸連衣裙，有著尖耳朵和溫柔迷人的表情」的圖片。然後，你可以接著說：「把她做成一個 Jellycat 毛絨玩具。」BAGEL 能夠理解這種連續的指令，並生成一個符合描述的毛絨玩具圖片。如果你還想為這個娃娃想一句吸引孩子的宣傳語，它也能幫你構思，比如：「與我們的魔法仙女娃娃一起飛向想像的國度！」

深度思考：細化指令，精準輸出

BAGEL 內建了一個「思考模式」，利用其多模態理解能力來增強生成和編輯的效果。透過對提示進行推理，BAGEL 可以將簡短的描述轉換為詳細且連貫的輸出。這確保了生成的內容具有細緻的上下文、準確的細節和邏輯一致性，從而產生更豐富、更精確的結果。

例如，當你給出「由許多小汽車組成的大汽車」這樣的指令時，BAGEL 的思考模式會介入，理解到模型需要生成一張圖像，其中大量的小汽車組合成一輛大汽車的形狀和結構。這種預先的「思考」使得最終的生成結果更加符合預期。

BAGEL 的「內功心法」：混合專家與持續學習

那麼，BAGEL 是如何實現這一切神奇功能的呢？這就要歸功於其精巧的架構設計和訓練方法。

BAGEL 採用了一種混合變形器專家 (Mixture-of-Transformer-Experts, MoT) 架構，旨在最大化模型從豐富多樣的多模態資訊中學習的能力。遵循同樣的能力最大化原則，它利用兩個獨立的編碼器來捕捉圖像的像素級和語義級特徵。

整體的框架遵循下一組標記預測 (Next Group of Token Prediction) 的範式，模型被訓練來預測下一組語言或視覺標記，以此作為一個壓縮目標。

BAGEL 透過在包含語言、圖像、影片和網路數據的數萬億個交錯多模態標記上進行預訓練 (Pre-training)、持續訓練 (Continued Training) 和監督微調 (Supervised Finetuning) 來擴展 MoT 的能力。它在標準的理解和生成基準測試中超越了現有的開源模型，並展示了先進的上下文多模態能力，如自由形式的圖像編輯、未來影格預測、3D 操作、世界導航和序列推理。

初露鋒芒：能力逐步顯現

隨著 BAGEL 預訓練過程中多模態標記數量的增加，研究人員觀察到在理解、生成和編輯任務上持續的性能提升。不同的能力在不同的訓練階段出現——多模態理解和生成能力較早出現，其次是基礎編輯能力，而複雜的智慧編輯能力則在後期顯現。這種階段性的進展表明了一種湧現模式，即先進的多模態推理建立在良好形成的基礎技能之上。

消融研究進一步表明，結合 VAE（變分自編碼器）和 ViT（視覺變形器）特徵可以顯著改善智慧編輯，突顯了視覺語義上下文在實現複雜多模態推理中的重要性，並進一步支持了其在高級能力湧現中的作用。

BAGEL 的實力展示：數據會說話

口說無憑，讓我們來看看 BAGEL 在一些公開基準測試中的表現。

在理解 (Understanding) 相關的基準測試中，如 MME-P、MMBench、MMMU 和 MMVet，BAGEL 的表現都名列前茅，甚至在某些指標上超越了像 Chameleon-7B、Emu3-8B 和 MetaQuery-XL-7B 這樣的模型。例如，在 MME-P 上獲得了 1687 分，在 MMBench 上獲得了 85 分，在 MMVet 上獲得了 67.2 分。

在生成 (Generation) 相關的基準測試中，評估了模型在單個物件、兩個物件、計數、顏色和位置等方面的能力。BAGEL 同樣表現出色，在「兩個物件」和「顏色」的準確度上達到了 0.95，在「計數」上達到了 0.84，全面展示了其強大的生成能力。

這些數據有力地證明了 BAGEL 作為一個頂級開源多模態模型的潛力。

人人都能成為「貝果大師」：開源與線上體驗

BAGEL 最令人振奮的一點是它的開源特性。這意味著全球的開發者、研究人員和 AI 愛好者都可以訪問其程式碼 (GitHub) 和模型。你可以自由地探索其內部機制，在其基礎上進行二次開發，或者將其整合到你自己的專案中。

如果你想立刻體驗 BAGEL 的神奇之處，官方也提供了線上試用版 (Demo)。無需複雜的配置，直接在瀏覽器中就能與 BAGEL 互動，感受它強大的圖文理解和生成能力。

BAGEL 的出現，無疑為開源 AI 社群注入了新的活力。它不僅展示了與頂尖商業模型相媲美的實力，更重要的是，它將這種力量交到了每個人手中。未來，我們有理由期待基於 BAGEL 的更多創新應用誕生，共同推動多模態 AI 技術的發展。你準備好迎接這個「美味」又強大的 BAGEL 了嗎？

分享至:

DMflow.chat

DMflow.chat: 您的智能對話夥伴，提升客戶互動體驗。

Learn More

Liquid AI 發表 LFM2：號稱市場最快的終端裝置基礎模型，效能與速度兼備

新創公司 Liquid AI 推出了第二代基礎模型 LFM2，專為手機、筆電、AI PC 等邊緣裝置設計。本文將深入探討 LFM2 的三大模型、其驚人的效能表 …

July 11, 2025

Hugging Face 的 SmolLM3 震撼登場：30億參數模型如何挑戰 40 億級巨頭？

AI 領域又迎來新星！Hugging Face 最新推出的開源語言模型 SmolLM3，以僅僅 30 億（3B）的參數規模，在效能上直逼 40 億（4B）參數 …

July 10, 2025

ERNIE 4.5 來襲：百度震撼推出新一代多模態 AI 王牌，模型能力全面升級！

AI 不再只是聊天機器人！百度最新推出的 ERNIE 4.5 系列，是一個能看、能聽、能讀、能思考的「全能選手」。它憑藉創新的 MoE 架構，在文字、圖像、影 …

July 1, 2025

Google Gemma 3n 橫空出世：手機就能跑的 AI 新革命，權重已開放下載！

Google AI 戰場再下一城！最新釋出的輕量級 AI 模型 Gemma 3n，專為手機、筆電等行動裝置設計，不僅效能強悍，更具備處理影像、音訊的多模態能 …

June 27, 2025

MMaDA 橫空出世：顛覆你想像的多模態擴散語言模型！AI 的下一波浪潮來了？

你聽說過 MMaDA 嗎？這可不是什麼新的咖啡口味，而是一個可能改變我們與 AI 互動方式的全新多模態擴散基礎模型！它不只能寫文章、理解圖片，還能直接從文字生 …

May 28, 2025

微軟 BitNet b1.58 震撼登場：跑更快、更省電的 1 位元 AI 模型來了

AI 發展快到讓人眼花撩亂，但模型的「食量」也越來越驚人？來看看微軟最新的 BitNet b1.58 2B4T 模型，探索這個「1.58 位元」 …

April 17, 2025