Qwen3-Omni 橫空出世：終結多模態 AI 的妥協，一個模型搞定文字、圖像、聲音與影像！

探索 Qwen3-Omni，首款真正端到端的全域模型 AI。它無縫整合了文字、圖像、音訊和影片，不僅性能卓越，更已開源，讓開發者能輕鬆打造從智慧助理到內容創作的各種創新應用。

你有沒有想過，為什麼我們需要為不同的任務切換不同的 AI 工具？一個用來寫作，一個用來畫圖，另一個用來處理聲音。這感覺就像在廚房裡，切菜、炒菜、燉湯都得換一把完全不同的刀，實在是有點麻煩。

如果有一個萬能工具，一個模型就能流暢地理解並處理文字、圖像、聲音甚至是影片，那會是什麼樣子？

這聽起來像是未來的科技，但現在，這個未來已經到來。隆重介紹 Qwen3-Omni——全球首款原生端到端的「全域模型」（omni-modal）AI。它不僅僅是將不同功能的模型拼湊在一起，而是從根本上將所有模態（modality）統一在一個架構中，真正做到了「無損融合」。

所以，Qwen3-Omni 到底厲害在哪？

簡單來說，Qwen3-Omni 改變了遊戲規則。過去的「多模態」模型，更像是把一個語言模型、一個視覺模型和一個音訊模型用膠帶捆在一起。它們能協同工作，但總有些延遲和資訊損失，就像翻譯再翻譯一樣。

Qwen3-Omni 則是天生就能「聽音辨影，出口成章」。它是一個統一的神經網絡，可以直接處理各種感官輸入，不需要在內部進行笨拙的轉換。

這帶來了幾個驚人的優勢：

頂尖的性能表現： 這可不是說說而已。Qwen3-Omni 在 36 項業界公認的音訊與影音基準測試中，一口氣拿下了 22 項的最高分（SOTA），證明了它不是樣樣通、樣樣鬆，而是樣樣精通。
超乎想像的反應速度： 延遲僅有 211 毫秒，這意味著與它的互動幾乎是即時的，無論你是在進行語音對話還是分析影片內容。
驚人的理解力： 它可以理解長達 30 分鐘的音訊內容。你可以丟給它一段會議錄音、一集 Podcast，它都能幫你抓重點、做摘要。
高度客製化與擴展性： 開發者可以透過系統提示（system prompts）輕鬆調整模型的行為，就像在為你的 AI 助手設定個性一樣。此外，它內建了工具調用（tool calling）功能，能在需要時呼叫外部工具來完成更複雜的任務。

這一切都建立在龐大的訓練數據之上，包含 119L 的文字資料和 19L 的語音輸入資料，確保了它的知識廣度與深度。

深入內部：Qwen3-Omni 的運作架構

我們可以把它想像成一個擁有「思考者」和「說話者」的雙腦系統：

輸入處理： 當你給它一段帶有聲音的影片時，Vision Encoder 會負責處理畫面，而 AuT（Audio Transformer）則負責解析聲音。這些原始的視覺和聽覺資訊會被轉換成模型能理解的格式。
思考者 (Thinker)： Qwen3-Omni MoE Thinker 是模型的核心大腦。它接收來自不同感官的資訊（文字、視覺、聽覺），並在內部進行深度的融合與推理。這一步是理解使用者意圖、分析複雜情境的關鍵。
說話者 (Talker)： 當「思考者」想清楚了要如何回應後，它會將這些「想法」傳遞給 Qwen3-Omni MoE Talker。「說話者」負責將這些抽象的想法組織成流暢的語言或聲音。
輸出生成： 最後，Streaming Codec Decoder 會將「說話者」產生的訊號轉換成我們可以聽到的語音，實現即時的語音對話。

整個過程是端到端的，資訊在單一模型內流動，沒有任何瓶頸，這就是它既快又強大的秘密。

開源的力量：人人都能使用的頂尖 AI

最令人興奮的是，Qwen3-Omni 團隊將其核心模型開源，與全球的開發者社群分享。這意味著無論是個人開發者、新創公司還是學術機構，都能在這個巨人的肩膀上進行創新。

目前開源的模型包括：

Qwen3-Omni-30B-A3B-Instruct： 這是一個指令遵循模型，非常適合用來打造聊天機器人、智慧助理或任何需要理解並執行指令的應用。
Qwen3-Omni-30B-A3B-Thinking： 這是「思考者」的核心，專為需要深度推理的複雜任務而設計，是解決難題的專家。
Qwen3-Omni-30B-A3B-Captioner： 一個專門用來生成圖片或影片描述的模型。它的最大特點是「低幻覺」（low-hallucination），生成的描述極度忠於事實，非常適合需要高準確性的場景。

準備好親身體驗了嗎？

說再多，不如親手一試。Qwen3-Omni 團隊提供了多種方式讓你體驗這個模型的強大之處：

線上聊天體驗： Qwen Chat
程式碼與技術細節： GitHub
下載模型 (Hugging Face)： HF Models
下載模型 (ModelScope)： MS Models
互動 Demo 頁面： Hugging Face Spaces Demo

Qwen3-Omni 不僅僅是一個技術的突破，它更像是一個邀請，邀請所有開發者和創造者，一同探索 AI 的下一個可能性。一個真正能夠看、聽、說、想的 AI，已經在這裡等著我們了。

常見問題解答 (FAQ)

Q1：Qwen3-Omni 到底是什麼？

A1：Qwen3-Omni 是全球首款原生端到端的「全域模型」AI，意味著它能在單一模型內無縫處理和理解文字、圖像、音訊和影片，而無需依賴多個獨立模型的組合。

Q2：它跟其他多模態 AI 有什麼根本不同？

A2：最大的不同在於「端到端」的架構。許多現有的多模態 AI 是將不同功能的模型「拼接」而成，這可能導致效率和性能上的妥協。Qwen3-Omni 從設計之初就是一個統一的整體，確保了資訊處理的流暢性和高效性。

Q3：開發者可以如何利用開源的 Qwen3-Omni 模型？

A3：開發者可以利用開源的三種模型來打造各式各樣的應用。例如，使用 Instruct 模型開發更聰明的聊天助理；利用 Thinking 模型解決需要複雜邏輯推理的專業問題；或是整合 Captioner 模型來為影像資料生成高度準確的文字描述。

分享至:

Featured Partners

SPONSORED

DMflow.chat

探索DMflow.chat，立即開啟AI驅動的客戶服務新時代。

Learn More

SPONSORED

DMflow.chat

DMflow.chat: 您的智能AI夥伴，提升客戶互動、創造卓越體驗。

Learn More

SPONSORED

videoweaver.app

Video Weaver: 瀏覽器內完成專業影片剪輯，無需下載、即刻創作。

Learn More

SPONSORED

scribis.app

Scribis: 字幕編輯、語音轉錄文字、即時顯示轉錄文字。

Learn More

SPONSORED

DMflow.chat

探索DMflow.chat，立即開啟AI驅動的客戶服務新時代。

Learn More

SPONSORED

DMflow.chat

DMflow.chat: 您的智能AI夥伴，提升客戶互動、創造卓越體驗。

Learn More

SPONSORED

videoweaver.app

Video Weaver: 瀏覽器內完成專業影片剪輯，無需下載、即刻創作。

Learn More

SPONSORED

scribis.app

Scribis: 字幕編輯、語音轉錄文字、即時顯示轉錄文字。

Learn More

Recommended for You

S …

tool

Step 3.7 Flash 深度解析：從顧問模式到 GUI 操控，看懂 198B 模型的極致效率

為什麼開發者都在關注 Step 3.7 Flash？揭開這款 MoE 視覺語言模型的實戰潛力人們總以為大型語言模型體積越大，運作起來就越笨重。這其實是個常見的迷思。仔細想想，當硬體與演算法進步到特定階段，效率與規模早就可以兼得了。由開發團隊推出的 Step 3.7 Flash 徹底顛覆了這個刻板印象。這款全新亮相的模型不僅僅是單純回答問題，它具體展現了人工智慧如何真正在數位環境中採取行動，為代理程式的執行效率立下了一個全新的標竿。兼具龐大知識與輕巧運算的 MoE 架構要了解它的特別之處，得先看看引擎蓋底下的規格。這是一個總參數量高達 198B 的混合專家（MoE）視覺語言模型。裡面包含了 196B 的語言主幹，搭配上 1.8B 的視覺編碼器。雖然聽起來極度巨大，但有趣的地方來了——它在每次生成內容時，實際上只會喚醒約 11B 的活躍參數。這種精巧的設計帶來了驚人的運算效率。它每秒最高可以處理高達 400 個權杖（tokens），讓冗長的運算過程變得流暢無比。更貼心的是它的彈性設計。這款模型具備 256K 的超大上下文長度，還獨創了「低、中、高」三種推理等級。開發人員可以依照當下的專案需求，靈活地在速度、運算成本以及認知複雜度之間找到最完美的平衡點。聊聊成本破壞者：獨創的顧問模式到底有多省？說實話，商業應用最在乎的往往是預算。Step 3.7 Flash 在這方面有一個非常聰明的機制，也就是所謂的「顧問模式（Advisor Mode）」。這個設計可以說是將性價比推向了極致。運作原理其實相當直觀。在處理軟體工程或寫程式的任務時，Step 3.7 Flash 會扮演第一線的「執行者」。它負責呼叫各種工具，進行枯燥的反覆運算。遇到順利的情況，它就一路把工作默默做完。只有當它卡關了，例如遇到需要複雜計畫擬定，或是反覆嘗試卻不斷失敗的關鍵瓶頸時，它才會向上層更大型的「顧問模型」發出求救訊號。這種分工模式帶來了極大的優勢。它能以每次任務平均只要 0.19 美元的銅板價成本，達成媲美 Claude Opus 4.6 高達 97% 的程式碼編寫水準。要知道，後者每次任務的成本大約高達 1.76 美元。如果再加上 API 的快取命中（cache hit）優勢，輸入價格甚至能壓低到每百萬權杖 0.04 美元。這對需要大量處理日常任務的企業來說，無疑是個極大的誘因。看懂並動手做：視覺與邏輯的完美融合這款模型最讓人眼睛一亮的地方，絕對是它對圖形化介面與多模態資訊的掌控力。面對高解析度的圖片，或是需要極度精細感知的任務，Step 3.7 Flash 具備了直接呼叫 Python 工具的能力。它可以完全自主地對圖片進行裁切、局部放大縮小，甚至精準地繪製出邊界框。最神奇的是它展現出了一種未經刻意訓練的湧現能力。它能夠非常自然地將視覺工具與非視覺工具組合在一起使用。舉個實際的例子，它可以自己先動手寫出一套前端網頁的程式碼。接著，它會透過圖形使用者介面（GUI）工具打開網頁瀏覽器，像個真人測試員一樣，去檢查自己剛寫好的網頁長什麼樣子。一旦發現畫面渲染結果有問題，它會根據眼睛看到的狀況，回頭去修改剛剛的程式碼。

May 29, 2026 Read →

將 …

tool

將強大 AI 裝進口袋！Liquid AI 端側模型 LFM2.5-8B-A1B 深度解析

【Edge AI 解析】Liquid AI LFM2.5-8B-A1B：讓筆電與手機輕鬆駕馭的混合專家模型探討 Liquid AI 最新推出的端側模型 LFM2.5-8B-A1B 技術突破。從 128K 上下文擴展到特殊的僅推理設計，解析這款 MoE 模型如何在不依賴雲端算力的情況下，讓日常消費級硬體化身為強大且具備高度隱私的專屬超級助理。曾經想過在一台效能普通的筆記型電腦上，流暢運行強大的混合專家模型 (MoE) 嗎？許多人可能覺得這需要極度昂貴的伺服器才能辦到。其實情況已經完全改觀。過度依賴雲端運算帶來了隱私隱患與網路延遲，讓端側人工智慧 (Edge AI) 成為極為關鍵的發展方向。Liquid AI 於 2026 年 5 月 28 日正式推出 LFM2.5-8B-A1B，為消費級硬體帶來了全新的解答。這款專為一般筆電和手機設計的模型，主打完全離線的工具呼叫與指令遵循能力。社群裡甚至有人開玩笑說，這款模型就算是用「馬鈴薯」等級的老舊設備也能跑得動。這聽起來或許有些誇張，但它的硬體需求確實極低，真正實現了將強大 AI 裝進口袋的願景。核心規格大躍進：128K 上下文與 38T 預訓練的威力接下來看看這款模型的引擎蓋底下藏了什麼。相較於前一代版本，LFM2.5-8B-A1B 的核心規格有著跳躍性的成長。開發團隊將預訓練資料量從 12T 暴增至 38T 權杖 (tokens)，經歷了極大規模的強化學習。同時，它的上下文視窗也從原先的 32K 大幅擴展到了 128K。這代表著設備現在可以直接在本地端處理極長的文本或複雜的合約文件。老實說，處理長篇文件一向是小型模型的弱點。這款新模型卻輕鬆跨越了這個障礙。除此之外，為了提升多語系的處理效率，它的詞彙表 (Vocabulary) 大小直接翻倍至 128K。這項改動對於非拉丁語系的使用者極度友善。印地語、泰語、越南語以及阿拉伯語等語言的標記化 (Tokenization) 效率因此顯著提升。也就是說，它在處理這些語言時會更聰明，消耗的運算資源也更少。特殊的「僅推理」設計與降幻覺機制談到技術細節，這裡有個看似矛盾的設計。LFM2.5-8B-A1B 採用了「僅推理 (Reasoning-only)」策略。要求一個小型模型在給出答案前強制產生明確的思維鏈，聽起來似乎會拖慢運作速度。不過這裡需要稍微解釋一下。因為它採用混合專家架構，每次啟動的活躍參數其實非常少。這使得產生思考權杖的運算成本變得極低。模型能在完全不犧牲速度的前提下，產出品質極高的回答。當然，端側模型先天就有一項劣勢，也就是知識容量有限，容易產生幻覺。為了克服這個難題，研發團隊加入了一套基於 avg@k 獎勵的強化學習階段。這套機制非常有意思，它教會了模型一件事：懂得「藏拙」。當遇到超出自身知識範圍的問題時，模型會主動放棄回答 (abstention)，進而劃出清晰的知識邊界。這不僅提升了應答的可靠性，也大幅降低了胡言亂語的機率。硬體執行效率驚人：日常筆電與手機輕鬆上手理論聽起來很棒，那麼實際跑起來的數據如何？這正是最讓人眼睛一亮的地方。在 Apple M5 Max 晶片上，它的解碼速度高達每秒 253 個權杖。在 AMD Ryzen AI Max+ 395 處理器上，同樣能達到每秒 146 個權杖的優異表現。令人驚訝的是，這整個過程佔用的記憶體皆不到 6 GB。就算是在 Qualcomm 的手機晶片上，也能維持約每秒 30 個權杖的實用速度。

May 29, 2026 Read →

解 …

tool

解析 MiniCPM5-1B：專為本地部署打造的 10 億參數邊緣運算模型

邊緣運算的精悍生力軍：解析 MiniCPM5-1B 語言模型的本地端部署潛力大家有沒有想過，如果能把一個具備強大邏輯能力的語言模型直接塞進普通的筆記型電腦裡，會是什麼樣的體驗？如今，許多實際應用場景並沒有無限的雲端運算資源可以揮霍。開發者經常面臨硬體記憶體不足的窘境，看著龐大的語言模型報錯，有時真的會感到相當無奈。就在這個時候，由 OpenBMB 推出的 MiniCPM5-1B 專案正式亮相。這款專為終端設備與本地部署而生的 10 億參數規模模型，正好解決了資源受限環境下的痛點。對於想要在本地端運行智能應用的開發人員來說，這絕對是一個值得關注的焦點。核心定位：邊緣運算的 1B 級別霸主要打造一個小巧卻強大的模型絕非易事。MiniCPM5-1B 是一款專為終端設備、本地端部署與資源受限場景量身定做的 10 億參數密集型 Transformer 模型。這款模型總參數約為 10.8 億，非嵌入層參數約為 6.7 億。雖然體積輕巧，但它在同量級的開源模型中卻達到了頂尖水準。根據官方公佈的評測數據，它在多項指標上超越了 Qwen3-0.6B/think、Qwen3.5-0.8B/think 以及 LFM2.5-1.2B-Thinking 等強勁對手。你知道嗎？一個 10 億參數級別的模型，竟然能在代理工具使用（Agentic tool use）、程式碼生成，以及困難的邏輯推理上展現出驚人的優勢。這使得它成為本地端智能助理的理想選擇。無論是開發自動化腳本還是構建本地知識庫，它都能游刃有餘地完成任務。關鍵技術亮點：小巧卻具備大模型的思維說到這裡，大家可能會好奇，它是如何做到以小博大的？秘密就在於其獨特的架構設計與推理機制。一鍵切換的混合推理（Hybrid Reasoning）是該模型最大的賣點之一。開發團隊在模型中內建了 <think> 聊天模板。使用者只需透過設定 enable_thinking 參數，就能讓同一個模型自由切換身份。關閉思考模式時，它是一個快速反應的助手，適合處理日常對話。開啟思考模式後，它瞬間化身為深思熟慮的推理者，專門應對複雜的數學與邏輯難題。這種設計兼顧了反應速度與思考品質。此外，模型對於超長上下文的支援也令人驚豔。儘管架構僅包含 24 層網路並採用群組查詢注意力機制（GQA），但它原生支援高達 131,072 個 token 的上下文長度。這代表著使用者可以將整本手冊或大量的專案程式碼直接餵給模型，它依然能夠精準捕捉上下文脈絡，輕鬆處理極長的文件資訊。訓練秘辛：RL 與 OPD 的完美結合對於熱衷於底層技術的讀者來說，MiniCPM5-1B 的訓練過程絕對充滿吸引力。開發團隊採用了極其精細的數據層級管理策略進行訓練。整個訓練過程涵蓋了基礎訓練、中期訓練與後訓練三個階段。在前兩個階段，團隊利用開源的 Ultra-FineWeb 與 UltraData-Math 等高品質語料，為模型打下堅實的語言基礎並適應目標數據分佈。真正讓模型脫胎換骨的，是後訓練階段的特殊工法。團隊先使用了總計 4000 億 token（包含深度思考與混合思考）的數據進行監督式微調（SFT）。接著，他們針對數學、程式碼等特定領域訓練了專屬的強化學習（RL）教師模型，並使用同策略蒸餾（On-Policy Distillation, OPD）技術，將這些強大的能力完美濃縮回單一的發布模型中。這項技術就像是把好幾位專門領域專家的智慧，無縫注入到一個輕巧的腦袋裡。這種 RL 結合 OPD 的技術還解決了一個大麻煩。很多時候，語言模型會無止盡地生成文字，導致資源浪費。透過精準的訓練控制，該技術不僅讓模型在數學與程式任務的平均分數大幅提升了 16 分，還有效減少了 29% 因為思考過度而觸及 Token 上限的無效輸出。這大幅提升了推理的精準度與運算效率。

May 26, 2026 Read →