騰訊混元團隊再次震撼 AI 社群,正式開源四款從 0.5B 到 7B 的小尺寸模型。這些模型專為消費級硬體設計,具備驚人的 256k 長文本處理能力與強大的 Agent 功能,讓高效能 AI 不再是雲端巨獸的專利,你的筆電、手機也能擁有一個聰明的 AI 大腦。
就在大家還在討論大型語言模型需要多強大的運算資源時,騰訊混元團隊悄悄地投下了一顆震撼彈,宣布開源四款全新的小尺寸模型,參數規模涵蓋 0.5B、1.8B、4B 及 7B。
這不是一次單純的模型縮小,而是一次精心策劃的 AI 普及行動。這意味著,強大的人工智慧不再只存在於遙遠的雲端伺服器機房,而是能真正走進我們的日常生活,在筆記型電腦、手機、智慧座艙,甚至是智慧家電中流暢運行。
不只是縮小,更是為「端側」而生的智慧核心
你可能聽過「端側 AI」(Edge AI),這聽起來有點技術性,但概念其實很簡單:就是讓 AI 直接在你的裝置上運算,而不是把資料傳到雲端再傳回來。這樣做的好處顯而易見——反應更快、隱私更有保障。
騰訊這次推出的四款模型,正是為這個趨勢而生。它們經過特別設計,專為消費級顯示卡進行優化,功耗更低,非常適合在資源有限的裝置上部署。
更重要的是,這項計畫已經獲得了 Arm、高通 (Qualcomm)、Intel、聯發科技 (MediaTek) 等全球頂尖晶片製造商的支持。這代表什麼?這代表這些模型從設計之初就考慮到了與我們日常裝置的硬體相容性,確保了它們能夠順利地在各種平台上發揮效能。
快思慢想,一個模型兩種聰明
這次混元模型最有趣的一點,是它們支援所謂的「融合推理模型」(Hybrid Reasoning)。這讓模型具備了兩種思考模式,就像我們人類一樣。
- 快思考模式: 當你只需要一個快速、簡潔的答案時,它能立刻給你高效的回應。就像你問「將文字轉為英文?」,它會直接告訴你結果,不囉嗦。
- 慢思考模式: 當面對複雜問題時,例如「幫我規劃一趟為期五天的東京自由行,包含預算和交通建議」,模型會啟動更深度的推理模式,一步步拆解問題,提供更全面、更有條理的答案。
這種彈性設計讓開發者可以根據應用場景自由選擇,無論是需要快速反應的即時助理,還是需要深度思考的分析工具,都能找到最適合的運作方式。
數字會說話:實測數據見真章
當然,「快思慢想」的概念聽起來很棒,但這些模型在壓力下的實際表現如何?騰訊官方公佈的基準測試成績給出了答案。在涵蓋語言理解 (MMLU)、數學推理 (GSM8K, MATH) 到複雜任務拆解 (BBH) 等多個業界公認的評測集上,混元系列小模型展現了與其尺寸不相稱的強大實力。
從上方的圖表可以清楚看到,隨著模型參數從 0.5B(淺藍色)增加到 1.8B(中藍色)再到 4B(深藍色),在各項評測上的分數都有顯著且穩定的提升。
讓我們來看看幾個關鍵指標:
- 在考驗綜合知識與能力的 MMLU 評測上,4B 模型達到了 74.0 分。
- 在考驗數學應用題能力的 GSM8K 上,4B 模型更是取得了 87.5 的高分。
- 而在另一項更具挑戰性的數學推理評測 MATH 中,4B 模型也拿下了 72.3 分。
這些數據證明了混元模型架構的優越性和訓練策略的有效性,即便是小尺寸模型,也能在核心能力上媲美許多更大規模的模型。
過目不忘的超強記憶力?256k 長文本視窗的驚人實力
還記得跟 AI 聊天時,聊沒幾句它就忘了前面說過什麼的窘境嗎?騰訊混元的小模型徹底解決了這個問題。
它們原生支援高達 256k 的超長上下文視窗。
256k 是什麼概念?這相當於模型可以一次性讀取並記住 40 萬個中文字 或 50 萬個英文單字 的內容。打個比方,這等於一口氣讀完三本《哈利波特》小說,並且能清楚記得所有人物關係、魔法咒語和故事情節,甚至還能跟你深入討論後續劇情發展!
FAQ:這些模型這麼小,性能會不會打折扣?
這是一個很好的問題。從上面的數據可以看出,雖然模型尺寸變小了,但它們在特定能力上反而更強。透過精心的資料建構和強化學習,這些模型在 Agent 能力 上表現極為出色,能夠勝任任務規劃、工具呼叫(例如操作 Excel)、深度搜尋和旅行攻略規劃等複雜任務。超長的記憶力正是實現這些複雜任務的關鍵基礎。
從雲端到客廳,騰訊如何應用自家「小鋼炮」模型?
理論說得再好,不如看看實際應用。事實上,這些「小鋼炮」模型早已在騰訊內部多個產品中大顯身手:
- 騰訊會議 AI 小助手 & 微信讀書 AI 助理: 依賴 256k 的超長文本能力,AI 可以完整理解整場會議的錄音或一整本書的內容,並進行精準的摘要和問答。
- 騰訊手機管家: 在手機端直接利用小模型進行垃圾訊息辨識,達到毫秒級的攔截速度,而且所有運算都在本地完成,完全不涉及使用者隱私上傳。
- 騰訊智慧座艙助手: 在車載這種對功耗和反應速度極為敏感的環境中,透過雙模型協作架構,充分發揮小模型低功耗、高效率的特性,提供流暢的語音互動體驗。
FAQ:我需要什麼樣的硬體才能跑這些模型?
這正是它們最大的優勢之一。這些模型被設計為僅需 單張消費級顯示卡 即可部署。部分模型甚至可以直接在效能較好的個人電腦、手機或平板電腦上直接運行,大大降低了玩轉 AI 的硬體門檻。
開發者福音:部署輕鬆,生態開放
對於開發者和 AI 愛好者來說,這無疑是個好消息。騰訊混元模型不僅效能強大,更擁有極高的開放性。
它們支援 SGLang、vLLM 和 TensorRT-LLM 等主流推理框架,也支援多種量化格式,讓部署和優化變得非常簡單。
更重要的是,所有模型及程式碼都已在 GitHub 和 Hugging Face 上開源,開發者可以自由下載、使用和微調。
官方體驗網址: 騰訊混元模型廣場
GitHub 專案連結:
Hugging Face 模型連結 (Instruction-Tuned 版本):
總結來說,騰訊這次開源的小尺寸模型,不僅是技術上的一次突破,更是推動 AI 民主化和普及化的重要一步。它們證明了高效能 AI 並不一定與龐大和昂貴劃上等號,一個更智慧、更便捷的未來,或許就從我們身邊的這些日常裝置開始。


