tool

阿里再出奇招!Qwen3-VL 輕量版登場,效能竟能挑戰 Gemini 與 GPT-5?

October 15, 2025
Updated Oct 15
3 min read

阿里開源了 Qwen3-VL 的 4B 和 8B 輕量模型,不僅顯存佔用超低,更在多項測試中擊敗 Gemini 2.5 Flash Lite 和 GPT-5 Nano。這款小模型真的有這麼神嗎?一起來看看它的驚人表現。


在人工智慧的世界裡,大家似乎總有個迷思:模型越大,就越強大。但如果說,現在有一款小巧玲瓏的模型,不僅資源消耗低,效能還能直接叫板那些赫赫有名的對手,你會相信嗎?

這不是天方夜譚。阿里巴巴的通義團隊最近就投下了一顆震撼彈——正式開源了 Qwen3-VL 的 4B 和 8B 輕量化版本。這兩個模型不僅完整保留了 Qwen3-VL 的核心多模態能力,還大大降低了硬體門檻,讓更多開發者和研究人員都能輕鬆上手。

小體積,大能量?Qwen3-VL 到底強在哪?

這次阿里推出的 Qwen3-VL 輕量版,最大的亮點就是「輕」。4B 和 8B 的參數規模,意味著它對顯示卡記憶體(VRAM)的需求大幅降低。說到顯存,這可是所有 AI 開發者心中的痛點啊!過去,想跑動一個強大的多模態模型,沒有頂級顯卡幾乎是不可能的任務。

但現在,Qwen3-VL 讓這一切變得親民許多。

更重要的是,體積變小了,能力卻沒有縮水。無論是圖像理解、視訊分析還是文件 OCR,這些核心功能被完整地保留了下來。不僅如此,為了追求極致的部署效率,阿里還貼心地提供了 FP8 版本。簡單來說,這是一種可以讓模型運行得更快、更省資源的技術,對於需要在邊緣裝置或個人電腦上部署應用的開發者來說,這簡直是天大的好消息。

數據會說話:直接對決 Gemini 和 GPT-5 Nano

光說不練假把戲,我們直接來看官方公布的測試數據。這份成績單可以說是相當驚人。

Qwen2-VL 4BQwen2-VL Instruct 4BQwen2-5.5VL (72B*)Gemini1.5 Flash-lite without SearchGPT-4o Nano Mobile
STEM & PuzzleMMMU_val67.469.672.2*72.757.6
MMMU_pro_full53.255.951.1*55.636.5
MathVista_mini73.777.274.8*70.340.9
MathVision51.653.938.1*52.933.2
MATHVerse_mini46.862.157.6*33.227.0
ZERObench_pub21.022.818.0*15.315.9
MMBench(tidy_en_v1.1)85.185.086.4*82.451.5
General VQARealWorldQA70.971.577.1*70.560.7
MME-star55.870.370.8*71.341.5
SimpleVQA48.650.258.252.239.0
HallusionBench57.661.158.1*53.639.3
Subjective Experience and Instruction FollowingMM-MT-Bench7.57.77.6*7.16.2
MIABench89.791.190.790.589.6
MMLongBench-Doc43.547.942.138.322.1
DocVQA-TEST95.396.196.4*92.078.3
IdleVQA-TEST80.383.187.3*75.049.2
Text Recognition and Chart/Document UnderstandingAI2D-TEST83.785.088.7*84.865.7
OCRBench881896945*912701
OCRBench(cn/en/zh)63.2 / 57.665.4 / 61.261.5* / 63.7*48.1 / 24.237.9 / 27.3
CC-OCR-Bench_overall76.279.979.8*72.152.9
ChartXv2(QG)76.283.087.4*73.564.4
ChartXv2(Q)39.746.449.7*44.631.7
ODinW-1348.244.743.1*--
2D/3D GroundingARKitScenes56.656.8---
Hypersim12.212.7---
SUNRGB-D34.736.2---
Multi-ImageBLINK60.860.164.4*62.042.3
MM-ARENA63.464.470.7*67.045.7
M-VGA41.345.8-40.545.8
VSI-Bench58.459.4-27.027.0
Embodied and Spatial UnderstandingEmbSpatialBench79.678.5-66.350.7
RefSpatialBench46.654.2-12.32.5
RobsSpatialHome61.766.9-41.244.8
VideoMVBench68.968.7---
Video-MME(w/o subj)69.371.473.5*65.049.4
MVBench-Q75.873.174.6*69.352.6
Charades58.258.358.3*52.6-
Charades-STA55.656.050.9*--
Video-MMMU56.265.360.2*63.040.2
ScreenSpot94.094.487.1*--
AgentScreenSpot Pro59.554.643.6*--
OS-World-G58.258.2---
AndroidWorld45.347.635.0*--
OS-World26.233.98.8*--
Fine-grained PerceptionV*80.186.469.164.969.7
HRBench4K76.377.675.672.477.6
HRBench8K72.974.068.067.2-

註:預設評估是透過 API 呼叫和閉源模型的指標分數來執行的。評估結果使用 2-shot 提示,解析到 2048 幀。

從上圖的評測結果可以看到,Qwen3-VL-8B 在多個關鍵領域都展現了超乎預期的實力。

  • 通用視覺問答 (General VQA): 在 RealWorldQA 和 MMStar 等測試中,Qwen3-VL-8B 的分數明顯高於 Google 的 Gemini 2.5 Flash Lite 和傳聞中的 GPT-5 Nano。
  • 文字辨識與文件理解 (OCR & Document Understanding): 在 OCRBench 這項測試中,Qwen3-VL-8B 拿下了 896 的高分,把對手遠遠甩在身後。這代表它在處理包含大量文字的圖片或文件時,有著極高的準確率。
  • 視訊理解 (Video): 處理動態的視訊內容,對模型來說是個更大的挑戰。但在 VideoMME 和 ScreenSpot 等測試中,Qwen3-VL 輕量版的表現依然穩健,甚至在某些項目上超越了體積更大的模型。

最讓人跌破眼鏡的是,Qwen3-VL-8B 在某些任務上的表現,居然能媲美自家半年前發布的旗艦模型 Qwen2.5-VL-72B!用小得多的體積,達到接近頂級模型的效能,這背後的技術含金量不言而喻。

不只是跑分,實際應用潛力有多大?

強大的評測分數,最終還是要回歸到實際應用上。那麼,Qwen3-VL 輕量版能為我們帶來什麼?

它的低資源需求,意味著可以被部署到更多場景。例如,在手機上實現即時的圖像辨識與互動、在個人電腦上打造更聰明的 AI 助理,或是在物聯網裝置中賦予機器「看懂」世界的能力。

此外,它在 Agent 任務上的優異表現,也預示著它有潛力成為驅動複雜自動化流程的核心。想像一下,一個 AI 助理不僅能看懂你傳送的螢幕截圖,還能理解其中的內容,並自動完成後續的操作——這就是 Qwen3-VL 想要實現的未來。

馬上動手玩!資源傳送門

說了這麼多,你是不是也想親自體驗一下 Qwen3-VL 的威力了?阿里非常大方地提供了所有資源,無論你是想直接調用 API,還是下載模型到本地部署,都能找到對應的管道。

總而言之,Qwen3-VL 輕量版的發布,再次證明了模型並非越大越好。在追求極致效能的同時,如何兼顧效率與可及性,或許才是推動 AI 技術普及的關鍵。這是否也預示著,一個高效能、輕量化模型百花齊放的時代,即將到來?

分享至:
Featured Partners

© 2026 Communeify. All rights reserved.