阿里開源了 Qwen3-VL 的 4B 和 8B 輕量模型,不僅顯存佔用超低,更在多項測試中擊敗 Gemini 2.5 Flash Lite 和 GPT-5 Nano。這款小模型真的有這麼神嗎?一起來看看它的驚人表現。
在人工智慧的世界裡,大家似乎總有個迷思:模型越大,就越強大。但如果說,現在有一款小巧玲瓏的模型,不僅資源消耗低,效能還能直接叫板那些赫赫有名的對手,你會相信嗎?
這不是天方夜譚。阿里巴巴的通義團隊最近就投下了一顆震撼彈——正式開源了 Qwen3-VL 的 4B 和 8B 輕量化版本。這兩個模型不僅完整保留了 Qwen3-VL 的核心多模態能力,還大大降低了硬體門檻,讓更多開發者和研究人員都能輕鬆上手。
小體積,大能量?Qwen3-VL 到底強在哪?
這次阿里推出的 Qwen3-VL 輕量版,最大的亮點就是「輕」。4B 和 8B 的參數規模,意味著它對顯示卡記憶體(VRAM)的需求大幅降低。說到顯存,這可是所有 AI 開發者心中的痛點啊!過去,想跑動一個強大的多模態模型,沒有頂級顯卡幾乎是不可能的任務。
但現在,Qwen3-VL 讓這一切變得親民許多。
更重要的是,體積變小了,能力卻沒有縮水。無論是圖像理解、視訊分析還是文件 OCR,這些核心功能被完整地保留了下來。不僅如此,為了追求極致的部署效率,阿里還貼心地提供了 FP8 版本。簡單來說,這是一種可以讓模型運行得更快、更省資源的技術,對於需要在邊緣裝置或個人電腦上部署應用的開發者來說,這簡直是天大的好消息。
數據會說話:直接對決 Gemini 和 GPT-5 Nano
光說不練假把戲,我們直接來看官方公布的測試數據。這份成績單可以說是相當驚人。
| Qwen2-VL 4B | Qwen2-VL Instruct 4B | Qwen2-5.5VL (72B*) | Gemini1.5 Flash-lite without Search | GPT-4o Nano Mobile | ||
|---|---|---|---|---|---|---|
| STEM & Puzzle | MMMU_val | 67.4 | 69.6 | 72.2* | 72.7 | 57.6 |
| MMMU_pro_full | 53.2 | 55.9 | 51.1* | 55.6 | 36.5 | |
| MathVista_mini | 73.7 | 77.2 | 74.8* | 70.3 | 40.9 | |
| MathVision | 51.6 | 53.9 | 38.1* | 52.9 | 33.2 | |
| MATHVerse_mini | 46.8 | 62.1 | 57.6* | 33.2 | 27.0 | |
| ZERObench_pub | 21.0 | 22.8 | 18.0* | 15.3 | 15.9 | |
| MMBench(tidy_en_v1.1) | 85.1 | 85.0 | 86.4* | 82.4 | 51.5 | |
| General VQA | RealWorldQA | 70.9 | 71.5 | 77.1* | 70.5 | 60.7 |
| MME-star | 55.8 | 70.3 | 70.8* | 71.3 | 41.5 | |
| SimpleVQA | 48.6 | 50.2 | 58.2 | 52.2 | 39.0 | |
| HallusionBench | 57.6 | 61.1 | 58.1* | 53.6 | 39.3 | |
| Subjective Experience and Instruction Following | MM-MT-Bench | 7.5 | 7.7 | 7.6* | 7.1 | 6.2 |
| MIABench | 89.7 | 91.1 | 90.7 | 90.5 | 89.6 | |
| MMLongBench-Doc | 43.5 | 47.9 | 42.1 | 38.3 | 22.1 | |
| DocVQA-TEST | 95.3 | 96.1 | 96.4* | 92.0 | 78.3 | |
| IdleVQA-TEST | 80.3 | 83.1 | 87.3* | 75.0 | 49.2 | |
| Text Recognition and Chart/Document Understanding | AI2D-TEST | 83.7 | 85.0 | 88.7* | 84.8 | 65.7 |
| OCRBench | 881 | 896 | 945* | 912 | 701 | |
| OCRBench(cn/en/zh) | 63.2 / 57.6 | 65.4 / 61.2 | 61.5* / 63.7* | 48.1 / 24.2 | 37.9 / 27.3 | |
| CC-OCR-Bench_overall | 76.2 | 79.9 | 79.8* | 72.1 | 52.9 | |
| ChartXv2(QG) | 76.2 | 83.0 | 87.4* | 73.5 | 64.4 | |
| ChartXv2(Q) | 39.7 | 46.4 | 49.7* | 44.6 | 31.7 | |
| ODinW-13 | 48.2 | 44.7 | 43.1* | - | - | |
| 2D/3D Grounding | ARKitScenes | 56.6 | 56.8 | - | - | - |
| Hypersim | 12.2 | 12.7 | - | - | - | |
| SUNRGB-D | 34.7 | 36.2 | - | - | - | |
| Multi-Image | BLINK | 60.8 | 60.1 | 64.4* | 62.0 | 42.3 |
| MM-ARENA | 63.4 | 64.4 | 70.7* | 67.0 | 45.7 | |
| M-VGA | 41.3 | 45.8 | - | 40.5 | 45.8 | |
| VSI-Bench | 58.4 | 59.4 | - | 27.0 | 27.0 | |
| Embodied and Spatial Understanding | EmbSpatialBench | 79.6 | 78.5 | - | 66.3 | 50.7 |
| RefSpatialBench | 46.6 | 54.2 | - | 12.3 | 2.5 | |
| RobsSpatialHome | 61.7 | 66.9 | - | 41.2 | 44.8 | |
| Video | MVBench | 68.9 | 68.7 | - | - | - |
| Video-MME(w/o subj) | 69.3 | 71.4 | 73.5* | 65.0 | 49.4 | |
| MVBench-Q | 75.8 | 73.1 | 74.6* | 69.3 | 52.6 | |
| Charades | 58.2 | 58.3 | 58.3* | 52.6 | - | |
| Charades-STA | 55.6 | 56.0 | 50.9* | - | - | |
| Video-MMMU | 56.2 | 65.3 | 60.2* | 63.0 | 40.2 | |
| ScreenSpot | 94.0 | 94.4 | 87.1* | - | - | |
| Agent | ScreenSpot Pro | 59.5 | 54.6 | 43.6* | - | - |
| OS-World-G | 58.2 | 58.2 | - | - | - | |
| AndroidWorld | 45.3 | 47.6 | 35.0* | - | - | |
| OS-World | 26.2 | 33.9 | 8.8* | - | - | |
| Fine-grained Perception | V* | 80.1 | 86.4 | 69.1 | 64.9 | 69.7 |
| HRBench4K | 76.3 | 77.6 | 75.6 | 72.4 | 77.6 | |
| HRBench8K | 72.9 | 74.0 | 68.0 | 67.2 | - |
註:預設評估是透過 API 呼叫和閉源模型的指標分數來執行的。評估結果使用 2-shot 提示,解析到 2048 幀。
從上圖的評測結果可以看到,Qwen3-VL-8B 在多個關鍵領域都展現了超乎預期的實力。
- 通用視覺問答 (General VQA): 在 RealWorldQA 和 MMStar 等測試中,Qwen3-VL-8B 的分數明顯高於 Google 的 Gemini 2.5 Flash Lite 和傳聞中的 GPT-5 Nano。
- 文字辨識與文件理解 (OCR & Document Understanding): 在 OCRBench 這項測試中,Qwen3-VL-8B 拿下了 896 的高分,把對手遠遠甩在身後。這代表它在處理包含大量文字的圖片或文件時,有著極高的準確率。
- 視訊理解 (Video): 處理動態的視訊內容,對模型來說是個更大的挑戰。但在 VideoMME 和 ScreenSpot 等測試中,Qwen3-VL 輕量版的表現依然穩健,甚至在某些項目上超越了體積更大的模型。
最讓人跌破眼鏡的是,Qwen3-VL-8B 在某些任務上的表現,居然能媲美自家半年前發布的旗艦模型 Qwen2.5-VL-72B!用小得多的體積,達到接近頂級模型的效能,這背後的技術含金量不言而喻。
不只是跑分,實際應用潛力有多大?
強大的評測分數,最終還是要回歸到實際應用上。那麼,Qwen3-VL 輕量版能為我們帶來什麼?
它的低資源需求,意味著可以被部署到更多場景。例如,在手機上實現即時的圖像辨識與互動、在個人電腦上打造更聰明的 AI 助理,或是在物聯網裝置中賦予機器「看懂」世界的能力。
此外,它在 Agent 任務上的優異表現,也預示著它有潛力成為驅動複雜自動化流程的核心。想像一下,一個 AI 助理不僅能看懂你傳送的螢幕截圖,還能理解其中的內容,並自動完成後續的操作——這就是 Qwen3-VL 想要實現的未來。
馬上動手玩!資源傳送門
說了這麼多,你是不是也想親自體驗一下 Qwen3-VL 的威力了?阿里非常大方地提供了所有資源,無論你是想直接調用 API,還是下載模型到本地部署,都能找到對應的管道。
- Hugging Face: AI 開發者最愛的社群,可以在這裡找到模型和相關工具。
- ModelScope: 阿里自家的模型社群,資源最全。
- API 快速體驗: 如果不想自己部署,可以直接透過 API 調用。
- Cookbooks (教學範例): 提供了豐富的程式碼範例,幫助你快速上手。
總而言之,Qwen3-VL 輕量版的發布,再次證明了模型並非越大越好。在追求極致效能的同時,如何兼顧效率與可及性,或許才是推動 AI 技術普及的關鍵。這是否也預示著,一個高效能、輕量化模型百花齊放的時代,即將到來?


