アリババはQwen3-VLの4Bと8Bの軽量モデルをオープンソース化しました。超低ビデオメモリ使用量だけでなく、いくつかのテストでGemini 2.5 Flash LiteとGPT-5 Nanoを打ち負かしました。この小さなモデルは本当にそんなにすごいのでしょうか?その驚くべき性能を見てみましょう。
人工知能の世界では、モデルが大きければ大きいほど強力であるという神話があるようです。しかし、今、リソース消費が少ないだけでなく、その性能が有名なライバルに直接挑戦できる、小さくて精巧なモデルがあると言ったら、信じますか?
これは空想ではありません。アリババの通義チームは最近、爆弾を投下しました。Qwen3-VLの4Bおよび8B軽量バージョンを正式にオープンソース化したのです。これらの2つのモデルは、Qwen3-VLのコアとなるマルチモーダル機能を完全に保持しているだけでなく、ハードウェアの敷居を大幅に下げ、より多くの開発者や研究者が簡単に始められるようにしています。
小さなサイズ、大きなエネルギー?Qwen3-VLの強みは?
今回アリババが発表したQwen3-VL軽量版の最大のハイライトは「軽さ」です。4Bと8Bのパラメータ規模は、グラフィックカードメモリ(VRAM)への要求が大幅に削減されることを意味します。ビデオメモリといえば、これはすべてのAI開発者にとっての悩みの種です!以前は、強力なマルチモーダルモデルを実行するには、トップレベルのグラフィックカードがなければほとんど不可能なタスクでした。
しかし今、Qwen3-VLはそれをはるかに身近なものにしています。
さらに重要なことに、サイズは小さくなりましたが、機能は縮小されていません。画像理解、ビデオ分析、ドキュメントOCRなど、これらのコア機能は完全に保持されています。それだけでなく、究極の展開効率を追求するために、アリババはFP8バージョンも思慮深く提供しています。簡単に言えば、これはモデルをより速く実行し、より多くのリソースを節約できるテクノロジーです。エッジデバイスやパーソナルコンピュータにアプリケーションを展開する必要がある開発者にとって、これはまさに朗報です。
データが物語る:GeminiとGPT-5 Nanoとの直接対決
口先だけでは意味がありません。公式のテストデータを直接見てみましょう。この成績表はかなり驚くべきものと言えます。
| Qwen2-VL 4B | Qwen2-VL Instruct 4B | Qwen2-5.5VL (72B*) | Gemini1.5 Flash-lite without Search | GPT-4o Nano Mobile | ||
|---|---|---|---|---|---|---|
| STEM & Puzzle | MMMU_val | 67.4 | 69.6 | 72.2* | 72.7 | 57.6 |
| MMMU_pro_full | 53.2 | 55.9 | 51.1* | 55.6 | 36.5 | |
| MathVista_mini | 73.7 | 77.2 | 74.8* | 70.3 | 40.9 | |
| MathVision | 51.6 | 53.9 | 38.1* | 52.9 | 33.2 | |
| MATHVerse_mini | 46.8 | 62.1 | 57.6* | 33.2 | 27.0 | |
| ZERObench_pub | 21.0 | 22.8 | 18.0* | 15.3 | 15.9 | |
| MMBench(tidy_en_v1.1) | 85.1 | 85.0 | 86.4* | 82.4 | 51.5 | |
| General VQA | RealWorldQA | 70.9 | 71.5 | 77.1* | 70.5 | 60.7 |
| MME-star | 55.8 | 70.3 | 70.8* | 71.3 | 41.5 | |
| SimpleVQA | 48.6 | 50.2 | 58.2 | 52.2 | 39.0 | |
| HallusionBench | 57.6 | 61.1 | 58.1* | 53.6 | 39.3 | |
| Subjective Experience and Instruction Following | MM-MT-Bench | 7.5 | 7.7 | 7.6* | 7.1 | 6.2 |
| MIABench | 89.7 | 91.1 | 90.7 | 90.5 | 89.6 | |
| MMLongBench-Doc | 43.5 | 47.9 | 42.1 | 38.3 | 22.1 | |
| DocVQA-TEST | 95.3 | 96.1 | 96.4* | 92.0 | 78.3 | |
| IdleVQA-TEST | 80.3 | 83.1 | 87.3* | 75.0 | 49.2 | |
| Text Recognition and Chart/Document Understanding | AI2D-TEST | 83.7 | 85.0 | 88.7* | 84.8 | 65.7 |
| OCRBench | 881 | 896 | 945* | 912 | 701 | |
| OCRBench(cn/en/zh) | 63.2 / 57.6 | 65.4 / 61.2 | 61.5* / 63.7* | 48.1 / 24.2 | 37.9 / 27.3 | |
| CC-OCR-Bench_overall | 76.2 | 79.9 | 79.8* | 72.1 | 52.9 | |
| ChartXv2(QG) | 76.2 | 83.0 | 87.4* | 73.5 | 64.4 | |
| ChartXv2(Q) | 39.7 | 46.4 | 49.7* | 44.6 | 31.7 | |
| ODinW-13 | 48.2 | 44.7 | 43.1* | - | - | |
| 2D/3D Grounding | ARKitScenes | 56.6 | 56.8 | - | - | - |
| Hypersim | 12.2 | 12.7 | - | - | - | |
| SUNRGB-D | 34.7 | 36.2 | - | - | - | |
| Multi-Image | BLINK | 60.8 | 60.1 | 64.4* | 62.0 | 42.3 |
| MM-ARENA | 63.4 | 64.4 | 70.7* | 67.0 | 45.7 | |
| M-VGA | 41.3 | 45.8 | - | 40.5 | 45.8 | |
| VSI-Bench | 58.4 | 59.4 | - | 27.0 | 27.0 | |
| Embodied and Spatial Understanding | EmbSpatialBench | 79.6 | 78.5 | - | 66.3 | 50.7 |
| RefSpatialBench | 46.6 | 54.2 | - | 12.3 | 2.5 | |
| RobsSpatialHome | 61.7 | 66.9 | - | 41.2 | 44.8 | |
| Video | MVBench | 68.9 | 68.7 | - | - | - |
| Video-MME(w/o subj) | 69.3 | 71.4 | 73.5* | 65.0 | 49.4 | |
| MVBench-Q | 75.8 | 73.1 | 74.6* | 69.3 | 52.6 | |
| Charades | 58.2 | 58.3 | 58.3* | 52.6 | - | |
| Charades-STA | 55.6 | 56.0 | 50.9* | - | - | |
| Video-MMMU | 56.2 | 65.3 | 60.2* | 63.0 | 40.2 | |
| ScreenSpot | 94.0 | 94.4 | 87.1* | - | - | |
| Agent | ScreenSpot Pro | 59.5 | 54.6 | 43.6* | - | - |
| OS-World-G | 58.2 | 58.2 | - | - | - | |
| AndroidWorld | 45.3 | 47.6 | 35.0* | - | - | |
| OS-World | 26.2 | 33.9 | 8.8* | - | - | |
| Fine-grained Perception | V* | 80.1 | 86.4 | 69.1 | 64.9 | 69.7 |
| HRBench4K | 76.3 | 77.6 | 75.6 | 72.4 | 77.6 | |
| HRBench8K | 72.9 | 74.0 | 68.0 | 67.2 | - |
注:デフォルトの評価は、API呼び出しとクローズドソースモデルのメトリクススコアを通じて実行されます。評価結果は2ショットプロンプトを使用し、2048フレームに解析されます。
上の図の評価結果から、Qwen3-VL-8Bがいくつかの主要な分野で予想外の強みを発揮していることがわかります。
- 一般的なVQA: RealWorldQAやMMStarなどのテストでは、Qwen3-VL-8BのスコアはGoogleのGemini 2.5 Flash Liteや噂のGPT-5 Nanoよりも大幅に高くなっています。
- OCRとドキュメント理解: OCRBenchテストでは、Qwen3-VL-8Bは896という高得点を獲得し、ライバルを大きく引き離しました。これは、大量のテキストを含む画像やドキュメントを処理する際に非常に高い精度を持つことを意味します。
- ビデオ: 動的なビデオコンテンツの処理は、モデルにとってより大きな課題です。しかし、VideoMMEやScreenSpotなどのテストでは、Qwen3-VLの軽量バージョンのパフォーマンスは依然として堅実であり、一部の項目ではより大きなモデルを上回っています。
最も驚くべきことは、Qwen3-VL-8Bの一部のタスクでのパフォーマンスが、半年前にリリースされた自社のフラッグシップモデルQwen2.5-VL-72Bに匹敵することです!はるかに小さいサイズでトップレベルのモデルに近いパフォーマンスを達成することの背後にある技術的な価値は自明です。
ベンチマークだけでなく、実際のアプリケーションの可能性はどれくらい大きいか?
強力な評価スコアは、最終的には実際のアプリケーションに戻る必要があります。では、Qwen3-VLの軽量バージョンは私たちに何をもたらすことができるのでしょうか?
その低いリソース要件は、より多くのシナリオに展開できることを意味します。たとえば、携帯電話でのリアルタイムの画像認識とインタラクションの実現、パーソナルコンピュータでのよりスマートなAIアシスタントの作成、IoTデバイスでのマシンに世界を「理解」させる能力の付与などです。
さらに、エージェントタスクでの優れたパフォーマンスは、複雑な自動化プロセスを推進するコアになる可能性も示しています。送信したスクリーンショットを理解できるだけでなく、コンテンツを理解して後続の操作を自動的に完了できるAIアシスタントを想像してみてください。これがQwen3-VLが実現したい未来です。
今すぐ始めよう!リソースポータル
これだけ話を聞いて、あなたもQwen3-VLの力を体験してみたくなったのではないでしょうか?アリババは非常に寛大にすべてのリソースを提供しています。APIを直接呼び出したい場合でも、ローカル展開のためにモデルをダウンロードしたい場合でも、対応するチャネルを見つけることができます。
- Hugging Face: AI開発者に最も人気のあるコミュニティで、モデルや関連ツールを見つけることができます。
- ModelScope: アリババ独自のモデルコミュニティで、最も完全なリソースがあります。
- APIクイックエクスペリエンス: 自分で展開したくない場合は、APIを介して直接呼び出すことができます。
- Cookbooks(チュートリアル): すぐに始められるように、豊富なコード例を提供しています。
要約すると、Qwen3-VLの軽量バージョンのリリースは、モデルにとって大きいことが常に良いとは限らないことを改めて証明しています。究極のパフォーマンスを追求する一方で、効率とアクセシビリティのバランスをとることが、AI技術の普及を促進する鍵となる可能性があります。これはまた、高性能で軽量なモデルの時代が到来することを示唆しているのでしょうか?


