StarVector:從圖像與文本生成 SVG 代碼的多模態模型

什麼是 StarVector?

StarVector 是一款專門為 Scalable Vector Graphics (SVG) 生成而設計的多模態視覺語言模型(VLM)。它可以透過 圖像轉 SVG(Image-to-SVG)文本轉 SVG(Text-to-SVG) 兩種方式生成高精度、語義豐富的 SVG 代碼。與傳統的曲線向量化方法不同,StarVector 直接在 SVG 代碼層面 運作,使其能夠準確使用 SVG 原語(如 橢圓、矩形、多邊形、文本 等),避免傳統方法常見的失真與偽影。


StarVector 的核心技術

1. 多模態架構

StarVector 採用 多模態架構,能夠處理 圖像文本 兩種輸入:

  • Image-to-SVG:將圖像轉換為視覺標記(visual tokens),然後生成 SVG 代碼。
  • Text-to-SVG:僅根據文本指令(無需圖像)創建新的 SVG。

模型核心基於 StarCoder,使其能夠將編碼能力遷移到 SVG 生成領域,確保代碼精簡且語法正確。


SVG 生成的挑戰與 StarVector 的優勢

1. 避免傳統方法的缺陷

傳統 SVG 生成方法,如 AutoTrace、Potrace、VTracer 等,主要依賴於 曲線擬合,無法準確理解圖像的語義,經常產生 扭曲或冗長的路徑數據,且難以處理 複雜的 SVG 元素

StarVector 的優勢:

  • 語義理解:模型能夠分析圖像內容,並正確選擇適當的 SVG 原語(如 圓形、矩形、折線 等)。
  • 代碼精簡:直接輸出 結構清晰緊湊 的 SVG 代碼,而非複雜的路徑數據(<path>)。
  • 支援多種 SVG 生成場景:如 標誌(logo)、技術圖表(technical diagrams)、圖示(icons) 等。

2. 更準確的評估標準

過去,許多 SVG 生成方法依賴於 像素級評估指標(如 MSE),但這些方法無法真正衡量 SVG 的語義準確性。因此,StarVector 團隊開發了 SVG-Bench,這是一個專門用於測試 SVG 生成質量 的基準測試,涵蓋 10 個數據集與 3 種 SVG 生成任務:

  1. Image-to-SVG
  2. Text-to-SVG
  3. Diagram-to-SVG

StarVector 模型與評測結果

目前,StarVector 提供 兩個模型版本,並在 Hugging Face 上開放下載:

  • 💫 StarVector-8B
  • 💫 StarVector-1B

在 SVG-Bench 測試中,StarVector 在 DinoScore 指標上的表現超越了所有基準模型:

方法SVG-StackSVG-FontsSVG-IconsSVG-EmojiSVG-Diagrams
AutoTrace0.9420.9540.9460.9750.874
Potrace0.8980.9670.9720.8820.875
VTracer0.9540.9640.9400.9810.882
Im2Vec0.6920.7330.7540.732-
LIVE0.9340.9560.9590.9690.870
DiffVG0.8100.8210.9520.8140.822
GPT-4-V0.8520.8420.8480.850-
💫 StarVector-1B0.9260.9780.9750.9290.943
💫 StarVector-8B0.9660.9820.9840.9810.959

注意: StarVector 不適用於自然圖像或插畫,因為模型的訓練數據主要來自 圖標、技術圖表、圖表(charts)、標誌等矢量圖形


SVG-Bench 數據集詳解

StarVector 的訓練數據來自 SVG-Bench,這是一個專門為 SVG 生成模型設計的數據集,涵蓋 10 個子數據集,每個數據集針對不同的 SVG 生成場景:

數據集訓練集驗證集測試集平均 Token 長度支援的 SVG 原語註釋類型
SVG-Stack2.1M108k5.7k1,822 ± 1,808所有 SVG 原語圖像標註
SVG-Stack_sim601k30.1k1.5k2,000 ± 918Vector path-
SVG-Diagrams--4723,486 ± 1,918所有 SVG 原語-
SVG-Fonts1.8M91.5k4.8k2,121 ± 1,868Vector path字體標註
SVG-Fonts_sim1.4M71.7k3.7k1,722 ± 723Vector path字體標註
SVG-Emoji8.7k6676682,551 ± 1,805所有 SVG 原語-
SVG-Emoji_sim58057962,448 ± 1,026Vector path-
SVG-Icons80.4k6.2k2.4k2,449 ± 1,543Vector path-
SVG-Icons_sim80.4k2.8k1.2k2,005 ± 824Vector path-
SVG-FIGR270k27k3k5,342 ± 2,345Vector path圖像分類 & 標註

總結:StarVector 為何重要?

SVG 在 圖標、商標、技術圖表、地圖設計 等領域至關重要,而 StarVector 是目前最先進的 Image-to-SVG 與 Text-to-SVG 生成模型。與傳統曲線擬合方法相比,它提供: ✅ 語義理解,能正確識別圖像結構 ✅ 精簡代碼,生成更高效的 SVG ✅ 更準確的評測標準,解決像素級評估的局限性 ✅ 支援 Hugging Face 訓練與測試,可供開發者使用

StarVector 讓 AI 生成 SVG 變得更加精確、可靠,並為未來的向量圖形應用開啟了更多可能性。💡

👉 相關資源:

分享至:
DMflow.chat Ad
廣告

DMflow.chat

探索DMflow.chat,開啟AI驅動的客戶服務新時代。

Learn More

© 2025 Communeify. All rights reserved.