當大型語言模型開始挑戰「視覺程式碼」,誰才是真正的贏家?本文深入解析 Claude Sonnet 4.5、GPT-5.1、Gemini 3.0 等 9 款頂尖 AI 模型的 SVG 生成評測,探討這些模型在 30 個創意提示詞下的表現,並分析這對開發者與設計師意味著什麼。
程式碼與藝術的交匯點
你有沒有想過,那些擅長寫 Python 或 JavaScript 的人工智慧,如果被要求「畫畫」會發生什麼事?這裡指的不是像 Midjourney 那樣生成像素圖片,而是撰寫 SVG(可縮放向量圖形)程式碼。這就像是要求一個數學家透過寫公式來畫出一隻貓,聽起來很瘋狂,但這正是目前 AI 領域最有趣的戰場之一。
最近一項名為「LLM SVG Generation Benchmark」的評測引起了廣泛關注。這項測試集結了目前市面上最強大的 9 款 AI 模型,讓它們挑戰 30 個極具創意的 SVG 生成指令。這不單是測試誰的程式碼寫得對,更是測試這些模型是否具備「空間推理」與「視覺想像」的能力。
這場對決的參賽者名單堪稱夢幻陣容,包含了從 Anthropic、OpenAI、Google 到 xAI 和阿里巴巴等科技巨頭的最新力作。
參賽選手介紹:2025 年的頂尖戰力
這份評測名單透露出一個訊息,AI 模型的迭代速度簡直快得驚人。讓我們仔細看看這 9 位選手,它們代表了目前大型語言模型(LLM)的最高水準:
- Claude Sonnet 4.5 (Anthropic):向來以寫程式邏輯嚴謹著稱,這次升級版能否在圖形邏輯上延續優勢?
- Claude Opus 4.5 (Anthropic):作為 Anthropic 的旗艦款,理論上在處理複雜指令時應有更細膩的表現。
- Grok Code Fast 1 (xAI):擁有 314B 參數的 MoE(混合專家)架構,主打速度與程式碼生成,是馬斯克旗下 xAI 的重要戰力。
- Gemini 2.5 Pro (Google):Google 的主力模型,在多模態理解上一直表現不俗。
- Gemini 3.0 Pro Preview (Google):這是 Google 下一代的預覽版,讓人期待是否有突破性的架構改進。
- DeepSeek V3.2-Exp (685B/37B MoE):來自開源社群的強大挑戰者,龐大的參數量暗示了它對複雜世界的理解力。
- GLM-4.6 (Zhipu AI, 355B/32B MoE):智譜 AI 的最新迭代,展現了中文語系模型在程式碼領域的競爭力。
- Qwen3-VL-235B-A22B-Thinking (Alibaba):阿里雲的通義千問系列,特別標註了「Thinking」,暗示其強化了推論過程(CoT),這對圖形生成至關重要。
- GPT-5.1 (OpenAI):作為市場的標竿,GPT 系列的每一次更新都是眾人焦點,5.1 版本勢必在創造力上有所提升。
為什麼 SVG 生成這麼難?
或許你會問,生成一張圖有什麼難的?DALL-E 不早就做到了嗎?
這裡有個關鍵區別。像 DALL-E 或 Stable Diffusion 生成的是「像素」,它們只要把顏色填對位置就好。但 LLM 生成 SVG 是在寫「程式碼」。模型必須在腦海中建立一個 X/Y 座標系,精確計算每一條曲線的貝茲參數(Bezier curves),並理解圖層堆疊的邏輯。
這就像是矇著眼睛玩拼圖。模型看不見自己畫了什麼,它只能憑藉對 XML 語法的理解和空間邏輯的推演來「盲畫」。如果模型對空間沒有概念,畫出來的貓可能耳朵會長在肚子上,或者圓形變成了奇怪的多邊形。
這項評測使用了 30 個創意提示詞,這意味著題目不是簡單的「畫一個紅色的圓」,而是可能包含複雜的場景描述、抽象概念或是需要精細幾何結構的圖形。這考驗的不僅是語法正確性,更是模型對物理世界形狀的認知。
各大陣營的技術角力
在這次評測中,我們可以觀察到幾個有趣的技術趨勢。
MoE 架構的崛起
名單中像 Grok、DeepSeek 和 GLM 都明確標示了 MoE(混合專家模型)架構。這意味著模型內部有不同的「專家」分別處理不同類型的任務。在繪製 SVG 時,可能有一個專家負責幾何計算,另一個負責色彩搭配。這種分工合作的方式,理論上能在保持運算效率的同時,提升產出的精確度。
「思考」能力的引入
Qwen3 的命名中包含了 “Thinking”,這非常值得玩味。這可能代表模型在輸出最終程式碼之前,會先進行內部的思維鏈(Chain of Thought)推導。對於 SVG 這種需要精密計算的任務,讓模型「先想再畫」,往往能大幅減少座標錯位的尷尬情況。
閉源與開源的拉鋸
GPT-5.1 和 Claude 4.5 代表了閉源模型的巔峰,它們通常經過大量的人類回饋強化學習(RLHF),更懂得如何討好人類的審美。而 DeepSeek 和 Qwen 等模型則代表了開放權重或開源社群的力量,它們在參數量和架構創新上往往更加大膽。
開發者與設計師該如何選擇?
面對這份評測名單,我們該如何應用在實際工作流中?
如果你是前端工程師,需要快速生成簡單的 icon 或 UI 佔位圖(Placeholder),Claude Sonnet 4.5 或 Grok Code Fast 1 可能是首選,因為它們通常能生成乾淨、結構良好且容易維護的程式碼。
如果你是創意工作者,想要尋找靈感或生成複雜的向量插畫,GPT-5.1 或 Gemini 3.0 Pro Preview 可能會給你更多驚喜。這些模型通常在理解抽象指令和色彩運用上更有創意。
如果你需要極致的精確度,或者你的指令涉及複雜的幾何變換,那麼具備「思考」能力的 Qwen3 或參數量巨大的 DeepSeek 可能會表現得更穩健。
SVG 生成的未來應用場景
這項評測不只是為了好玩,它預示了未來內容創作的轉變。
- 動態網頁設計:未來的網站圖片不再是死板的 JPG,而是可以隨意更改顏色、大小甚至互動的 AI 生成 SVG。
- 數據視覺化:只要輸入 Excel 數據,AI 就能直接寫出精美的 SVG 圖表程式碼,完全不需要依賴圖表庫。
- 即時遊戲資產:簡單的網頁遊戲可以直接由 AI 生成向量地圖或角色,大幅降低開發門檻。
當 AI 能夠精準操控向量圖形時,設計與程式碼的邊界將會變得更加模糊。
常見問題解答 (FAQ)
以下整理了關於 AI 生成 SVG 的常見疑問,幫助你更進一步了解這項技術。
1. 為什麼 AI 生成的 SVG 有時候會「破圖」或線條亂跑?
這通常是因為模型的「空間推理」能力不足。SVG 依賴精確的數學座標,如果模型無法在內部邏輯中正確構建出圖形的幾何位置,就會導致路徑(Path)沒有閉合,或是座標點數值錯誤,讓圖形看起來像是亂畫的線條。
2. 這些模型生成的 SVG 可以直接商用嗎?
從技術上來說,SVG 只是程式碼,你可以自由修改。但版權問題目前在法律上仍有灰色地帶。不過,由於 SVG 是由數學公式構成的通用圖形,相比於像素藝術,其版權爭議通常較小。建議將其作為底稿,再由人工進行優化和調整。
3. 哪一款模型生成的 SVG 程式碼品質最好?
根據開發者社群的經驗,Gemini 3.0 Pro Preview通常能產出最乾淨、可讀性最高的 XML 程式碼,非常適合需要後續人工編輯的場景。而 Claude 系列則在理解複雜、抽象的繪圖指令上往往表現較佳。
4. 我該如何優化我的提示詞 (Prompt) 來獲得更好的 SVG?
試著具體描述幾何形狀和佈局。與其說「畫一隻貓」,不如說「使用簡單的圓形和三角形組合,繪製一個極簡風格的貓臉 SVG圖示,使用柔和的色調」。給予明確的幾何引導,能幫助模型更準確地計算座標。
5. SVG 生成和像 Midjourney 這樣的圖片生成有什麼不同?
本質完全不同。Midjourney 是生成「點陣圖」(Pixel),放大會模糊,無法編輯內部元素。而本文提到的模型是生成「向量程式碼」(Vector),可以無限放大不失真,且你可以隨時修改程式碼來改變圖形的顏色或形狀。


