AI 模型繪圖能力大對決：9 款頂尖 LLM 的 SVG 生成實測

文深入解析 Claude Sonne

T-5.1、Gemini 3.0 等

指的不是像 Midjourney 那樣生成像

，包含了從 Anthropic、OpenA

ropic、OpenAI、Googl

penAI、Google 到 xAI

tool

AI 模型繪圖能力大對決：9 款頂尖 LLM 的 SVG 生成實測

2025-12-02

當大型語言模型開始挑戰「視覺程式碼」，誰才是真正的贏家？本文深入解析 Claude Sonnet 4.5、GPT-5.1、Gemini 3.0 等 9 款頂尖 AI 模型的 SVG 生成評測，探討這些模型在 30 個創意提示詞下的表現，並分析這對開發者與設計師意味著什麼。

程式碼與藝術的交匯點

你有沒有想過，那些擅長寫 Python 或 JavaScript 的人工智慧，如果被要求「畫畫」會發生什麼事？這裡指的不是像 Midjourney 那樣生成像素圖片，而是撰寫 SVG（可縮放向量圖形）程式碼。這就像是要求一個數學家透過寫公式來畫出一隻貓，聽起來很瘋狂，但這正是目前 AI 領域最有趣的戰場之一。

最近一項名為「LLM SVG Generation Benchmark」的評測引起了廣泛關注。這項測試集結了目前市面上最強大的 9 款 AI 模型，讓它們挑戰 30 個極具創意的 SVG 生成指令。這不單是測試誰的程式碼寫得對，更是測試這些模型是否具備「空間推理」與「視覺想像」的能力。

這場對決的參賽者名單堪稱夢幻陣容，包含了從 Anthropic、OpenAI、Google 到 xAI 和阿里巴巴等科技巨頭的最新力作。

參賽選手介紹：2025 年的頂尖戰力

這份評測名單透露出一個訊息，AI 模型的迭代速度簡直快得驚人。讓我們仔細看看這 9 位選手，它們代表了目前大型語言模型（LLM）的最高水準：

Claude Sonnet 4.5 (Anthropic)：向來以寫程式邏輯嚴謹著稱，這次升級版能否在圖形邏輯上延續優勢？
Claude Opus 4.5 (Anthropic)：作為 Anthropic 的旗艦款，理論上在處理複雜指令時應有更細膩的表現。
Grok Code Fast 1 (xAI)：擁有 314B 參數的 MoE（混合專家）架構，主打速度與程式碼生成，是馬斯克旗下 xAI 的重要戰力。
Gemini 2.5 Pro (Google)：Google 的主力模型，在多模態理解上一直表現不俗。
Gemini 3.0 Pro Preview (Google)：這是 Google 下一代的預覽版，讓人期待是否有突破性的架構改進。
DeepSeek V3.2-Exp (685B/37B MoE)：來自開源社群的強大挑戰者，龐大的參數量暗示了它對複雜世界的理解力。
GLM-4.6 (Zhipu AI, 355B/32B MoE)：智譜 AI 的最新迭代，展現了中文語系模型在程式碼領域的競爭力。
Qwen3-VL-235B-A22B-Thinking (Alibaba)：阿里雲的通義千問系列，特別標註了「Thinking」，暗示其強化了推論過程（CoT），這對圖形生成至關重要。
GPT-5.1 (OpenAI)：作為市場的標竿，GPT 系列的每一次更新都是眾人焦點，5.1 版本勢必在創造力上有所提升。

為什麼 SVG 生成這麼難？

或許你會問，生成一張圖有什麼難的？DALL-E 不早就做到了嗎？

這裡有個關鍵區別。像 DALL-E 或 Stable Diffusion 生成的是「像素」，它們只要把顏色填對位置就好。但 LLM 生成 SVG 是在寫「程式碼」。模型必須在腦海中建立一個 X/Y 座標系，精確計算每一條曲線的貝茲參數（Bezier curves），並理解圖層堆疊的邏輯。

這就像是矇著眼睛玩拼圖。模型看不見自己畫了什麼，它只能憑藉對 XML 語法的理解和空間邏輯的推演來「盲畫」。如果模型對空間沒有概念，畫出來的貓可能耳朵會長在肚子上，或者圓形變成了奇怪的多邊形。

這項評測使用了 30 個創意提示詞，這意味著題目不是簡單的「畫一個紅色的圓」，而是可能包含複雜的場景描述、抽象概念或是需要精細幾何結構的圖形。這考驗的不僅是語法正確性，更是模型對物理世界形狀的認知。

各大陣營的技術角力

在這次評測中，我們可以觀察到幾個有趣的技術趨勢。

MoE 架構的崛起

名單中像 Grok、DeepSeek 和 GLM 都明確標示了 MoE（混合專家模型）架構。這意味著模型內部有不同的「專家」分別處理不同類型的任務。在繪製 SVG 時，可能有一個專家負責幾何計算，另一個負責色彩搭配。這種分工合作的方式，理論上能在保持運算效率的同時，提升產出的精確度。

「思考」能力的引入

Qwen3 的命名中包含了 “Thinking”，這非常值得玩味。這可能代表模型在輸出最終程式碼之前，會先進行內部的思維鏈（Chain of Thought）推導。對於 SVG 這種需要精密計算的任務，讓模型「先想再畫」，往往能大幅減少座標錯位的尷尬情況。

閉源與開源的拉鋸

GPT-5.1 和 Claude 4.5 代表了閉源模型的巔峰，它們通常經過大量的人類回饋強化學習（RLHF），更懂得如何討好人類的審美。而 DeepSeek 和 Qwen 等模型則代表了開放權重或開源社群的力量，它們在參數量和架構創新上往往更加大膽。

開發者與設計師該如何選擇？

面對這份評測名單，我們該如何應用在實際工作流中？

如果你是前端工程師，需要快速生成簡單的 icon 或 UI 佔位圖（Placeholder），Claude Sonnet 4.5 或 Grok Code Fast 1 可能是首選，因為它們通常能生成乾淨、結構良好且容易維護的程式碼。

如果你是創意工作者，想要尋找靈感或生成複雜的向量插畫，GPT-5.1 或 Gemini 3.0 Pro Preview 可能會給你更多驚喜。這些模型通常在理解抽象指令和色彩運用上更有創意。

如果你需要極致的精確度，或者你的指令涉及複雜的幾何變換，那麼具備「思考」能力的 Qwen3 或參數量巨大的 DeepSeek 可能會表現得更穩健。

SVG 生成的未來應用場景

這項評測不只是為了好玩，它預示了未來內容創作的轉變。

動態網頁設計：未來的網站圖片不再是死板的 JPG，而是可以隨意更改顏色、大小甚至互動的 AI 生成 SVG。
數據視覺化：只要輸入 Excel 數據，AI 就能直接寫出精美的 SVG 圖表程式碼，完全不需要依賴圖表庫。
即時遊戲資產：簡單的網頁遊戲可以直接由 AI 生成向量地圖或角色，大幅降低開發門檻。

當 AI 能夠精準操控向量圖形時，設計與程式碼的邊界將會變得更加模糊。

常見問題解答 (FAQ)

以下整理了關於 AI 生成 SVG 的常見疑問，幫助你更進一步了解這項技術。

1. 為什麼 AI 生成的 SVG 有時候會「破圖」或線條亂跑？

這通常是因為模型的「空間推理」能力不足。SVG 依賴精確的數學座標，如果模型無法在內部邏輯中正確構建出圖形的幾何位置，就會導致路徑（Path）沒有閉合，或是座標點數值錯誤，讓圖形看起來像是亂畫的線條。

2. 這些模型生成的 SVG 可以直接商用嗎？

從技術上來說，SVG 只是程式碼，你可以自由修改。但版權問題目前在法律上仍有灰色地帶。不過，由於 SVG 是由數學公式構成的通用圖形，相比於像素藝術，其版權爭議通常較小。建議將其作為底稿，再由人工進行優化和調整。

3. 哪一款模型生成的 SVG 程式碼品質最好？

根據開發者社群的經驗，Gemini 3.0 Pro Preview通常能產出最乾淨、可讀性最高的 XML 程式碼，非常適合需要後續人工編輯的場景。而 Claude 系列則在理解複雜、抽象的繪圖指令上往往表現較佳。

4. 我該如何優化我的提示詞 (Prompt) 來獲得更好的 SVG？

試著具體描述幾何形狀和佈局。與其說「畫一隻貓」，不如說「使用簡單的圓形和三角形組合，繪製一個極簡風格的貓臉 SVG圖示，使用柔和的色調」。給予明確的幾何引導，能幫助模型更準確地計算座標。

5. SVG 生成和像 Midjourney 這樣的圖片生成有什麼不同？

本質完全不同。Midjourney 是生成「點陣圖」（Pixel），放大會模糊，無法編輯內部元素。而本文提到的模型是生成「向量程式碼」（Vector），可以無限放大不失真，且你可以隨時修改程式碼來改變圖形的顏色或形狀。

分享至:

Featured Partners

SPONSORED

videoweaver.app

Video Weaver: 瀏覽器內完成專業影片剪輯，無需下載、即刻創作。

Learn More

SPONSORED

scribis.app

Scribis: 字幕編輯、語音轉錄文字、即時顯示轉錄文字。

Learn More

SPONSORED

DMflow.chat

探索DMflow.chat，立即開啟AI驅動的客戶服務新時代。

Learn More

SPONSORED

DMflow.chat

DMflow.chat: 您的智能AI夥伴，提升客戶互動、創造卓越體驗。

Learn More

SPONSORED

videoweaver.app

Video Weaver: 瀏覽器內完成專業影片剪輯，無需下載、即刻創作。

Learn More

SPONSORED

scribis.app

Scribis: 字幕編輯、語音轉錄文字、即時顯示轉錄文字。

Learn More

SPONSORED

DMflow.chat

探索DMflow.chat，立即開啟AI驅動的客戶服務新時代。

Learn More

SPONSORED

DMflow.chat

DMflow.chat: 您的智能AI夥伴，提升客戶互動、創造卓越體驗。

Learn More

Recommended for You

P …

tool

PerceptionBench 揭露 AI 視覺盲點：GPT、Kimi 圖片辨識準確率不到 60%

當最強的 AI 依然會「看錯」圖片：PerceptionBench 帶來的視覺現實震撼我們常有一種錯覺，覺得現在的大型語言模型連複雜的程式碼都能寫了，看懂一張圖片應該是輕而易舉的事。但事實恰恰相反。當你讓 GPT 或 Kimi 這類頂尖模型去做最基礎的圖片辨識時，它們很多時候其實是在「瞎猜」。為了打破這種「AI 視覺已經完美無瑕」的幻覺，Kimi 團隊（月之暗面）近期發布了視覺感知評測工具 PerceptionBench。這套工具直接點破了目前多模態模型在理解實體世界時的集體困境。為什麼以前我們沒發現這個問題？關鍵在於過去的視覺評測（VQA）把「看懂畫面」和「邏輯推理」綁在了一起。舉個例子，如果給 AI 看一張模糊的蘋果樹照片，問它蘋果在什麼位置，即便它根本看不清像素，也能憑藉訓練庫裡累積的語言常識推論出「蘋果長在樹上」。這種投機的答題策略，完美掩蓋了它其實「看不清」的事實。這種「視力不佳」的缺憾在實驗室裡看似無傷大雅，但如果放到現實中，比如在物流倉庫裡需要精準抓取物品的機器人，或者自動駕駛系統，只要一次像素級的辨識失誤，就可能導致嚴重的物理碰撞或效率災難。 PerceptionBench 的作法是徹底剝離推理能力，專注測試最單純、最底層的「原子感知能力」（Atomic Perception）。它透過人為設計的反常識場景，切斷了 AI 依靠語言邏輯作弊的退路。測試結果：跨不過去的 60% 準確率天花板當不能再用「猜」的時候，即使是當前最頂尖的模型，在純粹的視覺感知測試中，準確率連 60% 的及格線都跨不過去。在 PerceptionBench 的榜單上，GPT-5.6-Sol 僅拿下了 59.7% 的成績，緊隨其後的 Kimi-K3 是 58.5%，而 Claude-Fable-5 則是 57.2%。當推理的拐杖被拿掉，頂級模型的錯誤率全都超過了四成。圖片來源: https://www.kimi.com/blog/perception-bench 這種表現反映在實際使用中就是「不穩定」。如果你拿同一張圖片反覆詢問同一個模型，它的答案經常前後矛盾——這秒說圖裡有五個人，下秒又改口說是六個。這說明 AI 並沒有建立穩固的視覺神經，許多時候的正確只是運氣好。這套測試究竟是怎麼設計的？研發團隊分析了現有模型在 40 多個視覺測試中的失敗案例後，整理出了 3,000 個真實樣本。它涵蓋了十個基礎感知範疇：空間與定位：判斷物體的遠近遮擋與前後左右關係（這對機器手臂抓取物品至關重要）。細節與文字辨識：細粒度特徵擷取、OCR 文字辨識與計數。關係與比較：視覺關係、屬性對比以及上下文整合。幻覺測試：考驗 AI 是否會看見根本不存在的物體。在這些題目中，AI 必須純粹透過「看」來回答，完全無法依賴外部的常識來推導。圖片來源: https://www.kimi.com/blog/perception-bench 為什麼 AI 成了「聰明的瞎子」？問題出在我們過去太依賴「堆參數」與「語言邏輯」了。

Jul 17, 2026 Read →

A …

tool

AI 真的懂你嗎？全面解析 VitaBench 2.0 測試平台與長效記憶盲區

AI 助手真的懂人類嗎？解析 VitaBench 2.0 測試平台與長效記憶盲區現在的人工智能助手在執行明確指令時已經非常厲害了。無論是寫程式碼、算數學，還是預訂機票，只要指令夠清晰，它們幾乎都能完美完成任務。說實話，這讓人感到非常驚豔。但這裡有一個核心問題。當指令變得模糊，或者需要依賴過去的習慣來做決定時，這些頂尖的 AI 往往會瞬間變得不知所措。真實世界的人類對話通常充滿了省略語和未言明的習慣。人們期待的是一個「懂人類」的專屬助手，單純的指令執行機器顯然已經不夠用了。為解決這個落差，研究團隊推出了全新的 VitaBench 2.0 專案官網。這是一個專門用來測試大語言模型 (LLM) 在長期互動中表現的全新評測平台。它把焦點從單純的邏輯推導，轉移到了更像人類行為的個性化與主動發問能力上。為什麼需要全新的測試標準？回顧先前的 VitaBench 1.0 版本，當時的重點完全放在測試 AI 能不能精準調用各種複雜的 API 工具。當時的環境設定相對靜態，解決問題需要的所有條件都會清清楚楚地寫在當前的對話框裡。不過，人類的真實生活軌跡要複雜得多。在 VitaBench 2.0 的設定中，任務被組織成了一條長長的時間線。AI 無法再收到完美的提示詞。相反地，它必須像個真正的秘書一樣，從幾個月甚至幾年的零碎聊天記錄、瀏覽歷史和下單習慣中，自行拼湊出使用者的真實喜好。更具挑戰性的是，這些歷史記錄裡充滿了毫無意義的干擾雜訊。剖析四大核心能力指標要成為一個合格的虛擬管家，模型必須在這項測試中展現出四個層次的高階能力。讓本文來解釋這四個維度具體在考驗什麼。從雜訊中提取偏好使用者幾乎不會每天把「討厭吃香菜」掛在嘴邊。他們可能只是在某次點外賣時備註了一句，或者連續幾次退掉了含有香菜的餐點。AI 必須具備強大的資訊萃取能力，從海量的日常對話與行為紀錄中，精準抓出這些隱含的喜好，同時還要忽略那些只是剛好幫朋友代訂的無關紀錄。靈活應用專屬偏好找出喜好只是一半的工作。當使用者今天說「幫點一份常吃的午餐」時，AI 需要把剛剛提取出來的喜好，無縫對接到真實的點餐工具上，並做出符合常理的專屬決策。跟上偏好的動態更新人類的習慣是會改變的。可能某個使用者以前無辣不歡，最近卻因為腸胃問題開始改吃清淡食物。舊有的測試往往假設偏好是一成不變的，但 2.0 版本加入了時間軸的概念。模型必須隨時捕捉這些變化，動態修正對使用者的認知。死守著過期的舊資料只會導致任務失敗。懂得主動發問與澄清這或許是最難的一關。如果使用者的習慣是「早上喝濃縮咖啡，下午喝低咖啡因」，但他今天只留下一句「幫訂杯咖啡開會用」。此時缺乏了關鍵的時間資訊。一個優秀的助手不應該隨便瞎猜。它必須意識到資訊不足，接著反過來詢問使用者會議的具體時間。這種自發性的澄清行為，正是區分普通機器人與智能管家的關鍵。記憶機制：是助力還是絆腳石？為解決長期互動的遺忘問題，開發者們為 AI 裝上了各種記憶模組。這個測試平台特別引入了可擴展的記憶接口，並詳細比對了兩種主流機制。第一種是基於檢索的 RAG 記憶。可以把它想像成一個巨大的數位檔案櫃，把所有對話切碎並轉換成向量存進去，需要的時候再根據關鍵字找出來。第二種則是智能體記憶 (Agentic Memory)。這要求 AI 自己當圖書管理員，主動決定哪些新資訊值得寫入筆記本，以及哪些過時的舊資訊應該被劃掉。常理來說，有了記憶模組的加持，表現應該會大幅提升。研究數據卻給出了一個令人意外的結論。相比於直接把所有歷史紀錄塞給模型看，一旦依賴上述的記憶機制，多數前沿模型的表現反而會明顯下滑。這代表目前的技術在管理、覆寫和提取長期記憶時，依然非常笨拙。它們很容易存錯重點，甚至在需要的時候想不起關鍵細節。如果想深入研究這些記憶機制的程式碼實現，可以直接前往 VitaBench 2.0 的 GitHub 倉庫探索。頂尖模型面臨的殘酷真相研究團隊徵召了當前市面上最強大的一批語言模型來接受挑戰，包含了最新一代的 GPT-5、Claude 4.5 Sonnet、Claude Opus 4.6、o3、o4-mini，以及 DeepSeek-V4-Pro、DeepSeek-R1 等等。測試結果揭露了幾個非常核心的產業現況。首先，這項任務極度困難。即使在沒有記憶衰退問題的完美環境下，這些頂尖選手的平均得分也只有 0.5 左右。它們或許能寫出完美的貪食蛇程式碼，卻無法穩定地記住旅遊的偏好。

Jun 16, 2026 Read →

告 …

tool

告別主觀盲猜！全面解析 Qwen-Image-Bench 與 AI 圖像裁判 Q-Judger

告別主觀盲猜！AI 生圖品質怎麼評？全面解析 Qwen-Image-Bench 與專屬裁判 Q-Judger 隨著文字生成圖像技術越來越普及，一個不可避免的難題浮出了水面。誰來決定一張 AI 圖片算不算「好」？過去要評斷這些生成的圖片，往往只能憑藉人類的主觀感覺。有人覺得美，有人覺得怪，始終缺乏一個客觀且具體的量化標準。為了解決這個痛點，Qwen 團隊推出了 Qwen-Image-Bench 評測基準，並同步開源於 GitHub，帶來了一位名為 Q-Judger 的專屬 AI 裁判。事情是這樣的，要讓 AI 擁有如同人類專家般的審美與邏輯判斷能力，絕對是一項艱鉅的挑戰。接下來將詳細拆解這套評分系統究竟是如何運作的，以及它為何能為未來的圖像生成領域提供極具價值的參考。究竟什麼是 Q-Judger？來看看它的嚴謹運作原理老實說，讓機器給圖片打分聽起來很簡單，但背後的技術邏輯其實極具挑戰性。Q-Judger 是一個基於 Qwen3.6-27B 巨型參數模型微調而成的視覺語言模型。它並不會憑空給出一個毫無根據的分數。它的運作原理非常直觀。只要使用者輸入「提示詞 (Prompt)」與「生成的圖片」，模型就會立刻啟用思維鏈 (Chain-of-Thought) 模式。這代表著它在給出最終分數之前，會先進行縝密的邏輯推理。你可以把它想像成一位嚴格的美術老師，在打分數前會先在腦海中把各項標準過濾一遍。經過這番推導後，Q-Judger 會輸出一份條理分明的結構化 JSON 評分資料。至於評分的具體標準，它採用了非常清晰的四個等級：0 分代表失敗 (Fail)，1 分代表及格 (Pass)，2 分代表優秀 (Excel)，若是某些不適用的情況則會標記為 N/A。這種設計消除了模糊地帶，讓每一次的評估都有跡可循。評分標準到底有多細緻？五大頂層維度全面解析你知道嗎？一張好的 AI 圖片絕對不只是「好看」而已。Q-Judger 的評分標準涵蓋了五個極為細緻的主要維度，這充分展現了這款裁判模型的專業度。第一關：嚴格把關基礎的「品質 (Quality)」評估一張圖片的第一步，當然是檢視最基本的物理屬性。Q-Judger 會仔細檢查圖片中的物理邏輯是否合理。舉例來說，水往低處流、物體的重力表現是否正確。同時，材質紋理也是一大重點，木頭是否看起來像木頭，金屬有沒有該有的反光。除此之外，模型還會嚴格篩選雜訊干擾、邊緣清晰度以及整體的解析度表現。只要基礎畫質不達標，在這裡就會被直接扣分。第二關：考驗藝術細胞的「美學 (Aesthetics)」跨過了基礎品質的門檻，接下來就是藝術層面的考驗。這部分關注的是構圖的平衡感、色彩的整體和諧度，以及光影所營造出的氛圍。有趣的是，這個維度還包含了「人物解剖的保真度 (Anatomical Portraiture)」。大家都知道 AI 過去經常在畫人類手指或肢體結構時翻車，而這個評分項目就是專門用來抓出這些結構性錯誤的。另外，人物的情感表達與整體的風格控制，也都歸類在這個感性與理性交織的維度中。第三關：檢驗聽話程度的「圖文契合度」就算圖片畫得再美，如果完全沒有照著使用者的要求去畫，那也是白搭。這個維度會嚴格檢查圖片是否精準呈現了提示詞的要求。它會逐一比對物品的數量、顏色、形狀與大小。更令人驚豔的是，它還能辨識複雜的動作互動，包含物體之間的接觸與非接觸動作，甚至是全身動作的呈現。2D 與 3D 的空間佈局、場景是虛擬還是真實世界，全都在它的火眼金睛之下無所遁形。第四關：確保合規的「真實世界還原度 (Real-world Fidelity)」這裡探討的是 AI 模型對現實世界的認知與社會責任。Q-Judger 會嚴格把關圖片中是否存在社會偏見，確保文化公平性與安全合規性。同時，它也會檢視模型對於真實世界知識的掌握程度，比如動物的特徵是否準確、資訊視覺化是否合理，以及是否正確呈現了特定的文化元素。這對於商業應用的圖片生成來說，是不可或缺的防護網。第五關：激發潛能的「創意生成 (Creative Generation)」最後一個維度，專注於檢視模型的進階創作能力。這裡涵蓋了文字渲染 (Text Rendering)，也就是檢查 AI 是否能在圖片中正確拼寫文字、字體排版是否美觀，甚至支援跨語言的生成。此外，它還會評估各種設計應用的潛力，包含平面設計、服裝設計與遊戲美術等。視覺敘事能力也是評估重點，像是電影風格的營造、鏡頭語言的運用、分鏡設計以及漫畫創作等，都在這個充滿想像力的評分範疇內。

May 29, 2026 Read →

AI 模型繪圖能力大對決：9 款頂尖 LLM 的 SVG 生成實測

程式碼與藝術的交匯點

參賽選手介紹：2025 年的頂尖戰力

為什麼 SVG 生成這麼難？

各大陣營的技術角力

MoE 架構的崛起

「思考」能力的引入

閉源與開源的拉鋸

開發者與設計師該如何選擇？

SVG 生成的未來應用場景

常見問題解答 (FAQ)

1. 為什麼 AI 生成的 SVG 有時候會「破圖」或線條亂跑？

2. 這些模型生成的 SVG 可以直接商用嗎？

3. 哪一款模型生成的 SVG 程式碼品質最好？

4. 我該如何優化我的提示詞 (Prompt) 來獲得更好的 SVG？

5. SVG 生成和像 Midjourney 這樣的圖片生成有什麼不同？

videoweaver.app

scribis.app

DMflow.chat

DMflow.chat

videoweaver.app

scribis.app

DMflow.chat

DMflow.chat

Recommended for You

PerceptionBench 揭露 AI 視覺盲點：GPT、Kimi 圖片辨識準確率不到 60%

AI 真的懂你嗎？全面解析 VitaBench 2.0 測試平台與長效記憶盲區

告別主觀盲猜！全面解析 Qwen-Image-Bench 與 AI 圖像裁判 Q-Judger

Leaving Website