tool

llama.cpp 官方 WebUI 終於來了!打造終極本地 AI 聊天體驗

November 5, 2025
Updated Nov 5
2 min read

告別複雜設定!llama.cpp 正式推出全新官方 WebUI,基於 SvelteKit 打造,功能強大且完全免費。本文將帶你快速上手,探索多模態、平行對話、JSON 約束生成等超酷功能,在自己的電腦上享受 100% 隱私的 AI 助理。


如果你是個喜歡在自己電腦上運行大型語言模型(LLM)的玩家,那你對 llama.cpp 這個名字肯定不陌生。它輕巧、高效,幾乎可以在任何硬體上運行,是本地 AI 的代名詞。但老實說,過去要為它找到一個順手又強大的圖形介面(UI),總得費點功夫。

但現在,這個煩惱可以正式畫下句點了。llama.cpp 的核心開發團隊推出了全新的官方網頁使用者介面(WebUI)!這不僅僅是一個簡單的聊天視窗,而是一個企圖打造「終極本地 AI 聊天體驗」的完整解決方案。

所以,這次的官方 WebUI 有什麼特別之處?

你可能會想,市面上不是已經有很多 WebUI 了嗎?沒錯,但官方出品的總是多了那麼一點「親兒子」的優勢。這個基於 SvelteKit 技術打造的介面,與 llama-server 後端完美結合,帶來了幾個令人驚豔的特點:

  • 完全免費且開源: 由社群驅動,你可以完全掌控一切。
  • 極致的效能: 無論你的電腦是高階顯卡還是普通 CPU,它都能提供卓越的表現。
  • 進階快取技術: 擁有先進的上下文(Context)和前綴(Prefix)快取,回應速度更快。
  • 輕量且高效: 極低的記憶體佔用,不會拖垮你的系統。
  • 100% 的隱私: 所有運算都在你的電腦上完成,你的對話資料哪裡都不會去。

聽起來很棒,對吧?接下來,讓我們看看上手有多簡單。

三步驟快速上手,立即體驗

準備好開始了嗎?過程真的非常簡單,你不需要是個程式高手也能輕鬆搞定。

  1. 取得 llama.cpp: 首先,你需要取得 llama.cpp 的主程式。你可以透過 安裝 (Install)下載 (Download)自行編譯 (Build) 的方式取得。

  2. 啟動 llama-server 伺服器: 接著,打開你的終端機(Terminal 或命令提示字元),輸入指令來啟動後端伺服器。這是一個範例,它會下載並運行一個模型:

    # 運行一個範例伺服器,使用 gpt-oss-20b 模型
    llama-server -hf ggml-org/gpt-oss-20b-GGUF --jinja -c 0 --host 127.0.0.1 --port 8033
    
  3. 打開瀏覽器開始聊天: 伺服器啟動後,直接在你的瀏覽器(Chrome, Edge, Firefox 等)中打開 http://127.0.0.1:8033,你就會看到簡潔的聊天介面了!

小提示: 如果你是 Mac 使用者,且不喜歡處理指令,可以試試看 LlamaBarn 這個應用程式,它提供了一個更簡單的圖形化介面來設定 llama.cpp

不只是聊天:探索 WebUI 的強大功能

這個 WebUI 可不是只有外表而已,它內建了許多實用又強大的功能,讓你的本地 AI 體驗提升到一個新的層次。

文件、PDF、圖片?通通丟進來!

這可能是最實用的功能之一。你可以直接將多個文字檔(.txt)、PDF 檔案,甚至是圖片拖曳到對話中。

  • 文件處理: 無論是從電腦硬碟還是直接從剪貼簿貼上,它都能將文字內容加入到對話的上下文中。
  • PDF 處理: 預設情況下,它會將 PDF 的內容轉換為純文字。如果你的 AI 模型支援視覺能力(Vision),你甚至可以設定讓它將 PDF 當作圖片來處理,直接分析裡面的圖表或版面。
  • 圖片輸入: 對於支援視覺的模型(例如 LLaVA 或 Qwen-VL),你可以上傳圖片,讓 AI 描述圖片內容、回答相關問題,甚至可以圖文並茂地進行對話。

一心多用?平行對話與分支管理

你有沒有過這樣的經驗:想同時跟 AI 討論好幾個不同的主題?或是想針對 AI 的某個回答,嘗試另一種追問方式?

  • 平行對話(Parallel conversations): 這個 WebUI 允許你同時開啟多個獨立的聊天視窗,每個對話都有自己的上下文,互不干擾。
  • 對話分支(Conversation branching): 你可以隨時回頭編輯自己或 AI 的任何一則訊息,然後從那個時間點「分岔」出一個新的對話走向。這對於比較不同提示(Prompt)的效果,或是修正 AI 的回答方向非常有用。

讓 AI 乖乖聽話:精準控制與格式化輸出

對於進階使用者和開發者來說,能夠精準控制模型的輸出格式至關重要。

  • 約束生成(Constrained generation): 這是個超酷的功能!你可以提供一個自訂的 JSON Schema,強制 AI 的回答必須符合你指定的格式。例如,你可以讓它從一堆發票圖片中,自動抓取「公司名稱」、「金額」、「日期」等欄位,並以標準的 JSON 格式輸出,大大簡化了後續的資料處理工作。
  • 渲染數學公式和程式碼: 它能夠完美地渲染 LaTeX 數學表達式和程式碼區塊(HTML/JS),讓學術討論和程式開發變得更加直觀。

隨時隨地帶著走:完美的行動裝置體驗

沒錯,這個 WebUI 也是行動裝置友善的!你可以在手機或平板的瀏覽器上打開它,介面會自動適應螢幕大小,讓你隨時隨地都能使用自己的本地 AI 助理。

常見問題解答 (FAQ)

在社群的討論中,大家也提出了一些常見問題,這裡一併整理給你。

Q: 如何啟用平行對話功能? A: 在啟動 llama-server 時,加入 --parallel N 參數即可,N 是你想要同時處理的對話數量(例如 --parallel 2)。如果是在單一使用者、多對話的情境下,建議再多加一個 --kv-unified 參數,這樣可以讓所有對話共享 KV 快取,而不是切分它,能更有效地利用上下文空間。

Q: 我不想從 Hugging Face 下載模型,如何載入我自己電腦上的模型檔? A: 非常簡單,使用 -m--model 參數,後面接上你本地 GGUF 模型檔案的路徑即可。例如: llama-server -m /path/to/your/model.gguf

Q: 如何讓 AI 嚴格按照我指定的 JSON 格式回覆? A: 這就是前面提到的「約束生成」功能。你可以在 WebUI 的開發者設定中找到「Custom JSON」選項,然後貼上你的 JSON Schema 定義即可。

結語

llama.cpp 的這個全新官方 WebUI,無疑為本地 AI 愛好者們提供了一個功能完整、效能卓越且介面友善的絕佳選擇。它不僅讓入門變得更加簡單,也為進階使用者提供了豐富的客製化選項。

這一切都要感謝專案的領導開發者 Aleksander Grygier、貢獻良多的 ServeurpersoCom,以及提供廣泛支援的 Hugging Face 社群。

如果你也對在自己電腦上運行 AI 充滿熱情,現在就是最好的時機。快去 GitHub 專案頁面 看看,親手體驗這個強大的新工具吧!

分享至:
Featured Partners

© 2026 Communeify. All rights reserved.