llama.cpp 官方 WebUI 终于来了！打造终极本地 AI 聊天体验

告别复杂设置！llama.cpp 正式推出全新官方 WebUI，基于 SvelteKit 打造，功能强大且完全免费。本文将带你快速上手，探索多模态、平行对话、JSON 约束生成等超酷功能，在自己的电脑上享受 100% 隐私的 AI 助理。

如果你是个喜欢在自己电脑上运行大型语言模型（LLM）的玩家，那你对 llama.cpp 这个名字肯定不陌生。它轻巧、高效，几乎可以在任何硬体上运行，是本地 AI 的代名词。但老实说，过去要为它找到一个顺手又强大的图形介面（UI），总得费点功夫。

但现在，这个烦恼可以正式画下句点了。llama.cpp 的核心开发团队推出了全新的官方网页使用者介面（WebUI）！这不仅仅是一个简单的聊天视窗，而是一个企图打造「终极本地 AI 聊天体验」的完整解决方案。

所以，这次的官方 WebUI 有什么特别之处？

你可能会想，市面上不是已经有很多 WebUI 了吗？没错，但官方出品的总是多了那么一点「亲儿子」的优势。这个基于 SvelteKit 技术打造的介面，与 llama-server 后端完美结合，带来了几个令人惊艳的特点：

完全免费且开源： 由社群驱动，你可以完全掌控一切。
极致的效能： 无论你的电脑是高阶显卡还是普通 CPU，它都能提供卓越的表现。
进阶快取技术： 拥有先进的上下文（Context）和前缀（Prefix）快取，回应速度更快。
轻量且高效： 极低的记忆体占用，不会拖垮你的系统。
100% 的隐私： 所有运算都在你的电脑上完成，你的对话资料哪里都不会去。

听起来很棒，对吧？接下来，让我们看看上手有多简单。

三步骤快速上手，立即体验

准备好开始了吗？过程真的非常简单，你不需要是个程式高手也能轻松搞定。

取得 llama.cpp： 首先，你需要取得 llama.cpp 的主程式。你可以透过安装 (Install)、下载 (Download) 或自行编译 (Build) 的方式取得。
启动 llama-server 伺服器： 接着，打开你的终端机（Terminal 或命令提示字元），输入指令来启动后端伺服器。这是一个范例，它会下载并运行一个模型：
```
# 运行一个范例伺服器，使用 gpt-oss-20b 模型
llama-server -hf ggml-org/gpt-oss-20b-GGUF --jinja -c 0 --host 127.0.0.1 --port 8033
```
打开浏览器开始聊天： 伺服器启动后，直接在你的浏览器（Chrome, Edge, Firefox 等）中打开 http://127.0.0.1:8033，你就会看到简洁的聊天介面了！

小提示： 如果你是 Mac 使用者，且不喜欢处理指令，可以试试看 LlamaBarn 这个应用程式，它提供了一个更简单的图形化介面来设定 llama.cpp。

不只是聊天：探索 WebUI 的强大功能

这个 WebUI 可不是只有外表而已，它内建了许多实用又强大的功能，让你的本地 AI 体验提升到一个新的层次。

文件、PDF、图片？通通丢进来！

这可能是最实用的功能之一。你可以直接将多个文字档（.txt）、PDF 档案，甚至是图片拖曳到对话中。

文件处理： 无论是从电脑硬碟还是直接从剪贴簿贴上，它都能将文字内容加入到对话的上下文中。
PDF 处理： 预设情况下，它会将 PDF 的内容转换为纯文字。如果你的 AI 模型支援视觉能力（Vision），你甚至可以设定让它将 PDF 当作图片来处理，直接分析裡面的图表或版面。
图片输入： 对于支援视觉的模型（例如 LLaVA 或 Qwen-VL），你可以上传图片，让 AI 描述图片内容、回答相关问题，甚至可以图文并茂地进行对话。

一心多用？平行对话与分支管理

你有没有过这样的经验：想同时跟 AI 讨论好几个不同的主题？或是想针对 AI 的某个回答，尝试另一种追问方式？

平行对话（Parallel conversations）： 这个 WebUI 允许你同时开启多个独立的聊天视窗，每个对话都有自己的上下文，互不干扰。
对话分支（Conversation branching）： 你可以随时回头编辑自己或 AI 的任何一则讯息，然后从那个时间点「分岔」出一个新的对话走向。这对于比较不同提示（Prompt）的效果，或是修正 AI 的回答方向非常有用。

让 AI 乖乖听话：精准控制与格式化输出

对于进阶使用者和开发者来说，能够精准控制模型的输出格式至关重要。

约束生成（Constrained generation）： 这是个超酷的功能！你可以提供一个自订的 JSON Schema，强制 AI 的回答必须符合你指定的格式。例如，你可以让它从一堆发票图片中，自动抓取「公司名称」、「金额」、「日期」等栏位，并以标准的 JSON 格式输出，大大简化了后续的资料处理工作。
渲染数学公式和程式码： 它能够完美地渲染 LaTeX 数学表达式和程式码区块（HTML/JS），让学术讨论和程式开发变得更加直观。

随时随地带着走：完美的行动装置体验

没错，这个 WebUI 也是行动装置友善的！你可以在手机或平板的浏览器上打开它，介面会自动适应萤幕大小，让你随时随地都能使用自己的本地 AI 助理。

常见问题解答 (FAQ)

在社群的讨论中，大家也提出了一些常见问题，这里一併整理给你。

Q: 如何启用平行对话功能？ A: 在启动 llama-server 时，加入 --parallel N 参数即可，N 是你想要同时处理的对话数量（例如 --parallel 2）。如果是在单一使用者、多对话的情境下，建议再多加一个 --kv-unified 参数，这样可以让所有对话共享 KV 快取，而不是切分它，能更有效地利用上下文空间。

Q: 我不想从 Hugging Face 下载模型，如何载入我自己电脑上的模型档？ A: 非常简单，使用 -m 或 --model 参数，后面接上你本地 GGUF 模型档案的路徑即可。例如： llama-server -m /path/to/your/model.gguf

Q: 如何让 AI 严格按照我指定的 JSON 格式回覆？ A: 这就是前面提到的「约束生成」功能。你可以在 WebUI 的开发者设定中找到「Custom JSON」选项，然后贴上你的 JSON Schema 定义即可。

结语

llama.cpp 的这个全新官方 WebUI，无疑为本地 AI 爱好者们提供了一个功能完整、效能卓越且介面友善的绝佳选择。它不仅让入门变得更加简单，也为进阶使用者提供了丰富的客製化选项。

这一切都要感谢专案的领导开发者 Aleksander Grygier、贡献良多的 ServeurpersoCom，以及提供广泛支援的 Hugging Face 社群。

如果你也对在自己电脑上运行 AI 充满热情，现在就是最好的时机。快去 GitHub 专案页面看看，亲手体验这个强大的新工具吧！

R …

tool

Rasa 2025 全解析：从开源先锋到企业级 AI 平台的 CALM 革命

Rasa 已不再是过去那个单纯的开源框架。随着 CALM 架构与 Flows 的推出，Rasa 迎来了史上最具变革性的转型。本文将深入剖析 Rasa 在 2025 年的核心技术、产品生态，以及这场由大型语言模型（LLM）驱动的革命，如何为企业打造兼具智慧与可靠性的次世代对话式 AI。前言：Rasa 的蜕变，一场精心策划的 AI 革命如果您对 Rasa 的印象还停留在一个功能强大、但需要大量手动标注意图（intent）和编写对话脚本（stories）的开源框架，那么，请准备好刷新您的认知。在 2024 年至 2025 年间，Rasa 经历了一场深刻的蜕变，成功地从一个以开发者为中心的工具，演进为一个全面的企业级对话式 AI 平台。这场革命的核心，是一个名为 CALM（Conversational AI with Language Models）的全新架构。它不仅仅是技术升级，更是一次彻底的思维转变。Rasa 并没有选择成为另一个大型语言模型（LLM）的简单封装，而是深思熟虑地将 LLM 的强大理解能力，与企业级应用所必需的确定性、安全性和可控性完美融合。这篇文章将带您全面了解 2025 年的 Rasa，无论您是资深开发者、技术决策者，还是对话设计师，都能从中掌握 Rasa 的最新动态与未来潜力。一个小厘清：rasa.com vs. rasa.io 在开始之前，必须先澄清一个常见的混淆。本篇文章讨论的是由 Rasa Technologies GmbH 公司开发的对话式 AI 平台，其官方网站为 rasa.com。您可能还会看到一个名为 rasa.io 的网站，那是一个完全无关的 AI 电子邮件行销平台。请务必认明正身，我们接下来所有的内容，都将围绕着 rasa.com 的 Rasa 生态系统展开。典范转移：为什么 CALM 架构会改变一切？要理解 CALM 的重要性，我们得先回顾一下「传统」的 Rasa 开发模式。过去，建构一个 Rasa 机器人，开发者的核心任务是：

Aug 8, 2024 Read →

所以，这次的官方 WebUI 有什么特别之处？

三步骤快速上手，立即体验