标签：本地部署

AI绘画不止WebUI：如何用ComfyUI实现极致控制与高效生成？

ComfyUI 是一款基于节点式工作流（Node-based Workflow）的开源 AI 图像生成工具，专为 Stable Diffusion 等扩散模型设计。ComfyUI 是一款基于 节点式工作流（Node-based Workflow） 的 Stable Diffusion 图形用户界面（GUI），它通过将图像生成流程拆解为可自由连接和配置的模块化节点，为用户提供了前所未有的灵活性、可控性和可复现性。

它允许用户通过拖拽和连接不同的功能模块（节点）来构建可视化的图像生成流程，实现了高度定制化和灵活可控的 AI 创作体验。下面我将从多个角度为你系统介绍 ComfyUI。ComfyUI 的核心在于其模块化和可视化的工作流设计，这与传统的 WebUI（如 AUTOMATIC1111）的表单式操作有根本区别。

🧠 一、核心特点与设计理念

ComfyUI 的核心在于其模块化和可视化的工作流设计：

•高度灵活与可控：用户可以直接调整每个生成步骤的参数，精确控制图像生成的各个环节，甚至构建非常复杂或特殊的工作流。
•强大的扩展性：支持丰富的插件和自定义脚本（如 ControlNet、LoRA、IP-Adapter等），社区不断贡献新节点和功能。
•节点式操作（Node-Based）：所有功能被拆解为独立节点（如加载模型、输入提示词、设置采样器等），用户通过拖拽和连接这些节点来构建完整流程。这种方式让整个生成过程变得透明，易于理解和调试。
•高性能与低显存占用：ComfyUI 进行了多项优化，例如懒加载（Lazy Evaluation），即只有工作流中发生变化的节点才会被重新执行，这大大节省了计算资源和时间。其显存需求通常低于同类工具，使得显存≥8GB的消费级显卡也能获得良好体验。
•强大的扩展性：支持丰富的自定义节点（Custom Nodes）和插件，社区不断贡献新功能（如 ControlNet、IP-Adapter、AnimateDiff等），使其能力边界持续扩展。
•工作流的可复现与共享：任何生成流程都可以保存为 .json文件或直接嵌入输出图片的元数据中。这意味着你可以轻松分享你的完整创作流程，他人导入后可以完全复现你的结果，这对于协作和研究至关重要。
•活跃的开源社区：拥有一个由开发者和爱好者组成的活跃社区，不断推动其发展，分享工作流、教程和资源。

🔄 二、ComfyUI 与 Stable Diffusion WebUI 的对比

了解 ComfyUI 时，常会将其与 AUTOMATIC1111 的 Stable Diffusion WebUI 进行比较：

对比维度	ComfyUI	Stable Diffusion WebUI (AUTOMATIC1111)
界面与交互	节点式流程图，类似编程，学习曲线稍陡峭	传统网页布局，按钮与表单操作，对新手更友好
灵活性与控制力	极高，可自由构建和调整复杂工作流	相对固定，灵活性较低
硬件需求（显存）	相对较低（例如6GB显存可运行基础模型）	相对较高（推荐12GB+显存）
功能扩展	插件生态快速增长	插件生态非常成熟和丰富
适用场景	技术研究、流程自动化、批量生成、追求极致控制	快速创作、单次生成、初学者入门

🛠️ 三、核心概念与工作流原理

要理解 ComfyUI，需要了解其几个核心概念：

•节点（Nodes）：构成工作流的基本单元，每个节点执行特定任务（如 KSampler采样器, CLIPTextEncode文本编码器, VAEDecode解码器等）。
•工作流（Workflow）：由节点通过输入输出接口连接而成的有向无环图（DAG），定义了图像生成的完整管道7。工作流可以保存为 .json文件，方便分享和复用。
•潜空间（Latent Space）：Stable Diffusion 的核心工作原理之一。大部分计算在低维的潜空间中完成，最后由 VAE 解码器转换为像素空间的高清图像。这大大节省了计算资源和内存。

一个典型的文生图（txt2img）工作流逻辑通常从左向右执行：

加载模型-> CLIP文本编码器（处理提示词）-> 生成初始潜在噪声-> 采样器（在潜空间中去噪）-> VAE解码器（潜空间转像素空间）-> 保存图像。

📥 四、安装与入门指南

ComfyUI 的安装方式多样，以下是常见方法：

通过 Git 克隆（推荐）：这种方式便于后续更新。

# 克隆官方仓库
git clone https://github.com/comfyanonymous/ComfyUI.git[4,7](@ref)
cd ComfyUI
# 创建并激活Python虚拟环境（可选但推荐）
# 安装依赖包
pip install -r requirements.txt[4](@ref)

完成后，运行 python main.py启动，默认在浏览器中打开 http://127.0.0.1:81885。
使用秋叶启动器等整合包：针对 Windows 用户，国内开发者秋叶等制作的整合包解压即用，内置了常用插件和依赖，对新手非常友好。请注意从可信来源获取。
桌面应用（Beta）：ComfyUI 团队正在开发一键安装的桌面版程序，旨在进一步降低安装门槛。

安装后，你需要下载模型文件（如 .safetensors格式的 Stable Diffusion 大模型、VAE、LoRA 等），并放置在 ComfyUI 目录下对应的 models子文件夹中（如 checkpoints, loras, vae）。

🚀 五、应用场景

ComfyUI 的灵活性使其适用于多种高级应用场景：

•艺术创作：通过精细控制工作流，生成独特风格的艺术作品。
•概念设计：快速生成和迭代不同风格、主题的图像，辅助创意开发。
•图像超分辨率与修复：构建包含放大和修复节点的流程提升图像质量。
•风格迁移：利用特定节点或模型实现图像风格转换。
•AI研究与实验：其模块化特性非常适合研究人员设计和测试新的生成流程或算法。
•视频生成：通过与 AnimateDiff 等插件结合，可以生成连贯的视频序列。

以下是COMFY官方在GITHUB的部分自述：

特色

节点/图形/流程图界面，无需编写任何代码即可实验和创建复杂的稳定扩散（Stable Diffusion）工作流程。
图像模型
- SD1.x、SD2.x（unCLIP）
- SDXL, SDXL Turbo
- 稳定级联效应
- SD3 和 SD3.5
- Pixart Alpha和Sigma
- AuraFlow
- 浑源帝帝
- 通量；流量；磁通量
- Lumina Image 2.0
- HiDream
- Qwen 图像
图像编辑模型
- Omnigen 2
- Flux Kontext
- HiDream E1.1
- Qwen 图像编辑
视频模特
- 稳定视频扩散
- 糯米团
- LTX-视频
- 欢源视频
- Wan 2.1
- Wan 2.2
音频模型
- 稳定的音频
- ACE步骤
3D模型
- Hunyuan3D 2.0
异步队列系统
许多优化措施：仅重新执行工作流程中在执行过程中发生变化的部分。
智能内存管理：通过智能卸载技术，即使GPU的显存仅达到1GB，也能自动运行大型模型。
即使你没有配备具有 --cpu 功能的 GPU（该功能会导致性能变慢），这种方法仍然有效。
可以加载检查点（ckpts）和安全张量（safetensors）：适用于一体化的检查点模型，或是独立的扩散模型、变分自编码器（VAEs）和CLIP模型。
安全地加载ckpt、pt、pth等文件。
嵌入技术/文本反转方法
洛拉斯（普通形态、洛肯形态和洛哈形态）
超网络
从生成的 PNG、WebP 和 FLAC 文件中加载完整的工作流程（包含种子文件）。
将工作流保存为/加载为 Json 文件。
Nodes接口可用于创建复杂的工作流程，例如用于招聘流程优化的工作流程，甚至是更高级的流程。
区域构成
使用常规模型和修复模型进行图像修复。
ControlNet与T2I适配器
高端模型（ESRGAN、ESRGAN的变体、SwinIR、Swin2SR等）
格利根
模型合并
最小公倍数（LCM）模型与洛拉斯（Loras）
使用TAESD的潜在预览
完全支持离线使用：除非你主动要求，否则核心功能永远不会下载任何内容。
可选的 API 节点，用于通过在线 Comfy API 使用外部提供商提供的付费模型。
配置文件用于设置模型的搜索路径。

工作流程示例可以在示例页面上找到。

发布流程

ComfyUI遵循每周一次的发布周期，通常在周五发布，但由于模型更新或代码库的重大修改，这一时间安排会经常发生变化。该项目有三个相互关联的代码仓库：

ComfyUI Core
- 发布一个新的稳定版本（例如，v0.7.0）
- 这是桌面版本发布的基础。
ComfyUI桌面版
- 使用最新的稳定核心版本构建新的发布版本。
ComfyUI 前端
- 每周的前端更新都会合并到核心代码库中。
- 即将发布的核心版本中，各项功能将保持不变（即不会进行修改或更新）。
- 下一个发布周期的开发工作仍在继续。

快捷方式

按键绑定	解释；说明
`Ctrl` + `Enter`	将当前图表排队以进行生成
`Ctrl` + `Shift` + `Enter`	将当前图表排在生成序列的首位。
`Ctrl` + `Alt` + `Enter`	取消当前一代产品
`Ctrl` + `Z`/`Ctrl` + `Y`	撤销/重做
`Ctrl` + `S`	保存工作流程
`Ctrl` + `O`	加载工作流程
`Ctrl` + `A`	选择所有节点
`Alt` + `C`	折叠/展开选中的节点
`Ctrl` + `M`	静音/取消静音选中的节点
`Ctrl` + `B`	绕过选定的节点（相当于将该节点从图中移除，然后重新连接相关线路）
`Delete`/`Backspace`	删除选中的节点
`Ctrl` + `Backspace`	删除当前图表
`Space`	在手持画布并移动光标时，可以调整画布的位置。
`Ctrl`/`Shift` + `Click`	将已点击的节点添加到选择集中
`Ctrl` + `C`/`Ctrl` + `V`	复制并粘贴选中的节点（但不保留与未选中节点输出的连接）
`Ctrl` + `C`/`Ctrl` + `Shift` + `V`	复制并粘贴选定的节点（同时保持未选定节点的输出与被粘贴节点的输入之间的连接）
`Shift` + `Drag`	同时移动多个选中的节点
`Ctrl` + `D`	加载默认图表
`Alt` + `+`	在画布上放大显示
`Alt` + `-`	在画布上缩小显示范围
`Ctrl` + `Shift` + 左键鼠标 + 向下拖动	画布缩放（放大/缩小）
`P`	固定/取消固定选定的节点
`Ctrl` + `G`	选定的节点组
`Q`	切换队列的可见性
`H`	切换历史记录的显示/隐藏状态
`R`	刷新图表
`F`	显示/隐藏菜单
`.`	将视图调整以适应所选内容（当未选择任何内容时显示整个图表）
双击左鼠标按钮	打开节点快速搜索调色板
`Shift` + 拖动	同时移动多根电线
`Ctrl` + `Alt` + 左键鼠标	将所有电线从所连接的插槽中拔出。

对于 macOS 用户来说，Ctrl 也可以被 Cmd 替代。

安装

Windows Portable

有一个适用于 Windows 的便携式独立版本，可以在发布页面上找到。该版本既可以在 Nvidia 显卡上运行，也可以仅通过 CPU 运行。

直接下载链接

只需下载文件，使用7-Zip解压后运行即可。请确保将您的Stable Diffusion检查点/模型文件（即那些庞大的ckpt/safetensors文件）放入以下路径：ComfyUI\models\checkpoints。

如果你提取文件有困难，可以右键点击该文件 -> 属性 -> 解锁。

我该如何在另一个用户界面（UI）和ComfyUI之间共享模型？

请参阅配置文件，以设置模型的搜索路径。在独立的Windows构建版本中，您可以在ComfyUI目录中找到该文件。将此文件重命名为extra_model_paths.yaml，并使用您喜欢的文本编辑器对其进行编辑。

comfy-cli

你可以使用 comfy-cli 来安装并启动 ComfyUI：

pip install comfy-cli
comfy install

手动安装（Windows、Linux）

Python 3.13得到了很好的支持。如果你在某些自定义节点依赖方面遇到问题，可以尝试使用3.12版本。

使用 Git 克隆这个仓库。

将你的 SD 检查点文件（即那些庞大的 checkpoint/safetensors 文件）放在以下路径：models/checkpoints

将你的变分自编码器（VAE）放入：models/vae

AMD显卡（仅适用于Linux系统）

AMD用户如果还没有安装rocm和pytorch，可以通过pip来安装。以下是安装稳定版本的命令：

pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/rocm6.4

这是用于安装带有 ROCm 6.4 的 nightly 版本的命令，该版本可能具备一些性能提升。

pip install --pre torch torchvision torchaudio --index-url https://download.pytorch.org/whl/nightly/rocm6.4

英特尔显卡（适用于Windows和Linux系统）

（选项1）Intel Arc GPU用户可以使用pip安装支持torch.xpu的原生PyTorch。更多信息请参见此处。

要安装 PyTorch XPU，请使用以下命令：

pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/xpu

这是用于安装 Pytorch xpu nightly 版本的命令，该版本可能具备一些性能提升。

pip install --pre torch torchvision torchaudio --index-url https://download.pytorch.org/whl/nightly/xpu

（选项2）或者，支持 Intel Extension for PyTorch（IPEX）的英特尔 GPU 可以利用 IPEX 来提升性能。

访问安装指南以获取更多信息。

英伟达

Nvidia用户应使用以下命令安装稳定的PyTorch版本：

pip install torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu129

这是用于安装 nightly 版 PyTorch 的命令，该版本可能在性能上有所提升。

pip install --pre torch torchvision torchaudio --index-url https://download.pytorch.org/whl/nightly/cu129

故障排除

如果你遇到“Torch未使用CUDA编译”错误，可以使用以下命令卸载torch：

pip uninstall torch

然后使用上述命令再次安装它。

依赖项

通过在 ComfyUI 文件夹内打开终端并执行以下命令来安装依赖项：

pip install -r requirements.txt

完成这些步骤后，你应该已经安装好了所有所需的内容，接下来就可以运行 ComfyUI 了。

其他：

苹果Mac电脑所使用的硅芯片

你可以在搭载苹果M1或M2芯片的Mac电脑上，使用任何最新版本的macOS来安装ComfyUI。

安装 nightly 版本的 PyTorch。有关说明，请阅读在 Mac 上加速 PyTorch 训练的 Apple 开发者指南（确保安装最新版本的 nightly PyTorch）。
请按照ComfyUI手动安装指南中的说明，在Windows和Linux系统上进行操作。
安装 ComfyUI依赖关系；从属关系如果你有另一个Stable Diffusion用户界面……你或许可以重新使用这些依赖项。.
通过运行 python main.py 来启动 ComfyUI。

注意：请按照ComfyUI 手动安装中的说明，将您的模型、VAE、LoRAs 等文件添加到相应的 Comfy 文件夹中。

DirectML（Windows系统上的AMD显卡）

这种做法的依据非常薄弱，因此不建议使用。目前确实存在一些非官方的 PyTorch ROCm Windows 版本，它们的使用体验要比这种方法好得多。一旦官方的 PyTorch ROCm Windows 版本发布，这份说明文件将会进行更新。pip install torch-directml 然后你可以使用以下命令启动 ComfyUI：python main.py --directml

升级神经处理单元（NPU）

适用于与 PyTorch 的 Ascend Extension（torch_npu）兼容的模型。要开始使用，请确保您的环境满足安装页面中列出的先决条件。以下是根据您的平台和安装方法定制的分步指南：

首先，根据 torch-npu 的安装页面说明，如有必要，安装推荐版本或更新版本的 Linux 内核。
按照适用于您特定平台的说明，继续安装 Ascend Basekit。该软件包包含驱动程序、固件以及 CANN（Controlled Access Network）组件。
接下来，请按照安装页面上针对特定平台的说明来安装torch-npu所需的包。
最后，请按照ComfyUI在Linux系统上的手动安装指南进行操作。所有组件安装完成后，即可按照之前的说明运行ComfyUI。

Cambricon MLU（门阵列单元）

适用于兼容 Cambricon Extension for PyTorch (torch_mlu) 的模型。以下是根据您的平台和安装方法定制的逐步指南：

按照安装中针对相应平台的说明来安装Cambricon CNToolkit。
接下来，按照安装中的说明安装PyTorch（torch_mlu）。
通过运行 python main.py 来启动 ComfyUI。

适用于兼容 PyTorch 的 Iluvatar 扩展的模型。以下是根据您的平台和安装方法定制的逐步指南：

按照安装中针对特定平台的说明来安装Iluvatar Corex工具包。
通过运行 python main.py 来启动 ComfyUI。

💎 六、总结

ComfyUI 以其独特的节点式工作流、极高的灵活性和控制精度，在 Stable Diffusion 生态中占据了重要地位，尤其受到进阶用户和研究者的青睐。虽然学习曲线相对陡峭，但一旦掌握，它所能带来的创作自由度和效率提升是显著的。

无论你是想深入研究 AI 图像生成的奥秘，还是需要精细控制每一个生成环节，ComfyUI 都是一个非常强大且值得尝试的工具。其活跃的社区和丰富的扩展生态也在不断推动其向前发展。

2025 年 9 月 7 日

从噪点到画卷：Stable Diffusion如何重塑AI图像生成

Stable Diffusion 是一款强大且开源的 AI 图像生成模型，它能根据文本描述生成高质量图像，也能进行图像修复、内容扩充等任务。

在人工智能蓬勃发展的今天，我们或许已经习惯了AI带来的种种惊喜，但当你看到一张完全由算法生成、细节丰富、风格多变的图像时，仍不免感到惊叹。这背后离不开一项突破性技术——Stable Diffusion。这项于2022年8月由CompVis、Stability AI和LAION的研究团队共同推出的开源模型，并非简单的工具迭代，而是一次对深度学习生成模型范式的革新。

与此前多数在像素空间直接进行高强度运算的模型不同，Stable Diffusion的核心革命在于将扩散过程移至潜在空间（Latent Space） 进行。这一转变不仅大幅降低了计算需求和硬件门槛，使消费级显卡运行高质量图像生成成为可能，更极大地提升了生成效率与图像质量。其背后的潜在扩散模型（Latent Diffusion Model）架构，源自Runway首席科学家Patrick Esser与慕尼黑大学Robin Rombach的前沿研究，为整个生成过程提供了坚实的理论基石。

技术的生命力在于应用。Stable Diffusion已迅速渗透至多个领域：从为艺术家和设计师提供灵感迸发的视觉创作，到为开发者集成高效的图像生成与编辑功能；从图像超分辨率、修复增强等实用工具，到驱动虚拟现实、游戏产业的内容生产流水线。其开源特性更催生了空前活跃的社区生态，无数开发者与创作者共同推动着模型迭代、插件开发与应用场景拓展。

本篇文章旨在系统解析Stable Diffusion的技术脉络、核心原理与生态现状。无论你是希望深入了解其背后工作机制的技术爱好者，还是寻求在实践中运用此工具的创作者，都能在此找到一份清晰的指引。接下来，我们将共同探索Stable Diffusion如何从一份随机噪声开始，逐步去噪，最终呈现出令人惊艳的视觉画卷，并理解它如何持续推动着AI生成内容的边界。

🔍 一、什么是 Stable Diffusion？

Stable Diffusion 是一种基于深度学习的文本到图像生成模型。它由 Stability AI 公司于 2022 年 8 月正式发布，并迅速成为 AI 绘画领域的代表性工具。其核心是一个名为 潜在扩散模型（Latent Diffusion Model, LDM） 的架构。

与传统的像素级扩散模型不同，Stable Diffusion 在潜在空间（Latent Space） 中进行扩散过程。这大幅降低了计算需求，使得用户甚至可以在消费级显卡上运行它。

核心特点：

•开源免费：代码和模型权重公开，可自由使用、修改和分发。
•功能多样：支持文生图、图生图、图像修复（Inpainting）、图像扩展（Outpainting）等。
•高质量输出：能生成高分辨率、细节丰富且符合文本描述的图像。
•活跃生态：拥有庞大的开源社区，衍生出众多插件、预训练模型和用户界面。

📜 二、发展历程与版本迭代

Stable Diffusion 的诞生和发展是多方协作的结果，其版本迭代迅速。

表：Stable Diffusion 主要版本演进

版本	发布时间	主要特点与意义
SD v1.4	2022.08	首个公开发布的开源版本，奠定了基础。
SD v1.5	2022.10	由 RunwayML 发布，成为最流行、生态最丰富的版本，许多扩展基于此。
SD v2.0/2.1	2022.11/12	由 Stability AI 发布，使用了更新的文本编码器，但社区接受度不如 1.58。
SDXL	2023.06	重大升级，生成图像质量显著提升，分辨率更高，细节更优。支持 LoRA 和 ControlNet。
SDXL Turbo	2023.11	采用潜在一致性模型（LCM），实现极速生成（1-4步），但图像清晰度稍低。
Stable Diffusion 3	2024.02 (预览)	采用了新的扩散变压器架构，在图像质量、多主题提示和文本渲染（拼写能力）上有巨大飞跃。

其发展离不开关键人物和组织的贡献：

•CompVis 研究小组：来自慕尼黑大学，是潜在扩散模型（LDM）论文的作者。
•Stability AI：资助并推动了 Stable Diffusion 的开发、训练和开源发布。
•LAION：提供了开源的超大规模图文数据集 LAION-5B 用于模型训练。
•Runway：合作开发并发布了 SD 1.5 等重要版本。

⚙️ 三、核心原理：潜在扩散模型

Stable Diffusion 的工作流程可以概括为以下几个核心步骤

文本编码（Text Encoder）：用户输入的文本提示（Prompt）首先被 CLIP 文本编码器转换为机器可以理解的语义向量。这相当于为AI创作提供了“指导思想”。
在潜在空间中扩散（Diffusion in Latent Space）：
- •正向过程：一张图像通过 VAE 编码器被压缩到低维的潜在空间，变成潜在表示。然后，噪声被逐步添加到这个潜在表示中，直到它几乎变成纯噪声。
- •反向过程（去噪）：这是生成图像的关键。一个 U-Net 网络接收当前的噪声潜在表示、时间步信息和文本语义向量，并预测出其中的噪声。然后，从当前潜在表示中减去预测的噪声。这个过程重复多次（如20-50步），噪声逐渐被去除，最终得到一个清晰的潜在表示。
图像解码（Image Decoding）：去噪后的潜在表示通过 VAE 解码器转换回像素空间，生成最终的高清图像。

为何要用“潜在空间”？

直接在像素空间（例如512×512的图像有近80万个维度）中进行扩散过程计算量极大。VAE将图像压缩到潜在空间（如64x64x4=16384维），显著降低了计算复杂度和硬件需求，让普通显卡运行SD成为可能

🖥️ 四、丰富的UI与开源生态

Stable Diffusion 的开源特性催生了繁荣的生态系统。

1. 用户界面（UI）

对于普通用户，通过UI界面操作比编写代码更友好。

•Stable Diffusion WebUI (AUTOMATIC1111)：最流行的Web界面，功能极其丰富，插件生态庞大，适合大多数用户。
•ComfyUI：采用节点式工作流的界面，通过连接不同模块实现功能。优点是显存占用低、可定制性极强、易于可视化工作流程，适合高级用户和自动化任务。
•ForgeUI：在 WebUI 基础上进行优化，改善了用户交互体验并降低了显存占用。

2. 模型与插件

开源社区提供了海量的预训练模型和扩展插件。

•模型类型：
- •基础模型（Checkpoint）：完整的生成模型，决定图像的整体风格和质量（如 SD1.5, SDXL）。
- •LoRA：一种轻量化的模型微调技术，文件小，用于定制特定风格、人物或对象，需与基础模型配合使用。
- •ControlNet：革命性的插件，允许用户通过线稿、深度图、姿态图等额外条件精确控制图像的构图、姿态和结构。
•模型下载网站：
- •Civitai：国际上最大的SD模型社区，资源极多。
- •哩布哩布AI / 炼丹阁：优秀的国内模型社区，访问速度快，中文交流方便。

📥 五、下载、安装与入门

1. 主要下载渠道

•官方代码库：在 GitHub 上搜索 CompVis/stable-diffusion或 Stability-AI/stablediffusion可以找到官方源代码和模型。
•集成包：对于新手，推荐使用打包好的整合包，如 Stable Diffusion WebUI 的整合安装包，它通常包含了Python、Git、模型等所有依赖。
•模型网站：从 Civitai、哩布哩布AI 等网站下载你感兴趣的模型，放入 WebUI 的 models/Stable-diffusion文件夹即可使用。

2. 安装与运行

下载：获取 WebUI 整合包（如通过网盘链接）并解压。
安装依赖：首次运行前，通常需要以管理员身份运行依赖安装工具（如 启动运行依赖工具）。
启动：运行启动器（如 A绘世启动器或 webui-user.bat），程序会自动处理并打开浏览器窗口。
下载模型：将下载的模型文件（.ckpt或 .safetensors）放入指定文件夹。
生成图像：在WebUI的文生图页面输入提示词（Prompt），点击生成即可。

3. 硬件需求建议

•显卡（GPU）：是最重要的部件。推荐 NVIDIA 显卡，至少 6GB 显存（如 GTX 1060），8GB 或以上显存（RTX 3060, 4060 或更好）体验更佳。
•内存（RAM）：建议 32GB 或以上。
•存储：至少需要 500GB 以上的硬盘空间来存放模型和工具，最好是使用SSD固态的硬盘，因为加载模型需要从硬盘中调用，固态硬盘的读写速度远超机械。

Stable Diffusion 及其相关生态的开源和下载地址确实不少，我先用一个表格汇总这些关键地址：

资源名称	地址	说明
Stable Diffusion 基础代码库	https://github.com/CompVis/stable-diffusion	Stable Diffusion 的基础版本开源地址，包含相关源代码和文档。
Stability AI (官方)	https://github.com/Stability-AI	Stable Diffusion 官方组织，包含多个项目。
Stable Diffusion WebUI	https://github.com/AUTOMATIC1111/stable-diffusion-webui	最流行的 Web 界面，普通用户常用，包含可视化界面和常用插件，方便操作。
秋叶启动器 (整合包)	通常通过网盘分享（如文末提供的夸克网盘链接或百度网盘链接），请注意识别官方渠道。	适合新手的 Windows 一键安装包，集成了环境、WebUI 和常用插件，解压即用。
SDXL 相关代码	https://github.com/Stability-AI/generative-models	Stable Diffusion XL（SDXL）相关代码仓库。
ControlNet 插件	https://github.com/Mikubill/sd-webui-controlnet	用于控制生成图像结构的重要插件。
中文语言包	https://github.com/VinsonLaro/stable-diffusion-webui-chinese	为 WebUI 添加中文支持。
Hugging Face 模型库	https://huggingface.co/CompVis或 https://huggingface.co/stabilityai	下载官方和社区训练模型的重要平台。也可使用国内镜像 https://hf-mirror.com。
Civitai 模型社区	https://civitai.com/	非常受欢迎的第三方模型社区，有大量用户分享的模型。

💡 安装与使用提示

1.对于初学者：如果你刚开始接触 Stable Diffusion，并且使用的是 Windows 系统，秋叶启动器的整合包可能是最省心的选择。它集成了运行所需的环境、WebUI 和常用插件，解压后按照说明运行即可，能避免很多环境配置的麻烦。
2.对于喜欢折腾和学习的用户：可以尝试从 Stable Diffusion WebUI (AUTOMATIC1111) 的 GitHub 页面克隆或下载源码，然后按照官方文档自行配置 Python、PyTorch 等环境。这能让你更了解其工作原理，但也可能遇到更多需要自己解决的问题。
3.模型下载：许多模型存储在 Hugging Face 或 Civitai 等平台。从 Hugging Face 下载时，可以尝试使用国内镜像 https://hf-mirror.com来提升下载速度。Civitai 上则有大量社区创作的模型。

💎 总结

Stable Diffusion 的成功在于其开源精神和强大的社区力量。它不仅仅是一个技术模型，更是一个创新的平台，降低了AI绘画的门槛，赋予了每个人创作视觉内容的能力。

从最初的学术研究到如今蓬勃发展的开源生态，Stable Diffusion 的经历展现了开源协作的巨大能量。无论你是艺术家、开发者还是普通爱好者，都能在这个生态中找到属于自己的创作方式。

2025 年 9 月 7 日

DeepSeek R1本地化部署+web端访问+个人知识库搭建与使用
DeepSeek R1 的本地化部署结合 Web 端访问和个人知识库搭建，能为你提供一个私有、安全且高效的 AI 助手。下面我将为你梳理一套可行的方案，内容综合了多个来源的信息，并会为你标注来源。

🖥️ 一、DeepSeek R1 本地化部署

本地部署主要有两种主流方式：Ollama（适合快速启动）和 Docker（适合定制化需求）。

1. 通过 Ollama 部署 (最简方式)

Ollama 能简化模型的下载和管理，非常适合个人用户和开发者。
- •安装 Ollama：访问 Ollama 官网，下载并安装对应你操作系统的版本（支持 Windows、macOS、Linux）。
- •拉取并运行 DeepSeek-R1 模型：安装完成后，打开终端（命令提示符），执行以下命令来拉取和运行模型。模型版本可根据你的硬件选择（如 deepseek-r1:8b适用于 8GB 显存）。bash复制ollama run deepseek-r1
- •验证安装：执行后，Ollama 会自动下载模型。完成后，尝试在命令行中输入“你好”，若得到回复则说明本地模型已成功运行。
2. 通过 Docker 部署 (适合熟悉容器的用户)

Docker 部署能提供更好的环境隔离和灵活性，也便于后续集成 Web 界面。
- •安装 Docker：确保你的系统已安装 Docker。对于 Windows 用户，建议启用 WSL2 以获得更好性能。
- •拉取 DeepSeek-R1 镜像并运行容器：docker pull deepseek/deepseek-r1:latest docker run -d --name deepseek-r1 -p 8080:8080 -v ./models:/app/models deepseek/deepseek-r1:latest此命令会启动容器，并将本地的 ./models目录挂载到容器内用于存放模型文件。
- •关键参数优化：
  - •若使用 CPU，添加 --device cpu；若使用 GPU，则需安装 NVIDIA Docker 支持，并改用 --device cuda:0
  - •内存优化：添加 --quant 4bit参数可显著降低内存占用（降低约70%），添加 --mmap参数可启用内存映射减少加载开销。
3. 硬件与配置建议
- •硬件要求：
  - •最低配置：GPU（如 GTX 1080 8GB）、16GB 内存、20GB SSD 存储，可运行 7B 量化版。
  - •推荐配置：GPU（如 RTX 3090/4090 24GB）、32GB 内存、1TB NVMe SSD，可流畅运行 13B+ 模型。
- •系统选择：Linux 系统（如 Ubuntu）通常能比 Windows 获得 10%~15% 的性能提升。
🌐 二、Web 端访问配置

让 DeepSeek R1 通过浏览器访问，能极大提升交互体验。主要有两种方式：

1. 通过 Chatbox AI 连接 Ollama

Chatbox AI 是一款支持多种模型的开源客户端，提供友好的图形界面。
- •下载与设置：访问 Chatbox AI 官网，启动网页版或下载桌面应用
- •配置连接：
  1. 1.在 Chatbox 设置中，将“模型提供方”选为 “Ollama API”。
  2. 2.在“模型”中选择你本地通过 Ollama 运行的 DeepSeek-R1 模型。
- •环境变量配置（关键步骤）：为了让 Ollama 允许外部连接（如 Chatbox），需要在系统环境变量中设置：
  - •OLLAMA_HOST=0.0.0.0
  - •OLLAMA_ORIGINS=*设置完成后，务必重启 Ollama 服务或电脑使变量生效5。
2. 通过 Docker 部署 Open WebUI

Open WebUI 是一个功能丰富的开源 Web 界面，支持通过 Docker 直接部署。
- •部署命令：docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main
- •访问与使用：部署完成后，在浏览器中访问 http://localhost:3000，首次进入需设置管理员账户，之后即可通过网页与你的 DeepSeek-R1 交互。
📚 三、个人知识库搭建与使用

本地部署的 DeepSeek R1 结合知识库，可以成为你的私人知识管家。

1. 搭建方法
- •使用 AnythingLLM（适合新手）：AnythingLLM 是一款开源知识库前端工具，对用户友好。
  1. 1.从 AnythingLLM 官网下载并安装。
  2. 2.在设置中配置模型，选择“Ollama”并提供你的 DeepSeek-R1 模型名称（如 deepseek-r1:8b）。
  3. 3.在知识库管理中，直接上传你的文档（支持 PDF, Word, TXT 等格式）。
- •使用 DeepSeek R1 的本地 API 集成：如果你偏好编程方式，可以在应用中使用 DeepSeek R1 本地部署后提供的 API 端点（通常是 http://localhost:8080/v1/completions），结合 LangChain 等框架构建 RAG（检索增强生成）应用1，来处理你的私人文档。
2. 数据导入与优化
- •文档准备：将知识文档整理为 TXT、PDF、Word 或 MD 格式。单文件建议小于 50MB 以确保处理效率。
- •处理与索引：上传后，系统（如 AnythingLLM）会自动进行解析、分块和向量化索引。
- •优化检索：知识库工具通常允许调整块大小（Chunk Size）和重叠区间（Overlap）等参数，以优化检索效果。例如，可设置 chunk_size: 1000和 overlap: 200。
3. 使用与查询

在 Web 界面中，你可以直接向知识库提问。模型会优先从你上传的文档中检索相关信息来生成答案

11。你可以询问诸如“请总结我上传的《用户体验要素》这本书的核心观点”之类的问题。

💡 四、注意事项与优化建议
1. 1.隐私与安全：本地部署的最大优势是数据完全私有，无需担心隐私泄露1。若需远程访问（如从外部网络连接家里的部署），务必使用内网穿透工具（如贝锐花生壳）并设置强密码或API密钥认证，以防未授权访问。
2. 2.性能瓶颈：
  - •显存不足：是常见问题。尝试使用更低参数的模型（如 7B 替代 14B），或开启 4-bit 量化（--quant 4bit）。
  - •生成速度慢：确保模型尽可能运行在 GPU 而非 CPU 上。Linux 系统通常性能更优。
3. 3.知识库维护：定期更新知识库内容，并保留历史版本。使用 Markdown 格式整理资料有助于提升文本识别和处理的准确率。
4. 4.模型选择：DeepSeek-R1 提供从 1.5B 到 671B 的多种版本。对大多数个人用户，7B或8B的量化版本在效果和资源消耗间取得了较好平衡。企业级应用可考虑更大参数模型。
Ollama PC本地化部署

1.1 下载Ollama
```
https://ollama.com
```
目前Ollama支持macOS、Linux、Windows，选择相应的系统，macOS和Windows直接下载，Linux系统需要执行下面命令：
```
curl -fsSL https://ollama.com/install.sh | sh
```
选择Windows本地下载，直接安装即可。

1.2 选择模型

点击Models，第一条就是deepseek-r1模型。或者搜索框输入模型名称进行搜索。

点击进去后，查看各个模型，不同模型执行的命令不同，最后部分看你选择的参数模型。

7b命令：ollama run deepseek-r1:7b

1.5b命令：ollama run deepseek-r1:1.5b

DeepSeek R1提供多个版本，参数量越大，模型通常越强大，但也需要更多的计算资源。

比如1.5B代表有15亿个参数。

具体选择哪一个看你硬件设备了。

1.3 运行命令

荣姐用的电脑配置不高，选了1.5b。如果你配置高，可以选择更大的，毕竟越大效果越好。

1.4 效果测试

当界面出现success显示安装成功。

输入你是谁，看到deepseek的回答。

2 DeepSeek+Chatbox网页端

本地命令行使用还是不太直观，可以选择Chatbox进行网页端访问，提高可交互性。

Chatbox AI 是一款 AI 客户端应用和智能助手，支持众多先进的 AI 模型和 API，可在 Windows、MacOS、Android、iOS、Linux 和网页版上使用。

本地使用Ollama部署完成后，可以使用Chatbox进行调用。

根据官方文档给出的步骤进行配置
```
https://chatboxai.app/zh/help-center/connect-chatbox-remote-ollama-service-guide
```
2.1 环境变量配置

默认情况下，Ollama 服务仅在本地运行，不对外提供服务。

要使 Ollama 服务能够对外提供服务，你需要设置以下两个环境变量：

OLLAMA_HOST：0.0.0.0

OLLAMA_ORIGINS：*

在 Windows 上，Ollama 会继承你的用户和系统环境变量。

1、通过任务栏退出 Ollama。

2、打开设置（Windows 11）或控制面板（Windows 10），并搜索“环境变量”。

3、点击编辑你账户的环境变量。

4、为你的用户账户编辑或创建新的变量 OLLAMA_HOST，值为 0.0.0.0；为你的用户账户编辑或创建新的变量 OLLAMA_ORIGINS，值为 *。

5、点击确定/应用以保存设置。

6、从 Windows 开始菜单启动 Ollama 应用程序。

2.2 chatbox设置

1、打开官网：https://chatboxai.app/zh，选择启动网页版。

2、选择本地模型，如果找不到，点击左侧的设置按钮。

3、选择Ollama API。

4、选择模型，本地运行Ollama后会自动出现模型的选项，直接选择即可。

5、点击DISPLAY，选择简体中文，点击保存按钮。

6、在聊天窗口输入问题进行测试。

2.3 搭配GPTs使用

1、点击左侧我的搭档

2、选择一个你喜欢的应用，本示例选择夸夸机2.0

3、随便输入一个场景，看看大模型的回答。比如自嘲、尴尬、夸张的场景，看看他怎么花样夸你。

3 DeepSeek知识库搭建

我们还可以通过浏览器插件来访问本地部署的大模型，这个插件还支持本地知识库搭建。

1、安装插件Page Assist，搜索插件后添加至Chrome

2、选择本地搭建的模型，点击配置按钮，设置中文

3、RAG设置，模型选择本地搭建的。

4、点击左侧管理知识，可以添加本地知识库。

填写知识标题及上传文件，点击提交按钮。

状态为已完成就可以使用了。

新建聊天进行测试，在聊天窗口要记得点击右下角知识，选择刚才搭建的知识库名称，然后在上方看到就可以了。

对模型进行测试，看看是否可以根据知识库进行回答。
2025 年 9 月 6 日