标签： AI生图

ComfyUI-HYPIR节点：LeePoet力推基于SD2.1图像超清修复放大
我是LeePoet。今天给大家推荐一款我最近深度体验的ComfyUI节点——ComfyUI-HYPIR，这是一个基于HYPIR项目开发的图像修复工具，专门针对SD2.1模型进行了优化，能够实现高质量的图像修复和超分辨率放大。该技术基于扩散模型生成的分数先验进行图像修复与放大，具有高质量、清晰、锐利的效果。

💡 为什么选择HYPIR？

HYPIR（Harnessing Diffusion-Yielded Score Priors for Image Restoration）是一个利用扩散模型得分先验进行图像修复的先进技术。相比传统的ESRGAN放大方式，HYPIR在细节保留和伪影控制方面表现更出色，特别适合处理模糊、噪点严重的图像。

🎯 适用场景

ComfyUI-HYPIR几乎覆盖了所有图像修复需求：
- 老照片修复：将模糊的老照片恢复到高清状态
- 商品图优化：电商产品图放大后依然保持清晰细节
- 动漫/游戏素材：二次元图片放大后线条清晰，色彩饱满
- 人像写真：针对人像照片进行专项优化，面部细节更自然
- 风景照片：自然风光放大后远景细节依然丰富
HYPIR可在GitHub上找到，推荐使用其ComfyUI插件实现，模型需下载并放置于ComfyUI的models文件夹中。操作流程包括单张图片上传、设置放大倍数（支持1-8倍，推荐2-4倍），并通过HYPIR Advanced节点进行处理。放大前后对比，HYPIR在不改变原图结构的前提下显著提升清晰度。此外，支持批量处理，通过设置路径和数量实现多图自动放大。参数方面，coeff值（默认100，可调至500）影响修复强度，数值越高重绘幅度越大，适用于AI生成图像的增强处理。整体流程稳定、操作简便，建议替代旧有放大方法。

开源地址：https://github.com/11dogzi/Comfyui-HYPIR

这是一个用于 HYPIR（利用扩散得分先验进行图像修复）的 ComfyUI 插件，HYPIR 是基于 Stable Diffusion 2.1 的先进图像修复模型。

功能特性
- 图像修复：利用扩散先验修复和增强低质量图像
- 批量处理：一次处理多张图片
- 高级控制：可微调模型参数以获得最佳效果
- 模型管理：高效加载和复用 HYPIR 模型
- 放大功能：内置放大功能（1x 到 8x）
安装方法

1. 安装插件

将本文件夹放入 ComfyUI 的 custom_nodes 目录下：ComfyUI/custom_nodes/Comfyui-HYPIR/

2. 安装 HYPIR 依赖

进入 HYPIR 文件夹并安装所需依赖：
```
cd ComfyUI/custom_nodes/Comfyui-HYPIR/HYPIR
pip install -r requirements.txt
```
3. 模型下载（自动）

插件首次使用时会自动下载所需模型：

HYPIR 模型

修复模型将下载到：ComfyUI/models/HYPIR/HYPIR_sd2.pth

基础模型（Stable Diffusion 2.1）

基础 Stable Diffusion 2.1 模型将在需要时自动下载到：ComfyUI/models/HYPIR/stable-diffusion-2-1-base/

手动下载（可选）：

HYPIR 模型：如果你希望手动下载，可以从以下地址获取 HYPIR 模型：
- HuggingFace: HYPIR_sd2.pth
- OpenXLab: HYPIR_sd2.pth
请将 HYPIR_sd2.pth 文件放在以下任一位置：
- 插件目录：ComfyUI/custom_nodes/Comfyui-HYPIR/
- ComfyUI 模型目录：ComfyUI/models/checkpoints/
- 或让插件自动管理，放在 ComfyUI/models/HYPIR/
基础模型： 基础 Stable Diffusion 2.1 模型可从以下地址手动下载：
- HuggingFace：stable-diffusion-2-1-base
请将基础模型放在：ComfyUI/models/HYPIR/stable-diffusion-2-1-base/

注意： 插件会优先在 HYPIR 目录下查找基础模型，如未找到会自动从 HuggingFace 下载。

使用方法

高级图像修复
1. 添加 HYPIR Advanced Restoration 节点
2. 此节点提供更多参数控制：
  - model_t：模型步数（默认200）
  - coeff_t：系数步数（默认200）
  - lora_rank：LoRA 阶数（默认256）
  - patch_size：处理块大小（默认512）
配置

你可以在 hypir_config.py 中修改默认设置：
```
HYPIR_CONFIG = {
    "default_weight_path": "HYPIR_sd2.pth",
    "default_base_model_path": "stable-diffusion-2-1-base",
    "available_base_models": ["stable-diffusion-2-1-base"],
    "model_t": 200,
    "coeff_t": 200,
    "lora_rank": 256,
    # ... more settings
}
```
模型路径管理

插件包含智能模型路径管理：
- HYPIR 模型：自动下载到 ComfyUI/models/HYPIR/HYPIR_sd2.pth
- 基础模型：需要时自动下载到 ComfyUI/models/HYPIR/stable-diffusion-2-1-base/
- 本地优先：插件会优先查找本地模型
- 自动下载：仅在本地未找到模型时才下载
最佳效果小贴士
1. 提示词：使用与图片内容相符的描述性提示词
  - 人像：”high quality portrait, detailed face, sharp features”
  - 风景：”high quality landscape, detailed scenery, sharp focus”
  - 通用：”high quality, detailed, sharp, clear”
2. 放大：
  - 1x 表示仅修复不放大
  - 2x-4x 适合中等放大
  - 8x 为最大放大（速度较慢）
3. 参数：
  - model_t 越高（200-500）修复越强
  - coeff_t 越高（200-500）增强越明显
  - lora_rank 越高（256-512）质量越好（占用更多内存）
4. 内存管理：
  - 如遇内存不足可用较小的 patch_size（256-512）
  - 分批处理图片
  - 使用模型加载器节点避免重复加载模型
配置

你可以在 hypir_config.py 中修改默认设置：
```
HYPIR_CONFIG = {
    "default_weight_path": "HYPIR_sd2.pth",
    "default_base_model_path": "stable-diffusion-2-1-base",
    "available_base_models": ["stable-diffusion-2-1-base"],
    "model_t": 200,
    "coeff_t": 200,
    "lora_rank": 256,
    # ... more settings
}
```
模型路径管理

The plugin includes intelligent model path management: 插件包含智能模型路径管理：
- HYPIR Model: Automatically downloaded to ComfyUI/models/HYPIR/HYPIR_sd2.pth
- HYPIR 模型：自动下载到 ComfyUI/models/HYPIR/HYPIR_sd2.pth
- Base Model: Automatically downloaded to ComfyUI/models/HYPIR/stable-diffusion-2-1-base/ when needed
- 基础模型：需要时自动下载到 ComfyUI/models/HYPIR/stable-diffusion-2-1-base/
- Local Priority: The plugin checks for local models first before downloading
- 本地优先：插件会优先查找本地模型
- Automatic Download: Only downloads when models are not found locally
- 自动下载：仅在本地未找到模型时才下载
最佳效果小贴士

使用模型加载器节点避免重复加载模型

提示词：使用与图片内容相符的描述性提示词

人像：”high quality portrait, detailed face, sharp features”

风景：”high quality landscape, detailed scenery, sharp focus”

通用：”high quality, detailed, sharp, clear”

放大：

1x 表示仅修复不放大

2x-4x 适合中等放大

8x 为最大放大（速度较慢）

参数：

model_t 越高（200-500）修复越强

coeff_t 越高（200-500）增强越明显

lora_rank 越高（256-512）质量越好（占用更多内存）

内存管理：

如遇内存不足可用较小的 patch_size（256-512）

分批处理图片

常见问题
1. 导入错误：请确保已安装 HYPIR 依赖cd HYPIR pip install -r requirements.txt
2. 模型未找到：插件会自动下载缺失的模型
  - 检查网络连接以便自动下载
  - HYPIR 模型：将 HYPIR_sd2.pth 放在插件目录或 ComfyUI 模型目录
  - 基础模型：将 stable-diffusion-2-1-base 文件夹放在 ComfyUI/models/HYPIR/
  - 插件会自动检查并下载缺失模型
实操：

1.先到https://github.com/11dogzi/Comfyui-HYPIR的仓库直接复制插件仓库地址

2.进入本地的.\ComfyUI\custom_nodes目录，右链git bash拉取仓库

3.启动COMFYUI，通过启动器先拉取HYPIR所需要的库并启动到UI

4.打开huggingface.co,直接使用国内镜像源：https://huggingface.1319lm.top/lxq007/HYPIR/tree/main，复制HYPIR的GIT仓库

5.下载HYPIR修复模型，进入.\ComfyUI\models，右键打开git bash，魔法就使用国内镜像源GIT

6.下载stable-diffusion-2-1-base模型，先进入https://huggingface.1319lm.top/Manojb/stable-diffusion-2-1-base/tree/main，把以下红框框住的都手动下载，因为很多都是重复的一样的模型，只是后缀不一样。我们只需要下一个就行。所以这里不能直接GIT整个仓库。

额外说明：text_encoder、unet、vae都只需要下一个模型即可，如果是FP16的，下载到本地后记得把FP16的字去掉，这样才会被节点识别。

7.下载完所有模型后，重新启动COMFYUI

当然，SD放大的模型与技术有很多，可以说都各有千秋，非要说哪几个最好用，只有等LEEPOET闲来有空再给大家介绍，总而言之ComfyUI-HYPIR是一款功能强大、操作简单的图像修复工具，特别适合需要高质量图像放大的用户。无论是老照片修复、商品图优化还是人像写真处理，都能获得令人满意的效果。如果你正在寻找一款稳定、高效的图像超清修复工具，ComfyUI-HYPIR绝对值得一试。我已经将它作为我的主力图像修复工具，强烈推荐给大家！

相关文章：

ComfyUI-GGUF-VLM 结合 llama.cpp GPU 加速：实现图像反推秒级效率

Custom_Nodes篇:ComfyUI-QwenVL反推节点

Custom_Nodes篇:ComfyUI-QwenVL3-image反推节点

Stablediffusion的放大算法解析：图片高清修复放大相关说明

环境篇：加载ComfyUI出现WARNING: Failed to find MSVC解决方案
2025 年 12 月 18 日

AI绘画不止WebUI：如何用ComfyUI实现极致控制与高效生成？

ComfyUI 是一款基于节点式工作流（Node-based Workflow）的开源 AI 图像生成工具，专为 Stable Diffusion 等扩散模型设计。ComfyUI 是一款基于 节点式工作流（Node-based Workflow） 的 Stable Diffusion 图形用户界面（GUI），它通过将图像生成流程拆解为可自由连接和配置的模块化节点，为用户提供了前所未有的灵活性、可控性和可复现性。

它允许用户通过拖拽和连接不同的功能模块（节点）来构建可视化的图像生成流程，实现了高度定制化和灵活可控的 AI 创作体验。下面我将从多个角度为你系统介绍 ComfyUI。ComfyUI 的核心在于其模块化和可视化的工作流设计，这与传统的 WebUI（如 AUTOMATIC1111）的表单式操作有根本区别。

🧠 一、核心特点与设计理念

ComfyUI 的核心在于其模块化和可视化的工作流设计：

•高度灵活与可控：用户可以直接调整每个生成步骤的参数，精确控制图像生成的各个环节，甚至构建非常复杂或特殊的工作流。
•强大的扩展性：支持丰富的插件和自定义脚本（如 ControlNet、LoRA、IP-Adapter等），社区不断贡献新节点和功能。
•节点式操作（Node-Based）：所有功能被拆解为独立节点（如加载模型、输入提示词、设置采样器等），用户通过拖拽和连接这些节点来构建完整流程。这种方式让整个生成过程变得透明，易于理解和调试。
•高性能与低显存占用：ComfyUI 进行了多项优化，例如懒加载（Lazy Evaluation），即只有工作流中发生变化的节点才会被重新执行，这大大节省了计算资源和时间。其显存需求通常低于同类工具，使得显存≥8GB的消费级显卡也能获得良好体验。
•强大的扩展性：支持丰富的自定义节点（Custom Nodes）和插件，社区不断贡献新功能（如 ControlNet、IP-Adapter、AnimateDiff等），使其能力边界持续扩展。
•工作流的可复现与共享：任何生成流程都可以保存为 .json文件或直接嵌入输出图片的元数据中。这意味着你可以轻松分享你的完整创作流程，他人导入后可以完全复现你的结果，这对于协作和研究至关重要。
•活跃的开源社区：拥有一个由开发者和爱好者组成的活跃社区，不断推动其发展，分享工作流、教程和资源。

🔄 二、ComfyUI 与 Stable Diffusion WebUI 的对比

了解 ComfyUI 时，常会将其与 AUTOMATIC1111 的 Stable Diffusion WebUI 进行比较：

对比维度	ComfyUI	Stable Diffusion WebUI (AUTOMATIC1111)
界面与交互	节点式流程图，类似编程，学习曲线稍陡峭	传统网页布局，按钮与表单操作，对新手更友好
灵活性与控制力	极高，可自由构建和调整复杂工作流	相对固定，灵活性较低
硬件需求（显存）	相对较低（例如6GB显存可运行基础模型）	相对较高（推荐12GB+显存）
功能扩展	插件生态快速增长	插件生态非常成熟和丰富
适用场景	技术研究、流程自动化、批量生成、追求极致控制	快速创作、单次生成、初学者入门

🛠️ 三、核心概念与工作流原理

要理解 ComfyUI，需要了解其几个核心概念：

•节点（Nodes）：构成工作流的基本单元，每个节点执行特定任务（如 KSampler采样器, CLIPTextEncode文本编码器, VAEDecode解码器等）。
•工作流（Workflow）：由节点通过输入输出接口连接而成的有向无环图（DAG），定义了图像生成的完整管道7。工作流可以保存为 .json文件，方便分享和复用。
•潜空间（Latent Space）：Stable Diffusion 的核心工作原理之一。大部分计算在低维的潜空间中完成，最后由 VAE 解码器转换为像素空间的高清图像。这大大节省了计算资源和内存。

一个典型的文生图（txt2img）工作流逻辑通常从左向右执行：

加载模型-> CLIP文本编码器（处理提示词）-> 生成初始潜在噪声-> 采样器（在潜空间中去噪）-> VAE解码器（潜空间转像素空间）-> 保存图像。

📥 四、安装与入门指南

ComfyUI 的安装方式多样，以下是常见方法：

通过 Git 克隆（推荐）：这种方式便于后续更新。

# 克隆官方仓库
git clone https://github.com/comfyanonymous/ComfyUI.git[4,7](@ref)
cd ComfyUI
# 创建并激活Python虚拟环境（可选但推荐）
# 安装依赖包
pip install -r requirements.txt[4](@ref)

完成后，运行 python main.py启动，默认在浏览器中打开 http://127.0.0.1:81885。
使用秋叶启动器等整合包：针对 Windows 用户，国内开发者秋叶等制作的整合包解压即用，内置了常用插件和依赖，对新手非常友好。请注意从可信来源获取。
桌面应用（Beta）：ComfyUI 团队正在开发一键安装的桌面版程序，旨在进一步降低安装门槛。

安装后，你需要下载模型文件（如 .safetensors格式的 Stable Diffusion 大模型、VAE、LoRA 等），并放置在 ComfyUI 目录下对应的 models子文件夹中（如 checkpoints, loras, vae）。

🚀 五、应用场景

ComfyUI 的灵活性使其适用于多种高级应用场景：

•艺术创作：通过精细控制工作流，生成独特风格的艺术作品。
•概念设计：快速生成和迭代不同风格、主题的图像，辅助创意开发。
•图像超分辨率与修复：构建包含放大和修复节点的流程提升图像质量。
•风格迁移：利用特定节点或模型实现图像风格转换。
•AI研究与实验：其模块化特性非常适合研究人员设计和测试新的生成流程或算法。
•视频生成：通过与 AnimateDiff 等插件结合，可以生成连贯的视频序列。

以下是COMFY官方在GITHUB的部分自述：

特色

节点/图形/流程图界面，无需编写任何代码即可实验和创建复杂的稳定扩散（Stable Diffusion）工作流程。
图像模型
- SD1.x、SD2.x（unCLIP）
- SDXL, SDXL Turbo
- 稳定级联效应
- SD3 和 SD3.5
- Pixart Alpha和Sigma
- AuraFlow
- 浑源帝帝
- 通量；流量；磁通量
- Lumina Image 2.0
- HiDream
- Qwen 图像
图像编辑模型
- Omnigen 2
- Flux Kontext
- HiDream E1.1
- Qwen 图像编辑
视频模特
- 稳定视频扩散
- 糯米团
- LTX-视频
- 欢源视频
- Wan 2.1
- Wan 2.2
音频模型
- 稳定的音频
- ACE步骤
3D模型
- Hunyuan3D 2.0
异步队列系统
许多优化措施：仅重新执行工作流程中在执行过程中发生变化的部分。
智能内存管理：通过智能卸载技术，即使GPU的显存仅达到1GB，也能自动运行大型模型。
即使你没有配备具有 --cpu 功能的 GPU（该功能会导致性能变慢），这种方法仍然有效。
可以加载检查点（ckpts）和安全张量（safetensors）：适用于一体化的检查点模型，或是独立的扩散模型、变分自编码器（VAEs）和CLIP模型。
安全地加载ckpt、pt、pth等文件。
嵌入技术/文本反转方法
洛拉斯（普通形态、洛肯形态和洛哈形态）
超网络
从生成的 PNG、WebP 和 FLAC 文件中加载完整的工作流程（包含种子文件）。
将工作流保存为/加载为 Json 文件。
Nodes接口可用于创建复杂的工作流程，例如用于招聘流程优化的工作流程，甚至是更高级的流程。
区域构成
使用常规模型和修复模型进行图像修复。
ControlNet与T2I适配器
高端模型（ESRGAN、ESRGAN的变体、SwinIR、Swin2SR等）
格利根
模型合并
最小公倍数（LCM）模型与洛拉斯（Loras）
使用TAESD的潜在预览
完全支持离线使用：除非你主动要求，否则核心功能永远不会下载任何内容。
可选的 API 节点，用于通过在线 Comfy API 使用外部提供商提供的付费模型。
配置文件用于设置模型的搜索路径。

工作流程示例可以在示例页面上找到。

发布流程

ComfyUI遵循每周一次的发布周期，通常在周五发布，但由于模型更新或代码库的重大修改，这一时间安排会经常发生变化。该项目有三个相互关联的代码仓库：

ComfyUI Core
- 发布一个新的稳定版本（例如，v0.7.0）
- 这是桌面版本发布的基础。
ComfyUI桌面版
- 使用最新的稳定核心版本构建新的发布版本。
ComfyUI 前端
- 每周的前端更新都会合并到核心代码库中。
- 即将发布的核心版本中，各项功能将保持不变（即不会进行修改或更新）。
- 下一个发布周期的开发工作仍在继续。

快捷方式

按键绑定	解释；说明
`Ctrl` + `Enter`	将当前图表排队以进行生成
`Ctrl` + `Shift` + `Enter`	将当前图表排在生成序列的首位。
`Ctrl` + `Alt` + `Enter`	取消当前一代产品
`Ctrl` + `Z`/`Ctrl` + `Y`	撤销/重做
`Ctrl` + `S`	保存工作流程
`Ctrl` + `O`	加载工作流程
`Ctrl` + `A`	选择所有节点
`Alt` + `C`	折叠/展开选中的节点
`Ctrl` + `M`	静音/取消静音选中的节点
`Ctrl` + `B`	绕过选定的节点（相当于将该节点从图中移除，然后重新连接相关线路）
`Delete`/`Backspace`	删除选中的节点
`Ctrl` + `Backspace`	删除当前图表
`Space`	在手持画布并移动光标时，可以调整画布的位置。
`Ctrl`/`Shift` + `Click`	将已点击的节点添加到选择集中
`Ctrl` + `C`/`Ctrl` + `V`	复制并粘贴选中的节点（但不保留与未选中节点输出的连接）
`Ctrl` + `C`/`Ctrl` + `Shift` + `V`	复制并粘贴选定的节点（同时保持未选定节点的输出与被粘贴节点的输入之间的连接）
`Shift` + `Drag`	同时移动多个选中的节点
`Ctrl` + `D`	加载默认图表
`Alt` + `+`	在画布上放大显示
`Alt` + `-`	在画布上缩小显示范围
`Ctrl` + `Shift` + 左键鼠标 + 向下拖动	画布缩放（放大/缩小）
`P`	固定/取消固定选定的节点
`Ctrl` + `G`	选定的节点组
`Q`	切换队列的可见性
`H`	切换历史记录的显示/隐藏状态
`R`	刷新图表
`F`	显示/隐藏菜单
`.`	将视图调整以适应所选内容（当未选择任何内容时显示整个图表）
双击左鼠标按钮	打开节点快速搜索调色板
`Shift` + 拖动	同时移动多根电线
`Ctrl` + `Alt` + 左键鼠标	将所有电线从所连接的插槽中拔出。

对于 macOS 用户来说，Ctrl 也可以被 Cmd 替代。

安装

Windows Portable

有一个适用于 Windows 的便携式独立版本，可以在发布页面上找到。该版本既可以在 Nvidia 显卡上运行，也可以仅通过 CPU 运行。

直接下载链接

只需下载文件，使用7-Zip解压后运行即可。请确保将您的Stable Diffusion检查点/模型文件（即那些庞大的ckpt/safetensors文件）放入以下路径：ComfyUI\models\checkpoints。

如果你提取文件有困难，可以右键点击该文件 -> 属性 -> 解锁。

我该如何在另一个用户界面（UI）和ComfyUI之间共享模型？

请参阅配置文件，以设置模型的搜索路径。在独立的Windows构建版本中，您可以在ComfyUI目录中找到该文件。将此文件重命名为extra_model_paths.yaml，并使用您喜欢的文本编辑器对其进行编辑。

comfy-cli

你可以使用 comfy-cli 来安装并启动 ComfyUI：

pip install comfy-cli
comfy install

手动安装（Windows、Linux）

Python 3.13得到了很好的支持。如果你在某些自定义节点依赖方面遇到问题，可以尝试使用3.12版本。

使用 Git 克隆这个仓库。

将你的 SD 检查点文件（即那些庞大的 checkpoint/safetensors 文件）放在以下路径：models/checkpoints

将你的变分自编码器（VAE）放入：models/vae

AMD显卡（仅适用于Linux系统）

AMD用户如果还没有安装rocm和pytorch，可以通过pip来安装。以下是安装稳定版本的命令：

pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/rocm6.4

这是用于安装带有 ROCm 6.4 的 nightly 版本的命令，该版本可能具备一些性能提升。

pip install --pre torch torchvision torchaudio --index-url https://download.pytorch.org/whl/nightly/rocm6.4

英特尔显卡（适用于Windows和Linux系统）

（选项1）Intel Arc GPU用户可以使用pip安装支持torch.xpu的原生PyTorch。更多信息请参见此处。

要安装 PyTorch XPU，请使用以下命令：

pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/xpu

这是用于安装 Pytorch xpu nightly 版本的命令，该版本可能具备一些性能提升。

pip install --pre torch torchvision torchaudio --index-url https://download.pytorch.org/whl/nightly/xpu

（选项2）或者，支持 Intel Extension for PyTorch（IPEX）的英特尔 GPU 可以利用 IPEX 来提升性能。

访问安装指南以获取更多信息。

英伟达

Nvidia用户应使用以下命令安装稳定的PyTorch版本：

pip install torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu129

这是用于安装 nightly 版 PyTorch 的命令，该版本可能在性能上有所提升。

pip install --pre torch torchvision torchaudio --index-url https://download.pytorch.org/whl/nightly/cu129

故障排除

如果你遇到“Torch未使用CUDA编译”错误，可以使用以下命令卸载torch：

pip uninstall torch

然后使用上述命令再次安装它。

依赖项

通过在 ComfyUI 文件夹内打开终端并执行以下命令来安装依赖项：

pip install -r requirements.txt

完成这些步骤后，你应该已经安装好了所有所需的内容，接下来就可以运行 ComfyUI 了。

其他：

苹果Mac电脑所使用的硅芯片

你可以在搭载苹果M1或M2芯片的Mac电脑上，使用任何最新版本的macOS来安装ComfyUI。

安装 nightly 版本的 PyTorch。有关说明，请阅读在 Mac 上加速 PyTorch 训练的 Apple 开发者指南（确保安装最新版本的 nightly PyTorch）。
请按照ComfyUI手动安装指南中的说明，在Windows和Linux系统上进行操作。
安装 ComfyUI依赖关系；从属关系如果你有另一个Stable Diffusion用户界面……你或许可以重新使用这些依赖项。.
通过运行 python main.py 来启动 ComfyUI。

注意：请按照ComfyUI 手动安装中的说明，将您的模型、VAE、LoRAs 等文件添加到相应的 Comfy 文件夹中。

DirectML（Windows系统上的AMD显卡）

这种做法的依据非常薄弱，因此不建议使用。目前确实存在一些非官方的 PyTorch ROCm Windows 版本，它们的使用体验要比这种方法好得多。一旦官方的 PyTorch ROCm Windows 版本发布，这份说明文件将会进行更新。pip install torch-directml 然后你可以使用以下命令启动 ComfyUI：python main.py --directml

升级神经处理单元（NPU）

适用于与 PyTorch 的 Ascend Extension（torch_npu）兼容的模型。要开始使用，请确保您的环境满足安装页面中列出的先决条件。以下是根据您的平台和安装方法定制的分步指南：

首先，根据 torch-npu 的安装页面说明，如有必要，安装推荐版本或更新版本的 Linux 内核。
按照适用于您特定平台的说明，继续安装 Ascend Basekit。该软件包包含驱动程序、固件以及 CANN（Controlled Access Network）组件。
接下来，请按照安装页面上针对特定平台的说明来安装torch-npu所需的包。
最后，请按照ComfyUI在Linux系统上的手动安装指南进行操作。所有组件安装完成后，即可按照之前的说明运行ComfyUI。

Cambricon MLU（门阵列单元）

适用于兼容 Cambricon Extension for PyTorch (torch_mlu) 的模型。以下是根据您的平台和安装方法定制的逐步指南：

按照安装中针对相应平台的说明来安装Cambricon CNToolkit。
接下来，按照安装中的说明安装PyTorch（torch_mlu）。
通过运行 python main.py 来启动 ComfyUI。

适用于兼容 PyTorch 的 Iluvatar 扩展的模型。以下是根据您的平台和安装方法定制的逐步指南：

按照安装中针对特定平台的说明来安装Iluvatar Corex工具包。
通过运行 python main.py 来启动 ComfyUI。

💎 六、总结

ComfyUI 以其独特的节点式工作流、极高的灵活性和控制精度，在 Stable Diffusion 生态中占据了重要地位，尤其受到进阶用户和研究者的青睐。虽然学习曲线相对陡峭，但一旦掌握，它所能带来的创作自由度和效率提升是显著的。

无论你是想深入研究 AI 图像生成的奥秘，还是需要精细控制每一个生成环节，ComfyUI 都是一个非常强大且值得尝试的工具。其活跃的社区和丰富的扩展生态也在不断推动其向前发展。

2025 年 9 月 7 日

从噪点到画卷：Stable Diffusion如何重塑AI图像生成

Stable Diffusion 是一款强大且开源的 AI 图像生成模型，它能根据文本描述生成高质量图像，也能进行图像修复、内容扩充等任务。

在人工智能蓬勃发展的今天，我们或许已经习惯了AI带来的种种惊喜，但当你看到一张完全由算法生成、细节丰富、风格多变的图像时，仍不免感到惊叹。这背后离不开一项突破性技术——Stable Diffusion。这项于2022年8月由CompVis、Stability AI和LAION的研究团队共同推出的开源模型，并非简单的工具迭代，而是一次对深度学习生成模型范式的革新。

与此前多数在像素空间直接进行高强度运算的模型不同，Stable Diffusion的核心革命在于将扩散过程移至潜在空间（Latent Space） 进行。这一转变不仅大幅降低了计算需求和硬件门槛，使消费级显卡运行高质量图像生成成为可能，更极大地提升了生成效率与图像质量。其背后的潜在扩散模型（Latent Diffusion Model）架构，源自Runway首席科学家Patrick Esser与慕尼黑大学Robin Rombach的前沿研究，为整个生成过程提供了坚实的理论基石。

技术的生命力在于应用。Stable Diffusion已迅速渗透至多个领域：从为艺术家和设计师提供灵感迸发的视觉创作，到为开发者集成高效的图像生成与编辑功能；从图像超分辨率、修复增强等实用工具，到驱动虚拟现实、游戏产业的内容生产流水线。其开源特性更催生了空前活跃的社区生态，无数开发者与创作者共同推动着模型迭代、插件开发与应用场景拓展。

本篇文章旨在系统解析Stable Diffusion的技术脉络、核心原理与生态现状。无论你是希望深入了解其背后工作机制的技术爱好者，还是寻求在实践中运用此工具的创作者，都能在此找到一份清晰的指引。接下来，我们将共同探索Stable Diffusion如何从一份随机噪声开始，逐步去噪，最终呈现出令人惊艳的视觉画卷，并理解它如何持续推动着AI生成内容的边界。

🔍 一、什么是 Stable Diffusion？

Stable Diffusion 是一种基于深度学习的文本到图像生成模型。它由 Stability AI 公司于 2022 年 8 月正式发布，并迅速成为 AI 绘画领域的代表性工具。其核心是一个名为 潜在扩散模型（Latent Diffusion Model, LDM） 的架构。

与传统的像素级扩散模型不同，Stable Diffusion 在潜在空间（Latent Space） 中进行扩散过程。这大幅降低了计算需求，使得用户甚至可以在消费级显卡上运行它。

核心特点：

•开源免费：代码和模型权重公开，可自由使用、修改和分发。
•功能多样：支持文生图、图生图、图像修复（Inpainting）、图像扩展（Outpainting）等。
•高质量输出：能生成高分辨率、细节丰富且符合文本描述的图像。
•活跃生态：拥有庞大的开源社区，衍生出众多插件、预训练模型和用户界面。

📜 二、发展历程与版本迭代

Stable Diffusion 的诞生和发展是多方协作的结果，其版本迭代迅速。

表：Stable Diffusion 主要版本演进

版本	发布时间	主要特点与意义
SD v1.4	2022.08	首个公开发布的开源版本，奠定了基础。
SD v1.5	2022.10	由 RunwayML 发布，成为最流行、生态最丰富的版本，许多扩展基于此。
SD v2.0/2.1	2022.11/12	由 Stability AI 发布，使用了更新的文本编码器，但社区接受度不如 1.58。
SDXL	2023.06	重大升级，生成图像质量显著提升，分辨率更高，细节更优。支持 LoRA 和 ControlNet。
SDXL Turbo	2023.11	采用潜在一致性模型（LCM），实现极速生成（1-4步），但图像清晰度稍低。
Stable Diffusion 3	2024.02 (预览)	采用了新的扩散变压器架构，在图像质量、多主题提示和文本渲染（拼写能力）上有巨大飞跃。

其发展离不开关键人物和组织的贡献：

•CompVis 研究小组：来自慕尼黑大学，是潜在扩散模型（LDM）论文的作者。
•Stability AI：资助并推动了 Stable Diffusion 的开发、训练和开源发布。
•LAION：提供了开源的超大规模图文数据集 LAION-5B 用于模型训练。
•Runway：合作开发并发布了 SD 1.5 等重要版本。

⚙️ 三、核心原理：潜在扩散模型

Stable Diffusion 的工作流程可以概括为以下几个核心步骤

文本编码（Text Encoder）：用户输入的文本提示（Prompt）首先被 CLIP 文本编码器转换为机器可以理解的语义向量。这相当于为AI创作提供了“指导思想”。
在潜在空间中扩散（Diffusion in Latent Space）：
- •正向过程：一张图像通过 VAE 编码器被压缩到低维的潜在空间，变成潜在表示。然后，噪声被逐步添加到这个潜在表示中，直到它几乎变成纯噪声。
- •反向过程（去噪）：这是生成图像的关键。一个 U-Net 网络接收当前的噪声潜在表示、时间步信息和文本语义向量，并预测出其中的噪声。然后，从当前潜在表示中减去预测的噪声。这个过程重复多次（如20-50步），噪声逐渐被去除，最终得到一个清晰的潜在表示。
图像解码（Image Decoding）：去噪后的潜在表示通过 VAE 解码器转换回像素空间，生成最终的高清图像。

为何要用“潜在空间”？

直接在像素空间（例如512×512的图像有近80万个维度）中进行扩散过程计算量极大。VAE将图像压缩到潜在空间（如64x64x4=16384维），显著降低了计算复杂度和硬件需求，让普通显卡运行SD成为可能

🖥️ 四、丰富的UI与开源生态

Stable Diffusion 的开源特性催生了繁荣的生态系统。

1. 用户界面（UI）

对于普通用户，通过UI界面操作比编写代码更友好。

•Stable Diffusion WebUI (AUTOMATIC1111)：最流行的Web界面，功能极其丰富，插件生态庞大，适合大多数用户。
•ComfyUI：采用节点式工作流的界面，通过连接不同模块实现功能。优点是显存占用低、可定制性极强、易于可视化工作流程，适合高级用户和自动化任务。
•ForgeUI：在 WebUI 基础上进行优化，改善了用户交互体验并降低了显存占用。

2. 模型与插件

开源社区提供了海量的预训练模型和扩展插件。

•模型类型：
- •基础模型（Checkpoint）：完整的生成模型，决定图像的整体风格和质量（如 SD1.5, SDXL）。
- •LoRA：一种轻量化的模型微调技术，文件小，用于定制特定风格、人物或对象，需与基础模型配合使用。
- •ControlNet：革命性的插件，允许用户通过线稿、深度图、姿态图等额外条件精确控制图像的构图、姿态和结构。
•模型下载网站：
- •Civitai：国际上最大的SD模型社区，资源极多。
- •哩布哩布AI / 炼丹阁：优秀的国内模型社区，访问速度快，中文交流方便。

📥 五、下载、安装与入门

1. 主要下载渠道

•官方代码库：在 GitHub 上搜索 CompVis/stable-diffusion或 Stability-AI/stablediffusion可以找到官方源代码和模型。
•集成包：对于新手，推荐使用打包好的整合包，如 Stable Diffusion WebUI 的整合安装包，它通常包含了Python、Git、模型等所有依赖。
•模型网站：从 Civitai、哩布哩布AI 等网站下载你感兴趣的模型，放入 WebUI 的 models/Stable-diffusion文件夹即可使用。

2. 安装与运行

下载：获取 WebUI 整合包（如通过网盘链接）并解压。
安装依赖：首次运行前，通常需要以管理员身份运行依赖安装工具（如 启动运行依赖工具）。
启动：运行启动器（如 A绘世启动器或 webui-user.bat），程序会自动处理并打开浏览器窗口。
下载模型：将下载的模型文件（.ckpt或 .safetensors）放入指定文件夹。
生成图像：在WebUI的文生图页面输入提示词（Prompt），点击生成即可。

3. 硬件需求建议

•显卡（GPU）：是最重要的部件。推荐 NVIDIA 显卡，至少 6GB 显存（如 GTX 1060），8GB 或以上显存（RTX 3060, 4060 或更好）体验更佳。
•内存（RAM）：建议 32GB 或以上。
•存储：至少需要 500GB 以上的硬盘空间来存放模型和工具，最好是使用SSD固态的硬盘，因为加载模型需要从硬盘中调用，固态硬盘的读写速度远超机械。

Stable Diffusion 及其相关生态的开源和下载地址确实不少，我先用一个表格汇总这些关键地址：

资源名称	地址	说明
Stable Diffusion 基础代码库	https://github.com/CompVis/stable-diffusion	Stable Diffusion 的基础版本开源地址，包含相关源代码和文档。
Stability AI (官方)	https://github.com/Stability-AI	Stable Diffusion 官方组织，包含多个项目。
Stable Diffusion WebUI	https://github.com/AUTOMATIC1111/stable-diffusion-webui	最流行的 Web 界面，普通用户常用，包含可视化界面和常用插件，方便操作。
秋叶启动器 (整合包)	通常通过网盘分享（如文末提供的夸克网盘链接或百度网盘链接），请注意识别官方渠道。	适合新手的 Windows 一键安装包，集成了环境、WebUI 和常用插件，解压即用。
SDXL 相关代码	https://github.com/Stability-AI/generative-models	Stable Diffusion XL（SDXL）相关代码仓库。
ControlNet 插件	https://github.com/Mikubill/sd-webui-controlnet	用于控制生成图像结构的重要插件。
中文语言包	https://github.com/VinsonLaro/stable-diffusion-webui-chinese	为 WebUI 添加中文支持。
Hugging Face 模型库	https://huggingface.co/CompVis或 https://huggingface.co/stabilityai	下载官方和社区训练模型的重要平台。也可使用国内镜像 https://hf-mirror.com。
Civitai 模型社区	https://civitai.com/	非常受欢迎的第三方模型社区，有大量用户分享的模型。

💡 安装与使用提示

1.对于初学者：如果你刚开始接触 Stable Diffusion，并且使用的是 Windows 系统，秋叶启动器的整合包可能是最省心的选择。它集成了运行所需的环境、WebUI 和常用插件，解压后按照说明运行即可，能避免很多环境配置的麻烦。
2.对于喜欢折腾和学习的用户：可以尝试从 Stable Diffusion WebUI (AUTOMATIC1111) 的 GitHub 页面克隆或下载源码，然后按照官方文档自行配置 Python、PyTorch 等环境。这能让你更了解其工作原理，但也可能遇到更多需要自己解决的问题。
3.模型下载：许多模型存储在 Hugging Face 或 Civitai 等平台。从 Hugging Face 下载时，可以尝试使用国内镜像 https://hf-mirror.com来提升下载速度。Civitai 上则有大量社区创作的模型。

💎 总结

Stable Diffusion 的成功在于其开源精神和强大的社区力量。它不仅仅是一个技术模型，更是一个创新的平台，降低了AI绘画的门槛，赋予了每个人创作视觉内容的能力。

从最初的学术研究到如今蓬勃发展的开源生态，Stable Diffusion 的经历展现了开源协作的巨大能量。无论你是艺术家、开发者还是普通爱好者，都能在这个生态中找到属于自己的创作方式。