分类: SD_ComfyUI

Comfy是一个基于 Stable Diffusion 的用户界面(UI),旨在简化生成图像的过程,提供更直观和友好的操作体验。ComfyUI采用了简洁的界面设计,使用户能够轻松找到所需的功能,适合各种技术水平的用户。通过图形化的控件,用户可以直观地调整参数,比如文本提示、图像尺寸、风格等。
SD通识:我们通常把 ​​AUTOMATIC1111的Stable Diffusion WebUI(简称A1111 WebUI或直接叫WebUI)​​ 和 ​​ComfyUI​​ 分开来说。前者是早期最流行的图形界面,操作像“傻瓜相机”;后者是后来出现的模块化节点式界面,像“单反相机”,需要手动搭建工作流,但控制更精细。在Stable Diffusion早期,​​AUTOMATIC1111开发的WebUI(常直接简称为WebUI或A1111)​​ 是绝对的主流,所以“WebUI”这个称呼就被它占了。后来出现的​​ComfyUI​​虽然也是一种Web界面,但为了区分,我们通常就直接叫它的项目名“ComfyUI”了。

  • ComfyUI-HYPIR节点:LeePoet力推基于SD2.1图像超清修复放大

    我是LeePoet。今天给大家推荐一款我最近深度体验的ComfyUI节点——ComfyUI-HYPIR,这是一个基于HYPIR项目开发的图像修复工具,专门针对SD2.1模型进行了优化,能够实现高质量的图像修复和超分辨率放大。该技术基于扩散模型生成的分数先验进行图像修复与放大,具有高质量、清晰、锐利的效果。

    💡 为什么选择HYPIR?

    HYPIR(Harnessing Diffusion-Yielded Score Priors for Image Restoration)是一个利用扩散模型得分先验进行图像修复的先进技术。相比传统的ESRGAN放大方式,HYPIR在细节保留和伪影控制方面表现更出色,特别适合处理模糊、噪点严重的图像。

    🎯 适用场景

    ComfyUI-HYPIR几乎覆盖了所有图像修复需求:

    • 老照片修复:将模糊的老照片恢复到高清状态
    • 商品图优化:电商产品图放大后依然保持清晰细节
    • 动漫/游戏素材:二次元图片放大后线条清晰,色彩饱满
    • 人像写真:针对人像照片进行专项优化,面部细节更自然
    • 风景照片:自然风光放大后远景细节依然丰富

    HYPIR可在GitHub上找到,推荐使用其ComfyUI插件实现,模型需下载并放置于ComfyUI的models文件夹中。操作流程包括单张图片上传、设置放大倍数(支持1-8倍,推荐2-4倍),并通过HYPIR Advanced节点进行处理。放大前后对比,HYPIR在不改变原图结构的前提下显著提升清晰度。此外,支持批量处理,通过设置路径和数量实现多图自动放大。参数方面,coeff值(默认100,可调至500)影响修复强度,数值越高重绘幅度越大,适用于AI生成图像的增强处理。整体流程稳定、操作简便,建议替代旧有放大方法。


    开源地址:https://github.com/11dogzi/Comfyui-HYPIR

    这是一个用于 HYPIR(利用扩散得分先验进行图像修复) 的 ComfyUI 插件,HYPIR 是基于 Stable Diffusion 2.1 的先进图像修复模型。

    功能特性

    • 图像修复:利用扩散先验修复和增强低质量图像
    • 批量处理:一次处理多张图片
    • 高级控制:可微调模型参数以获得最佳效果
    • 模型管理:高效加载和复用 HYPIR 模型
    • 放大功能:内置放大功能(1x 到 8x)

    安装方法

    1. 安装插件

    将本文件夹放入 ComfyUI 的 custom_nodes 目录下:ComfyUI/custom_nodes/Comfyui-HYPIR/

    2. 安装 HYPIR 依赖

    进入 HYPIR 文件夹并安装所需依赖:

    cd ComfyUI/custom_nodes/Comfyui-HYPIR/HYPIR
    pip install -r requirements.txt

    3. 模型下载(自动)

    插件首次使用时会自动下载所需模型:

    HYPIR 模型

    修复模型将下载到:ComfyUI/models/HYPIR/HYPIR_sd2.pth

    基础模型(Stable Diffusion 2.1)

    基础 Stable Diffusion 2.1 模型将在需要时自动下载到:ComfyUI/models/HYPIR/stable-diffusion-2-1-base/

    手动下载(可选):

    HYPIR 模型:如果你希望手动下载,可以从以下地址获取 HYPIR 模型:

    请将 HYPIR_sd2.pth 文件放在以下任一位置:

    • 插件目录:ComfyUI/custom_nodes/Comfyui-HYPIR/
    • ComfyUI 模型目录:ComfyUI/models/checkpoints/
    • 或让插件自动管理,放在 ComfyUI/models/HYPIR/

    基础模型: 基础 Stable Diffusion 2.1 模型可从以下地址手动下载:

    请将基础模型放在:ComfyUI/models/HYPIR/stable-diffusion-2-1-base/

     注意: 插件会优先在 HYPIR 目录下查找基础模型,如未找到会自动从 HuggingFace 下载。

    使用方法

    高级图像修复

    1. 添加 HYPIR Advanced Restoration 节点
    2. 此节点提供更多参数控制:
      • model_t:模型步数(默认200)
      • coeff_t:系数步数(默认200)
      • lora_rank:LoRA 阶数(默认256)
      • patch_size:处理块大小(默认512)

    配置

    你可以在 hypir_config.py 中修改默认设置:

    HYPIR_CONFIG = {
        "default_weight_path": "HYPIR_sd2.pth",
        "default_base_model_path": "stable-diffusion-2-1-base",
        "available_base_models": ["stable-diffusion-2-1-base"],
        "model_t": 200,
        "coeff_t": 200,
        "lora_rank": 256,
        # ... more settings
    }

    模型路径管理

    插件包含智能模型路径管理:

    • HYPIR 模型:自动下载到 ComfyUI/models/HYPIR/HYPIR_sd2.pth
    • 基础模型:需要时自动下载到 ComfyUI/models/HYPIR/stable-diffusion-2-1-base/
    • 本地优先:插件会优先查找本地模型
    • 自动下载:仅在本地未找到模型时才下载

    最佳效果小贴士

    1. 提示词:使用与图片内容相符的描述性提示词
      • 人像:”high quality portrait, detailed face, sharp features”
      • 风景:”high quality landscape, detailed scenery, sharp focus”
      • 通用:”high quality, detailed, sharp, clear”
    2. 放大
      • 1x 表示仅修复不放大
      • 2x-4x 适合中等放大
      • 8x 为最大放大(速度较慢)
    3. 参数
      • model_t 越高(200-500)修复越强
      • coeff_t 越高(200-500)增强越明显
      • lora_rank 越高(256-512)质量越好(占用更多内存)
    4. 内存管理
      • 如遇内存不足可用较小的 patch_size(256-512)
      • 分批处理图片
      • 使用模型加载器节点避免重复加载模型

    配置

    你可以在 hypir_config.py 中修改默认设置:

    HYPIR_CONFIG = {
        "default_weight_path": "HYPIR_sd2.pth",
        "default_base_model_path": "stable-diffusion-2-1-base",
        "available_base_models": ["stable-diffusion-2-1-base"],
        "model_t": 200,
        "coeff_t": 200,
        "lora_rank": 256,
        # ... more settings
    }

    模型路径管理

    The plugin includes intelligent model path management: 插件包含智能模型路径管理:

    • HYPIR Model: Automatically downloaded to ComfyUI/models/HYPIR/HYPIR_sd2.pth
    • HYPIR 模型:自动下载到 ComfyUI/models/HYPIR/HYPIR_sd2.pth
    • Base Model: Automatically downloaded to ComfyUI/models/HYPIR/stable-diffusion-2-1-base/ when needed
    • 基础模型:需要时自动下载到 ComfyUI/models/HYPIR/stable-diffusion-2-1-base/
    • Local Priority: The plugin checks for local models first before downloading
    • 本地优先:插件会优先查找本地模型
    • Automatic Download: Only downloads when models are not found locally
    • 自动下载:仅在本地未找到模型时才下载

    最佳效果小贴士

    使用模型加载器节点避免重复加载模型

    提示词:使用与图片内容相符的描述性提示词

    人像:”high quality portrait, detailed face, sharp features”

    风景:”high quality landscape, detailed scenery, sharp focus”

    通用:”high quality, detailed, sharp, clear”

    放大

    1x 表示仅修复不放大

    2x-4x 适合中等放大

    8x 为最大放大(速度较慢)

    参数

    model_t 越高(200-500)修复越强

    coeff_t 越高(200-500)增强越明显

    lora_rank 越高(256-512)质量越好(占用更多内存)

    内存管理

    如遇内存不足可用较小的 patch_size(256-512)

    分批处理图片

    常见问题

    1. 导入错误:请确保已安装 HYPIR 依赖cd HYPIR pip install -r requirements.txt
    2. 模型未找到:插件会自动下载缺失的模型
      • 检查网络连接以便自动下载
      • HYPIR 模型:将 HYPIR_sd2.pth 放在插件目录或 ComfyUI 模型目录
      • 基础模型:将 stable-diffusion-2-1-base 文件夹放在 ComfyUI/models/HYPIR/
      • 插件会自动检查并下载缺失模型

    实操:

    1.先到https://github.com/11dogzi/Comfyui-HYPIR的仓库直接复制插件仓库地址

    2.进入本地的.\ComfyUI\custom_nodes目录,右链git bash拉取仓库

    3.启动COMFYUI,通过启动器先拉取HYPIR所需要的库并启动到UI

    4.打开huggingface.co,直接使用国内镜像源:https://huggingface.1319lm.top/lxq007/HYPIR/tree/main,复制HYPIR的GIT仓库

    5.下载HYPIR修复模型,进入.\ComfyUI\models,右键打开git bash,魔法就使用国内镜像源GIT

    6.下载stable-diffusion-2-1-base模型,先进入https://huggingface.1319lm.top/Manojb/stable-diffusion-2-1-base/tree/main,把以下红框框住的都手动下载,因为很多都是重复的一样的模型,只是后缀不一样。我们只需要下一个就行。所以这里不能直接GIT整个仓库。

    额外说明:text_encoder、unet、vae都只需要下一个模型即可,如果是FP16的,下载到本地后记得把FP16的字去掉,这样才会被节点识别。

    7.下载完所有模型后,重新启动COMFYUI

    当然,SD放大的模型与技术有很多,可以说都各有千秋,非要说哪几个最好用,只有等LEEPOET闲来有空再给大家介绍,总而言之ComfyUI-HYPIR是一款功能强大、操作简单的图像修复工具,特别适合需要高质量图像放大的用户。无论是老照片修复、商品图优化还是人像写真处理,都能获得令人满意的效果。如果你正在寻找一款稳定、高效的图像超清修复工具,ComfyUI-HYPIR绝对值得一试。我已经将它作为我的主力图像修复工具,强烈推荐给大家!


    相关文章:

    ComfyUI-GGUF-VLM 结合 llama.cpp GPU 加速:实现图像反推秒级效率

    Custom_Nodes篇:ComfyUI-QwenVL反推节点

    Custom_Nodes篇:ComfyUI-QwenVL3-image反推节点

    Stablediffusion的放大算法解析:图片高清修复放大相关说明

    环境篇:加载ComfyUI出现WARNING: Failed to find MSVC解决方案

  • ComfyUI-GGUF-VLM 结合 llama.cpp GPU 加速:实现图像反推秒级效率

    众所周知,ComfyUI中QwenVL节点通过Qwen3VL模型能够将视觉内容转化为详细的文字描述,它广泛应用于图像反推提示词、智能标注、视觉问答等场景。同时把它接入到最近出的Z-Image模型中反推生图是leepoet感觉最合适的搭配组合,毕竟都是阿里出品,在反推生图方面语义对齐这一块应该会更兼容。事实也是如此,在lee poet不断的测试下,拿来反推的图相似度个人觉得大部份生图与原图能达到70%以上。

    但是Qwen3VL的缺点就是有些慢,对于4060Ti 16G而言,反推大概在1分钟以内。而3060 12G大概在2分钟左右。自从Z-Image前段时间出了之后,Leepoet就一直在用它接入到Z-Image洗图。就拿4060TI16G来讲,反推50秒出图20秒,这样的效率相较于一些专为速度优化的模型(如Florence2、Joy)存在一定差距,导致其在需要高频、批量处理的“洗图”等场景下略显尴尬,但这种效率上的差异本质上源于模型在设计目标上的根本不同,从而使得它们在应用场景上“各有千秋” 。

    但基于Qwen3VL在反推理解能力准确性、丰富度较好的基础上,所以这段时间也就一直这样将就的用着。

    一直到昨天从群友处了解另一个好使的节点ComfyUI-GGUF-VLM。才知道除了GGUF加速模型外还可以使用 llama.cpp对模型进行加速。

    以下是ComfyUI-GGUF-VLM节点的简介:

    ComfyUI 的多模态模型推理插件,专注于 Qwen 系列视觉语言模型,支持多种推理后端。
    
    ## ✨ 核心功能
    
    ### 主要侧重
    
    **🎯 视觉语言模型 (VLM)**
    
    - **Qwen2.5-VL** / **Qwen3-VL** - 主要支持的视觉模型
    - LLaVA、MiniCPM-V 等其他视觉模型
    - 单图分析、多图对比、视频分析
    
    **💬 文本生成模型**
    
    - Qwen3、LLaMA3、DeepSeek-R1、Mistral 等
    - 支持思维模式 (Thinking Mode)
    
    ### 推理方式
    
    - ✅ **GGUF 模式** - 使用 llama-cpp-python 进行量化模型推理
    - ✅ **Transformers 模式** - 使用 HuggingFace Transformers 加载完整模型
    - ✅ **远程 API 模式** - 通过 Ollama、Nexa SDK、OpenAI 兼容 API 调用
    
    ### 主要特性
    
    - ✅ **多推理后端** - GGUF、Transformers、远程 API 灵活切换
    - ✅ **Qwen-VL 优化** - 针对 Qwen 视觉模型的参数优化
    - ✅ **多图分析** - 最多同时分析 6 张图像
    - ✅ **设备优化** - CUDA、MPS、CPU 自动检测
    - ✅ **Ollama 集成** - 无缝对接 Ollama 服务
    
    ## 🤖 支持的模型
    
    ### 🎯 主要支持 (推荐)
    
    **视觉模型:**
    
    - **Qwen2.5-VL** (GGUF / Transformers)
    - **Qwen3-VL** (GGUF / Transformers)
    
    **文本模型:**
    
    - Qwen3、Qwen2.5 (GGUF / Ollama)
    - LLaMA-3.x (GGUF / Ollama)
    
    ### 🔧 其他支持
    
    **视觉模型:** LLaVA、MiniCPM-V、Phi-3-Vision、InternVL 等
    
    **文本模型:** Mistral、DeepSeek-R1、Phi-3、Gemma、Yi 等
    
    > 💡 **推理方式:**
    >
    > - GGUF 格式 → llama-cpp-python 本地推理
    > - Transformers → HuggingFace 模型加载
    > - Ollama/Nexa → 远程 API 调用
    
    ## 📦 安装
    
    ```bash
    cd ComfyUI/custom_nodes
    git clone https://github.com/walke2019/ComfyUI-GGUF-VLM.git
    cd ComfyUI-GGUF-VLM
    pip install -r requirements.txt
    
    # 可选: 安装 Nexa SDK 支持
    pip install nexaai
    ```
    
    ## 🚀 快速开始
    
    ### 本地 GGUF 模式
    
    1. 将 GGUF 模型文件放到 `ComfyUI/models/LLM/GGUF/` 目录
    2. 在 ComfyUI 中添加节点:
       - **Text Model Loader** - 加载模型
       - **Text Generation** - 生成文本
    
    ### 远程 API 模式
    
    1. 启动 API 服务 (Nexa/Ollama):
    
       ```bash
       nexa serve  # 或 ollama serve
       ```
    
    2. 在 ComfyUI 中添加节点:
    
       - **Remote API Config** - 配置 API 地址
       - **Remote Text Generation** - 生成文本
    
    ## 📋 可用节点
    
    ### 文本生成节点
    
    - **Text Model Loader** - 加载本地 GGUF 模型
    - **Text Generation** - 文本生成
    - **Remote API Config** - 远程 API 配置
    - **Remote Text Generation** - 远程文本生成
    
    ### 视觉分析节点
    
    - **Vision Model Loader (GGUF)** - 加载 GGUF 视觉模型
    - **Vision Model Loader (Transformers)** - 加载 Transformers 模型
    - **Vision Analysis** - 单图分析
    - **Multi-Image Analysis** - 多图对比分析
    
    ### 🆕 工具节点
    
    - **Memory Manager (GGUF)** - 显存/内存管理工具
      - 清理已加载的模型
      - 强制垃圾回收
      - 清理GPU缓存
      - 显示显存使用情况
    
    ### 工具节点
    
    - **System Prompt Config** - 系统提示词配置
    - **Model Manager** - 模型管理器
    
    ## 💭 思维模式
    
    支持 DeepSeek-R1、Qwen3-Thinking 等模型的思维过程提取。
    
    启用 `enable_thinking` 参数后,会自动提取并分离思维过程和最终答案。
    
    ## 📁 项目结构
    
    ```
    ComfyUI-GGUF-VLM/
    ├── config/          # 配置文件
    ├── core/            # 核心推理引擎
    │   └── inference/   # 多后端推理实现
    ├── nodes/           # ComfyUI 节点定义
    ├── utils/           # 工具函数
    └── web/             # 前端扩展
    ```
    
    ## 

    节点github地址:https://github.com/walke2019/ComfyUI-GGUF-VLM

    安装好节点后,可以先通过启动安装一次该节点的依赖、库。然后再下载GGUF模型:

    模型地址:https://huggingface.co/mradermacher/Qwen2.5-VL-7B-NSFW-Caption-V3-abliterated-GGUF/tree/main?not-for-all-audiences=true

    放到对应的模型文件夹:

    .\ComfyUI\models\text_encoders\qwenclip

    .\ComfyUI\models\LLM\GGUF

    这里建议配置好的可以用以下这两个模型,因为官方的推是

    GGUFQ6_K6.4very good quality
    GGUFQ8_08.2fast, best quality

    以上基本上就已经安装好节点,并把模型下载好并可进入使用了。但是在这种情况下只能通过CPU进行推理(在速度方面跟QWEN3VL其实并没有太大的区别,有区别的就是这些模型是破限的)。并没有使用llama-cpp-python

    可以这么说,同样为3060 12G的显卡,ComfyUI-QwenVL节点反推一张图的时间在2分左右,而ComfyUI-GGUF-VLM通过llama-cpp-python调用GPU加速可以让反推时间缩短到几秒钟。

    那么什么是llama-cpp-python

    llama-cpp-python​ 是 llama.cpp 的 Python 绑定库,提供高性能的本地大语言模型推理能力,支持 CPU、CUDA GPU、Metal 等多种硬件加速,是部署本地 LLM 应用的常用工具。支持 CPU、CUDA(NVIDIA GPU)、Metal(Apple Silicon)、OpenCL 等多种后端的高性能推理

    话虽如此,正常使用ComfyUI-GGUF-VLM这个节点,在没有安装llama-cpp-python这个库的情况反推是不支持GPU的,但是要想让反推达到秒级的速度,就要先准备一些环境。

    步骤前瞻:

    先安装好节点并下载模型->安装Visual Studio->配置MSVC系统变量->安装配置对应版本的CUDA->通过CUDA调用MSVC构建llama-cpp-python

    1.安装Visual Studio,并配置好MSVC系统变量。

    lee poet之前写过一个怎么配置环境篇:加载ComfyUI出现WARNING: Failed to find MSVC解决方案,配置好记得重启。。

    2.验证cl,rc,link。如果有返回路径说明已经配置好。

    3.安装CUDA及cudnn,并配置CUDA环境变量。

    因为lee poet所使用的comfyui环境是的pytorch version: 2.5.1+cu124

    所以要下载对应的cuda版本,我下载的是CUDA Toolkit 12.4CUDA Toolkit 12.4 Downloads Installer for Windows 10 x86_64

    同时再下载cudnn,下载地址:https://developer.nvidia.com/rdp/cudnn-archive,找到对应的CUDA版本号

    Download cuDNN v8.9.7 (December 5th, 2023), for CUDA 12.x

    下载好用,先进行cuda的安装,*如果之前您有安装其它低版本的CUDA,在不使用的情况下可以先通过卸载程序的控制面板里先卸载。再进行安装:

    OK

    以上安装都说有报错,重启电脑再继续安装即可。安装完后,我们先配置环境变量。

    添加CUDA的环境变量(如果已经存在,则不需要重复添加)

    配置好后,解压cudnn-windows-x86_64-8.9.7.29_cuda12-archive.zip,可以看到三个文件夹

    把红框圈住的地方COPY到刚刚安装好的CUDA的C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v12.4这个文件夹内

    继续给cuDNN添加相应的环境变量

    #leepoet的CUDA及cuDNN的环境变量如下:
    C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v12.4\bin
    C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v12.4\include
    C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v12.4\lib
    C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v12.4\libnvvp

    配置好环境变量后,验证:nvcc -V

    找到C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v12.4\extras\visual_studio_integration\MSBuildExtentions里的这四个文件复制

    粘贴到C:\Program Files\Microsoft Visual Studio\2022\Community\MSBuild\Microsoft\VC\v170\BuildCustomizations这个目录下

    以上就算是把llama-cpp-python安装的环境配置好了。下面再通过虚拟环境构建安装llama-cpp-python

    打开启动器命令提示符,可以通过这个直接到这个整合包的虚拟环境。

    可以看到红框框住的这个标识,实际上就是这个整合包的虚拟环境的标识

    set CMAKE_ARGS=-DGGML_CUDA=on
    python.exe -m pip install llama-cpp-python --force-reinstall --no-cache-dir
    命令/参数解释
    set CMAKE_ARGS="-DGGML_CUDA=on"设置一个名为 CMAKE_ARGS的环境变量,其值为 -DGGML_CUDA=on。这个变量会传递给后续的编译过程,指示构建系统启用对CUDA的支持。
    python.exe -m pip install使用Python模块方式运行pip进行安装,这通常比直接运行pip命令更可靠。
    llama-cpp-python要安装的Python包名称,它是对C++库llama.cpp的Python封装。
    --force-reinstall强制重新安装该包及其所有依赖。如果已存在安装版本,会先卸载再安装,确保是最新编译的版本。
    --no-cache-dir禁用pip的缓存。这能确保pip不会使用之前下载或编译的缓存文件,而是从头开始获取源码并进行编译。

    这条命令组合起来的效果是:强制pip忽略缓存,重新从源码编译并安装支持CUDA的llama-cpp-python。通过pip install llama-cpp-python安装的是仅支持CPU的版本。通过从源码编译并设置CMAKE_ARGS,可以解锁GPU加速功能,在处理大语言模型时能获得数倍的速度提升。

    执行命令后

    先是下载库从源码编译,可能需要十几到二十分钟。

    可以看到已经安装成功了。*安装后完有其它库的冲突能解决就自己解决,LeePoet是选择性忽略,主打一个能用就行。

    后面就是关掉启动器,重新启动。它会自己解析并检验各种依赖。

    启动完进入UI后,这次从反推到Z-image生图768x1536px的图片大概在40秒左右了。

    李诗人这次使用的是家用电脑配置相对一般,但是能有这个速度还是相对满意的。

    相关文章:Custom_Nodes篇:ComfyUI-QwenVL反推节点

    Custom_Nodes篇:ComfyUI-QwenVL3-image反推节点

  • Custom_Nodes篇:ComfyUI-QwenVL反推节点

    Custom_Nodes篇:ComfyUI-QwenVL反推节点

    这个插件对于 ComfyUI 用户来说,实用性非常高,而且考虑到了不同的硬件配置需求

    技术整合很到位:它直接把像 Qwen3-VL 这样领先的视觉语言模型带到了 ComfyUI 的节点式工作流中,让用户能以更直观的方式使用多模态能力,无论是图片分析还是未来的视频处理(根据介绍),都提供了强大的基础。它不仅追赶最新的 Qwen3-VL 模型,还保持对早期 Qwen2.5 的支持,这让拥有不同模型的用户都能受益。最值得称赞的是它加入了多种量化(4-bit/8-bit)和模型缓存的选项。这意味着开发者清晰地认识到 VRAM 是限制许多 AI 玩家的主要瓶颈,通过这些优化,可以让更多配置没那么“壕”的用户也能体验到高性能 VL 模型,这大大提升了它的普及潜力。

    总体来看,这是一个强大、灵活且注重实用的节点集,为 ComfyUI 的多模态能力添加了重要的一块拼图。

    节点官方介绍:

    ComfyUI-QwenVL 自定义节点集成了 Qwen-VL 系列,包括最新的 Qwen3-VL 型号,以及 Qwen2.5-VL 和最新的 Qwen3-VL,从而实现了用于生成文本、图像理解和视频分析的高级多模态 AI。


    开源地址:https://github.com/1038lab/ComfyUI-QwenVL

    ComfyUI-QwenVL 自定义节点集成了阿里云强大的 Qwen-VL 系列视觉语言模型 (LVLM),包括最新的 Qwen3-VL 和 Qwen2.5-VL。该高级节点可在 ComfyUI 工作流程中实现无缝的多模态 AI 功能,从而高效地生成文本、理解图像和分析视频。

    ✨ 特点

    • 标准节点和高级节点:包含一个用于快速使用的简单 QwenVL 节点和一个可对生成进行精细控制的 QwenVL(高级)节点。
    • 预设和自定义提示:您可以从一系列便捷的预设提示中进行选择,也可以编写自己的提示以实现完全控制。
    • 多型号支持:轻松切换各种官方 Qwen-VL 型号。
    • 自动模型下载:模型会在首次使用时自动下载。
    • 智能量化:通过 4 位、8 位和 FP16 选项平衡 VRAM 和性能。
    • 硬件感知:自动检测 GPU 功能,防止与不兼容的型号(例如 FP8)发生错误。
    • 可复现生成:使用种子参数以获得一致的输出。
    • 内存管理:“保持模型加载”选项可将模型保留在 VRAM 中,以加快处理速度。
    • 图像和视频支持:接受单个图像和视频帧序列作为输入。
    • 强大的错误处理能力:针对硬件或内存问题提供清晰的错误消息。
    • 简洁的控制台输出:运行期间输出简洁明了的控制台日志。Flash -Attention v2 集成:可用时自动启用,以加快注意力层速度。Torch 编译优化:可选的 JIT 编译,use_torch_compile以提高吞吐量。 高级设备处理:自动检测 CUDA、Apple Silicon (MPS) 或 CPU;可手动覆盖。 动态内存强制执行:根据 VRAM 可用性自动调整量化级别。

    🚀 安装

    1. 将此仓库克隆到您的 ComfyUI/custom_nodes 目录:cd ComfyUI/custom\_nodes git clone https://github.com/1038lab/ComfyUI-QwenVL.git
    2. 安装所需的依赖项:cd ComfyUI/custom_nodes/ComfyUI-QwenVL pip install -r requirements.txt
    3. 重启ComfyUI。

    📥 下载模型

    首次使用时,模型将自动下载。如果您希望手动下载,请将其放置在 ComfyUI/models/LLM/Qwen-VL/ 目录中。

    模型关联
    Qwen3-VL-2B-指令下载
    Qwen3-VL-2B-思考下载
    Qwen3-VL-2B-指令-FP8下载
    Qwen3-VL-2B-思考-FP8下载
    Qwen3-VL-4B-指令下载
    Qwen3-VL-4B-思考下载
    Qwen3-VL-4B-指令-FP8下载
    Qwen3-VL-4B-思考-FP8下载
    Qwen3-VL-8B-指令下载
    Qwen3-VL-8B-思考下载
    Qwen3-VL-8B-指令-FP8下载
    Qwen3-VL-8B-思考-FP8下载
    Qwen3-VL-32B-指令下载
    Qwen3-VL-32B-思考下载
    Qwen3-VL-32B-指令-FP8下载
    Qwen3-VL-32B-思考-FP8下载
    Qwen2.5-VL-3B-指令下载
    Qwen2.5-VL-7B-指令下载

    📖 用法

    基本用法

    1. 从 🧪AILab/QwenVL 类别中添加“QwenVL”节点。
    2. 选择您要使用的模型名称。
    3. 将图像或视频(图像序列)源连接到节点。
    4. 您可以使用预设字段或自定义字段编写提示信息。
    5. 运行工作流程。

    高级用法

    如需更精细的控制,请使用“QwenVL(高级)”节点。该节点可让您访问详细的生成参数,例如温度、top_p、光束搜索和器件选择。

    ⚙️ 参数

    范围描述默认范围节点
    模型名称要使用的Qwen-VL模型。Qwen3-VL-4B-指令标准版和高级版
    量化即时量化。对于预量化模型(例如 FP8),此操作将被忽略。8 位(平衡)4 位、8 位、无标准版和高级版
    注意模式注意后端。auto如果可用,则尝试使用 Flash-Attn v2,否则回退到 SDPA。汽车自动、闪光灯_注意_2、SDPA标准版和高级版
    使用 torch 编译启用torch.compile('reduce-overhead')以提高 CUDA 吞吐量(Torch 2.1+)。仅限高级用户
    设备取消自动设备选择。汽车自动、CUDA、CPU仅限高级用户
    预设提示针对常见任务的一系列预定义提示。请描述一下……任何文本标准版和高级版
    自定义提示如果提供了预设提示,则覆盖该提示。任何文本标准版和高级版
    最大令牌数要生成的新代币的最大数量。102464-2048标准版和高级版
    保持模型加载将模型保存在显存中,以便后续运行速度更快。真的真/假标准版和高级版
    种子可重复结果的种子。11 – 2^64-1标准版和高级版
    温度控制随机性。数值越高,随机性越强。(当 num_beams 为 1 时使用)。0.60.1-1.0仅限高级用户
    顶部_p细胞核采样阈值。(当 num_beams 为 1 时使用)。0.90.0-1.0仅限高级用户
    光束数用于光束搜索的光束数量。大于 1 则禁用温度/top_p 采样。11-10仅限高级用户
    重复惩罚不鼓励重复使用令牌。1.20.0-2.0仅限高级用户
    帧数要从视频输入中采样的帧数。161-64仅限高级用户

    💡 量化选项

    模式精确内存使用情况速度质量推荐用于
    无(FP16)16 位浮点数高的最快最好的高显存显卡(16GB+)
    8 位(平衡)8位整数中等的快速地非常好均衡性能(8GB+)
    4 位(对显存友好)4位整数低的慢点*好的低显存显卡(<8GB)

    *关于 4 位速度的说明:4 位量化可以显著降低 VRAM 使用量,但由于实时反量化的计算开销,可能会导致某些系统的性能变慢。

    🤔 设置技巧

    环境推荐
    模型选择对于大多数用户来说,Qwen3-VL-4B-Instruct 是一个很好的起点。如果您使用的是 40 系列 GPU,请尝试使用 -FP8 版本以获得更好的性能。
    内存模式如果您计划多次运行该节点,请保持 keep_model_loaded 启用(True)以获得最佳性能。仅当其他节点的显存不足时才禁用它。
    量子化首先使用默认的 8 位模式。如果显存充足(>16GB),请切换到“无”(FP16)模式以获得最佳速度和质量。如果显存不足,请使用 4 位模式。
    表现首次使用特定量化方式加载模型时,速度可能会较慢。后续运行(启用 keep_model_loaded 参数)速度会快得多。

    🧠 关于模型

    该节点采用阿里云Qwen团队开发的Qwen-VL系列模型。这些强大的开源大型视觉语言模型(LVLM)旨在理解和处理视觉和文本信息,因此非常适合图像和视频详细描述等任务。

  • Custom_Nodes篇:ComfyUI-QwenVL3-image反推节点

    Custom_Nodes篇:ComfyUI-QwenVL3-image反推节点

    这是一个 ComfyUI 自定义节点,它集成了阿里巴巴的 Qwen3-VL-4B-Instruct-FP8 视觉语言模型。

    核心功能: 它的主要作用是分析输入的图像并生成相应的文本描述

    主要特点是高效运行,由于使用了 FP8 量化技术,该模型运行所需的显存较低,大约 10GB 左右。开发者提到,它适合用在图像放大的工作流程中,作为图像理解(“看懂”图片内容)的工具。需要注意的是,因为它依赖 FP8 技术,所以它有特定的硬件门槛,要求使用 NVIDIA RTX 4090 或计算能力更强的 GPU。简单来说,它是一个能帮你“读取”图片内容并将其转换成文字的工具节点,特别适合显存有限但又想使用先进视觉模型的用户(前提是你的 GPU 支持 FP8)。

    节点官方介绍:


    开源地址:https://github.com/yamanacn/ComfyUI-QwenVL3-image

    使用qwen3vl-4b快速分析图片内容,用于在放大中替代florence

    📖 简介

    一个为 ComfyUI 设计的自定义节点,集成了 Qwen3-VL-4B-Instruct-FP8 视觉语言模型,用于高效的图像理解和描述。

    ✨ 主要特性

    • 🚀 高效 FP8 量化:仅需约 10GB 显存
    • 📦 批量处理支持:一次处理多张图片
    • 💾 智能内存管理:可选模型保持加载,优化显存
    • 🔧 辅助工具链:提供文本分割、列表处理等节点

    📋 硬件要求

    • GPU: NVIDIA RTX 4090 或更高(计算能力 ≥ 8.9)
    • 显存: ≥ 10GB
    • 系统内存: 8GB+

    ⚠️ 重要提示: 此插件仅支持 FP8 量化模型,需要计算能力 8.9 或更高的 GPU。

    🔧 安装方法

    使用 Git Clone(推荐)

    cd ComfyUI/custom_nodes/
    git clone https://github.com/yamanacn/ComfyUI-QwenVL3-image.git
    cd ComfyUI-QwenVL3-image
    pip install -r requirements.txt

    使用 ComfyUI Manager

    1. 在 ComfyUI 中打开 Manager
    2. 搜索 “QwenVL3”
    3. 点击安装

    📦 模型下载

    模型会在首次使用时自动下载。你也可以从 HuggingFace 手动下载模型,并将其放置在 ComfyUI/models/Qwen/ 目录下。

    🎮 基础工作流

    对于批量处理,可连接 Text Batch Splitter 和 List Selector 节点来分别查看每张图片的描述。

    图片输入 → QwenVL3 Image (FP8) → 文本输出

  • Nunchaku Qwen Edit 2509!二次迭代后提升推理速度和低显存适配性

    Nunchaku Qwen Edit 2509!二次迭代后提升推理速度和低显存适配性

    Nunchaku Qwen-Edit 2509​​ 是阿里巴巴通义千问团队开发的AI图像编辑模型,基于 ​​Qwen-Image-Edit-2509​​ 架构,并通过 ​​Nunchaku​​ 技术优化,显著提升了推理速度和低显存适配性。其核心优势包括多图融合、高一致性编辑、原生ControlNet支持,以及中英文文本精准编辑能力,适用于电商、内容创作、个人修图等场景。

    性能优化与硬件适配​

    • 低显存需求​​:量化版本(如 svdq-int4_r128)仅需 ​​4GB显存​​,适合RTX 4060等中低端显卡。
    • ​加速技术​​:
      • ​4步/8步闪电版​​:Nunchaku的优化使推理速度提升50%,4步即可生成高质量结果。
      • ​RTX 4070 SUPER实测​​:4秒出图,显存占用低于6GB,效率远超传统模型。
      • 工作流集成​​:兼容ComfyUI,需替换默认UNet加载器为Nunchaku专用节点(如 双截棍千问图像DiT加载器
      • 模型下载​​:
      • •​​量化版​​:推荐 svdq-int4_r128(平衡速度与质量)。
      • •​​原版​​:需更高显存(FP8版本)。
      • •下载地址:Hugging Face或第三方整合包(含PS插件)

    这次nunchaku对qwen Edit2509再作一次迭代并加入了加速LORA lightx2v lighting,推出了4/8步的qwen Edit 2509版本模型。
    使用方法很简单。直接下载模型放UNET目录下重启加载这个模型就行。

    https://hf-mirror.com/nunchaku-tech/nunchaku-qwen-image-edit-2509/tree/main

    Nunchaku Qwen Edit 2509!二次迭代后提升推理速度和低显存适配性
    我这里下载4步svdq-int4_r128-qwen-image-edit-2509-lightningv2.0-4steps.safetensors
    基础的工作流如下:
    Nunchaku Qwen Edit 2509!二次迭代后提升推理速度和低显存适配性

    我们的看看4步svdq-int4_r128-qwen-image-edit-2509-lightningv2.0-4steps.safetensors的效果:

    •  
    两个女人在打架
    Nunchaku Qwen Edit 2509!二次迭代后提升推理速度和低显存适配性
    •  
    图1的女人坐在图2的咖啡厅喝咖啡
    Nunchaku Qwen Edit 2509!二次迭代后提升推理速度和低显存适配性

    加多一个角色 。

    •  
    图1的女人和图3的女人坐在图2的咖啡厅喝咖啡
    Nunchaku Qwen Edit 2509!二次迭代后提升推理速度和低显存适配性
    •  
    图1的女人手拿着图2的包包
    Nunchaku Qwen Edit 2509!二次迭代后提升推理速度和低显存适配性
    •  
    图2的女人摆出图1人物的姿势
    Nunchaku Qwen Edit 2509!二次迭代后提升推理速度和低显存适配性
    •  
    女人举起左手,伸出5只手指
    Nunchaku Qwen Edit 2509!二次迭代后提升推理速度和低显存适配性
    Nunchaku Qwen Edit 2509!二次迭代后提升推理速度和低显存适配性
    Nunchaku Qwen Edit 2509!二次迭代后提升推理速度和低显存适配性

    通过这些案例以及前面我们也跟nanoBanana作对比。

    目前qwen image Edit 2509是真的加强了。通过自然语言描述,就能轻松完成图像编辑的任务。

    文章来源:微信closerAI ComfyUI

  • Qwen Edit图像编辑模型带着2509版本!多图融合与一致性能力加强!

    Qwen Edit图像编辑模型带着2509版本!多图融合与一致性能力加强!

    Qwen-Image-Edit-2509 是阿里通义千问团队于2025年9月推出的开源图像编辑模型,作为Qwen-Image-Edit系列的月度迭代版本,其核心升级包括多图编辑支持、单图一致性增强及原生ControlNet支持。


    1. ​​多图编辑能力​

    • ​功能描述​​:支持1~3张输入图片的组合编辑,通过图像拼接技术实现自然融合,涵盖“人物+人物”“人物+商品”“人物+场景”等场景。例如生成闺蜜合照、结婚照或商品代言图,光影与细节处理高度统一。
    • •​​应用示例​​:
      • 将两张人物图片合成游乐园互动场景,保持面部特征不变;
      • 结合商品图与模特图生成电商海报,保留产品细节(如LOGO纹理)。

    2. ​​单图一致性增强​

    • ​人物编辑​​:优化面部ID保持能力,支持姿势变换(如双手举爱心)或风格转换(如二次元转真人),避免“P图感”。
    • ​商品编辑​​:修改颜色或背景时,确保产品特征(如材质、形状)不丢失,适合电商设计。
    • 文字编辑​​:除内容修改外,可调整字体、颜色、材质(如金属质感),精准适配海报或LOGO设计。

    3. ​​技术优化与兼容性​

    • ​ControlNet支持​​:原生集成深度图、边缘图、关键点图控制,例如通过姿势参考图调整人物动作。
    • 低配置适配​​:提供GGUF量化版(4G显存可用)和Nunchaku版(8G显存流畅运行),平衡性能与质量。
    • ​偏移修正方案​​:社区开发了局部重绘工具和专用Lora(如qwenedit-consistance V2),解决编辑后图像偏移问题。

    4. ​​应用场景​

    • ​创意设计​​:生成表情包、虚拟角色场景或文创产品合成图。
    • 商业用途​​:快速制作商品海报、模特展示图,降低拍摄成本。
    • 个人使用​​:证件照换装、老照片修复(自动补全破损区域并上色)。
    qwen Edit图像编辑模型发布最新迭代版本2509版本模型,加强了多图编辑能力与物体一致性的能力。可谓是目前最强的开源图像编辑模型。
    Qwen Edit图像编辑模型带着2509版本!多图融合与一致性能力加强!

    模型现在已出GGUF版本和nunchaku版本。

    官方版:https://huggingface.co/Qwen/Qwen-Image-Edit-2509

    GGUF版本:https://huggingface.co/QuantStack/Qwen-Image-Edit-2509-GGUF

    nunchaku版本:https://huggingface.co/nunchaku-tech/nunchaku-qwen-image-edit-2509

    安装与使用

    使用方法很简单,下载模型与更新comfyUI即可。

    1)下载模型:https://hf-mirror.com/Qwen/Qwen-Image-Edit-2509

    2)更新comfyUI版本。

    更新后,使用qwenEdit的基础工作流,主要是将TextEncodeQwenImageEditPlus重新加载下,如下图示。

    Qwen Edit图像编辑模型带着2509版本!多图融合与一致性能力加强!
    Qwen Edit图像编辑模型带着2509版本!多图融合与一致性能力加强!

    如果大家使用FP8版本,这个对设备要求高,请将K采样器的步数与CFG进行设置:步数40~50,CFG3~5

    Qwen Edit图像编辑模型带着2509版本!多图融合与一致性能力加强!

    执行后:

    Qwen Edit图像编辑模型带着2509版本!多图融合与一致性能力加强!

     

    我建议中低配置的使用GGUF版本。因为可以接合加速LORA一起使用

    Qwen Edit图像编辑模型带着2509版本!多图融合与一致性能力加强!
    Qwen Edit图像编辑模型带着2509版本!多图融合与一致性能力加强!

     

    与nanoBanana的对比

    qwenEdit 2509 两个女人在打架

    Qwen Edit图像编辑模型带着2509版本!多图融合与一致性能力加强!
    Qwen Edit图像编辑模型带着2509版本!多图融合与一致性能力加强!
    nanoBanana 两个女人在打架
    Qwen Edit图像编辑模型带着2509版本!多图融合与一致性能力加强!
    Qwen Edit图像编辑模型带着2509版本!多图融合与一致性能力加强!

    qwenEdit 2509 姿势参考

    Qwen Edit图像编辑模型带着2509版本!多图融合与一致性能力加强!
    nanoBanana 姿势参考
    Qwen Edit图像编辑模型带着2509版本!多图融合与一致性能力加强!

    qwenEdit 2509  提取出人物的衣物形成穿搭衣物的平铺摄影图

    Qwen Edit图像编辑模型带着2509版本!多图融合与一致性能力加强!

    nanoBanana提取出人物的衣物形成穿搭衣物的平铺摄影图

    Qwen Edit图像编辑模型带着2509版本!多图融合与一致性能力加强!

    qwenEdit 2509  提取出人物的衣物形成穿搭衣物的平铺摄影图

    Qwen Edit图像编辑模型带着2509版本!多图融合与一致性能力加强!

    nano Banana 提取出衣物的印花图案并完整无缝平铺展示

    Qwen Edit图像编辑模型带着2509版本!多图融合与一致性能力加强!
     

    qwenEdit 2509  图1的女人穿上图2所有衣物形成穿搭展示

    Qwen Edit图像编辑模型带着2509版本!多图融合与一致性能力加强!

    nanoBanana 女人穿搭上右边所有衣物形成穿搭展示图,全身照

    Qwen Edit图像编辑模型带着2509版本!多图融合与一致性能力加强!
     
    通过对比,可见qwenEdit 2509的能力确实不错。
    最后,本地部署,建议使用GGUF版本的因为可使用4步加速更好地得出结果,因为nunchaku暂时不支持LORA。

    Qwen-Image-Edit-2509凭借其多模态融合能力和高一致性控制,成为当前开源图像编辑领域的标杆工具,尤其适合需要精细控制与创意表达的场景

    文章来源:微信closerAI ComfyUI

  • BlackForest官方Kontext单图编辑提示词指南

    BlackForest官方Kontext单图编辑提示词指南

    FLUX.1 Kontext 这让编辑图片变得非常简单!只需指定你想修改的内容,模型就会自动完成操作。它能够理解图片的上下文,因此无需详细说明具体修改要求,就能轻松地进行编辑。

    最大提示令牌数为 512 个token。

    基本对象修改

    FLUX.1 Kontext 它非常擅长直接修改对象属性。例如,如果我们想改变某个对象的颜色,就可以向它发出指令。

    Input image of a yellow car
    Output image: Yellow car changed to red

    精准高效:从基础到全面

    一般来说,如果每次编辑所需的指令数量不是太复杂的话,让事情表达得更明确一些总是没有坏处的。
    如果你想对图片进行更多修改,那么在给出指令时应该更加明确具体,以确保得到你想要的结果。

    快速编辑

    虽然使用非常简单的提示可能会产生一些不错的效果,但这也可能会改变输入图像的风格。

    提示: “改为白天模式”

    Prompt: “Change to daytime”

    Input image: Painting of a nighttime street scene
    Output 1: Street scene changed to daytime, style altered
    Output 2: Street scene changed to daytime, different style alteration

    受控编辑

    如果我们在提示中添加更多指令,就能得到与输入图像非常相似的结果。

    提示: “将绘画风格保持不变,但将创作时间改为白天。”

    Prompt: “Change to daytime while maintaining the same style of the painting”

    Input image: Painting of a nighttime street scene
    Output image: Street scene changed to daytime, original painting style maintained

    复杂变换

    如果你想对输入图像进行多处修改,通常情况下,只要每次修改的操作步骤不太复杂,就应该尽可能添加更多细节。

    提示: 将场景设置为白天,添加许多在人行道上行走的人,同时保持画作的原有风格。

    Prompt: “change the setting to a day time, add a lot of people walking the sidewalk while maintaining the same style of the painting”

    Input image: Painting of an empty nighttime street, same as quick_edit_input.jpg
    Output image: Street scene changed to daytime with people, original painting style maintained

    风格迁移

    使用提示

    在处理风格转换相关任务时,请遵循以下原则:

    1. 请明确具体的风格:不要使用诸如“让它具有艺术感”这样的模糊表述,而要准确说明你想要的风格(例如“转换为包豪斯艺术风格”、“改成水彩画风格”)。
    2. 提及已知的艺术家或艺术流派:为了获得更精确的结果,请加入可识别的风格参考(如“文艺复兴时期的绘画风格”“类似20世纪60年代的波普艺术海报”)。
    3. 详细说明关键特征 如果给这种风格命名不起作用,那么描述一下构成该风格的视觉元素或许会更有帮助:

    “将其转化为油画效果,呈现出明显的笔触、厚实的颜料质感以及丰富的色彩层次。”

    • Transform to oil painting with visible brushstrokes, thick paint texture, and rich color depth
    1. 珍惜那些重要的东西。 明确指出哪些要素不应发生变化:

    “将艺术风格改为包豪斯风格,同时保持原有的构图和物体摆放方式。”

    • “Change to Bauhaus art style while maintaining the original composition and object placement”
    Input image: Symmetrical architectural photo

    转换为铅笔画 Converted to pencil sketch

    Output image: Architectural photo converted to pencil sketch

    被转化为油画形式 Transformed to oil painting

    Output image: Architectural photo transformed into an oil painting

    使用输入图像

    你还可以使用输入的图像作为风格参考来生成新的图像。例如,使用以下提示:

    “Using this style, a bunny, a dog and a cat are having a tea party seated around a small white table”
    “用这种风格描绘的话,一只兔子、一只狗和一只猫围坐在一张白色的小桌子旁,正在举行茶会。”

    我们得到:

    Input image for style reference 1: Stylized image
    Output image using style from reference 1: Tea party
    Input image for style reference 2: Different stylized image
    Output image using style from reference 2: Tea party
    Input image for style reference 3: Yet another stylized image
    Output image using style from reference 3: Tea party

    将图像转换为不同的风格

    FLUX.1 Kontext 它允许你以富有创意的方式对图片进行修改。在下面的例子中,我们将照片重新设计成不同的视觉风格,并为其添加了各种不同的元素或效果。

    如果你的目标是大幅改变输入图像,那么通常最好按照以下步骤逐步进行。

    Input image: Photo of a person

    重新设计为黏土动画风格 Restyled to Claymation

    Output image: Person restyled into Claymation style

    角色正在捡杂草 Character picking up weeds

    Output image: Claymation character picking up weeds in a garden

    在保持角色一致性的前提下,使用提示进行迭代式编辑

    FLUX.1 Kontext 该角色在形象一致性方面表现出色,即使经过多次修改后依然如此。从参考图片可以看出,该角色在整个动画序列中的形象始终如一。每次修改所使用的提示信息都标注在每张图片下方的字幕中。

    Input image: Woman

    把那个东西从她脸上拿开。 Remove the object from her face

    Output image: Woman taking a selfie in Freiburg

    她现在正在弗赖堡的街道上自拍,今天真是外出游玩的好日子。

    She is now taking a selfie in the streets of Freiburg, it’s a lovely day out.

    Output image: Item removed from woman's face

    现在下雪了,一切都覆盖在雪层之下。

    It’s now snowing, everything is covered in snow.

    Output image: Scene with woman now covered in snow

    为了保持角色的一致性,你可以遵循这个框架,在多次编辑中保持同一个角色的形象不变:

    1. 确定参考依据 首先,要清楚地确定你的角色。
      • “这个人……” 或者 “那个留着黑色短发的女人……”
    2. 指定转换方式。 明确说明哪些方面正在发生变化。
      • 环境:“……现在是在一个热带海滩的场景中”
      • 活动:“……现在正在花园里除草。”
      • 风格:“在保持人物不变的前提下,将其转化为黏土动画风格。”
    3. 保留身份标识信息 明确指出哪些方面应保持一致。
      • “……同时保持相同的面部特征、发型和表情”
      • “……保持相同的身份和个性”
      • “……保持它们独特的外观”

    常见的错误使用诸如“她”这样的模糊表述,而不是“那个黑发短发的女人”。

    文本编辑

    FLUX.1 Kontext 可以直接编辑图片中出现的文本,从而轻松更新标志、海报、标签等,而无需重新制作整个图片。

    编辑文本最有效的方法是在你想修改的具体文本周围加上引号。

    提示结构Replace '[original text]' with '[new text]'

    示例 –如下所示,我们有一张输入图像,上面写着“Choose joy”(选择快乐),我们将“joy”替换为“BFL”——请注意“BFL”是大写形式的。

    Example – We can see below where we have an input image with “Choose joy” written, and we replace “joy” with “BFL” – note the upper case format for BFL.

    Input image: Sign saying 'Choose joy'

    JOY 被 BFL 取代了 JOY replaced with BFL

    Output image: Sign changed to 'Choose BFL'

    Input image:

    Sync & Bloom 更改为 “FLUX & JOY” Sync & Bloom changed to ‘FLUX & JOY’

    Output image: Text replaced with 'FLUX & JOY'
    Input image: Montreal Winter Sports

    将“MONTREAL”替换为“FREIBURG” ‘MONTREAL’ replaced with ‘FREIBURG’

    Output image: Montreal replaced to 'FLUX'

    文本编辑最佳实践

    • 尽可能使用清晰、易读的字体。复杂或风格化的字体可能更难以编辑。
    • 在需要时指定保留内容。例如:“将‘joy’替换为‘BFL’,同时保持相同的字体样式和颜色”。
    • 保持文本长度大致一致——文本长度过长或过短都可能影响布局效果。

    视觉线索

    也可以使用视觉提示来指导模型进行编辑的位置。当您希望对图像的特定区域进行有针对性的修改时,这种方法尤其有用。通过提供视觉标记或参考点,您可以引导模型关注这些特定区域。

    示例:“在盒子里加上帽子”

    Example:: “Add hats in the boxes”

    Input image:
    Output image: Add hats in the boxes

    当结果与预期不符时

    通用故障排除技巧

    如果模型正在修改某些你希望保持不变的元素,请在提示中明确说明需要保留这些元素。例如:“其他所有事情都应保持非黑即白的简单状态。”或者“保持原始图像的所有其他方面不变.”

    角色身份的变化实在太大。

    在对一个人进行形象改造(如更换他们的服装、改变其风格或所处的环境)时,如果提示不够具体,就很容易让他们原本独特的身份特征被忽略或改变。

    示例:“将这个人变成一名维京战士,同时保留他原有的面部特征、眼睛颜色和面部表情。”

    试着更具体地描述那些身份标识特征(“保持完全相同的面部特征、发型以及独特的面部细节”)。

    • Example: “Transform the man into a viking warrior while preserving his exact facial features, eye color, and facial expression”
    • 示例:“将这个人变成一名维京战士,同时保留他原有的面部特征、眼睛颜色和面部表情。”

    Input image: Man

    模糊的提示结果

    Output image (vague prompt): Man transformed into a Viking, identity changed

    详细的提示结果

    Output image (detailed prompt): Man transformed into a Viking, identity preserved

    聚焦的提示结果

    Output image (focused prompt): Man's clothes changed to Viking warrior style, identity perfectly preserved

    模糊的提示取代了身份认同。

    提示:“将这个人变成维京人” → 完全替换面部特征、发型和表情

    • Prompt: “Transform the person into a Viking” → Complete replacement of facial features, hair, and expression

    详细的提示有助于保护个人身份信息:

    提示:“将这个人变成一名维京战士,同时保留他原有的面部特征、眼睛颜色和面部表情。” → 在改变外在形象的同时,仍保留其核心身份特征。

    • Prompt: “Transform the man into a viking warrior while preserving his exact facial features, eye color, and facial expression” → Maintains core identity while changing context

    有针对性的提示只会改变真正需要改变的部分。

    提示:“将衣服换成维京战士的服装” → 在仅修改指定元素的情况下,保持角色的完整身份特征。

    • Prompt: “Change the clothes to be a viking warrior” → Keeps perfect identity while only modifying the specified element

    为什么会这样发生?动词“transform”在没有附加修饰语的情况下,通常表示“使……发生彻底变化”或“将……转变为另一种形态”。上下文;背景需要彻底做出改变。如果你希望保留原作的某些特定元素,在这种情况下使用其他词汇可能会更有帮助。

    成分控制

    在编辑背景或场景时,你通常希望主体保持完全相同的姿态、比例和位置。不过,一些简单的提示有时会改变其中某些方面。简单的提示导致了不必要的变化:

    提示:“他现在正在阳光明媚的海滩上” → 主语位置的变化及视角的转换

    提示:“把他放在海滩上” → 相机角度和构图发生变化

    • Prompt: “He’s now on a sunny beach” → Subject position and scale shift
    • Prompt: “Put him on a beach” → Camera angle and framing change
    Input image: Person standing

    简单的海滩主题提示

    Output image (simple prompt 'on a sunny beach'): Subject position and scale shifted

    开启海滩模式提示

    Output image (simple prompt 'put him on a beach'): Camera angle and framing changed

    精确的提示能确保物体保持准确的位置。

    提示:“将背景更换为海滩,同时保持人物的位置、大小和姿势不变。保持主体位置、拍摄角度、构图和视角完全一致,只需更换人物周围的环境。” → 这样能更好地保留主体特征。

    • Prompt: “Change the background to a beach while keeping the person in the exact same position, scale, and pose. Maintain identical subject placement, camera angle, framing, and perspective. Only replace the environment around them” → Better preservation of subject
    Input image: Person standing (for precise background change)

    精确的定位结果

    Output image (precise prompt): Background changed to beach, subject position preserved

    为什么会这样发生?像这样的模糊指令……“把他放在海滩上”留给解释的空间太大。上下文;背景可能会选择:

    重新调整拍摄对象的位置,使其更适应新的环境。

    调整画面构图,使其与典型的海滩照片相匹配。

    改变摄像机的角度,以便展示更多的海滩景色。

    • Adjust the framing to match typical beach photos
    • Change the camera angle to show more of the beach
    • Reposition the subject to better fit the new setting

    样式没有正确应用。

    在应用某些样式时,简单的提示可能会导致结果不一致,或者丢失原始作品中的重要元素。我们可以在……中看到这一点。上面的例子.

    基本的风格提示可能会遗漏一些重要的元素:

    提示:“将其制作成草图” → 在应用艺术风格的过程中,一些细节会丢失。

    Prompt: “Make it a sketch” → While the artistic style is applied, some details are lost.

    精确的风格提示有助于保持文章的结构清晰。

    提示:“将其转换为使用天然石墨线条、交叉排线以及可见纸张质感的铅笔画。” → 在应用这种风格的同时保留原场景的细节。在背景中可以看到更多细节,图像中还出现了更多的汽车。

    • Prompt: “Convert to pencil sketch with natural graphite lines, cross-hatching, and visible paper texture” → Preserves the scene while applying the style. You can see more details in the background, more cars are also appearing on the image.
    Input image: Street scene photo

    基础素描创作提示

    Output image (basic sketch prompt): Street scene as sketch, some details lost

    精确的素描创作提示

    Output image (precise sketch prompt): Street scene as detailed pencil sketch

    最佳实践总结

    谨慎选择动词:“Transform”可能意味着彻底的改变,而“change the clothes”或“replace the background”则能让你更好地掌控实际发生的变化内容。

    要具体明确:准确的语言能带来更好的效果。使用确切的色彩名称、详细的描述以及清晰的动词,而非含糊不清的表述。

    从简单开始:先进行核心内容的修改,再逐步增加复杂性。先测试基本的编辑效果,然后在成功的基础上进行进一步优化。Kontext系统能够很好地支持迭代编辑功能,充分利用这一特性吧。

    有意进行保留:明确说明哪些内容应保持不变。使用诸如“在保持原有[面部特征/构图/光线效果]不变的前提下”之类的表述,以保护重要的元素。

    在需要时进行迭代:复杂的转换通常需要多个步骤。将重大变更分解为一系列有序的编辑操作,以便更好地控制整个过程。

    直接指明对象:使用“那个黑发短发的女人”或“那辆红色的汽车”,而不是用“她的”、“它”或“这个”这样的代词,这样表达会更清晰。

    使用引号来标注文本:请引用您想要修改的准确内容:使用“Replace 'joy' with 'BFL'”比使用一般的文字描述效果更好。

    明确控制构图:在更改背景或设置时,指定“保持相同的摄像机角度、位置和构图”,以防止不必要的重新定位。

  • 环境篇:加载ComfyUI出现WARNING: Failed to find MSVC解决方案

    环境篇:加载ComfyUI出现WARNING: Failed to find MSVC解决方案

    ComfyUI 提示 “WARNING: Failed to find MSVC” 通常是因为缺少 Microsoft Visual C++ 的编译环境,或者环境变量配置不正确。解决这个问题的核心是确保 ComfyUI 能识别到 MSVC 的相关路径。

    🔧 ​​配置环境变量的注意事项​​:

    • •​​路径真实性​​:表格中的 \<version> 和 \<sdk_version> 需要替换为你电脑上​​实际的版本号​​。请务必在文件资源管理中确认路径是否存在。
    • •​​权限问题​​:有时即使路径正确,权限不足也可能导致问题。可以尝试​​以管理员身份​​运行命令提示符或你的集成开发环境(IDE)。
    • •​​修改生效​​:修改环境变量后,通常需要​​重启命令行窗口或IDE​​,有时甚至需要​​重启电脑​​才能生效。
    • •​​更简单的方法​​:对于 MSVC,最可靠的方法是通过 Visual Studio 自带的 ​​“Developer Command Prompt”​​ 来运行 ComfyUI 或执行编译命令。这个命令提示符会在启动时自动运行一个批处理脚本(如 vcvarsall.bat 或 VsDevCmd.bat),为你设置好所有复杂的环境变量。你可以在开始菜单中找到它(例如 “Developer Command Prompt for VS 2022″)。

    首先,你需要确认是否已经安装了包含 ​​MSVC​​ 的 ​​Visual Studio​​ 或 ​​Visual C++ Build Tools​​ 组件。

    • •​​安装 Visual Studio 2022​​:
      • •访问 Visual Studio 官网 下载 Visual Studio 2022 Community(免费版本)。
      • •运行安装程序,在 ​​”工作负载”​​ 页面中,​​务必勾选“使用 C++ 的桌面开发”​​。
      • •在右侧的 ​​”安装详细信息”​​ 中,请确保至少勾选了 ​​”MSVC v143 生成工具”​​ 和合适版本的 ​​Windows 10/11 SDK​​(例如 10.0.22621.0)1。勾选 ​​“C++ CMake 工具”​​ 通常也有帮助。
      • •完成安装。
    环境篇:加载ComfyUI出现WARNING: Failed to find MSVC解决方案

    这样,我们就成功安装并配置了msvc。

    ► 编译器与运行时环境

    选择安装MSVC v143,即VS 2022的C++ x64与x86生成工具,以确保获取最新版本。安装完成后,在“生成工具”和“运行时”环境中,选择相应的版本以便在项目中使用。

    环境篇:加载ComfyUI出现WARNING: Failed to find MSVC解决方案

    正常来讲VS的服务器地址是在国外,我们国内下载会速度会很慢很慢。这个时候只有把代理改成全局,才能加速下载。

    配置环境变量

    环境变量名主要作用典型值示例 (请根据你的实际安装路径修改)
    ​Path​让系统能找到 cl.exelink.exe 等工具C:\Program Files\Microsoft Visual Studio\2022\Community\VC\Tools\MSVC\<version>\bin\Hostx64\x64
    ​INCLUDE​告诉编译器去哪里查找头文件 (.h)C:\Program Files\Microsoft Visual Studio\2022\Community\VC\Tools\MSVC\<version>\include;C:\Program Files (x86)\Windows Kits\10\Include\<sdk_version>\ucrt;...
    ​LIB​告诉链接器去哪里查找库文件 (.lib)C:\Program Files\Microsoft Visual Studio\2022\Community\VC\Tools\MSVC\<version>\lib\x64;C:\Program Files (x86)\Windows Kits\10\Lib\<sdk_version>\ucrt\x64;...

    MSVC 的正常运行依赖于一系列环境变量。如果 ComfyUI 无法自动检测到,可能需要手动配置。

    • •​​关键环境变量​​:主要需要配置 PATHINCLUDELIB。这些变量需要指向你 MSVC 安装目录和 Windows SDK 目录下的相应文件夹。
      • •​PATH​:需要添加 MSVC 编译器 cl.exe 所在的目录,例如:
        C:\Program Files\Microsoft Visual Studio\2022\Community\VC\Tools\MSVC\<version>\bin\Hostx64\x64
        和 Windows SDK 的 bin 目录,例如:
        C:\Program Files (x86)\Windows Kits\10\bin\10.0.20348.0\x64 (请将版本号替换为你实际的版本)。
      • •​INCLUDE​:需要指向头文件所在目录,通常包括 MSVC 的 include 目录和 Windows SDK 的多个 Include 子目录(如 ucrtsharedumwinrt 等)。
      • •​LIB​:需要指向库文件所在目录,通常包括 MSVC 的 lib\x64 目录和 Windows SDK 的 Lib 目录下的 ucrt\x64 和 um\x64 等。
    • •​​配置方法​​:
      • •在 Windows 搜索栏输入“环境变量”,选择“编辑系统环境变量”。
      • •在“系统变量”部分,找到并编辑 Path 变量,添加上述 PATH 中的路径。
      • •同样在“系统变量”部分,​​新建​​变量 INCLUDE 和 LIB,并将对应的路径填入(多个路径间用英文分号 ; 分隔)。
      • •​​注意​​:请务必将所有路径中的 <version> 替换为你实际安装的版本号(例如 14.36.32532),并且确认 Windows SDK 的版本号(例如 10.0.22621.0)与你安装的版本一致。
    环境篇:加载ComfyUI出现WARNING: Failed to find MSVC解决方案

    对path进行编辑

    环境篇:加载ComfyUI出现WARNING: Failed to find MSVC解决方案

    完成后,重启电脑。

    再打开COMFYUI这个时候,WARNING: Failed to find MSVC.就没有了

  • AI绘画不止WebUI:如何用ComfyUI实现极致控制与高效生成?​

    AI绘画不止WebUI:如何用ComfyUI实现极致控制与高效生成?​

    ComfyUI 是一款基于​​节点式工作流​​(Node-based Workflow)的开源 AI 图像生成工具,专为 ​​Stable Diffusion​​ 等扩散模型设计。ComfyUI 是一款基于 ​​节点式工作流(Node-based Workflow)​​ 的 Stable Diffusion 图形用户界面(GUI),它通过将图像生成流程拆解为可自由连接和配置的模块化节点,为用户提供了前所未有的​​灵活性、可控性和可复现性​

    AI绘画不止WebUI:如何用ComfyUI实现极致控制与高效生成?​

    它允许用户通过拖拽和连接不同的功能模块(节点)来构建可视化的图像生成流程,实现了高度定制化和灵活可控的 AI 创作体验。下面我将从多个角度为你系统介绍 ComfyUI。ComfyUI 的核心在于其​​模块化​​和​​可视化​​的工作流设计,这与传统的 WebUI(如 AUTOMATIC1111)的表单式操作有根本区别。

    🧠 一、核心特点与设计理念

    ComfyUI 的核心在于其​​模块化​​和​​可视化​​的工作流设计:

    • •​​高度灵活与可控​​:用户可以直接调整每个生成步骤的参数,精确控制图像生成的各个环节,甚至构建非常复杂或特殊的工作流。
    • •​​强大的扩展性​​:支持丰富的插件和自定义脚本(如 ControlNet、LoRA、IP-Adapter等),社区不断贡献新节点和功能。
    • •​​节点式操作(Node-Based)​​:所有功能被拆解为独立节点(如加载模型、输入提示词、设置采样器等),用户通过拖拽和连接这些节点来构建完整流程。这种方式让整个生成过程变得透明,易于理解和调试。
    • •​​高性能与低显存占用​​:ComfyUI 进行了多项优化,例如​​懒加载(Lazy Evaluation)​​,即只有工作流中发生变化的节点才会被重新执行,这大大节省了计算资源和时间。其显存需求通常低于同类工具,使得​​显存≥8GB的消费级显卡​​也能获得良好体验。
    • •​​强大的扩展性​​:支持丰富的自定义节点(Custom Nodes)和插件,社区不断贡献新功能(如 ControlNet、IP-Adapter、AnimateDiff等),使其能力边界持续扩展。
    • •​​工作流的可复现与共享​​:任何生成流程都可以保存为 .json文件或直接嵌入输出图片的元数据中。这意味着你可以轻松分享你的完整创作流程,他人导入后可以完全复现你的结果,这对于协作和研究至关重要。
    • •​​活跃的开源社区​​:拥有一个由开发者和爱好者组成的活跃社区,不断推动其发展,分享工作流、教程和资源。
    AI绘画不止WebUI:如何用ComfyUI实现极致控制与高效生成?​

    🔄 二、ComfyUI 与 Stable Diffusion WebUI 的对比

    了解 ComfyUI 时,常会将其与 AUTOMATIC1111 的 Stable Diffusion WebUI 进行比较:

    ​对比维度​​ComfyUI​​Stable Diffusion WebUI (AUTOMATIC1111)​
    ​界面与交互​节点式流程图,类似编程,​​学习曲线稍陡峭​传统网页布局,按钮与表单操作,​​对新手更友好​
    ​灵活性与控制力​​极高​​,可自由构建和调整复杂工作流相对固定,灵活性较低
    ​硬件需求(显存)​​相对较低​​(例如6GB显存可运行基础模型)相对较高(推荐12GB+显存)
    ​功能扩展​插件生态快速增长插件生态非常成熟和丰富
    ​适用场景​技术研究、流程自动化、批量生成、追求极致控制快速创作、单次生成、初学者入门

    🛠️ 三、核心概念与工作流原理

    要理解 ComfyUI,需要了解其几个核心概念:

    • •​​节点(Nodes)​​:构成工作流的基本单元,每个节点执行特定任务(如 KSampler采样器, CLIPTextEncode文本编码器, VAEDecode解码器等)。
    • •​​工作流(Workflow)​​:由节点通过输入输出接口连接而成的有向无环图(DAG),定义了图像生成的完整管道7。工作流可以保存为 .json文件,方便分享和复用。
    • •​​潜空间(Latent Space)​​:Stable Diffusion 的核心工作原理之一。大部分计算在低维的潜空间中完成,最后由 VAE 解码器转换为像素空间的高清图像。这大大节省了计算资源和内存。

    一个典型的文生图(txt2img)工作流逻辑通常从左向右执行:

    加载模型-> CLIP文本编码器(处理提示词)-> 生成初始潜在噪声-> 采样器(在潜空间中去噪)-> VAE解码器(潜空间转像素空间)-> 保存图像

    📥 四、安装与入门指南

    ComfyUI 的安装方式多样,以下是常见方法:

    1. ​通过 Git 克隆(推荐)​​:这种方式便于后续更新。
    # 克隆官方仓库
    git clone https://github.com/comfyanonymous/ComfyUI.git[4,7](@ref)
    cd ComfyUI
    # 创建并激活Python虚拟环境(可选但推荐)
    # 安装依赖包
    pip install -r requirements.txt[4](@ref)
    1. 完成后,运行 python main.py启动,默认在浏览器中打开 http://127.0.0.1:81885。
    2. ​使用秋叶启动器等整合包​​:针对 Windows 用户,国内开发者秋叶等制作的整合包解压即用,内置了常用插件和依赖,对新手非常友好。请注意从可信来源获取。
    3. ​桌面应用(Beta)​​:ComfyUI 团队正在开发一键安装的桌面版程序,旨在进一步降低安装门槛。

    ​安装后,你需要下载模型文件​​(如 .safetensors格式的 Stable Diffusion 大模型、VAE、LoRA 等),并放置在 ComfyUI 目录下对应的 models子文件夹中(如 checkpointslorasvae)。

    🚀 五、应用场景

    ComfyUI 的灵活性使其适用于多种高级应用场景:

    • •​​艺术创作​​:通过精细控制工作流,生成独特风格的艺术作品。
    • •​​概念设计​​:快速生成和迭代不同风格、主题的图像,辅助创意开发。
    • •​​图像超分辨率与修复​​:构建包含放大和修复节点的流程提升图像质量。
    • •​​风格迁移​​:利用特定节点或模型实现图像风格转换。
    • •​​AI研究与实验​​:其模块化特性非常适合研究人员设计和测试新的生成流程或算法。
    • •​​视频生成​​:通过与 AnimateDiff 等插件结合,可以生成连贯的视频序列。

    以下是COMFY官方在GITHUB的部分自述:

    特色

    工作流程示例可以在示例页面上找到。

    发布流程

    ComfyUI遵循每周一次的发布周期,通常在周五发布,但由于模型更新或代码库的重大修改,这一时间安排会经常发生变化。该项目有三个相互关联的代码仓库:

    1. ComfyUI Core
      • 发布一个新的稳定版本(例如,v0.7.0)
      • 这是桌面版本发布的基础。
    2. ComfyUI桌面版
      • 使用最新的稳定核心版本构建新的发布版本。
    3. ComfyUI 前端
      • 每周的前端更新都会合并到核心代码库中。
      • 即将发布的核心版本中,各项功能将保持不变(即不会进行修改或更新)。
      • 下一个发布周期的开发工作仍在继续。

    快捷方式

    按键绑定解释;说明
    Ctrl + Enter将当前图表排队以进行生成
    Ctrl + Shift + Enter将当前图表排在生成序列的首位。
    Ctrl + Alt + Enter取消当前一代产品
    Ctrl + Z/Ctrl + Y撤销/重做
    Ctrl + S保存工作流程
    Ctrl + O加载工作流程
    Ctrl + A选择所有节点
    Alt C折叠/展开选中的节点
    Ctrl + M静音/取消静音选中的节点
    Ctrl + B绕过选定的节点(相当于将该节点从图中移除,然后重新连接相关线路)
    Delete/Backspace删除选中的节点
    Ctrl + Backspace删除当前图表
    Space在手持画布并移动光标时,可以调整画布的位置。
    Ctrl/Shift + Click将已点击的节点添加到选择集中
    Ctrl + C/Ctrl + V复制并粘贴选中的节点(但不保留与未选中节点输出的连接)
    Ctrl + C/Ctrl + Shift + V复制并粘贴选定的节点(同时保持未选定节点的输出与被粘贴节点的输入之间的连接)
    Shift + Drag同时移动多个选中的节点
    Ctrl + D加载默认图表
    Alt + +在画布上放大显示
    Alt + -在画布上缩小显示范围
    Ctrl + Shift + 左键鼠标 + 向下拖动画布缩放(放大/缩小)
    P固定/取消固定选定的节点
    Ctrl + G选定的节点组
    Q切换队列的可见性
    H切换历史记录的显示/隐藏状态
    R刷新图表
    F显示/隐藏菜单
    .将视图调整以适应所选内容(当未选择任何内容时显示整个图表)
    双击左鼠标按钮打开节点快速搜索调色板
    Shift + 拖动同时移动多根电线
    Ctrl + Alt + 左键鼠标将所有电线从所连接的插槽中拔出。

    对于 macOS 用户来说,Ctrl 也可以被 Cmd 替代。

    安装

    Windows Portable

    有一个适用于 Windows 的便携式独立版本,可以在 发布页面 上找到。该版本既可以在 Nvidia 显卡上运行,也可以仅通过 CPU 运行。

    直接下载链接

    只需下载文件,使用7-Zip解压后运行即可。请确保将您的Stable Diffusion检查点/模型文件(即那些庞大的ckpt/safetensors文件)放入以下路径:ComfyUI\models\checkpoints。

    如果你提取文件有困难,可以右键点击该文件 -> 属性 -> 解锁。

    我该如何在另一个用户界面(UI)和ComfyUI之间共享模型?

    请参阅配置文件,以设置模型的搜索路径。在独立的Windows构建版本中,您可以在ComfyUI目录中找到该文件。将此文件重命名为extra_model_paths.yaml,并使用您喜欢的文本编辑器对其进行编辑。

    comfy-cli

    你可以使用 comfy-cli 来安装并启动 ComfyUI:

    pip install comfy-cli
    comfy install

    手动安装(Windows、Linux)

    Python 3.13得到了很好的支持。如果你在某些自定义节点依赖方面遇到问题,可以尝试使用3.12版本。

    使用 Git 克隆这个仓库。

    将你的 SD 检查点文件(即那些庞大的 checkpoint/safetensors 文件)放在以下路径:models/checkpoints

    将你的变分自编码器(VAE)放入:models/vae

    AMD显卡(仅适用于Linux系统)

    AMD用户如果还没有安装rocm和pytorch,可以通过pip来安装。以下是安装稳定版本的命令:

    pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/rocm6.4

    这是用于安装带有 ROCm 6.4 的 nightly 版本的命令,该版本可能具备一些性能提升。

    pip install --pre torch torchvision torchaudio --index-url https://download.pytorch.org/whl/nightly/rocm6.4

    英特尔显卡(适用于Windows和Linux系统)

    (选项1)Intel Arc GPU用户可以使用pip安装支持torch.xpu的原生PyTorch。更多信息请参见此处

    1. 要安装 PyTorch XPU,请使用以下命令:

    pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/xpu

    这是用于安装 Pytorch xpu nightly 版本的命令,该版本可能具备一些性能提升。

    pip install --pre torch torchvision torchaudio --index-url https://download.pytorch.org/whl/nightly/xpu

    (选项2)或者,支持 Intel Extension for PyTorch(IPEX)的英特尔 GPU 可以利用 IPEX 来提升性能。

    1. 访问安装指南以获取更多信息。

    英伟达

    Nvidia用户应使用以下命令安装稳定的PyTorch版本:

    pip install torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu129

    这是用于安装 nightly 版 PyTorch 的命令,该版本可能在性能上有所提升。

    pip install --pre torch torchvision torchaudio --index-url https://download.pytorch.org/whl/nightly/cu129

    故障排除

    如果你遇到“Torch未使用CUDA编译”错误,可以使用以下命令卸载torch:

    pip uninstall torch

    然后使用上述命令再次安装它。

    依赖项

    通过在 ComfyUI 文件夹内打开终端并执行以下命令来安装依赖项:

    pip install -r requirements.txt

    完成这些步骤后,你应该已经安装好了所有所需的内容,接下来就可以运行 ComfyUI 了。

    其他:

    苹果Mac电脑所使用的硅芯片

    你可以在搭载苹果M1或M2芯片的Mac电脑上,使用任何最新版本的macOS来安装ComfyUI。

    1. 安装 nightly 版本的 PyTorch。有关说明,请阅读 在 Mac 上加速 PyTorch 训练 的 Apple 开发者指南(确保安装最新版本的 nightly PyTorch)。
    2. 请按照ComfyUI手动安装指南中的说明,在Windows和Linux系统上进行操作。
    3. 安装 ComfyUI依赖关系;从属关系如果你有另一个Stable Diffusion用户界面……你或许可以重新使用这些依赖项。.
    4. 通过运行 python main.py 来启动 ComfyUI。

    注意:请按照ComfyUI 手动安装中的说明,将您的模型、VAE、LoRAs 等文件添加到相应的 Comfy 文件夹中。

    DirectML(Windows系统上的AMD显卡)

    这种做法的依据非常薄弱,因此不建议使用。目前确实存在一些非官方的 PyTorch ROCm Windows 版本,它们的使用体验要比这种方法好得多。一旦官方的 PyTorch ROCm Windows 版本发布,这份说明文件将会进行更新。pip install torch-directml 然后你可以使用以下命令启动 ComfyUI:python main.py --directml

    升级神经处理单元(NPU)

    适用于与 PyTorch 的 Ascend Extension(torch_npu)兼容的模型。要开始使用,请确保您的环境满足 安装 页面中列出的先决条件。以下是根据您的平台和安装方法定制的分步指南:

    1. 首先,根据 torch-npu 的安装页面说明,如有必要,安装推荐版本或更新版本的 Linux 内核。
    2. 按照适用于您特定平台的说明,继续安装 Ascend Basekit。该软件包包含驱动程序、固件以及 CANN(Controlled Access Network)组件。
    3. 接下来,请按照安装页面上针对特定平台的说明来安装torch-npu所需的包。
    4. 最后,请按照ComfyUI在Linux系统上的手动安装指南进行操作。所有组件安装完成后,即可按照之前的说明运行ComfyUI。

    Cambricon MLU(门阵列单元)

    适用于兼容 Cambricon Extension for PyTorch (torch_mlu) 的模型。以下是根据您的平台和安装方法定制的逐步指南:

    1. 按照安装中针对相应平台的说明来安装Cambricon CNToolkit。
    2. 接下来,按照安装中的说明安装PyTorch(torch_mlu)。
    3. 通过运行 python main.py 来启动 ComfyUI。

    适用于兼容 PyTorch 的 Iluvatar 扩展的模型。以下是根据您的平台和安装方法定制的逐步指南:

    1. 按照安装中针对特定平台的说明来安装Iluvatar Corex工具包。
    2. 通过运行 python main.py 来启动 ComfyUI。

    💎 六、总结

    ComfyUI 以其​​独特的节点式工作流、极高的灵活性和控制精度​​,在 Stable Diffusion 生态中占据了重要地位,尤其受到进阶用户和研究者的青睐。虽然学习曲线相对陡峭,但一旦掌握,它所能带来的创作自由度和效率提升是显著的。

    无论你是想深入研究 AI 图像生成的奥秘,还是需要精细控制每一个生成环节,ComfyUI 都是一个非常强大且值得尝试的工具。其活跃的社区和丰富的扩展生态也在不断推动其向前发展。