标签: comfyui

  • ComfyUI-HYPIR节点:LeePoet力推基于SD2.1图像超清修复放大

    我是LeePoet。今天给大家推荐一款我最近深度体验的ComfyUI节点——ComfyUI-HYPIR,这是一个基于HYPIR项目开发的图像修复工具,专门针对SD2.1模型进行了优化,能够实现高质量的图像修复和超分辨率放大。该技术基于扩散模型生成的分数先验进行图像修复与放大,具有高质量、清晰、锐利的效果。

    💡 为什么选择HYPIR?

    HYPIR(Harnessing Diffusion-Yielded Score Priors for Image Restoration)是一个利用扩散模型得分先验进行图像修复的先进技术。相比传统的ESRGAN放大方式,HYPIR在细节保留和伪影控制方面表现更出色,特别适合处理模糊、噪点严重的图像。

    🎯 适用场景

    ComfyUI-HYPIR几乎覆盖了所有图像修复需求:

    • 老照片修复:将模糊的老照片恢复到高清状态
    • 商品图优化:电商产品图放大后依然保持清晰细节
    • 动漫/游戏素材:二次元图片放大后线条清晰,色彩饱满
    • 人像写真:针对人像照片进行专项优化,面部细节更自然
    • 风景照片:自然风光放大后远景细节依然丰富

    HYPIR可在GitHub上找到,推荐使用其ComfyUI插件实现,模型需下载并放置于ComfyUI的models文件夹中。操作流程包括单张图片上传、设置放大倍数(支持1-8倍,推荐2-4倍),并通过HYPIR Advanced节点进行处理。放大前后对比,HYPIR在不改变原图结构的前提下显著提升清晰度。此外,支持批量处理,通过设置路径和数量实现多图自动放大。参数方面,coeff值(默认100,可调至500)影响修复强度,数值越高重绘幅度越大,适用于AI生成图像的增强处理。整体流程稳定、操作简便,建议替代旧有放大方法。


    开源地址:https://github.com/11dogzi/Comfyui-HYPIR

    这是一个用于 HYPIR(利用扩散得分先验进行图像修复) 的 ComfyUI 插件,HYPIR 是基于 Stable Diffusion 2.1 的先进图像修复模型。

    功能特性

    • 图像修复:利用扩散先验修复和增强低质量图像
    • 批量处理:一次处理多张图片
    • 高级控制:可微调模型参数以获得最佳效果
    • 模型管理:高效加载和复用 HYPIR 模型
    • 放大功能:内置放大功能(1x 到 8x)

    安装方法

    1. 安装插件

    将本文件夹放入 ComfyUI 的 custom_nodes 目录下:ComfyUI/custom_nodes/Comfyui-HYPIR/

    2. 安装 HYPIR 依赖

    进入 HYPIR 文件夹并安装所需依赖:

    cd ComfyUI/custom_nodes/Comfyui-HYPIR/HYPIR
    pip install -r requirements.txt

    3. 模型下载(自动)

    插件首次使用时会自动下载所需模型:

    HYPIR 模型

    修复模型将下载到:ComfyUI/models/HYPIR/HYPIR_sd2.pth

    基础模型(Stable Diffusion 2.1)

    基础 Stable Diffusion 2.1 模型将在需要时自动下载到:ComfyUI/models/HYPIR/stable-diffusion-2-1-base/

    手动下载(可选):

    HYPIR 模型:如果你希望手动下载,可以从以下地址获取 HYPIR 模型:

    请将 HYPIR_sd2.pth 文件放在以下任一位置:

    • 插件目录:ComfyUI/custom_nodes/Comfyui-HYPIR/
    • ComfyUI 模型目录:ComfyUI/models/checkpoints/
    • 或让插件自动管理,放在 ComfyUI/models/HYPIR/

    基础模型: 基础 Stable Diffusion 2.1 模型可从以下地址手动下载:

    请将基础模型放在:ComfyUI/models/HYPIR/stable-diffusion-2-1-base/

     注意: 插件会优先在 HYPIR 目录下查找基础模型,如未找到会自动从 HuggingFace 下载。

    使用方法

    高级图像修复

    1. 添加 HYPIR Advanced Restoration 节点
    2. 此节点提供更多参数控制:
      • model_t:模型步数(默认200)
      • coeff_t:系数步数(默认200)
      • lora_rank:LoRA 阶数(默认256)
      • patch_size:处理块大小(默认512)

    配置

    你可以在 hypir_config.py 中修改默认设置:

    HYPIR_CONFIG = {
        "default_weight_path": "HYPIR_sd2.pth",
        "default_base_model_path": "stable-diffusion-2-1-base",
        "available_base_models": ["stable-diffusion-2-1-base"],
        "model_t": 200,
        "coeff_t": 200,
        "lora_rank": 256,
        # ... more settings
    }

    模型路径管理

    插件包含智能模型路径管理:

    • HYPIR 模型:自动下载到 ComfyUI/models/HYPIR/HYPIR_sd2.pth
    • 基础模型:需要时自动下载到 ComfyUI/models/HYPIR/stable-diffusion-2-1-base/
    • 本地优先:插件会优先查找本地模型
    • 自动下载:仅在本地未找到模型时才下载

    最佳效果小贴士

    1. 提示词:使用与图片内容相符的描述性提示词
      • 人像:”high quality portrait, detailed face, sharp features”
      • 风景:”high quality landscape, detailed scenery, sharp focus”
      • 通用:”high quality, detailed, sharp, clear”
    2. 放大
      • 1x 表示仅修复不放大
      • 2x-4x 适合中等放大
      • 8x 为最大放大(速度较慢)
    3. 参数
      • model_t 越高(200-500)修复越强
      • coeff_t 越高(200-500)增强越明显
      • lora_rank 越高(256-512)质量越好(占用更多内存)
    4. 内存管理
      • 如遇内存不足可用较小的 patch_size(256-512)
      • 分批处理图片
      • 使用模型加载器节点避免重复加载模型

    配置

    你可以在 hypir_config.py 中修改默认设置:

    HYPIR_CONFIG = {
        "default_weight_path": "HYPIR_sd2.pth",
        "default_base_model_path": "stable-diffusion-2-1-base",
        "available_base_models": ["stable-diffusion-2-1-base"],
        "model_t": 200,
        "coeff_t": 200,
        "lora_rank": 256,
        # ... more settings
    }

    模型路径管理

    The plugin includes intelligent model path management: 插件包含智能模型路径管理:

    • HYPIR Model: Automatically downloaded to ComfyUI/models/HYPIR/HYPIR_sd2.pth
    • HYPIR 模型:自动下载到 ComfyUI/models/HYPIR/HYPIR_sd2.pth
    • Base Model: Automatically downloaded to ComfyUI/models/HYPIR/stable-diffusion-2-1-base/ when needed
    • 基础模型:需要时自动下载到 ComfyUI/models/HYPIR/stable-diffusion-2-1-base/
    • Local Priority: The plugin checks for local models first before downloading
    • 本地优先:插件会优先查找本地模型
    • Automatic Download: Only downloads when models are not found locally
    • 自动下载:仅在本地未找到模型时才下载

    最佳效果小贴士

    使用模型加载器节点避免重复加载模型

    提示词:使用与图片内容相符的描述性提示词

    人像:”high quality portrait, detailed face, sharp features”

    风景:”high quality landscape, detailed scenery, sharp focus”

    通用:”high quality, detailed, sharp, clear”

    放大

    1x 表示仅修复不放大

    2x-4x 适合中等放大

    8x 为最大放大(速度较慢)

    参数

    model_t 越高(200-500)修复越强

    coeff_t 越高(200-500)增强越明显

    lora_rank 越高(256-512)质量越好(占用更多内存)

    内存管理

    如遇内存不足可用较小的 patch_size(256-512)

    分批处理图片

    常见问题

    1. 导入错误:请确保已安装 HYPIR 依赖cd HYPIR pip install -r requirements.txt
    2. 模型未找到:插件会自动下载缺失的模型
      • 检查网络连接以便自动下载
      • HYPIR 模型:将 HYPIR_sd2.pth 放在插件目录或 ComfyUI 模型目录
      • 基础模型:将 stable-diffusion-2-1-base 文件夹放在 ComfyUI/models/HYPIR/
      • 插件会自动检查并下载缺失模型

    实操:

    1.先到https://github.com/11dogzi/Comfyui-HYPIR的仓库直接复制插件仓库地址

    2.进入本地的.\ComfyUI\custom_nodes目录,右链git bash拉取仓库

    3.启动COMFYUI,通过启动器先拉取HYPIR所需要的库并启动到UI

    4.打开huggingface.co,直接使用国内镜像源:https://huggingface.1319lm.top/lxq007/HYPIR/tree/main,复制HYPIR的GIT仓库

    5.下载HYPIR修复模型,进入.\ComfyUI\models,右键打开git bash,魔法就使用国内镜像源GIT

    6.下载stable-diffusion-2-1-base模型,先进入https://huggingface.1319lm.top/Manojb/stable-diffusion-2-1-base/tree/main,把以下红框框住的都手动下载,因为很多都是重复的一样的模型,只是后缀不一样。我们只需要下一个就行。所以这里不能直接GIT整个仓库。

    额外说明:text_encoder、unet、vae都只需要下一个模型即可,如果是FP16的,下载到本地后记得把FP16的字去掉,这样才会被节点识别。

    7.下载完所有模型后,重新启动COMFYUI

    当然,SD放大的模型与技术有很多,可以说都各有千秋,非要说哪几个最好用,只有等LEEPOET闲来有空再给大家介绍,总而言之ComfyUI-HYPIR是一款功能强大、操作简单的图像修复工具,特别适合需要高质量图像放大的用户。无论是老照片修复、商品图优化还是人像写真处理,都能获得令人满意的效果。如果你正在寻找一款稳定、高效的图像超清修复工具,ComfyUI-HYPIR绝对值得一试。我已经将它作为我的主力图像修复工具,强烈推荐给大家!


    相关文章:

    ComfyUI-GGUF-VLM 结合 llama.cpp GPU 加速:实现图像反推秒级效率

    Custom_Nodes篇:ComfyUI-QwenVL反推节点

    Custom_Nodes篇:ComfyUI-QwenVL3-image反推节点

    Stablediffusion的放大算法解析:图片高清修复放大相关说明

    环境篇:加载ComfyUI出现WARNING: Failed to find MSVC解决方案

  • ComfyUI-GGUF-VLM 结合 llama.cpp GPU 加速:实现图像反推秒级效率

    众所周知,ComfyUI中QwenVL节点通过Qwen3VL模型能够将视觉内容转化为详细的文字描述,它广泛应用于图像反推提示词、智能标注、视觉问答等场景。同时把它接入到最近出的Z-Image模型中反推生图是leepoet感觉最合适的搭配组合,毕竟都是阿里出品,在反推生图方面语义对齐这一块应该会更兼容。事实也是如此,在lee poet不断的测试下,拿来反推的图相似度个人觉得大部份生图与原图能达到70%以上。

    但是Qwen3VL的缺点就是有些慢,对于4060Ti 16G而言,反推大概在1分钟以内。而3060 12G大概在2分钟左右。自从Z-Image前段时间出了之后,Leepoet就一直在用它接入到Z-Image洗图。就拿4060TI16G来讲,反推50秒出图20秒,这样的效率相较于一些专为速度优化的模型(如Florence2、Joy)存在一定差距,导致其在需要高频、批量处理的“洗图”等场景下略显尴尬,但这种效率上的差异本质上源于模型在设计目标上的根本不同,从而使得它们在应用场景上“各有千秋” 。

    但基于Qwen3VL在反推理解能力准确性、丰富度较好的基础上,所以这段时间也就一直这样将就的用着。

    一直到昨天从群友处了解另一个好使的节点ComfyUI-GGUF-VLM。才知道除了GGUF加速模型外还可以使用 llama.cpp对模型进行加速。

    以下是ComfyUI-GGUF-VLM节点的简介:

    ComfyUI 的多模态模型推理插件,专注于 Qwen 系列视觉语言模型,支持多种推理后端。
    
    ## ✨ 核心功能
    
    ### 主要侧重
    
    **🎯 视觉语言模型 (VLM)**
    
    - **Qwen2.5-VL** / **Qwen3-VL** - 主要支持的视觉模型
    - LLaVA、MiniCPM-V 等其他视觉模型
    - 单图分析、多图对比、视频分析
    
    **💬 文本生成模型**
    
    - Qwen3、LLaMA3、DeepSeek-R1、Mistral 等
    - 支持思维模式 (Thinking Mode)
    
    ### 推理方式
    
    - ✅ **GGUF 模式** - 使用 llama-cpp-python 进行量化模型推理
    - ✅ **Transformers 模式** - 使用 HuggingFace Transformers 加载完整模型
    - ✅ **远程 API 模式** - 通过 Ollama、Nexa SDK、OpenAI 兼容 API 调用
    
    ### 主要特性
    
    - ✅ **多推理后端** - GGUF、Transformers、远程 API 灵活切换
    - ✅ **Qwen-VL 优化** - 针对 Qwen 视觉模型的参数优化
    - ✅ **多图分析** - 最多同时分析 6 张图像
    - ✅ **设备优化** - CUDA、MPS、CPU 自动检测
    - ✅ **Ollama 集成** - 无缝对接 Ollama 服务
    
    ## 🤖 支持的模型
    
    ### 🎯 主要支持 (推荐)
    
    **视觉模型:**
    
    - **Qwen2.5-VL** (GGUF / Transformers)
    - **Qwen3-VL** (GGUF / Transformers)
    
    **文本模型:**
    
    - Qwen3、Qwen2.5 (GGUF / Ollama)
    - LLaMA-3.x (GGUF / Ollama)
    
    ### 🔧 其他支持
    
    **视觉模型:** LLaVA、MiniCPM-V、Phi-3-Vision、InternVL 等
    
    **文本模型:** Mistral、DeepSeek-R1、Phi-3、Gemma、Yi 等
    
    > 💡 **推理方式:**
    >
    > - GGUF 格式 → llama-cpp-python 本地推理
    > - Transformers → HuggingFace 模型加载
    > - Ollama/Nexa → 远程 API 调用
    
    ## 📦 安装
    
    ```bash
    cd ComfyUI/custom_nodes
    git clone https://github.com/walke2019/ComfyUI-GGUF-VLM.git
    cd ComfyUI-GGUF-VLM
    pip install -r requirements.txt
    
    # 可选: 安装 Nexa SDK 支持
    pip install nexaai
    ```
    
    ## 🚀 快速开始
    
    ### 本地 GGUF 模式
    
    1. 将 GGUF 模型文件放到 `ComfyUI/models/LLM/GGUF/` 目录
    2. 在 ComfyUI 中添加节点:
       - **Text Model Loader** - 加载模型
       - **Text Generation** - 生成文本
    
    ### 远程 API 模式
    
    1. 启动 API 服务 (Nexa/Ollama):
    
       ```bash
       nexa serve  # 或 ollama serve
       ```
    
    2. 在 ComfyUI 中添加节点:
    
       - **Remote API Config** - 配置 API 地址
       - **Remote Text Generation** - 生成文本
    
    ## 📋 可用节点
    
    ### 文本生成节点
    
    - **Text Model Loader** - 加载本地 GGUF 模型
    - **Text Generation** - 文本生成
    - **Remote API Config** - 远程 API 配置
    - **Remote Text Generation** - 远程文本生成
    
    ### 视觉分析节点
    
    - **Vision Model Loader (GGUF)** - 加载 GGUF 视觉模型
    - **Vision Model Loader (Transformers)** - 加载 Transformers 模型
    - **Vision Analysis** - 单图分析
    - **Multi-Image Analysis** - 多图对比分析
    
    ### 🆕 工具节点
    
    - **Memory Manager (GGUF)** - 显存/内存管理工具
      - 清理已加载的模型
      - 强制垃圾回收
      - 清理GPU缓存
      - 显示显存使用情况
    
    ### 工具节点
    
    - **System Prompt Config** - 系统提示词配置
    - **Model Manager** - 模型管理器
    
    ## 💭 思维模式
    
    支持 DeepSeek-R1、Qwen3-Thinking 等模型的思维过程提取。
    
    启用 `enable_thinking` 参数后,会自动提取并分离思维过程和最终答案。
    
    ## 📁 项目结构
    
    ```
    ComfyUI-GGUF-VLM/
    ├── config/          # 配置文件
    ├── core/            # 核心推理引擎
    │   └── inference/   # 多后端推理实现
    ├── nodes/           # ComfyUI 节点定义
    ├── utils/           # 工具函数
    └── web/             # 前端扩展
    ```
    
    ## 

    节点github地址:https://github.com/walke2019/ComfyUI-GGUF-VLM

    安装好节点后,可以先通过启动安装一次该节点的依赖、库。然后再下载GGUF模型:

    模型地址:https://huggingface.co/mradermacher/Qwen2.5-VL-7B-NSFW-Caption-V3-abliterated-GGUF/tree/main?not-for-all-audiences=true

    放到对应的模型文件夹:

    .\ComfyUI\models\text_encoders\qwenclip

    .\ComfyUI\models\LLM\GGUF

    这里建议配置好的可以用以下这两个模型,因为官方的推是

    GGUFQ6_K6.4very good quality
    GGUFQ8_08.2fast, best quality

    以上基本上就已经安装好节点,并把模型下载好并可进入使用了。但是在这种情况下只能通过CPU进行推理(在速度方面跟QWEN3VL其实并没有太大的区别,有区别的就是这些模型是破限的)。并没有使用llama-cpp-python

    可以这么说,同样为3060 12G的显卡,ComfyUI-QwenVL节点反推一张图的时间在2分左右,而ComfyUI-GGUF-VLM通过llama-cpp-python调用GPU加速可以让反推时间缩短到几秒钟。

    那么什么是llama-cpp-python

    llama-cpp-python​ 是 llama.cpp 的 Python 绑定库,提供高性能的本地大语言模型推理能力,支持 CPU、CUDA GPU、Metal 等多种硬件加速,是部署本地 LLM 应用的常用工具。支持 CPU、CUDA(NVIDIA GPU)、Metal(Apple Silicon)、OpenCL 等多种后端的高性能推理

    话虽如此,正常使用ComfyUI-GGUF-VLM这个节点,在没有安装llama-cpp-python这个库的情况反推是不支持GPU的,但是要想让反推达到秒级的速度,就要先准备一些环境。

    步骤前瞻:

    先安装好节点并下载模型->安装Visual Studio->配置MSVC系统变量->安装配置对应版本的CUDA->通过CUDA调用MSVC构建llama-cpp-python

    1.安装Visual Studio,并配置好MSVC系统变量。

    lee poet之前写过一个怎么配置环境篇:加载ComfyUI出现WARNING: Failed to find MSVC解决方案,配置好记得重启。。

    2.验证cl,rc,link。如果有返回路径说明已经配置好。

    3.安装CUDA及cudnn,并配置CUDA环境变量。

    因为lee poet所使用的comfyui环境是的pytorch version: 2.5.1+cu124

    所以要下载对应的cuda版本,我下载的是CUDA Toolkit 12.4CUDA Toolkit 12.4 Downloads Installer for Windows 10 x86_64

    同时再下载cudnn,下载地址:https://developer.nvidia.com/rdp/cudnn-archive,找到对应的CUDA版本号

    Download cuDNN v8.9.7 (December 5th, 2023), for CUDA 12.x

    下载好用,先进行cuda的安装,*如果之前您有安装其它低版本的CUDA,在不使用的情况下可以先通过卸载程序的控制面板里先卸载。再进行安装:

    OK

    以上安装都说有报错,重启电脑再继续安装即可。安装完后,我们先配置环境变量。

    添加CUDA的环境变量(如果已经存在,则不需要重复添加)

    配置好后,解压cudnn-windows-x86_64-8.9.7.29_cuda12-archive.zip,可以看到三个文件夹

    把红框圈住的地方COPY到刚刚安装好的CUDA的C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v12.4这个文件夹内

    继续给cuDNN添加相应的环境变量

    #leepoet的CUDA及cuDNN的环境变量如下:
    C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v12.4\bin
    C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v12.4\include
    C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v12.4\lib
    C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v12.4\libnvvp

    配置好环境变量后,验证:nvcc -V

    找到C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v12.4\extras\visual_studio_integration\MSBuildExtentions里的这四个文件复制

    粘贴到C:\Program Files\Microsoft Visual Studio\2022\Community\MSBuild\Microsoft\VC\v170\BuildCustomizations这个目录下

    以上就算是把llama-cpp-python安装的环境配置好了。下面再通过虚拟环境构建安装llama-cpp-python

    打开启动器命令提示符,可以通过这个直接到这个整合包的虚拟环境。

    可以看到红框框住的这个标识,实际上就是这个整合包的虚拟环境的标识

    set CMAKE_ARGS=-DGGML_CUDA=on
    python.exe -m pip install llama-cpp-python --force-reinstall --no-cache-dir
    命令/参数解释
    set CMAKE_ARGS="-DGGML_CUDA=on"设置一个名为 CMAKE_ARGS的环境变量,其值为 -DGGML_CUDA=on。这个变量会传递给后续的编译过程,指示构建系统启用对CUDA的支持。
    python.exe -m pip install使用Python模块方式运行pip进行安装,这通常比直接运行pip命令更可靠。
    llama-cpp-python要安装的Python包名称,它是对C++库llama.cpp的Python封装。
    --force-reinstall强制重新安装该包及其所有依赖。如果已存在安装版本,会先卸载再安装,确保是最新编译的版本。
    --no-cache-dir禁用pip的缓存。这能确保pip不会使用之前下载或编译的缓存文件,而是从头开始获取源码并进行编译。

    这条命令组合起来的效果是:强制pip忽略缓存,重新从源码编译并安装支持CUDA的llama-cpp-python。通过pip install llama-cpp-python安装的是仅支持CPU的版本。通过从源码编译并设置CMAKE_ARGS,可以解锁GPU加速功能,在处理大语言模型时能获得数倍的速度提升。

    执行命令后

    先是下载库从源码编译,可能需要十几到二十分钟。

    可以看到已经安装成功了。*安装后完有其它库的冲突能解决就自己解决,LeePoet是选择性忽略,主打一个能用就行。

    后面就是关掉启动器,重新启动。它会自己解析并检验各种依赖。

    启动完进入UI后,这次从反推到Z-image生图768x1536px的图片大概在40秒左右了。

    李诗人这次使用的是家用电脑配置相对一般,但是能有这个速度还是相对满意的。

    相关文章:Custom_Nodes篇:ComfyUI-QwenVL反推节点

    Custom_Nodes篇:ComfyUI-QwenVL3-image反推节点

  • Custom_Nodes篇:ComfyUI-QwenVL反推节点

    Custom_Nodes篇:ComfyUI-QwenVL反推节点

    这个插件对于 ComfyUI 用户来说,实用性非常高,而且考虑到了不同的硬件配置需求

    技术整合很到位:它直接把像 Qwen3-VL 这样领先的视觉语言模型带到了 ComfyUI 的节点式工作流中,让用户能以更直观的方式使用多模态能力,无论是图片分析还是未来的视频处理(根据介绍),都提供了强大的基础。它不仅追赶最新的 Qwen3-VL 模型,还保持对早期 Qwen2.5 的支持,这让拥有不同模型的用户都能受益。最值得称赞的是它加入了多种量化(4-bit/8-bit)和模型缓存的选项。这意味着开发者清晰地认识到 VRAM 是限制许多 AI 玩家的主要瓶颈,通过这些优化,可以让更多配置没那么“壕”的用户也能体验到高性能 VL 模型,这大大提升了它的普及潜力。

    总体来看,这是一个强大、灵活且注重实用的节点集,为 ComfyUI 的多模态能力添加了重要的一块拼图。

    节点官方介绍:

    ComfyUI-QwenVL 自定义节点集成了 Qwen-VL 系列,包括最新的 Qwen3-VL 型号,以及 Qwen2.5-VL 和最新的 Qwen3-VL,从而实现了用于生成文本、图像理解和视频分析的高级多模态 AI。


    开源地址:https://github.com/1038lab/ComfyUI-QwenVL

    ComfyUI-QwenVL 自定义节点集成了阿里云强大的 Qwen-VL 系列视觉语言模型 (LVLM),包括最新的 Qwen3-VL 和 Qwen2.5-VL。该高级节点可在 ComfyUI 工作流程中实现无缝的多模态 AI 功能,从而高效地生成文本、理解图像和分析视频。

    ✨ 特点

    • 标准节点和高级节点:包含一个用于快速使用的简单 QwenVL 节点和一个可对生成进行精细控制的 QwenVL(高级)节点。
    • 预设和自定义提示:您可以从一系列便捷的预设提示中进行选择,也可以编写自己的提示以实现完全控制。
    • 多型号支持:轻松切换各种官方 Qwen-VL 型号。
    • 自动模型下载:模型会在首次使用时自动下载。
    • 智能量化:通过 4 位、8 位和 FP16 选项平衡 VRAM 和性能。
    • 硬件感知:自动检测 GPU 功能,防止与不兼容的型号(例如 FP8)发生错误。
    • 可复现生成:使用种子参数以获得一致的输出。
    • 内存管理:“保持模型加载”选项可将模型保留在 VRAM 中,以加快处理速度。
    • 图像和视频支持:接受单个图像和视频帧序列作为输入。
    • 强大的错误处理能力:针对硬件或内存问题提供清晰的错误消息。
    • 简洁的控制台输出:运行期间输出简洁明了的控制台日志。Flash -Attention v2 集成:可用时自动启用,以加快注意力层速度。Torch 编译优化:可选的 JIT 编译,use_torch_compile以提高吞吐量。 高级设备处理:自动检测 CUDA、Apple Silicon (MPS) 或 CPU;可手动覆盖。 动态内存强制执行:根据 VRAM 可用性自动调整量化级别。

    🚀 安装

    1. 将此仓库克隆到您的 ComfyUI/custom_nodes 目录:cd ComfyUI/custom\_nodes git clone https://github.com/1038lab/ComfyUI-QwenVL.git
    2. 安装所需的依赖项:cd ComfyUI/custom_nodes/ComfyUI-QwenVL pip install -r requirements.txt
    3. 重启ComfyUI。

    📥 下载模型

    首次使用时,模型将自动下载。如果您希望手动下载,请将其放置在 ComfyUI/models/LLM/Qwen-VL/ 目录中。

    模型关联
    Qwen3-VL-2B-指令下载
    Qwen3-VL-2B-思考下载
    Qwen3-VL-2B-指令-FP8下载
    Qwen3-VL-2B-思考-FP8下载
    Qwen3-VL-4B-指令下载
    Qwen3-VL-4B-思考下载
    Qwen3-VL-4B-指令-FP8下载
    Qwen3-VL-4B-思考-FP8下载
    Qwen3-VL-8B-指令下载
    Qwen3-VL-8B-思考下载
    Qwen3-VL-8B-指令-FP8下载
    Qwen3-VL-8B-思考-FP8下载
    Qwen3-VL-32B-指令下载
    Qwen3-VL-32B-思考下载
    Qwen3-VL-32B-指令-FP8下载
    Qwen3-VL-32B-思考-FP8下载
    Qwen2.5-VL-3B-指令下载
    Qwen2.5-VL-7B-指令下载

    📖 用法

    基本用法

    1. 从 🧪AILab/QwenVL 类别中添加“QwenVL”节点。
    2. 选择您要使用的模型名称。
    3. 将图像或视频(图像序列)源连接到节点。
    4. 您可以使用预设字段或自定义字段编写提示信息。
    5. 运行工作流程。

    高级用法

    如需更精细的控制,请使用“QwenVL(高级)”节点。该节点可让您访问详细的生成参数,例如温度、top_p、光束搜索和器件选择。

    ⚙️ 参数

    范围描述默认范围节点
    模型名称要使用的Qwen-VL模型。Qwen3-VL-4B-指令标准版和高级版
    量化即时量化。对于预量化模型(例如 FP8),此操作将被忽略。8 位(平衡)4 位、8 位、无标准版和高级版
    注意模式注意后端。auto如果可用,则尝试使用 Flash-Attn v2,否则回退到 SDPA。汽车自动、闪光灯_注意_2、SDPA标准版和高级版
    使用 torch 编译启用torch.compile('reduce-overhead')以提高 CUDA 吞吐量(Torch 2.1+)。仅限高级用户
    设备取消自动设备选择。汽车自动、CUDA、CPU仅限高级用户
    预设提示针对常见任务的一系列预定义提示。请描述一下……任何文本标准版和高级版
    自定义提示如果提供了预设提示,则覆盖该提示。任何文本标准版和高级版
    最大令牌数要生成的新代币的最大数量。102464-2048标准版和高级版
    保持模型加载将模型保存在显存中,以便后续运行速度更快。真的真/假标准版和高级版
    种子可重复结果的种子。11 – 2^64-1标准版和高级版
    温度控制随机性。数值越高,随机性越强。(当 num_beams 为 1 时使用)。0.60.1-1.0仅限高级用户
    顶部_p细胞核采样阈值。(当 num_beams 为 1 时使用)。0.90.0-1.0仅限高级用户
    光束数用于光束搜索的光束数量。大于 1 则禁用温度/top_p 采样。11-10仅限高级用户
    重复惩罚不鼓励重复使用令牌。1.20.0-2.0仅限高级用户
    帧数要从视频输入中采样的帧数。161-64仅限高级用户

    💡 量化选项

    模式精确内存使用情况速度质量推荐用于
    无(FP16)16 位浮点数高的最快最好的高显存显卡(16GB+)
    8 位(平衡)8位整数中等的快速地非常好均衡性能(8GB+)
    4 位(对显存友好)4位整数低的慢点*好的低显存显卡(<8GB)

    *关于 4 位速度的说明:4 位量化可以显著降低 VRAM 使用量,但由于实时反量化的计算开销,可能会导致某些系统的性能变慢。

    🤔 设置技巧

    环境推荐
    模型选择对于大多数用户来说,Qwen3-VL-4B-Instruct 是一个很好的起点。如果您使用的是 40 系列 GPU,请尝试使用 -FP8 版本以获得更好的性能。
    内存模式如果您计划多次运行该节点,请保持 keep_model_loaded 启用(True)以获得最佳性能。仅当其他节点的显存不足时才禁用它。
    量子化首先使用默认的 8 位模式。如果显存充足(>16GB),请切换到“无”(FP16)模式以获得最佳速度和质量。如果显存不足,请使用 4 位模式。
    表现首次使用特定量化方式加载模型时,速度可能会较慢。后续运行(启用 keep_model_loaded 参数)速度会快得多。

    🧠 关于模型

    该节点采用阿里云Qwen团队开发的Qwen-VL系列模型。这些强大的开源大型视觉语言模型(LVLM)旨在理解和处理视觉和文本信息,因此非常适合图像和视频详细描述等任务。

  • Custom_Nodes篇:ComfyUI-QwenVL3-image反推节点

    Custom_Nodes篇:ComfyUI-QwenVL3-image反推节点

    这是一个 ComfyUI 自定义节点,它集成了阿里巴巴的 Qwen3-VL-4B-Instruct-FP8 视觉语言模型。

    核心功能: 它的主要作用是分析输入的图像并生成相应的文本描述

    主要特点是高效运行,由于使用了 FP8 量化技术,该模型运行所需的显存较低,大约 10GB 左右。开发者提到,它适合用在图像放大的工作流程中,作为图像理解(“看懂”图片内容)的工具。需要注意的是,因为它依赖 FP8 技术,所以它有特定的硬件门槛,要求使用 NVIDIA RTX 4090 或计算能力更强的 GPU。简单来说,它是一个能帮你“读取”图片内容并将其转换成文字的工具节点,特别适合显存有限但又想使用先进视觉模型的用户(前提是你的 GPU 支持 FP8)。

    节点官方介绍:


    开源地址:https://github.com/yamanacn/ComfyUI-QwenVL3-image

    使用qwen3vl-4b快速分析图片内容,用于在放大中替代florence

    📖 简介

    一个为 ComfyUI 设计的自定义节点,集成了 Qwen3-VL-4B-Instruct-FP8 视觉语言模型,用于高效的图像理解和描述。

    ✨ 主要特性

    • 🚀 高效 FP8 量化:仅需约 10GB 显存
    • 📦 批量处理支持:一次处理多张图片
    • 💾 智能内存管理:可选模型保持加载,优化显存
    • 🔧 辅助工具链:提供文本分割、列表处理等节点

    📋 硬件要求

    • GPU: NVIDIA RTX 4090 或更高(计算能力 ≥ 8.9)
    • 显存: ≥ 10GB
    • 系统内存: 8GB+

    ⚠️ 重要提示: 此插件仅支持 FP8 量化模型,需要计算能力 8.9 或更高的 GPU。

    🔧 安装方法

    使用 Git Clone(推荐)

    cd ComfyUI/custom_nodes/
    git clone https://github.com/yamanacn/ComfyUI-QwenVL3-image.git
    cd ComfyUI-QwenVL3-image
    pip install -r requirements.txt

    使用 ComfyUI Manager

    1. 在 ComfyUI 中打开 Manager
    2. 搜索 “QwenVL3”
    3. 点击安装

    📦 模型下载

    模型会在首次使用时自动下载。你也可以从 HuggingFace 手动下载模型,并将其放置在 ComfyUI/models/Qwen/ 目录下。

    🎮 基础工作流

    对于批量处理,可连接 Text Batch Splitter 和 List Selector 节点来分别查看每张图片的描述。

    图片输入 → QwenVL3 Image (FP8) → 文本输出

  • Kontext LoRA(炼丹)训练从入门到精通的实战指南

    Kontext LoRA(炼丹)训练从入门到精通的实战指南

    本文旨在提供一份简洁、高效的Kontext LoRA(炼丹)训练指南。我们将摒弃冗长的理论,直击核心,帮助您掌握这项强大的“技能学习”技术。

    一、基础概念

    LoRA并非一种完整的模型重训练技术,而是一种高效的参数微调。简单来讲,就是借用一个预训练好的大型基础模型进行微调以适应新任务时,无需调动模型全部的数十亿个参数。

    二、训练逻辑

    1.输入与噪声化:将训练集中的图像输入模型,并像标准的扩散过程一样添加噪声。

    (把图片变成马赛克等进行“毁掉”)

    目的:对AI说:看,我把这张图弄花了,你能不能把它变回原来的样子?

    ——————————–

    2.比较与去噪:模型利用其基础权重和当前的LoRA适配器权重,对噪声图像进行去噪。

    (交由AI使用基础大模型恢复原来模样)

    目的:让AI利用现有条件(我们提供的基础大模型和适配器)进行恢复原样

    ——————————–

    3.计算损失:将模型去噪后的输出与未加噪声的原始图像进行比较,计算两者之间的差异。这个差异值即为“损失”,它量化了模型当前表现与理想目标之间的差距。

    (对比恢复的效果如何)

    目的:看看能恢复成什么效果,对比和观察效果

    ——————————–

    4.权重更新:通过反向传播算法,根据损失值来调整LoRA适配器矩阵A和B的权重,目标是使损失值最小化。

    (修改效果的不足)

    目的:调整LoRA那个“小笔记本”里的内容,使其更好。

    ——————————–

    5.迭代优化:重复以上步骤,通过成千上万次的迭代,LoRA权重会逐渐学习到如何引导基础模型生成符合训练集特征(如特定人物、风格或物体)的图像 。

    (反复重复以上逻辑训练)

    目的:通过成千上万次的“练习-订正-再练习”,让产出的LoRA更“听话”。

    ——————————–

    总结:本质上就是一个“AI恢复大赛”。我们不断地把好图弄坏,让AI去恢复,恢复不好就告诉它错在哪,让它下次恢复得更好。重复几千次后,AI就成了一个顶级的恢复专家,掌握了从“坏”到“好”的这个“技能”。当使用这个LoRA的时候就会重复它所学习到的技能。

    这种方法的优越性显而易见:最终生成的LoRA文件只包含这些经过训练的、小型的适配器权重,其体积通常只有几兆到几百兆字节,远小于动辄数GB的完整模型。这使得LoRA模型的存储、分发和加载都极为高效。

     

    三、训练重点

    数据集的质量是决定LoRA模型成败的最关键因素,其重要性甚至超过参数调优。一个精心策划的数据集是模型学习正确、泛化能力强的概念的基础。

    • 图片集:
      一个由20至60张甚至更多的高质量、清晰、主题突出的图像组成的小型数据集,其训练效果往往远超一个包含数百张质量参差不齐、充满噪声图像的大型数据集 。
    • 高分辨率与清晰度:
      图像应尽可能清晰,避免模糊、失焦或带有压缩噪点。建议使用不低于1024×1024像素的图像 。
       
    • 主题突出:
      训练主体(人物、物体或风格元素)应在图像中清晰可见,占据主要位置。

    • 多样性:
      为了让模型具备良好的泛化能力,数据集必须包含多样化的样本。
       

    例如,训练一个人物LoRA,应收集该人物在不同角度、不同光照条件、不同表情、不同姿势甚至不同服装下的照片,那么出来的效果就又更宽泛的可能性 。如果所有训练图都是同一角度的正面照,那么生成的图像也很可能被限制在这个角度。

    但是又例如:在平衡的两端就是两种结果。如果只收集该人物比较固定的角度,人脸,服饰,那么出来的效果即是围绕在这个训练集上进行简单变化,也就是实现了同一人物的“人物一致性”。

    四、硬件要求:训练的基石

    Kontext LoRA的训练,尤其是在高分辨率下,对显存(VRAM)有极高要求。

    • 白银标准:4090 24GB显存(VRAM)
    • 黄金标准:4090 48GB显存(VRAM)
    • 钻石标准:L40S 48G显存(VRAM)

    若本地硬件不足,可租用云GPU服务是极具性价比的选择。

    https://www.gpufree.cn/home

    我看中了“算力自由”的L40S/48G的显卡,速度快,价格也是比较合理的。各位可根据自身的炼丹需求选择显卡。

    扫码注册获得算力体验

    重点:48G显存才是核心,不管是4090D,4090,还是L40S,都大差不差,但是如果没有选用48G显存,很容易就会爆显存,无法训练。

    五、炼丹炉选择

    AI-Toolkit

    这是由一位在AI社区非常知名的开发者Ostris(也被称为Ostris AI)创建和维护的 。这个项目是开源的,代码托管在GitHub上,任何人都可以下载和使用 。

    这是一个功能强大且高度可定制的软件工具包,专门用于训练AI模型,特别是用于图像生成的LoRA模型 。也就成了我们俗称的“炼丹炉”。

    支持本地和云端部署

    本地:如果您的电脑有足够强大的显卡(通常建议24GB或更多显存),您可以在自己的机器上运行它进行训练 。

    云端:如果本地硬件不足,可以在云GPU服务上租用一台高性能计算机,然后在其上运行“ai-toolkit”来完成训练 。有些云服务器已经部署了该炼丹炉,可以直接使用,无需再自己进行部署。

    管理训练数据:它要求用户按照特定的文件夹结构来组织训练图片和标注文件(例如,Kontext训练需要control和dataset两个文件夹),这有助于保持训练流程的规范和高效。

    六、核心机制:从“学习概念”到“学习技能”

    Kontext LoRA与标准LoRA最根本的区别,就是在于学习的输入、

    • 标准LoRA (基于FLUX.1-dev)
      学习一个静态概念。您提供一组关于“某物”的图片,模型学习“它是什么”。
       
    • Kontext LoRA (基于FLUX.1-Kontext-dev)
      学习一个动态过程编辑动作。提供“编辑前”和“编辑后”的成对图像,模型学习“如何做” 以及表达出“这就是我要你实现的效果”

    3种结果

    • 欠拟合 (Underfitting)
      :模型还没学会,效果不够好。
       
    • 拟合良好 (Well-fitted)
      :模型学会了技能,并且具备泛化能力,来什么图片都能应付。
       
    • 过拟合 (Overfitting)
      :模型学得“太过了”,成了死记硬背训练集里的图片变化,只能应付跟训练集相似度高的图片。

    七、素材准备:成对图像是唯一法则

    Kontext LoRA的训练效果90%取决于数据集的质量。

    • 所有图片都应是高分辨率(推荐1024×1024)、清晰无噪点的PNG格式。
       
    • 并且必须是“成双成对”(“编辑前”与“编辑后”图像 )
       
    • 文件夹结构:
      通常需要两个文件夹,例如control(存放“编辑前”图像)和dataset(存放“编辑后”图像),内部文件名需一一对应 。

    八、标注的艺术:从“描述”到“指令”

    注意:经过不同版本的演变,目前Kontext LoRA的标注占比更大的是指令,而非描述。

    • 核心策略
      为所有图像对使用完全相同的、高度概括的“大师指令” 。这会迫使模型学习该指令背后通用的、抽象的“技能”,而不是60个零散的具体操作。
       
    • 触发词
      虽然到Kontext这一代可以不用使用触发词,但是最好还是标注一个独特的触发词来在最终使用时激活LoRA。
       
    • 打标词:
      使用专用的图推词工具进行基础打标,如果Joy Caption3,Florence2。个人建议:无需采用很强很全面的模型,因为在kontext里更多是“指令词”而非“描述词”,简单的描述图片内容即可,过多的词汇反而可能干扰AI的执行。

    九、 推荐训练参数:任务配置

    AI-Toolkit操作界面

    1. Training Name:
      LoRA名称(设置名称,最好英文)
    2. Model Architecture:
      模型架构(FLUX.1-Kontext-dev)
    3. Linear Rank:
      网络秩数值:8-64(其他地方有叫Dim值或者Network Rank)
    4. Data Type:
      模型型号选择:BF16/FP16
    5. Save Every:
      X步,则保存一个LoRA(250/1000)
    6. Max Step Saves to keep:
      对应上方的保存几个LoRA
    7. Trigger Word:
      触发词,记得要英文逗号结尾
    8. Steps:
      总步数:图片对数量 × 150/(3000+)
    9. Dataset:
      编辑前图像文件夹:remover_controls
    10. Control Dataset:
      编辑后图像文件夹:remover_images
    11. Default Caption:
      默认指令

    右上角Create Job,开始执行。

    其他通常可保持不动,亦或者根据不同LoRA需求,进行调整

    详细解释

    Model Architecture(使用模型)

    使用FLUX.1-Kontext-dev。

    Data Type(使用模型)

    型号通常选用BF16即可。也有FP16,不建议FP32,虽然FP32精度高,但是速度缓慢是前者时间的双倍,而提升的精度和效果微乎其微。

    Resolutions(图像大小)

    以往是512,也不是不行,但如果为了更好的质量,并且通常都是租GPU的情况下,完全可以采用1024×1024的尺寸!

    Linear Rank(网络秩)

    也就是Flux炼丹炉里面的Dim值。

    • 决定了LoRA适配器矩阵的大小,直接影响LoRA模型的复杂度和文件大小。
    • 数值高,能学习更复杂的细节,并且文件会更大,
    • 数值小,模型更小,训练更快,更不容易过拟合,但可能无法捕捉所有细节。

    推荐值:对于人物或风格,Rank在8到64之间都是常见选择。32是一个很好的平衡点 。

    Steps (训练步数) 

    默认是3000步,也可以更高,有个公式是:图片对数量 × 100/150

    Save Every(每几步保存一个模型) 

    上面提到,如果训练步数过多会拟合过度,也就是死记硬背,照本宣科,无法应对不一样的图片,所以可以设置多几个模型。

    比方说:3000步,每250步保存一个lora,保存4个lora。那意味着保存第5个250步的lora的时候,第一个保存的lora就会被删除,以此类推到最后结束,给到你4个lora。

    可根据自己的把握,经验,效果调整步数。

    十、实战案例:珠宝精修LoRA完整流程

    1.目标

    训练一个能自动对珠宝图片进行去瑕疵、提亮、优化光影的LoRA。

    2.具体做法

    准备好同一份图片,两份素材集:一份布满瑕疵的珠宝产品的图片。一份精修完美的珠宝产品图片。提交给到AI。

    3.底层逻辑

    看!本身是这样的瑕疵品,产品表面杂乱,材质瑕疵很大。看!这是修好的效果,产品表面干净,材质正确。你要按照这种结果学习和呈现。

    4.素材准备 (核心步骤)

    • 准备30-60张不同种类、材质和角度的珠宝白底图片,我原本准备了60张,但是后面发现有3张不是很优秀,选择素材时应该保持宁缺毋滥的心态,一定要挑选极好的素材。所以最后保持57张。同时这个数量已经是完全足够的了。

    编辑前(修前):置入remover_controls文件夹

    编辑后(修后):置入remover_images文件夹

    • 确保所有图片均为1024×1024,png格式
    • 并对其进行顺序严格的命名
    • 分为前面提到的两个部分:编辑前(修前)和编辑后(修后)
    • 素材来源思路为:从AI获取精美精修图,再由AI进行“脏图”改造,也就是故意让精美的图片变脏,由此得出前后效果图。
    • 按照训练器要求,将“编辑前”的图片放入remover_controls文件夹,将“编辑后”的图片放入remover_images文件夹,并确保文件名一一对应。

    5.标注

    对图片进行打标

    方法一:工作流打标

    红色框:位于input文件夹里的输入文件夹路径,可自行设置该文件夹

    蓝色框:图推词节点和模型,为Joy Caption3。也可以采用其他图推词模型

    黄色框:指令词汇,意为:(进行专业的珠宝修饰,增强光泽,清洁所有表面,并保持产品组合完好无损。将其转化为一张完美无瑕、具有影棚灯光效果的商业照片。应用电商产品拍摄优化处理:分离主体,打磨金属,)注意,需要以英文逗号结尾

    棕色框:把指令词和图像词一起输入结合,根据文本1和文本2为顺序。先指令词,再图像表述词。

    紫色框:Python表达式:a+b+c。a为触发词,b为文本联结一同输入的主词,c为结尾统一词。触发词可在炼丹炉里加,所以触发词和结尾统一词,我没有对其连接。

    青色框:保存的输出路径:某文件夹内。文件名:自定。后缀名:选择txt

    最后输出的效果如下:必须与前面的图片命名一致,否则会出错

    方法二:使用某些炼丹炉作者做好的图片打标工具

    使用某些炼丹炉旁自带的图片打标工具

    6.上传

    6.1本地端路径

    编辑前(修前)的路径为:remover_controls

    编辑后(修后)的路径为:remover_images。并跟打标词放置在一起,图片和.txt命名要两两相对。这样才能被识别到。

    6.2云端炼丹炉

    命名两个:remover_controls、remover_images

     

    7.参数设置

     

     

    训练参数调节

    1. Training Name:
      Jewelry Refining
    2. Model Architecture: 
      FLUX.1-Kontext-dev
    3. Linear Rank:
      64
    4. Data Type:
      BF16
    5. Save Every:
      1000
    6. Max Step Saves to keep:
      10
    7. Trigger Word:
      字母+英文逗号,如XM,
    8. Steps:5000
    9. Dataset:
      编辑前图像文件夹,选择remover_controls
    10. Control Dataset:
      编辑后图像文件夹,选择remover_images
       

    设置完毕,右上角开始运行

    8.LoRA测试

    等训练完毕,便会看到6个LoRA的出现,这个时候便可以拿到ComfyUI测试效果了

    把6个lora拉入到工作流里进行测试,使用同一张图,所有的设置都一样,检验六个哪个会欠拟合,哪个拟合良好,哪个过拟合。我设置了10个LoRA测试,只用到了训练出来的6个。提示词就写炼丹时候的:“指令词”+对产品的简单描述。

    9.效果展示

    原图,正常的产品不会如此瑕疵和斑驳遍布,我只是稍微加强一下瑕疵,试图让AI修复能量更强,更能应付更多的珠宝精修。

     

    总结:

    1.要达真人级别精修不是不行,需要看产品

    2.需要优化素材集,比方说我的编辑前瑕疵给的过于夸张,所以这个LoRA的能力将是,瑕疵越大,效果越好,当瑕疵平平无奇的时候,作用就被削弱了

    3.如果有微瑕到精修的素材集做对比,那么效果将会很强

    4.对于珠宝精修的数值会区别于其他,需要非常精致且细致的密度效果,甚至于可以将Linear Rank值提高到128,我设置64, 步数6000步,属于略微保守的数值,欢迎各位各抒己见!

    十一、内容拓展

    珠宝精修和产品精修,其实原理是一样的,或者说,整个kontext原理都差不多,都是前后对比图。

     

    再给各位分享一下,其他效果的LoRA可以怎么做

     

    1.质感增强器

    核心思路:教会模型提升图像的整体质感、细节和清晰度,改善基础模型可能出现的“塑料感”或模糊感。

     

    素材准备 

    • remover_images (处理后 – 目标)
      :收集20-50张认为质感极佳的图像。这些图片可以来源于Midjourney等以画质细腻著称的模型,或者经过专业锐化和细节增强处理的照片。数据集应包含人物、动物、风景、材质特写等多种类别,以增强通用性。
       
    • remover_controls (处理前 – 起点)
      :将上述每一张“高质感”图,通过FLUX或SDXL基础模型进行一次低强度的重绘,或者在Photoshop里经典操作,Ctrl+T放大缩小几次,造成模糊。这样生成的图片会保留构图但质感会“退化”,从而创造出完美的对比组。

    Linear Rank:32-64

    Save Every:500-1000

    Max Step Saves:保存的数量=总步数Steps ÷ 每x步Save Every

    Steps:图片数量x100步

     

    2.场景/产品打光

    核心思路:教会模型对已有图像进行光影重塑,将其从普通光照变为具有特定风格的专业商业布光效果。

     

    素材准备 

    • remover_controls (处理前 – 起点)
      :准备一批在均匀、柔和、无明显风格的光照下拍摄的人物或产品照片。
    • remover_images (处理后 – 目标)
      :为上述每张图片创造出具有理想光效的“目标图”。在Photoshop进行修图打光的效果。

    Linear Rank:64

    Save Every:500-1000

    Max Step Saves:保存的数量=总步数Steps ÷ 每x步Save Every

    Steps:图片数量x100步

    写在最后

    总是一个测试下来的感受是这样的,对于一些特定的产品,实打实是有用的。有些效果不佳,要改善的点就是要更精准表达给AI:我要你干什么。

    通过前后对比图也好,通过提示词打标也好,加强参数的设置也行,当然最重要的还是我们的素材图要精准要准确!

    建议是可以缩小使用范围,精准修饰,例如银器→微瑕→注重光影,以此路径进行深造,打造专一的产品线,集合大批量的不同种类的银器→微瑕为编辑前。强劲的光影和精品的精修效果图为编辑后,以此做强对比输入给AI,让其反复且深入训练出银器微瑕的LoRA,兴许能有意想不到的收获!

  • 黑森林Kontext LoRA:多种新奇图像编辑新玩法!附炼丹训练指南

    黑森林Kontext LoRA:多种新奇图像编辑新玩法!附炼丹训练指南

    引言

    黑森林的Kontext 模型已经开源了一段时间,社区生态迅猛发展,Kontext LoRA已经层出不穷。就在今天,魔搭社区的开发者开源了4种全新的Kontext LoRA,blingbling的雕像风格拿捏氛围感的图像美学提升神器…

    本期文章,魔搭带你玩转这几个Kontext 的 LoRA,解锁新奇的图像编辑新玩法!

    LoRA案例效果

    超低分辨率图像的高清化:让表情包重新焕发生机

    图像外扩:超大范围的图像补全

    图像美学提升:拿捏住氛围感
    玩法1:低分辨率图像的高清修复

    模型链接https://modelscope.cn/models/DiffSynth-Studio/FLUX.1-Kontext-dev-lora-highresfix

    编辑指令:Improve the clarity.

    这个 LoRA 模型是使用大量高清图及其低分辨率版本训练而来的,可以大幅度提升图像的清晰度。例如下面这张图经过模型处理后,画面变得非常清晰。
    输入
    输出

    不过这还不是这个 LoRA 模型的全部功力,它在表情包处理上有奇效。例如,下面是一张经过多次转发导致出现“电子包浆”的表情包图片。使用这个 LoRA 模型,就可以发挥 Kontext 模型的图像编辑能力消除其中的噪声,让表情包重现生机。

    输入
    输出

    当图像内容出现模糊时,模型也可以自行发挥想象力,补充其中的细节。例如下面这张表情包,经过高清化处理之后,呈现出尴尬又不失魔性的笑容。

    输入
    输出

    玩法2:图像的局部编辑与外扩

    模型链接https://modelscope.cn/models/DiffSynth-Studio/FLUX.1-Kontext-dev-lora-SuperOutpainting

    编辑指令:Outpaint the image. + 英文图像描述(可选)
    Kontext模型本身有一定图像外扩能力,但是对prompt和输入样例不稳定,可能导致非指定区域也被修改。因此,我们使用EliGen训练集构建了Kontext的图像外扩训练集,训练了这个LoRA模型,可以稳定地完成图像外扩,也可以泛化到图像重绘和局部编辑情形。
    如下,给定部分区域缺失的图像,可以让模型直接进行图像重绘,绘出缺失部分。
    输入
    输出

    而如果待补全区域过大,则是图像外扩任务。如下的例子中,给定几朵花,模型可以绘制整个场景。

    输入
    输出
    图像外扩可以进一步用在拉远场景视角上,比如我们将上一个输出的场景图置于图的中央,并再执行一次外扩,可以得到更大视角的场景图。
    输入
    输出

    以下是人物场景下,连续进行两次图像外扩的例子。

    输入
    第一次外扩
    第二次外扩

    我们可以利用这个LoRA模型的图像外扩和局部编辑能力来做一下有意思的事情。比如我们可以进行经典表情包的局部替换,如下例所示,输入指令为:Outpaint the image. A chicken-headed man in suspenders is playing the basketball.

    输入
    输出

    可以看到 “Kuntext” 的出色生成效果。还可以进行热门表情包的组合,比如,先手动将表情包粘贴到一张图上,然后让模型进行重绘,如下例所示。

    输入
    输出

    进一步地,可以只保留原图的少部分内容,让模型自由发挥,比如下面两个例子,输入指令均为:Outpaint the image. A chicken-headed man in suspenders is playing the basketball with a white background.

    输入
    输出

    玩法3:图像的美学提升

    模型链接https://modelscope.cn/models/DiffSynth-Studio/FLUX.1-Kontext-dev-lora-ArtAug

    编辑指令:Enhance the aesthetic quality of this image.

    Kontext 模型在训练过程中其实已经潜移默化地学习到了一定的图像理解能力,既然如此,模型就有理解什么是“美”的能力,经过训练后可以进一步激发其能力,用于提升图像的美感。例如这只小鸟的图片,模型可以增加环境细节,让画面看起来更协调。

    输入
    第一次美学提升

    当然,美学提升后的图片可以继续作为模型输入,从而进一步提升美学质量。上面的图像经过多次处理后,呈现出深邃的景深感。

    第二次美学提升
    第三次美学提升

    下面这个例子也是类似的,经过多次美学提升后,画面中晚霞的光线更加柔美,四周也出现了姹紫嫣红的花朵。

    输入
    第一次美学提升
    第二次美学提升
    第三次美学提升

    玩法4:风格变变变

    模型链接:https://modelscope.cn/models/DiffSynth-Studio/FLUX.1-Kontext-dev-lora-blingbling

    编辑指令:Transform into a glass sculpture.

    这个 LoRA 可以端到端地实现风格迁移,把任何物体转化为玻璃雕像。这是一种特殊的风格,由于玻璃透明的特性,模型不仅要保持物体结构,还需要推理出背后的景物,并根据环境光照调整玻璃表面光线的反射和折射。但对于 Kontext 模型来说,这个任务稍经训练即可完成。我们来看几组例子:

    输入
    输出
    输入
    输出
    此外,由于 FLUX 和 Kontext 模型的结构相似性,原本为 FLUX 训练的 LoRA 模型也可用于 Kontext 的风格迁移,下面是一些社区用户提供的例子。

    视觉风格:抽象色块

    模型链接:https://modelscope.cn/models/cancel13/cxsk

    编辑指令:Translate the style into abstract color blocks.

    输入
    输出

    视觉风格:线条插画

    模型链接:https://modelscope.cn/models/Dyrice/F.1_InternetCommercialFlatPortraitIllustration

    编辑指令:Convert the visual style into line illustrations.

    输入
    输出

    在线图像编辑

    以上提及的几个LoRA 模型可以直接在魔搭社区的 AIGC 专区进行生图体验。

    在线生图地址:https://modelscope.cn/aigc/imageGeneration?tab=advanced

    LoRA推理与训练

    本地部署推理和训练时,可使用开源项目 DiffSynth-Studio。

    DiffSynth-Studio 本地部署推理

    安装:

    • git clone https://github.com/modelscope/DiffSynth-Studio.git
    • cd DiffSynth-Studio
    • pip install -e .
    • DiffSynth-Studio 训练

    虽然 Kontext 的模型结构与 FLUX 一致,但作为一个图像编辑模型,其生成过程融入了额外的输入图像,因此训练算法也需要作出针对性的修改。DiffSynth-Studio 已经支持了 Kontext 原生编辑模式的训练。

    以上这些 LoRA 模型都是基于 DiffSynth-Studio 训练的

     DiffSynth-Studio地址:

    https://github.com/modelscope/DiffSynth-Studio/tree/main/examples/flux

  • Nunchaku Qwen Edit 2509!二次迭代后提升推理速度和低显存适配性

    Nunchaku Qwen Edit 2509!二次迭代后提升推理速度和低显存适配性

    Nunchaku Qwen-Edit 2509​​ 是阿里巴巴通义千问团队开发的AI图像编辑模型,基于 ​​Qwen-Image-Edit-2509​​ 架构,并通过 ​​Nunchaku​​ 技术优化,显著提升了推理速度和低显存适配性。其核心优势包括多图融合、高一致性编辑、原生ControlNet支持,以及中英文文本精准编辑能力,适用于电商、内容创作、个人修图等场景。

    性能优化与硬件适配​

    • 低显存需求​​:量化版本(如 svdq-int4_r128)仅需 ​​4GB显存​​,适合RTX 4060等中低端显卡。
    • ​加速技术​​:
      • ​4步/8步闪电版​​:Nunchaku的优化使推理速度提升50%,4步即可生成高质量结果。
      • ​RTX 4070 SUPER实测​​:4秒出图,显存占用低于6GB,效率远超传统模型。
      • 工作流集成​​:兼容ComfyUI,需替换默认UNet加载器为Nunchaku专用节点(如 双截棍千问图像DiT加载器
      • 模型下载​​:
      • •​​量化版​​:推荐 svdq-int4_r128(平衡速度与质量)。
      • •​​原版​​:需更高显存(FP8版本)。
      • •下载地址:Hugging Face或第三方整合包(含PS插件)

    这次nunchaku对qwen Edit2509再作一次迭代并加入了加速LORA lightx2v lighting,推出了4/8步的qwen Edit 2509版本模型。
    使用方法很简单。直接下载模型放UNET目录下重启加载这个模型就行。

    https://hf-mirror.com/nunchaku-tech/nunchaku-qwen-image-edit-2509/tree/main

    Nunchaku Qwen Edit 2509!二次迭代后提升推理速度和低显存适配性
    我这里下载4步svdq-int4_r128-qwen-image-edit-2509-lightningv2.0-4steps.safetensors
    基础的工作流如下:
    Nunchaku Qwen Edit 2509!二次迭代后提升推理速度和低显存适配性

    我们的看看4步svdq-int4_r128-qwen-image-edit-2509-lightningv2.0-4steps.safetensors的效果:

    •  
    两个女人在打架
    Nunchaku Qwen Edit 2509!二次迭代后提升推理速度和低显存适配性
    •  
    图1的女人坐在图2的咖啡厅喝咖啡
    Nunchaku Qwen Edit 2509!二次迭代后提升推理速度和低显存适配性

    加多一个角色 。

    •  
    图1的女人和图3的女人坐在图2的咖啡厅喝咖啡
    Nunchaku Qwen Edit 2509!二次迭代后提升推理速度和低显存适配性
    •  
    图1的女人手拿着图2的包包
    Nunchaku Qwen Edit 2509!二次迭代后提升推理速度和低显存适配性
    •  
    图2的女人摆出图1人物的姿势
    Nunchaku Qwen Edit 2509!二次迭代后提升推理速度和低显存适配性
    •  
    女人举起左手,伸出5只手指
    Nunchaku Qwen Edit 2509!二次迭代后提升推理速度和低显存适配性
    Nunchaku Qwen Edit 2509!二次迭代后提升推理速度和低显存适配性
    Nunchaku Qwen Edit 2509!二次迭代后提升推理速度和低显存适配性

    通过这些案例以及前面我们也跟nanoBanana作对比。

    目前qwen image Edit 2509是真的加强了。通过自然语言描述,就能轻松完成图像编辑的任务。

    文章来源:微信closerAI ComfyUI

  • Qwen Edit图像编辑模型带着2509版本!多图融合与一致性能力加强!

    Qwen Edit图像编辑模型带着2509版本!多图融合与一致性能力加强!

    Qwen-Image-Edit-2509 是阿里通义千问团队于2025年9月推出的开源图像编辑模型,作为Qwen-Image-Edit系列的月度迭代版本,其核心升级包括多图编辑支持、单图一致性增强及原生ControlNet支持。


    1. ​​多图编辑能力​

    • ​功能描述​​:支持1~3张输入图片的组合编辑,通过图像拼接技术实现自然融合,涵盖“人物+人物”“人物+商品”“人物+场景”等场景。例如生成闺蜜合照、结婚照或商品代言图,光影与细节处理高度统一。
    • •​​应用示例​​:
      • 将两张人物图片合成游乐园互动场景,保持面部特征不变;
      • 结合商品图与模特图生成电商海报,保留产品细节(如LOGO纹理)。

    2. ​​单图一致性增强​

    • ​人物编辑​​:优化面部ID保持能力,支持姿势变换(如双手举爱心)或风格转换(如二次元转真人),避免“P图感”。
    • ​商品编辑​​:修改颜色或背景时,确保产品特征(如材质、形状)不丢失,适合电商设计。
    • 文字编辑​​:除内容修改外,可调整字体、颜色、材质(如金属质感),精准适配海报或LOGO设计。

    3. ​​技术优化与兼容性​

    • ​ControlNet支持​​:原生集成深度图、边缘图、关键点图控制,例如通过姿势参考图调整人物动作。
    • 低配置适配​​:提供GGUF量化版(4G显存可用)和Nunchaku版(8G显存流畅运行),平衡性能与质量。
    • ​偏移修正方案​​:社区开发了局部重绘工具和专用Lora(如qwenedit-consistance V2),解决编辑后图像偏移问题。

    4. ​​应用场景​

    • ​创意设计​​:生成表情包、虚拟角色场景或文创产品合成图。
    • 商业用途​​:快速制作商品海报、模特展示图,降低拍摄成本。
    • 个人使用​​:证件照换装、老照片修复(自动补全破损区域并上色)。
    qwen Edit图像编辑模型发布最新迭代版本2509版本模型,加强了多图编辑能力与物体一致性的能力。可谓是目前最强的开源图像编辑模型。
    Qwen Edit图像编辑模型带着2509版本!多图融合与一致性能力加强!

    模型现在已出GGUF版本和nunchaku版本。

    官方版:https://huggingface.co/Qwen/Qwen-Image-Edit-2509

    GGUF版本:https://huggingface.co/QuantStack/Qwen-Image-Edit-2509-GGUF

    nunchaku版本:https://huggingface.co/nunchaku-tech/nunchaku-qwen-image-edit-2509

    安装与使用

    使用方法很简单,下载模型与更新comfyUI即可。

    1)下载模型:https://hf-mirror.com/Qwen/Qwen-Image-Edit-2509

    2)更新comfyUI版本。

    更新后,使用qwenEdit的基础工作流,主要是将TextEncodeQwenImageEditPlus重新加载下,如下图示。

    Qwen Edit图像编辑模型带着2509版本!多图融合与一致性能力加强!
    Qwen Edit图像编辑模型带着2509版本!多图融合与一致性能力加强!

    如果大家使用FP8版本,这个对设备要求高,请将K采样器的步数与CFG进行设置:步数40~50,CFG3~5

    Qwen Edit图像编辑模型带着2509版本!多图融合与一致性能力加强!

    执行后:

    Qwen Edit图像编辑模型带着2509版本!多图融合与一致性能力加强!

     

    我建议中低配置的使用GGUF版本。因为可以接合加速LORA一起使用

    Qwen Edit图像编辑模型带着2509版本!多图融合与一致性能力加强!
    Qwen Edit图像编辑模型带着2509版本!多图融合与一致性能力加强!

     

    与nanoBanana的对比

    qwenEdit 2509 两个女人在打架

    Qwen Edit图像编辑模型带着2509版本!多图融合与一致性能力加强!
    Qwen Edit图像编辑模型带着2509版本!多图融合与一致性能力加强!
    nanoBanana 两个女人在打架
    Qwen Edit图像编辑模型带着2509版本!多图融合与一致性能力加强!
    Qwen Edit图像编辑模型带着2509版本!多图融合与一致性能力加强!

    qwenEdit 2509 姿势参考

    Qwen Edit图像编辑模型带着2509版本!多图融合与一致性能力加强!
    nanoBanana 姿势参考
    Qwen Edit图像编辑模型带着2509版本!多图融合与一致性能力加强!

    qwenEdit 2509  提取出人物的衣物形成穿搭衣物的平铺摄影图

    Qwen Edit图像编辑模型带着2509版本!多图融合与一致性能力加强!

    nanoBanana提取出人物的衣物形成穿搭衣物的平铺摄影图

    Qwen Edit图像编辑模型带着2509版本!多图融合与一致性能力加强!

    qwenEdit 2509  提取出人物的衣物形成穿搭衣物的平铺摄影图

    Qwen Edit图像编辑模型带着2509版本!多图融合与一致性能力加强!

    nano Banana 提取出衣物的印花图案并完整无缝平铺展示

    Qwen Edit图像编辑模型带着2509版本!多图融合与一致性能力加强!
     

    qwenEdit 2509  图1的女人穿上图2所有衣物形成穿搭展示

    Qwen Edit图像编辑模型带着2509版本!多图融合与一致性能力加强!

    nanoBanana 女人穿搭上右边所有衣物形成穿搭展示图,全身照

    Qwen Edit图像编辑模型带着2509版本!多图融合与一致性能力加强!
     
    通过对比,可见qwenEdit 2509的能力确实不错。
    最后,本地部署,建议使用GGUF版本的因为可使用4步加速更好地得出结果,因为nunchaku暂时不支持LORA。

    Qwen-Image-Edit-2509凭借其多模态融合能力和高一致性控制,成为当前开源图像编辑领域的标杆工具,尤其适合需要精细控制与创意表达的场景

    文章来源:微信closerAI ComfyUI

  • BlackForest官方Kontext单图编辑提示词指南

    BlackForest官方Kontext单图编辑提示词指南

    FLUX.1 Kontext 这让编辑图片变得非常简单!只需指定你想修改的内容,模型就会自动完成操作。它能够理解图片的上下文,因此无需详细说明具体修改要求,就能轻松地进行编辑。

    最大提示令牌数为 512 个token。

    基本对象修改

    FLUX.1 Kontext 它非常擅长直接修改对象属性。例如,如果我们想改变某个对象的颜色,就可以向它发出指令。

    Input image of a yellow car
    Output image: Yellow car changed to red

    精准高效:从基础到全面

    一般来说,如果每次编辑所需的指令数量不是太复杂的话,让事情表达得更明确一些总是没有坏处的。
    如果你想对图片进行更多修改,那么在给出指令时应该更加明确具体,以确保得到你想要的结果。

    快速编辑

    虽然使用非常简单的提示可能会产生一些不错的效果,但这也可能会改变输入图像的风格。

    提示: “改为白天模式”

    Prompt: “Change to daytime”

    Input image: Painting of a nighttime street scene
    Output 1: Street scene changed to daytime, style altered
    Output 2: Street scene changed to daytime, different style alteration

    受控编辑

    如果我们在提示中添加更多指令,就能得到与输入图像非常相似的结果。

    提示: “将绘画风格保持不变,但将创作时间改为白天。”

    Prompt: “Change to daytime while maintaining the same style of the painting”

    Input image: Painting of a nighttime street scene
    Output image: Street scene changed to daytime, original painting style maintained

    复杂变换

    如果你想对输入图像进行多处修改,通常情况下,只要每次修改的操作步骤不太复杂,就应该尽可能添加更多细节。

    提示: 将场景设置为白天,添加许多在人行道上行走的人,同时保持画作的原有风格。

    Prompt: “change the setting to a day time, add a lot of people walking the sidewalk while maintaining the same style of the painting”

    Input image: Painting of an empty nighttime street, same as quick_edit_input.jpg
    Output image: Street scene changed to daytime with people, original painting style maintained

    风格迁移

    使用提示

    在处理风格转换相关任务时,请遵循以下原则:

    1. 请明确具体的风格:不要使用诸如“让它具有艺术感”这样的模糊表述,而要准确说明你想要的风格(例如“转换为包豪斯艺术风格”、“改成水彩画风格”)。
    2. 提及已知的艺术家或艺术流派:为了获得更精确的结果,请加入可识别的风格参考(如“文艺复兴时期的绘画风格”“类似20世纪60年代的波普艺术海报”)。
    3. 详细说明关键特征 如果给这种风格命名不起作用,那么描述一下构成该风格的视觉元素或许会更有帮助:

    “将其转化为油画效果,呈现出明显的笔触、厚实的颜料质感以及丰富的色彩层次。”

    • Transform to oil painting with visible brushstrokes, thick paint texture, and rich color depth
    1. 珍惜那些重要的东西。 明确指出哪些要素不应发生变化:

    “将艺术风格改为包豪斯风格,同时保持原有的构图和物体摆放方式。”

    • “Change to Bauhaus art style while maintaining the original composition and object placement”
    Input image: Symmetrical architectural photo

    转换为铅笔画 Converted to pencil sketch

    Output image: Architectural photo converted to pencil sketch

    被转化为油画形式 Transformed to oil painting

    Output image: Architectural photo transformed into an oil painting

    使用输入图像

    你还可以使用输入的图像作为风格参考来生成新的图像。例如,使用以下提示:

    “Using this style, a bunny, a dog and a cat are having a tea party seated around a small white table”
    “用这种风格描绘的话,一只兔子、一只狗和一只猫围坐在一张白色的小桌子旁,正在举行茶会。”

    我们得到:

    Input image for style reference 1: Stylized image
    Output image using style from reference 1: Tea party
    Input image for style reference 2: Different stylized image
    Output image using style from reference 2: Tea party
    Input image for style reference 3: Yet another stylized image
    Output image using style from reference 3: Tea party

    将图像转换为不同的风格

    FLUX.1 Kontext 它允许你以富有创意的方式对图片进行修改。在下面的例子中,我们将照片重新设计成不同的视觉风格,并为其添加了各种不同的元素或效果。

    如果你的目标是大幅改变输入图像,那么通常最好按照以下步骤逐步进行。

    Input image: Photo of a person

    重新设计为黏土动画风格 Restyled to Claymation

    Output image: Person restyled into Claymation style

    角色正在捡杂草 Character picking up weeds

    Output image: Claymation character picking up weeds in a garden

    在保持角色一致性的前提下,使用提示进行迭代式编辑

    FLUX.1 Kontext 该角色在形象一致性方面表现出色,即使经过多次修改后依然如此。从参考图片可以看出,该角色在整个动画序列中的形象始终如一。每次修改所使用的提示信息都标注在每张图片下方的字幕中。

    Input image: Woman

    把那个东西从她脸上拿开。 Remove the object from her face

    Output image: Woman taking a selfie in Freiburg

    她现在正在弗赖堡的街道上自拍,今天真是外出游玩的好日子。

    She is now taking a selfie in the streets of Freiburg, it’s a lovely day out.

    Output image: Item removed from woman's face

    现在下雪了,一切都覆盖在雪层之下。

    It’s now snowing, everything is covered in snow.

    Output image: Scene with woman now covered in snow

    为了保持角色的一致性,你可以遵循这个框架,在多次编辑中保持同一个角色的形象不变:

    1. 确定参考依据 首先,要清楚地确定你的角色。
      • “这个人……” 或者 “那个留着黑色短发的女人……”
    2. 指定转换方式。 明确说明哪些方面正在发生变化。
      • 环境:“……现在是在一个热带海滩的场景中”
      • 活动:“……现在正在花园里除草。”
      • 风格:“在保持人物不变的前提下,将其转化为黏土动画风格。”
    3. 保留身份标识信息 明确指出哪些方面应保持一致。
      • “……同时保持相同的面部特征、发型和表情”
      • “……保持相同的身份和个性”
      • “……保持它们独特的外观”

    常见的错误使用诸如“她”这样的模糊表述,而不是“那个黑发短发的女人”。

    文本编辑

    FLUX.1 Kontext 可以直接编辑图片中出现的文本,从而轻松更新标志、海报、标签等,而无需重新制作整个图片。

    编辑文本最有效的方法是在你想修改的具体文本周围加上引号。

    提示结构Replace '[original text]' with '[new text]'

    示例 –如下所示,我们有一张输入图像,上面写着“Choose joy”(选择快乐),我们将“joy”替换为“BFL”——请注意“BFL”是大写形式的。

    Example – We can see below where we have an input image with “Choose joy” written, and we replace “joy” with “BFL” – note the upper case format for BFL.

    Input image: Sign saying 'Choose joy'

    JOY 被 BFL 取代了 JOY replaced with BFL

    Output image: Sign changed to 'Choose BFL'

    Input image:

    Sync & Bloom 更改为 “FLUX & JOY” Sync & Bloom changed to ‘FLUX & JOY’

    Output image: Text replaced with 'FLUX & JOY'
    Input image: Montreal Winter Sports

    将“MONTREAL”替换为“FREIBURG” ‘MONTREAL’ replaced with ‘FREIBURG’

    Output image: Montreal replaced to 'FLUX'

    文本编辑最佳实践

    • 尽可能使用清晰、易读的字体。复杂或风格化的字体可能更难以编辑。
    • 在需要时指定保留内容。例如:“将‘joy’替换为‘BFL’,同时保持相同的字体样式和颜色”。
    • 保持文本长度大致一致——文本长度过长或过短都可能影响布局效果。

    视觉线索

    也可以使用视觉提示来指导模型进行编辑的位置。当您希望对图像的特定区域进行有针对性的修改时,这种方法尤其有用。通过提供视觉标记或参考点,您可以引导模型关注这些特定区域。

    示例:“在盒子里加上帽子”

    Example:: “Add hats in the boxes”

    Input image:
    Output image: Add hats in the boxes

    当结果与预期不符时

    通用故障排除技巧

    如果模型正在修改某些你希望保持不变的元素,请在提示中明确说明需要保留这些元素。例如:“其他所有事情都应保持非黑即白的简单状态。”或者“保持原始图像的所有其他方面不变.”

    角色身份的变化实在太大。

    在对一个人进行形象改造(如更换他们的服装、改变其风格或所处的环境)时,如果提示不够具体,就很容易让他们原本独特的身份特征被忽略或改变。

    示例:“将这个人变成一名维京战士,同时保留他原有的面部特征、眼睛颜色和面部表情。”

    试着更具体地描述那些身份标识特征(“保持完全相同的面部特征、发型以及独特的面部细节”)。

    • Example: “Transform the man into a viking warrior while preserving his exact facial features, eye color, and facial expression”
    • 示例:“将这个人变成一名维京战士,同时保留他原有的面部特征、眼睛颜色和面部表情。”

    Input image: Man

    模糊的提示结果

    Output image (vague prompt): Man transformed into a Viking, identity changed

    详细的提示结果

    Output image (detailed prompt): Man transformed into a Viking, identity preserved

    聚焦的提示结果

    Output image (focused prompt): Man's clothes changed to Viking warrior style, identity perfectly preserved

    模糊的提示取代了身份认同。

    提示:“将这个人变成维京人” → 完全替换面部特征、发型和表情

    • Prompt: “Transform the person into a Viking” → Complete replacement of facial features, hair, and expression

    详细的提示有助于保护个人身份信息:

    提示:“将这个人变成一名维京战士,同时保留他原有的面部特征、眼睛颜色和面部表情。” → 在改变外在形象的同时,仍保留其核心身份特征。

    • Prompt: “Transform the man into a viking warrior while preserving his exact facial features, eye color, and facial expression” → Maintains core identity while changing context

    有针对性的提示只会改变真正需要改变的部分。

    提示:“将衣服换成维京战士的服装” → 在仅修改指定元素的情况下,保持角色的完整身份特征。

    • Prompt: “Change the clothes to be a viking warrior” → Keeps perfect identity while only modifying the specified element

    为什么会这样发生?动词“transform”在没有附加修饰语的情况下,通常表示“使……发生彻底变化”或“将……转变为另一种形态”。上下文;背景需要彻底做出改变。如果你希望保留原作的某些特定元素,在这种情况下使用其他词汇可能会更有帮助。

    成分控制

    在编辑背景或场景时,你通常希望主体保持完全相同的姿态、比例和位置。不过,一些简单的提示有时会改变其中某些方面。简单的提示导致了不必要的变化:

    提示:“他现在正在阳光明媚的海滩上” → 主语位置的变化及视角的转换

    提示:“把他放在海滩上” → 相机角度和构图发生变化

    • Prompt: “He’s now on a sunny beach” → Subject position and scale shift
    • Prompt: “Put him on a beach” → Camera angle and framing change
    Input image: Person standing

    简单的海滩主题提示

    Output image (simple prompt 'on a sunny beach'): Subject position and scale shifted

    开启海滩模式提示

    Output image (simple prompt 'put him on a beach'): Camera angle and framing changed

    精确的提示能确保物体保持准确的位置。

    提示:“将背景更换为海滩,同时保持人物的位置、大小和姿势不变。保持主体位置、拍摄角度、构图和视角完全一致,只需更换人物周围的环境。” → 这样能更好地保留主体特征。

    • Prompt: “Change the background to a beach while keeping the person in the exact same position, scale, and pose. Maintain identical subject placement, camera angle, framing, and perspective. Only replace the environment around them” → Better preservation of subject
    Input image: Person standing (for precise background change)

    精确的定位结果

    Output image (precise prompt): Background changed to beach, subject position preserved

    为什么会这样发生?像这样的模糊指令……“把他放在海滩上”留给解释的空间太大。上下文;背景可能会选择:

    重新调整拍摄对象的位置,使其更适应新的环境。

    调整画面构图,使其与典型的海滩照片相匹配。

    改变摄像机的角度,以便展示更多的海滩景色。

    • Adjust the framing to match typical beach photos
    • Change the camera angle to show more of the beach
    • Reposition the subject to better fit the new setting

    样式没有正确应用。

    在应用某些样式时,简单的提示可能会导致结果不一致,或者丢失原始作品中的重要元素。我们可以在……中看到这一点。上面的例子.

    基本的风格提示可能会遗漏一些重要的元素:

    提示:“将其制作成草图” → 在应用艺术风格的过程中,一些细节会丢失。

    Prompt: “Make it a sketch” → While the artistic style is applied, some details are lost.

    精确的风格提示有助于保持文章的结构清晰。

    提示:“将其转换为使用天然石墨线条、交叉排线以及可见纸张质感的铅笔画。” → 在应用这种风格的同时保留原场景的细节。在背景中可以看到更多细节,图像中还出现了更多的汽车。

    • Prompt: “Convert to pencil sketch with natural graphite lines, cross-hatching, and visible paper texture” → Preserves the scene while applying the style. You can see more details in the background, more cars are also appearing on the image.
    Input image: Street scene photo

    基础素描创作提示

    Output image (basic sketch prompt): Street scene as sketch, some details lost

    精确的素描创作提示

    Output image (precise sketch prompt): Street scene as detailed pencil sketch

    最佳实践总结

    谨慎选择动词:“Transform”可能意味着彻底的改变,而“change the clothes”或“replace the background”则能让你更好地掌控实际发生的变化内容。

    要具体明确:准确的语言能带来更好的效果。使用确切的色彩名称、详细的描述以及清晰的动词,而非含糊不清的表述。

    从简单开始:先进行核心内容的修改,再逐步增加复杂性。先测试基本的编辑效果,然后在成功的基础上进行进一步优化。Kontext系统能够很好地支持迭代编辑功能,充分利用这一特性吧。

    有意进行保留:明确说明哪些内容应保持不变。使用诸如“在保持原有[面部特征/构图/光线效果]不变的前提下”之类的表述,以保护重要的元素。

    在需要时进行迭代:复杂的转换通常需要多个步骤。将重大变更分解为一系列有序的编辑操作,以便更好地控制整个过程。

    直接指明对象:使用“那个黑发短发的女人”或“那辆红色的汽车”,而不是用“她的”、“它”或“这个”这样的代词,这样表达会更清晰。

    使用引号来标注文本:请引用您想要修改的准确内容:使用“Replace 'joy' with 'BFL'”比使用一般的文字描述效果更好。

    明确控制构图:在更改背景或设置时,指定“保持相同的摄像机角度、位置和构图”,以防止不必要的重新定位。

  • 环境篇:加载ComfyUI出现WARNING: Failed to find MSVC解决方案

    环境篇:加载ComfyUI出现WARNING: Failed to find MSVC解决方案

    ComfyUI 提示 “WARNING: Failed to find MSVC” 通常是因为缺少 Microsoft Visual C++ 的编译环境,或者环境变量配置不正确。解决这个问题的核心是确保 ComfyUI 能识别到 MSVC 的相关路径。

    🔧 ​​配置环境变量的注意事项​​:

    • •​​路径真实性​​:表格中的 \<version> 和 \<sdk_version> 需要替换为你电脑上​​实际的版本号​​。请务必在文件资源管理中确认路径是否存在。
    • •​​权限问题​​:有时即使路径正确,权限不足也可能导致问题。可以尝试​​以管理员身份​​运行命令提示符或你的集成开发环境(IDE)。
    • •​​修改生效​​:修改环境变量后,通常需要​​重启命令行窗口或IDE​​,有时甚至需要​​重启电脑​​才能生效。
    • •​​更简单的方法​​:对于 MSVC,最可靠的方法是通过 Visual Studio 自带的 ​​“Developer Command Prompt”​​ 来运行 ComfyUI 或执行编译命令。这个命令提示符会在启动时自动运行一个批处理脚本(如 vcvarsall.bat 或 VsDevCmd.bat),为你设置好所有复杂的环境变量。你可以在开始菜单中找到它(例如 “Developer Command Prompt for VS 2022″)。

    首先,你需要确认是否已经安装了包含 ​​MSVC​​ 的 ​​Visual Studio​​ 或 ​​Visual C++ Build Tools​​ 组件。

    • •​​安装 Visual Studio 2022​​:
      • •访问 Visual Studio 官网 下载 Visual Studio 2022 Community(免费版本)。
      • •运行安装程序,在 ​​”工作负载”​​ 页面中,​​务必勾选“使用 C++ 的桌面开发”​​。
      • •在右侧的 ​​”安装详细信息”​​ 中,请确保至少勾选了 ​​”MSVC v143 生成工具”​​ 和合适版本的 ​​Windows 10/11 SDK​​(例如 10.0.22621.0)1。勾选 ​​“C++ CMake 工具”​​ 通常也有帮助。
      • •完成安装。
    环境篇:加载ComfyUI出现WARNING: Failed to find MSVC解决方案

    这样,我们就成功安装并配置了msvc。

    ► 编译器与运行时环境

    选择安装MSVC v143,即VS 2022的C++ x64与x86生成工具,以确保获取最新版本。安装完成后,在“生成工具”和“运行时”环境中,选择相应的版本以便在项目中使用。

    环境篇:加载ComfyUI出现WARNING: Failed to find MSVC解决方案

    正常来讲VS的服务器地址是在国外,我们国内下载会速度会很慢很慢。这个时候只有把代理改成全局,才能加速下载。

    配置环境变量

    环境变量名主要作用典型值示例 (请根据你的实际安装路径修改)
    ​Path​让系统能找到 cl.exelink.exe 等工具C:\Program Files\Microsoft Visual Studio\2022\Community\VC\Tools\MSVC\<version>\bin\Hostx64\x64
    ​INCLUDE​告诉编译器去哪里查找头文件 (.h)C:\Program Files\Microsoft Visual Studio\2022\Community\VC\Tools\MSVC\<version>\include;C:\Program Files (x86)\Windows Kits\10\Include\<sdk_version>\ucrt;...
    ​LIB​告诉链接器去哪里查找库文件 (.lib)C:\Program Files\Microsoft Visual Studio\2022\Community\VC\Tools\MSVC\<version>\lib\x64;C:\Program Files (x86)\Windows Kits\10\Lib\<sdk_version>\ucrt\x64;...

    MSVC 的正常运行依赖于一系列环境变量。如果 ComfyUI 无法自动检测到,可能需要手动配置。

    • •​​关键环境变量​​:主要需要配置 PATHINCLUDELIB。这些变量需要指向你 MSVC 安装目录和 Windows SDK 目录下的相应文件夹。
      • •​PATH​:需要添加 MSVC 编译器 cl.exe 所在的目录,例如:
        C:\Program Files\Microsoft Visual Studio\2022\Community\VC\Tools\MSVC\<version>\bin\Hostx64\x64
        和 Windows SDK 的 bin 目录,例如:
        C:\Program Files (x86)\Windows Kits\10\bin\10.0.20348.0\x64 (请将版本号替换为你实际的版本)。
      • •​INCLUDE​:需要指向头文件所在目录,通常包括 MSVC 的 include 目录和 Windows SDK 的多个 Include 子目录(如 ucrtsharedumwinrt 等)。
      • •​LIB​:需要指向库文件所在目录,通常包括 MSVC 的 lib\x64 目录和 Windows SDK 的 Lib 目录下的 ucrt\x64 和 um\x64 等。
    • •​​配置方法​​:
      • •在 Windows 搜索栏输入“环境变量”,选择“编辑系统环境变量”。
      • •在“系统变量”部分,找到并编辑 Path 变量,添加上述 PATH 中的路径。
      • •同样在“系统变量”部分,​​新建​​变量 INCLUDE 和 LIB,并将对应的路径填入(多个路径间用英文分号 ; 分隔)。
      • •​​注意​​:请务必将所有路径中的 <version> 替换为你实际安装的版本号(例如 14.36.32532),并且确认 Windows SDK 的版本号(例如 10.0.22621.0)与你安装的版本一致。
    环境篇:加载ComfyUI出现WARNING: Failed to find MSVC解决方案

    对path进行编辑

    环境篇:加载ComfyUI出现WARNING: Failed to find MSVC解决方案

    完成后,重启电脑。

    再打开COMFYUI这个时候,WARNING: Failed to find MSVC.就没有了