标签: 反推节点

  • ComfyUI-GGUF-VLM 结合 llama.cpp GPU 加速:实现图像反推秒级效率

    众所周知,ComfyUI中QwenVL节点通过Qwen3VL模型能够将视觉内容转化为详细的文字描述,它广泛应用于图像反推提示词、智能标注、视觉问答等场景。同时把它接入到最近出的Z-Image模型中反推生图是leepoet感觉最合适的搭配组合,毕竟都是阿里出品,在反推生图方面语义对齐这一块应该会更兼容。事实也是如此,在lee poet不断的测试下,拿来反推的图相似度个人觉得大部份生图与原图能达到70%以上。

    但是Qwen3VL的缺点就是有些慢,对于4060Ti 16G而言,反推大概在1分钟以内。而3060 12G大概在2分钟左右。自从Z-Image前段时间出了之后,Leepoet就一直在用它接入到Z-Image洗图。就拿4060TI16G来讲,反推50秒出图20秒,这样的效率相较于一些专为速度优化的模型(如Florence2、Joy)存在一定差距,导致其在需要高频、批量处理的“洗图”等场景下略显尴尬,但这种效率上的差异本质上源于模型在设计目标上的根本不同,从而使得它们在应用场景上“各有千秋” 。

    但基于Qwen3VL在反推理解能力准确性、丰富度较好的基础上,所以这段时间也就一直这样将就的用着。

    一直到昨天从群友处了解另一个好使的节点ComfyUI-GGUF-VLM。才知道除了GGUF加速模型外还可以使用 llama.cpp对模型进行加速。

    以下是ComfyUI-GGUF-VLM节点的简介:

    ComfyUI 的多模态模型推理插件,专注于 Qwen 系列视觉语言模型,支持多种推理后端。
    
    ## ✨ 核心功能
    
    ### 主要侧重
    
    **🎯 视觉语言模型 (VLM)**
    
    - **Qwen2.5-VL** / **Qwen3-VL** - 主要支持的视觉模型
    - LLaVA、MiniCPM-V 等其他视觉模型
    - 单图分析、多图对比、视频分析
    
    **💬 文本生成模型**
    
    - Qwen3、LLaMA3、DeepSeek-R1、Mistral 等
    - 支持思维模式 (Thinking Mode)
    
    ### 推理方式
    
    - ✅ **GGUF 模式** - 使用 llama-cpp-python 进行量化模型推理
    - ✅ **Transformers 模式** - 使用 HuggingFace Transformers 加载完整模型
    - ✅ **远程 API 模式** - 通过 Ollama、Nexa SDK、OpenAI 兼容 API 调用
    
    ### 主要特性
    
    - ✅ **多推理后端** - GGUF、Transformers、远程 API 灵活切换
    - ✅ **Qwen-VL 优化** - 针对 Qwen 视觉模型的参数优化
    - ✅ **多图分析** - 最多同时分析 6 张图像
    - ✅ **设备优化** - CUDA、MPS、CPU 自动检测
    - ✅ **Ollama 集成** - 无缝对接 Ollama 服务
    
    ## 🤖 支持的模型
    
    ### 🎯 主要支持 (推荐)
    
    **视觉模型:**
    
    - **Qwen2.5-VL** (GGUF / Transformers)
    - **Qwen3-VL** (GGUF / Transformers)
    
    **文本模型:**
    
    - Qwen3、Qwen2.5 (GGUF / Ollama)
    - LLaMA-3.x (GGUF / Ollama)
    
    ### 🔧 其他支持
    
    **视觉模型:** LLaVA、MiniCPM-V、Phi-3-Vision、InternVL 等
    
    **文本模型:** Mistral、DeepSeek-R1、Phi-3、Gemma、Yi 等
    
    > 💡 **推理方式:**
    >
    > - GGUF 格式 → llama-cpp-python 本地推理
    > - Transformers → HuggingFace 模型加载
    > - Ollama/Nexa → 远程 API 调用
    
    ## 📦 安装
    
    ```bash
    cd ComfyUI/custom_nodes
    git clone https://github.com/walke2019/ComfyUI-GGUF-VLM.git
    cd ComfyUI-GGUF-VLM
    pip install -r requirements.txt
    
    # 可选: 安装 Nexa SDK 支持
    pip install nexaai
    ```
    
    ## 🚀 快速开始
    
    ### 本地 GGUF 模式
    
    1. 将 GGUF 模型文件放到 `ComfyUI/models/LLM/GGUF/` 目录
    2. 在 ComfyUI 中添加节点:
       - **Text Model Loader** - 加载模型
       - **Text Generation** - 生成文本
    
    ### 远程 API 模式
    
    1. 启动 API 服务 (Nexa/Ollama):
    
       ```bash
       nexa serve  # 或 ollama serve
       ```
    
    2. 在 ComfyUI 中添加节点:
    
       - **Remote API Config** - 配置 API 地址
       - **Remote Text Generation** - 生成文本
    
    ## 📋 可用节点
    
    ### 文本生成节点
    
    - **Text Model Loader** - 加载本地 GGUF 模型
    - **Text Generation** - 文本生成
    - **Remote API Config** - 远程 API 配置
    - **Remote Text Generation** - 远程文本生成
    
    ### 视觉分析节点
    
    - **Vision Model Loader (GGUF)** - 加载 GGUF 视觉模型
    - **Vision Model Loader (Transformers)** - 加载 Transformers 模型
    - **Vision Analysis** - 单图分析
    - **Multi-Image Analysis** - 多图对比分析
    
    ### 🆕 工具节点
    
    - **Memory Manager (GGUF)** - 显存/内存管理工具
      - 清理已加载的模型
      - 强制垃圾回收
      - 清理GPU缓存
      - 显示显存使用情况
    
    ### 工具节点
    
    - **System Prompt Config** - 系统提示词配置
    - **Model Manager** - 模型管理器
    
    ## 💭 思维模式
    
    支持 DeepSeek-R1、Qwen3-Thinking 等模型的思维过程提取。
    
    启用 `enable_thinking` 参数后,会自动提取并分离思维过程和最终答案。
    
    ## 📁 项目结构
    
    ```
    ComfyUI-GGUF-VLM/
    ├── config/          # 配置文件
    ├── core/            # 核心推理引擎
    │   └── inference/   # 多后端推理实现
    ├── nodes/           # ComfyUI 节点定义
    ├── utils/           # 工具函数
    └── web/             # 前端扩展
    ```
    
    ## 

    节点github地址:https://github.com/walke2019/ComfyUI-GGUF-VLM

    安装好节点后,可以先通过启动安装一次该节点的依赖、库。然后再下载GGUF模型:

    模型地址:https://huggingface.co/mradermacher/Qwen2.5-VL-7B-NSFW-Caption-V3-abliterated-GGUF/tree/main?not-for-all-audiences=true

    放到对应的模型文件夹:

    .\ComfyUI\models\text_encoders\qwenclip

    .\ComfyUI\models\LLM\GGUF

    这里建议配置好的可以用以下这两个模型,因为官方的推是

    GGUFQ6_K6.4very good quality
    GGUFQ8_08.2fast, best quality

    以上基本上就已经安装好节点,并把模型下载好并可进入使用了。但是在这种情况下只能通过CPU进行推理(在速度方面跟QWEN3VL其实并没有太大的区别,有区别的就是这些模型是破限的)。并没有使用llama-cpp-python

    可以这么说,同样为3060 12G的显卡,ComfyUI-QwenVL节点反推一张图的时间在2分左右,而ComfyUI-GGUF-VLM通过llama-cpp-python调用GPU加速可以让反推时间缩短到几秒钟。

    那么什么是llama-cpp-python

    llama-cpp-python​ 是 llama.cpp 的 Python 绑定库,提供高性能的本地大语言模型推理能力,支持 CPU、CUDA GPU、Metal 等多种硬件加速,是部署本地 LLM 应用的常用工具。支持 CPU、CUDA(NVIDIA GPU)、Metal(Apple Silicon)、OpenCL 等多种后端的高性能推理

    话虽如此,正常使用ComfyUI-GGUF-VLM这个节点,在没有安装llama-cpp-python这个库的情况反推是不支持GPU的,但是要想让反推达到秒级的速度,就要先准备一些环境。

    步骤前瞻:

    先安装好节点并下载模型->安装Visual Studio->配置MSVC系统变量->安装配置对应版本的CUDA->通过CUDA调用MSVC构建llama-cpp-python

    1.安装Visual Studio,并配置好MSVC系统变量。

    lee poet之前写过一个怎么配置环境篇:加载ComfyUI出现WARNING: Failed to find MSVC解决方案,配置好记得重启。。

    2.验证cl,rc,link。如果有返回路径说明已经配置好。

    3.安装CUDA及cudnn,并配置CUDA环境变量。

    因为lee poet所使用的comfyui环境是的pytorch version: 2.5.1+cu124

    所以要下载对应的cuda版本,我下载的是CUDA Toolkit 12.4CUDA Toolkit 12.4 Downloads Installer for Windows 10 x86_64

    同时再下载cudnn,下载地址:https://developer.nvidia.com/rdp/cudnn-archive,找到对应的CUDA版本号

    Download cuDNN v8.9.7 (December 5th, 2023), for CUDA 12.x

    下载好用,先进行cuda的安装,*如果之前您有安装其它低版本的CUDA,在不使用的情况下可以先通过卸载程序的控制面板里先卸载。再进行安装:

    OK

    以上安装都说有报错,重启电脑再继续安装即可。安装完后,我们先配置环境变量。

    添加CUDA的环境变量(如果已经存在,则不需要重复添加)

    配置好后,解压cudnn-windows-x86_64-8.9.7.29_cuda12-archive.zip,可以看到三个文件夹

    把红框圈住的地方COPY到刚刚安装好的CUDA的C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v12.4这个文件夹内

    继续给cuDNN添加相应的环境变量

    #leepoet的CUDA及cuDNN的环境变量如下:
    C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v12.4\bin
    C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v12.4\include
    C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v12.4\lib
    C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v12.4\libnvvp

    配置好环境变量后,验证:nvcc -V

    找到C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v12.4\extras\visual_studio_integration\MSBuildExtentions里的这四个文件复制

    粘贴到C:\Program Files\Microsoft Visual Studio\2022\Community\MSBuild\Microsoft\VC\v170\BuildCustomizations这个目录下

    以上就算是把llama-cpp-python安装的环境配置好了。下面再通过虚拟环境构建安装llama-cpp-python

    打开启动器命令提示符,可以通过这个直接到这个整合包的虚拟环境。

    可以看到红框框住的这个标识,实际上就是这个整合包的虚拟环境的标识

    set CMAKE_ARGS=-DGGML_CUDA=on
    python.exe -m pip install llama-cpp-python --force-reinstall --no-cache-dir
    命令/参数解释
    set CMAKE_ARGS="-DGGML_CUDA=on"设置一个名为 CMAKE_ARGS的环境变量,其值为 -DGGML_CUDA=on。这个变量会传递给后续的编译过程,指示构建系统启用对CUDA的支持。
    python.exe -m pip install使用Python模块方式运行pip进行安装,这通常比直接运行pip命令更可靠。
    llama-cpp-python要安装的Python包名称,它是对C++库llama.cpp的Python封装。
    --force-reinstall强制重新安装该包及其所有依赖。如果已存在安装版本,会先卸载再安装,确保是最新编译的版本。
    --no-cache-dir禁用pip的缓存。这能确保pip不会使用之前下载或编译的缓存文件,而是从头开始获取源码并进行编译。

    这条命令组合起来的效果是:强制pip忽略缓存,重新从源码编译并安装支持CUDA的llama-cpp-python。通过pip install llama-cpp-python安装的是仅支持CPU的版本。通过从源码编译并设置CMAKE_ARGS,可以解锁GPU加速功能,在处理大语言模型时能获得数倍的速度提升。

    执行命令后

    先是下载库从源码编译,可能需要十几到二十分钟。

    可以看到已经安装成功了。*安装后完有其它库的冲突能解决就自己解决,LeePoet是选择性忽略,主打一个能用就行。

    后面就是关掉启动器,重新启动。它会自己解析并检验各种依赖。

    启动完进入UI后,这次从反推到Z-image生图768x1536px的图片大概在40秒左右了。

    李诗人这次使用的是家用电脑配置相对一般,但是能有这个速度还是相对满意的。

    相关文章:Custom_Nodes篇:ComfyUI-QwenVL反推节点

    Custom_Nodes篇:ComfyUI-QwenVL3-image反推节点

  • Custom_Nodes篇:ComfyUI-QwenVL反推节点

    Custom_Nodes篇:ComfyUI-QwenVL反推节点

    这个插件对于 ComfyUI 用户来说,实用性非常高,而且考虑到了不同的硬件配置需求

    技术整合很到位:它直接把像 Qwen3-VL 这样领先的视觉语言模型带到了 ComfyUI 的节点式工作流中,让用户能以更直观的方式使用多模态能力,无论是图片分析还是未来的视频处理(根据介绍),都提供了强大的基础。它不仅追赶最新的 Qwen3-VL 模型,还保持对早期 Qwen2.5 的支持,这让拥有不同模型的用户都能受益。最值得称赞的是它加入了多种量化(4-bit/8-bit)和模型缓存的选项。这意味着开发者清晰地认识到 VRAM 是限制许多 AI 玩家的主要瓶颈,通过这些优化,可以让更多配置没那么“壕”的用户也能体验到高性能 VL 模型,这大大提升了它的普及潜力。

    总体来看,这是一个强大、灵活且注重实用的节点集,为 ComfyUI 的多模态能力添加了重要的一块拼图。

    节点官方介绍:

    ComfyUI-QwenVL 自定义节点集成了 Qwen-VL 系列,包括最新的 Qwen3-VL 型号,以及 Qwen2.5-VL 和最新的 Qwen3-VL,从而实现了用于生成文本、图像理解和视频分析的高级多模态 AI。


    开源地址:https://github.com/1038lab/ComfyUI-QwenVL

    ComfyUI-QwenVL 自定义节点集成了阿里云强大的 Qwen-VL 系列视觉语言模型 (LVLM),包括最新的 Qwen3-VL 和 Qwen2.5-VL。该高级节点可在 ComfyUI 工作流程中实现无缝的多模态 AI 功能,从而高效地生成文本、理解图像和分析视频。

    ✨ 特点

    • 标准节点和高级节点:包含一个用于快速使用的简单 QwenVL 节点和一个可对生成进行精细控制的 QwenVL(高级)节点。
    • 预设和自定义提示:您可以从一系列便捷的预设提示中进行选择,也可以编写自己的提示以实现完全控制。
    • 多型号支持:轻松切换各种官方 Qwen-VL 型号。
    • 自动模型下载:模型会在首次使用时自动下载。
    • 智能量化:通过 4 位、8 位和 FP16 选项平衡 VRAM 和性能。
    • 硬件感知:自动检测 GPU 功能,防止与不兼容的型号(例如 FP8)发生错误。
    • 可复现生成:使用种子参数以获得一致的输出。
    • 内存管理:“保持模型加载”选项可将模型保留在 VRAM 中,以加快处理速度。
    • 图像和视频支持:接受单个图像和视频帧序列作为输入。
    • 强大的错误处理能力:针对硬件或内存问题提供清晰的错误消息。
    • 简洁的控制台输出:运行期间输出简洁明了的控制台日志。Flash -Attention v2 集成:可用时自动启用,以加快注意力层速度。Torch 编译优化:可选的 JIT 编译,use_torch_compile以提高吞吐量。 高级设备处理:自动检测 CUDA、Apple Silicon (MPS) 或 CPU;可手动覆盖。 动态内存强制执行:根据 VRAM 可用性自动调整量化级别。

    🚀 安装

    1. 将此仓库克隆到您的 ComfyUI/custom_nodes 目录:cd ComfyUI/custom\_nodes git clone https://github.com/1038lab/ComfyUI-QwenVL.git
    2. 安装所需的依赖项:cd ComfyUI/custom_nodes/ComfyUI-QwenVL pip install -r requirements.txt
    3. 重启ComfyUI。

    📥 下载模型

    首次使用时,模型将自动下载。如果您希望手动下载,请将其放置在 ComfyUI/models/LLM/Qwen-VL/ 目录中。

    模型关联
    Qwen3-VL-2B-指令下载
    Qwen3-VL-2B-思考下载
    Qwen3-VL-2B-指令-FP8下载
    Qwen3-VL-2B-思考-FP8下载
    Qwen3-VL-4B-指令下载
    Qwen3-VL-4B-思考下载
    Qwen3-VL-4B-指令-FP8下载
    Qwen3-VL-4B-思考-FP8下载
    Qwen3-VL-8B-指令下载
    Qwen3-VL-8B-思考下载
    Qwen3-VL-8B-指令-FP8下载
    Qwen3-VL-8B-思考-FP8下载
    Qwen3-VL-32B-指令下载
    Qwen3-VL-32B-思考下载
    Qwen3-VL-32B-指令-FP8下载
    Qwen3-VL-32B-思考-FP8下载
    Qwen2.5-VL-3B-指令下载
    Qwen2.5-VL-7B-指令下载

    📖 用法

    基本用法

    1. 从 🧪AILab/QwenVL 类别中添加“QwenVL”节点。
    2. 选择您要使用的模型名称。
    3. 将图像或视频(图像序列)源连接到节点。
    4. 您可以使用预设字段或自定义字段编写提示信息。
    5. 运行工作流程。

    高级用法

    如需更精细的控制,请使用“QwenVL(高级)”节点。该节点可让您访问详细的生成参数,例如温度、top_p、光束搜索和器件选择。

    ⚙️ 参数

    范围描述默认范围节点
    模型名称要使用的Qwen-VL模型。Qwen3-VL-4B-指令标准版和高级版
    量化即时量化。对于预量化模型(例如 FP8),此操作将被忽略。8 位(平衡)4 位、8 位、无标准版和高级版
    注意模式注意后端。auto如果可用,则尝试使用 Flash-Attn v2,否则回退到 SDPA。汽车自动、闪光灯_注意_2、SDPA标准版和高级版
    使用 torch 编译启用torch.compile('reduce-overhead')以提高 CUDA 吞吐量(Torch 2.1+)。仅限高级用户
    设备取消自动设备选择。汽车自动、CUDA、CPU仅限高级用户
    预设提示针对常见任务的一系列预定义提示。请描述一下……任何文本标准版和高级版
    自定义提示如果提供了预设提示,则覆盖该提示。任何文本标准版和高级版
    最大令牌数要生成的新代币的最大数量。102464-2048标准版和高级版
    保持模型加载将模型保存在显存中,以便后续运行速度更快。真的真/假标准版和高级版
    种子可重复结果的种子。11 – 2^64-1标准版和高级版
    温度控制随机性。数值越高,随机性越强。(当 num_beams 为 1 时使用)。0.60.1-1.0仅限高级用户
    顶部_p细胞核采样阈值。(当 num_beams 为 1 时使用)。0.90.0-1.0仅限高级用户
    光束数用于光束搜索的光束数量。大于 1 则禁用温度/top_p 采样。11-10仅限高级用户
    重复惩罚不鼓励重复使用令牌。1.20.0-2.0仅限高级用户
    帧数要从视频输入中采样的帧数。161-64仅限高级用户

    💡 量化选项

    模式精确内存使用情况速度质量推荐用于
    无(FP16)16 位浮点数高的最快最好的高显存显卡(16GB+)
    8 位(平衡)8位整数中等的快速地非常好均衡性能(8GB+)
    4 位(对显存友好)4位整数低的慢点*好的低显存显卡(<8GB)

    *关于 4 位速度的说明:4 位量化可以显著降低 VRAM 使用量,但由于实时反量化的计算开销,可能会导致某些系统的性能变慢。

    🤔 设置技巧

    环境推荐
    模型选择对于大多数用户来说,Qwen3-VL-4B-Instruct 是一个很好的起点。如果您使用的是 40 系列 GPU,请尝试使用 -FP8 版本以获得更好的性能。
    内存模式如果您计划多次运行该节点,请保持 keep_model_loaded 启用(True)以获得最佳性能。仅当其他节点的显存不足时才禁用它。
    量子化首先使用默认的 8 位模式。如果显存充足(>16GB),请切换到“无”(FP16)模式以获得最佳速度和质量。如果显存不足,请使用 4 位模式。
    表现首次使用特定量化方式加载模型时,速度可能会较慢。后续运行(启用 keep_model_loaded 参数)速度会快得多。

    🧠 关于模型

    该节点采用阿里云Qwen团队开发的Qwen-VL系列模型。这些强大的开源大型视觉语言模型(LVLM)旨在理解和处理视觉和文本信息,因此非常适合图像和视频详细描述等任务。

  • Custom_Nodes篇:ComfyUI-QwenVL3-image反推节点

    Custom_Nodes篇:ComfyUI-QwenVL3-image反推节点

    这是一个 ComfyUI 自定义节点,它集成了阿里巴巴的 Qwen3-VL-4B-Instruct-FP8 视觉语言模型。

    核心功能: 它的主要作用是分析输入的图像并生成相应的文本描述

    主要特点是高效运行,由于使用了 FP8 量化技术,该模型运行所需的显存较低,大约 10GB 左右。开发者提到,它适合用在图像放大的工作流程中,作为图像理解(“看懂”图片内容)的工具。需要注意的是,因为它依赖 FP8 技术,所以它有特定的硬件门槛,要求使用 NVIDIA RTX 4090 或计算能力更强的 GPU。简单来说,它是一个能帮你“读取”图片内容并将其转换成文字的工具节点,特别适合显存有限但又想使用先进视觉模型的用户(前提是你的 GPU 支持 FP8)。

    节点官方介绍:


    开源地址:https://github.com/yamanacn/ComfyUI-QwenVL3-image

    使用qwen3vl-4b快速分析图片内容,用于在放大中替代florence

    📖 简介

    一个为 ComfyUI 设计的自定义节点,集成了 Qwen3-VL-4B-Instruct-FP8 视觉语言模型,用于高效的图像理解和描述。

    ✨ 主要特性

    • 🚀 高效 FP8 量化:仅需约 10GB 显存
    • 📦 批量处理支持:一次处理多张图片
    • 💾 智能内存管理:可选模型保持加载,优化显存
    • 🔧 辅助工具链:提供文本分割、列表处理等节点

    📋 硬件要求

    • GPU: NVIDIA RTX 4090 或更高(计算能力 ≥ 8.9)
    • 显存: ≥ 10GB
    • 系统内存: 8GB+

    ⚠️ 重要提示: 此插件仅支持 FP8 量化模型,需要计算能力 8.9 或更高的 GPU。

    🔧 安装方法

    使用 Git Clone(推荐)

    cd ComfyUI/custom_nodes/
    git clone https://github.com/yamanacn/ComfyUI-QwenVL3-image.git
    cd ComfyUI-QwenVL3-image
    pip install -r requirements.txt

    使用 ComfyUI Manager

    1. 在 ComfyUI 中打开 Manager
    2. 搜索 “QwenVL3”
    3. 点击安装

    📦 模型下载

    模型会在首次使用时自动下载。你也可以从 HuggingFace 手动下载模型,并将其放置在 ComfyUI/models/Qwen/ 目录下。

    🎮 基础工作流

    对于批量处理,可连接 Text Batch Splitter 和 List Selector 节点来分别查看每张图片的描述。

    图片输入 → QwenVL3 Image (FP8) → 文本输出