标签：反推节点

ComfyUI-GGUF-VLM 结合 llama.cpp GPU 加速：实现图像反推秒级效率

众所周知，ComfyUI中QwenVL节点通过Qwen3VL模型能够将视觉内容转化为详细的文字描述，它广泛应用于图像反推提示词、智能标注、视觉问答等场景。同时把它接入到最近出的Z-Image模型中反推生图是leepoet感觉最合适的搭配组合，毕竟都是阿里出品，在反推生图方面语义对齐这一块应该会更兼容。事实也是如此，在lee poet不断的测试下，拿来反推的图相似度个人觉得大部份生图与原图能达到70%以上。

但是Qwen3VL的缺点就是有些慢，对于4060Ti 16G而言，反推大概在1分钟以内。而3060 12G大概在2分钟左右。自从Z-Image前段时间出了之后，Leepoet就一直在用它接入到Z-Image洗图。就拿4060TI16G来讲，反推50秒出图20秒，这样的效率相较于一些专为速度优化的模型（如Florence2、Joy）存在一定差距，导致其在需要高频、批量处理的“洗图”等场景下略显尴尬，但这种效率上的差异本质上源于模型在设计目标上的根本不同，从而使得它们在应用场景上“各有千秋” 。

但基于Qwen3VL在反推理解能力准确性、丰富度较好的基础上，所以这段时间也就一直这样将就的用着。

一直到昨天从群友处了解另一个好使的节点ComfyUI-GGUF-VLM。才知道除了GGUF加速模型外还可以使用 llama.cpp对模型进行加速。

以下是ComfyUI-GGUF-VLM节点的简介：

ComfyUI 的多模态模型推理插件,专注于 Qwen 系列视觉语言模型,支持多种推理后端。

## ✨ 核心功能

### 主要侧重

**🎯 视觉语言模型 (VLM)**

- **Qwen2.5-VL** / **Qwen3-VL** - 主要支持的视觉模型
- LLaVA、MiniCPM-V 等其他视觉模型
- 单图分析、多图对比、视频分析

**💬 文本生成模型**

- Qwen3、LLaMA3、DeepSeek-R1、Mistral 等
- 支持思维模式 (Thinking Mode)

### 推理方式

- ✅ **GGUF 模式** - 使用 llama-cpp-python 进行量化模型推理
- ✅ **Transformers 模式** - 使用 HuggingFace Transformers 加载完整模型
- ✅ **远程 API 模式** - 通过 Ollama、Nexa SDK、OpenAI 兼容 API 调用

### 主要特性

- ✅ **多推理后端** - GGUF、Transformers、远程 API 灵活切换
- ✅ **Qwen-VL 优化** - 针对 Qwen 视觉模型的参数优化
- ✅ **多图分析** - 最多同时分析 6 张图像
- ✅ **设备优化** - CUDA、MPS、CPU 自动检测
- ✅ **Ollama 集成** - 无缝对接 Ollama 服务

## 🤖 支持的模型

### 🎯 主要支持 (推荐)

**视觉模型:**

- **Qwen2.5-VL** (GGUF / Transformers)
- **Qwen3-VL** (GGUF / Transformers)

**文本模型:**

- Qwen3、Qwen2.5 (GGUF / Ollama)
- LLaMA-3.x (GGUF / Ollama)

### 🔧 其他支持

**视觉模型:** LLaVA、MiniCPM-V、Phi-3-Vision、InternVL 等

**文本模型:** Mistral、DeepSeek-R1、Phi-3、Gemma、Yi 等

> 💡 **推理方式:**
>
> - GGUF 格式 → llama-cpp-python 本地推理
> - Transformers → HuggingFace 模型加载
> - Ollama/Nexa → 远程 API 调用

## 📦 安装

```bash
cd ComfyUI/custom_nodes
git clone https://github.com/walke2019/ComfyUI-GGUF-VLM.git
cd ComfyUI-GGUF-VLM
pip install -r requirements.txt

# 可选: 安装 Nexa SDK 支持
pip install nexaai
```

## 🚀 快速开始

### 本地 GGUF 模式

1. 将 GGUF 模型文件放到 `ComfyUI/models/LLM/GGUF/` 目录
2. 在 ComfyUI 中添加节点:
   - **Text Model Loader** - 加载模型
   - **Text Generation** - 生成文本

### 远程 API 模式

1. 启动 API 服务 (Nexa/Ollama):

   ```bash
   nexa serve  # 或 ollama serve
   ```

2. 在 ComfyUI 中添加节点:

   - **Remote API Config** - 配置 API 地址
   - **Remote Text Generation** - 生成文本

## 📋 可用节点

### 文本生成节点

- **Text Model Loader** - 加载本地 GGUF 模型
- **Text Generation** - 文本生成
- **Remote API Config** - 远程 API 配置
- **Remote Text Generation** - 远程文本生成

### 视觉分析节点

- **Vision Model Loader (GGUF)** - 加载 GGUF 视觉模型
- **Vision Model Loader (Transformers)** - 加载 Transformers 模型
- **Vision Analysis** - 单图分析
- **Multi-Image Analysis** - 多图对比分析

### 🆕 工具节点

- **Memory Manager (GGUF)** - 显存/内存管理工具
  - 清理已加载的模型
  - 强制垃圾回收
  - 清理GPU缓存
  - 显示显存使用情况

### 工具节点

- **System Prompt Config** - 系统提示词配置
- **Model Manager** - 模型管理器

## 💭 思维模式

支持 DeepSeek-R1、Qwen3-Thinking 等模型的思维过程提取。

启用 `enable_thinking` 参数后,会自动提取并分离思维过程和最终答案。

## 📁 项目结构

```
ComfyUI-GGUF-VLM/
├── config/          # 配置文件
├── core/            # 核心推理引擎
│   └── inference/   # 多后端推理实现
├── nodes/           # ComfyUI 节点定义
├── utils/           # 工具函数
└── web/             # 前端扩展
```

##

节点github地址：https://github.com/walke2019/ComfyUI-GGUF-VLM

安装好节点后，可以先通过启动安装一次该节点的依赖、库。然后再下载GGUF模型：

模型地址：https://huggingface.co/mradermacher/Qwen2.5-VL-7B-NSFW-Caption-V3-abliterated-GGUF/tree/main?not-for-all-audiences=true

放到对应的模型文件夹：

.\ComfyUI\models\text_encoders\qwenclip

.\ComfyUI\models\LLM\GGUF

这里建议配置好的可以用以下这两个模型，因为官方的推是

GGUF	Q6_K	6.4	very good quality
GGUF	Q8_0	8.2	fast, best quality

以上基本上就已经安装好节点，并把模型下载好并可进入使用了。但是在这种情况下只能通过CPU进行推理（在速度方面跟QWEN3VL其实并没有太大的区别，有区别的就是这些模型是破限的）。并没有使用llama-cpp-python。

可以这么说，同样为3060 12G的显卡，ComfyUI-QwenVL节点反推一张图的时间在2分左右，而ComfyUI-GGUF-VLM通过llama-cpp-python调用GPU加速可以让反推时间缩短到几秒钟。

那么什么是llama-cpp-python？

llama-cpp-python 是 llama.cpp 的 Python 绑定库，提供高性能的本地大语言模型推理能力，支持 CPU、CUDA GPU、Metal 等多种硬件加速，是部署本地 LLM 应用的常用工具。支持 CPU、CUDA（NVIDIA GPU）、Metal（Apple Silicon）、OpenCL 等多种后端的高性能推理。

话虽如此，正常使用ComfyUI-GGUF-VLM这个节点，在没有安装llama-cpp-python这个库的情况反推是不支持GPU的，但是要想让反推达到秒级的速度，就要先准备一些环境。

步骤前瞻：

先安装好节点并下载模型->安装Visual Studio->配置MSVC系统变量->安装配置对应版本的CUDA->通过CUDA调用MSVC构建llama-cpp-python

1.安装Visual Studio，并配置好MSVC系统变量。

lee poet之前写过一个怎么配置环境篇：加载ComfyUI出现WARNING: Failed to find MSVC解决方案，配置好记得重启。。

2.验证cl,rc,link。如果有返回路径说明已经配置好。

3.安装CUDA及cudnn，并配置CUDA环境变量。

因为lee poet所使用的comfyui环境是的pytorch version: 2.5.1+cu124

所以要下载对应的cuda版本，我下载的是CUDA Toolkit 12.4的CUDA Toolkit 12.4 Downloads Installer for Windows 10 x86_64

同时再下载cudnn，下载地址：https://developer.nvidia.com/rdp/cudnn-archive，找到对应的CUDA版本号

Download cuDNN v8.9.7 (December 5th, 2023), for CUDA 12.x

下载好用，先进行cuda的安装，*如果之前您有安装其它低版本的CUDA，在不使用的情况下可以先通过卸载程序的控制面板里先卸载。再进行安装：

以上安装都说有报错，重启电脑再继续安装即可。安装完后，我们先配置环境变量。

添加CUDA的环境变量（如果已经存在，则不需要重复添加）

配置好后，解压cudnn-windows-x86_64-8.9.7.29_cuda12-archive.zip，可以看到三个文件夹

把红框圈住的地方COPY到刚刚安装好的CUDA的C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v12.4这个文件夹内

继续给cuDNN添加相应的环境变量

#leepoet的CUDA及cuDNN的环境变量如下：
C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v12.4\bin
C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v12.4\include
C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v12.4\lib
C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v12.4\libnvvp

配置好环境变量后，验证：nvcc -V

找到C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v12.4\extras\visual_studio_integration\MSBuildExtentions里的这四个文件复制

粘贴到C:\Program Files\Microsoft Visual Studio\2022\Community\MSBuild\Microsoft\VC\v170\BuildCustomizations这个目录下

以上就算是把llama-cpp-python安装的环境配置好了。下面再通过虚拟环境构建安装llama-cpp-python。

打开启动器命令提示符，可以通过这个直接到这个整合包的虚拟环境。

可以看到红框框住的这个标识，实际上就是这个整合包的虚拟环境的标识

set CMAKE_ARGS=-DGGML_CUDA=on
python.exe -m pip install llama-cpp-python --force-reinstall --no-cache-dir

命令/参数	解释
`set CMAKE_ARGS="-DGGML_CUDA=on"`	设置一个名为 `CMAKE_ARGS`的环境变量，其值为 `-DGGML_CUDA=on`。这个变量会传递给后续的编译过程，指示构建系统启用对CUDA的支持。
`python.exe -m pip install`	使用Python模块方式运行pip进行安装，这通常比直接运行`pip`命令更可靠。
`llama-cpp-python`	要安装的Python包名称，它是对C++库`llama.cpp`的Python封装。
`--force-reinstall`	强制重新安装该包及其所有依赖。如果已存在安装版本，会先卸载再安装，确保是最新编译的版本。
`--no-cache-dir`	禁用pip的缓存。这能确保pip不会使用之前下载或编译的缓存文件，而是从头开始获取源码并进行编译。

这条命令组合起来的效果是：强制pip忽略缓存，重新从源码编译并安装支持CUDA的llama-cpp-python库。通过pip install llama-cpp-python安装的是仅支持CPU的版本。通过从源码编译并设置CMAKE_ARGS，可以解锁GPU加速功能，在处理大语言模型时能获得数倍的速度提升。

执行命令后

先是下载库从源码编译，可能需要十几到二十分钟。

可以看到已经安装成功了。*安装后完有其它库的冲突能解决就自己解决，LeePoet是选择性忽略，主打一个能用就行。

后面就是关掉启动器，重新启动。它会自己解析并检验各种依赖。

启动完进入UI后，这次从反推到Z-image生图768x1536px的图片大概在40秒左右了。

李诗人这次使用的是家用电脑配置相对一般，但是能有这个速度还是相对满意的。

相关文章：Custom_Nodes篇:ComfyUI-QwenVL反推节点

Custom_Nodes篇:ComfyUI-QwenVL3-image反推节点

2025 年 12 月 9 日

Custom_Nodes篇:ComfyUI-QwenVL反推节点

这个插件对于 ComfyUI 用户来说，实用性非常高，而且考虑到了不同的硬件配置需求。

技术整合很到位：它直接把像 Qwen3-VL 这样领先的视觉语言模型带到了 ComfyUI 的节点式工作流中，让用户能以更直观的方式使用多模态能力，无论是图片分析还是未来的视频处理（根据介绍），都提供了强大的基础。它不仅追赶最新的 Qwen3-VL 模型，还保持对早期 Qwen2.5 的支持，这让拥有不同模型的用户都能受益。最值得称赞的是它加入了多种量化（4-bit/8-bit）和模型缓存的选项。这意味着开发者清晰地认识到 VRAM 是限制许多 AI 玩家的主要瓶颈，通过这些优化，可以让更多配置没那么“壕”的用户也能体验到高性能 VL 模型，这大大提升了它的普及潜力。

总体来看，这是一个强大、灵活且注重实用的节点集，为 ComfyUI 的多模态能力添加了重要的一块拼图。

节点官方介绍:

ComfyUI-QwenVL 自定义节点集成了 Qwen-VL 系列，包括最新的 Qwen3-VL 型号，以及 Qwen2.5-VL 和最新的 Qwen3-VL，从而实现了用于生成文本、图像理解和视频分析的高级多模态 AI。

开源地址：https://github.com/1038lab/ComfyUI-QwenVL

ComfyUI-QwenVL 自定义节点集成了阿里云强大的 Qwen-VL 系列视觉语言模型 (LVLM)，包括最新的 Qwen3-VL 和 Qwen2.5-VL。该高级节点可在 ComfyUI 工作流程中实现无缝的多模态 AI 功能，从而高效地生成文本、理解图像和分析视频。

✨ 特点

标准节点和高级节点：包含一个用于快速使用的简单 QwenVL 节点和一个可对生成进行精细控制的 QwenVL（高级）节点。
预设和自定义提示：您可以从一系列便捷的预设提示中进行选择，也可以编写自己的提示以实现完全控制。
多型号支持：轻松切换各种官方 Qwen-VL 型号。
自动模型下载：模型会在首次使用时自动下载。
智能量化：通过 4 位、8 位和 FP16 选项平衡 VRAM 和性能。
硬件感知：自动检测 GPU 功能，防止与不兼容的型号（例如 FP8）发生错误。
可复现生成：使用种子参数以获得一致的输出。
内存管理：“保持模型加载”选项可将模型保留在 VRAM 中，以加快处理速度。
图像和视频支持：接受单个图像和视频帧序列作为输入。
强大的错误处理能力：针对硬件或内存问题提供清晰的错误消息。
简洁的控制台输出：运行期间输出简洁明了的控制台日志。Flash -Attention v2 集成：可用时自动启用，以加快注意力层速度。Torch 编译优化：可选的 JIT 编译，use_torch_compile以提高吞吐量。 高级设备处理：自动检测 CUDA、Apple Silicon (MPS) 或 CPU；可手动覆盖。 动态内存强制执行：根据 VRAM 可用性自动调整量化级别。

🚀 安装

将此仓库克隆到您的 ComfyUI/custom_nodes 目录：cd ComfyUI/custom\_nodes git clone https://github.com/1038lab/ComfyUI-QwenVL.git
安装所需的依赖项：cd ComfyUI/custom_nodes/ComfyUI-QwenVL pip install -r requirements.txt
重启ComfyUI。

📥 下载模型

首次使用时，模型将自动下载。如果您希望手动下载，请将其放置在 ComfyUI/models/LLM/Qwen-VL/ 目录中。

模型	关联
Qwen3-VL-2B-指令	下载
Qwen3-VL-2B-思考	下载
Qwen3-VL-2B-指令-FP8	下载
Qwen3-VL-2B-思考-FP8	下载
Qwen3-VL-4B-指令	下载
Qwen3-VL-4B-思考	下载
Qwen3-VL-4B-指令-FP8	下载
Qwen3-VL-4B-思考-FP8	下载
Qwen3-VL-8B-指令	下载
Qwen3-VL-8B-思考	下载
Qwen3-VL-8B-指令-FP8	下载
Qwen3-VL-8B-思考-FP8	下载
Qwen3-VL-32B-指令	下载
Qwen3-VL-32B-思考	下载
Qwen3-VL-32B-指令-FP8	下载
Qwen3-VL-32B-思考-FP8	下载
Qwen2.5-VL-3B-指令	下载
Qwen2.5-VL-7B-指令	下载

📖 用法

基本用法

从 🧪AILab/QwenVL 类别中添加“QwenVL”节点。
选择您要使用的模型名称。
将图像或视频（图像序列）源连接到节点。
您可以使用预设字段或自定义字段编写提示信息。
运行工作流程。

高级用法

如需更精细的控制，请使用“QwenVL（高级）”节点。该节点可让您访问详细的生成参数，例如温度、top_p、光束搜索和器件选择。

⚙️ 参数

范围	描述	默认	范围	节点
模型名称	要使用的Qwen-VL模型。	Qwen3-VL-4B-指令	–	标准版和高级版
量化	即时量化。对于预量化模型（例如 FP8），此操作将被忽略。	8 位（平衡）	4 位、8 位、无	标准版和高级版
注意模式	注意后端。`auto`如果可用，则尝试使用 Flash-Attn v2，否则回退到 SDPA。	汽车	自动、闪光灯_注意_2、SDPA	标准版和高级版
使用 torch 编译	启用`torch.compile('reduce-overhead')`以提高 CUDA 吞吐量（Torch 2.1+）。	假	–	仅限高级用户
设备	取消自动设备选择。	汽车	自动、CUDA、CPU	仅限高级用户
预设提示	针对常见任务的一系列预定义提示。	请描述一下……	任何文本	标准版和高级版
自定义提示	如果提供了预设提示，则覆盖该提示。		任何文本	标准版和高级版
最大令牌数	要生成的新代币的最大数量。	1024	64-2048	标准版和高级版
保持模型加载	将模型保存在显存中，以便后续运行速度更快。	真的	真/假	标准版和高级版
种子	可重复结果的种子。	1	1 – 2^64-1	标准版和高级版
温度	控制随机性。数值越高，随机性越强。（当 num_beams 为 1 时使用）。	0.6	0.1-1.0	仅限高级用户
顶部_p	细胞核采样阈值。（当 num_beams 为 1 时使用）。	0.9	0.0-1.0	仅限高级用户
光束数	用于光束搜索的光束数量。大于 1 则禁用温度/top_p 采样。	1	1-10	仅限高级用户
重复惩罚	不鼓励重复使用令牌。	1.2	0.0-2.0	仅限高级用户
帧数	要从视频输入中采样的帧数。	16	1-64	仅限高级用户

💡 量化选项

模式	精确	内存使用情况	速度	质量	推荐用于
无（FP16）	16 位浮点数	高的	最快	最好的	高显存显卡（16GB+）
8 位（平衡）	8位整数	中等的	快速地	非常好	均衡性能（8GB+）
4 位（对显存友好）	4位整数	低的	慢点*	好的	低显存显卡（<8GB）

*关于 4 位速度的说明：4 位量化可以显著降低 VRAM 使用量，但由于实时反量化的计算开销，可能会导致某些系统的性能变慢。

🤔 设置技巧

环境	推荐
模型选择	对于大多数用户来说，Qwen3-VL-4B-Instruct 是一个很好的起点。如果您使用的是 40 系列 GPU，请尝试使用 -FP8 版本以获得更好的性能。
内存模式	如果您计划多次运行该节点，请保持 keep_model_loaded 启用（True）以获得最佳性能。仅当其他节点的显存不足时才禁用它。
量子化	首先使用默认的 8 位模式。如果显存充足（>16GB），请切换到“无”（FP16）模式以获得最佳速度和质量。如果显存不足，请使用 4 位模式。
表现	首次使用特定量化方式加载模型时，速度可能会较慢。后续运行（启用 keep_model_loaded 参数）速度会快得多。

🧠 关于模型

该节点采用阿里云Qwen团队开发的Qwen-VL系列模型。这些强大的开源大型视觉语言模型（LVLM）旨在理解和处理视觉和文本信息，因此非常适合图像和视频详细描述等任务。

2025 年 11 月 29 日

Custom_Nodes篇:ComfyUI-QwenVL3-image反推节点
这是一个 ComfyUI 自定义节点，它集成了阿里巴巴的 Qwen3-VL-4B-Instruct-FP8 视觉语言模型。

核心功能： 它的主要作用是分析输入的图像并生成相应的文本描述。

主要特点是高效运行,由于使用了 FP8 量化技术，该模型运行所需的显存较低，大约 10GB 左右。开发者提到，它适合用在图像放大的工作流程中，作为图像理解（“看懂”图片内容）的工具。需要注意的是，因为它依赖 FP8 技术，所以它有特定的硬件门槛，要求使用 NVIDIA RTX 4090 或计算能力更强的 GPU。简单来说，它是一个能帮你“读取”图片内容并将其转换成文字的工具节点，特别适合显存有限但又想使用先进视觉模型的用户（前提是你的 GPU 支持 FP8）。

节点官方介绍:

开源地址：https://github.com/yamanacn/ComfyUI-QwenVL3-image

使用qwen3vl-4b快速分析图片内容，用于在放大中替代florence

📖 简介

一个为 ComfyUI 设计的自定义节点，集成了 Qwen3-VL-4B-Instruct-FP8 视觉语言模型，用于高效的图像理解和描述。

✨ 主要特性
- 🚀 高效 FP8 量化：仅需约 10GB 显存
- 📦 批量处理支持：一次处理多张图片
- 💾 智能内存管理：可选模型保持加载，优化显存
- 🔧 辅助工具链：提供文本分割、列表处理等节点
📋 硬件要求
- GPU: NVIDIA RTX 4090 或更高（计算能力 ≥ 8.9）
- 显存: ≥ 10GB
- 系统内存: 8GB+
⚠️ 重要提示: 此插件仅支持 FP8 量化模型，需要计算能力 8.9 或更高的 GPU。

🔧 安装方法

使用 Git Clone（推荐）
```
cd ComfyUI/custom_nodes/
git clone https://github.com/yamanacn/ComfyUI-QwenVL3-image.git
cd ComfyUI-QwenVL3-image
pip install -r requirements.txt
```
使用 ComfyUI Manager
1. 在 ComfyUI 中打开 Manager
2. 搜索 “QwenVL3”
3. 点击安装
📦 模型下载

模型会在首次使用时自动下载。你也可以从 HuggingFace 手动下载模型，并将其放置在 ComfyUI/models/Qwen/ 目录下。
- 模型地址: Qwen/Qwen3-VL-4B-Instruct-FP8
🎮 基础工作流

对于批量处理，可连接 Text Batch Splitter 和 List Selector 节点来分别查看每张图片的描述。
```
图片输入 → QwenVL3 Image (FP8) → 文本输出
```
2025 年 11 月 29 日

标签： 反推节点

ComfyUI-GGUF-VLM 结合 llama.cpp GPU 加速：实现图像反推秒级效率

Custom_Nodes篇:ComfyUI-QwenVL反推节点

✨ 特点

🚀 安装

📥 下载模型

📖 用法

基本用法

高级用法

⚙️ 参数

💡 量化选项

🤔 设置技巧

🧠 关于模型

Custom_Nodes篇:ComfyUI-QwenVL3-image反推节点

✨ 主要特性

📋 硬件要求

🔧 安装方法

使用 Git Clone（推荐）

使用 ComfyUI Manager

📦 模型下载

🎮 基础工作流

标签：反推节点