Custom_Nodes篇:ComfyUI-QwenVL3-image反推节点

这是一个 ComfyUI 自定义节点,它集成了阿里巴巴的 Qwen3-VL-4B-Instruct-FP8 视觉语言模型。

核心功能: 它的主要作用是分析输入的图像并生成相应的文本描述

主要特点是高效运行,由于使用了 FP8 量化技术,该模型运行所需的显存较低,大约 10GB 左右。开发者提到,它适合用在图像放大的工作流程中,作为图像理解(“看懂”图片内容)的工具。需要注意的是,因为它依赖 FP8 技术,所以它有特定的硬件门槛,要求使用 NVIDIA RTX 4090 或计算能力更强的 GPU。简单来说,它是一个能帮你“读取”图片内容并将其转换成文字的工具节点,特别适合显存有限但又想使用先进视觉模型的用户(前提是你的 GPU 支持 FP8)。

节点官方介绍:


开源地址:https://github.com/yamanacn/ComfyUI-QwenVL3-image

使用qwen3vl-4b快速分析图片内容,用于在放大中替代florence

📖 简介

一个为 ComfyUI 设计的自定义节点,集成了 Qwen3-VL-4B-Instruct-FP8 视觉语言模型,用于高效的图像理解和描述。

✨ 主要特性

  • 🚀 高效 FP8 量化:仅需约 10GB 显存
  • 📦 批量处理支持:一次处理多张图片
  • 💾 智能内存管理:可选模型保持加载,优化显存
  • 🔧 辅助工具链:提供文本分割、列表处理等节点

📋 硬件要求

  • GPU: NVIDIA RTX 4090 或更高(计算能力 ≥ 8.9)
  • 显存: ≥ 10GB
  • 系统内存: 8GB+

⚠️ 重要提示: 此插件仅支持 FP8 量化模型,需要计算能力 8.9 或更高的 GPU。

🔧 安装方法

使用 Git Clone(推荐)

cd ComfyUI/custom_nodes/
git clone https://github.com/yamanacn/ComfyUI-QwenVL3-image.git
cd ComfyUI-QwenVL3-image
pip install -r requirements.txt

使用 ComfyUI Manager

  1. 在 ComfyUI 中打开 Manager
  2. 搜索 “QwenVL3”
  3. 点击安装

📦 模型下载

模型会在首次使用时自动下载。你也可以从 HuggingFace 手动下载模型,并将其放置在 ComfyUI/models/Qwen/ 目录下。

🎮 基础工作流

对于批量处理,可连接 Text Batch Splitter 和 List Selector 节点来分别查看每张图片的描述。

图片输入 → QwenVL3 Image (FP8) → 文本输出

评论

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注