这是一个 ComfyUI 自定义节点,它集成了阿里巴巴的 Qwen3-VL-4B-Instruct-FP8 视觉语言模型。
核心功能: 它的主要作用是分析输入的图像并生成相应的文本描述。
主要特点是高效运行,由于使用了 FP8 量化技术,该模型运行所需的显存较低,大约 10GB 左右。开发者提到,它适合用在图像放大的工作流程中,作为图像理解(“看懂”图片内容)的工具。需要注意的是,因为它依赖 FP8 技术,所以它有特定的硬件门槛,要求使用 NVIDIA RTX 4090 或计算能力更强的 GPU。简单来说,它是一个能帮你“读取”图片内容并将其转换成文字的工具节点,特别适合显存有限但又想使用先进视觉模型的用户(前提是你的 GPU 支持 FP8)。
节点官方介绍:
开源地址:https://github.com/yamanacn/ComfyUI-QwenVL3-image
使用qwen3vl-4b快速分析图片内容,用于在放大中替代florence
一个为 ComfyUI 设计的自定义节点,集成了 Qwen3-VL-4B-Instruct-FP8 视觉语言模型,用于高效的图像理解和描述。
✨ 主要特性
- 🚀 高效 FP8 量化:仅需约 10GB 显存
- 📦 批量处理支持:一次处理多张图片
- 💾 智能内存管理:可选模型保持加载,优化显存
- 🔧 辅助工具链:提供文本分割、列表处理等节点
📋 硬件要求
- GPU: NVIDIA RTX 4090 或更高(计算能力 ≥ 8.9)
- 显存: ≥ 10GB
- 系统内存: 8GB+
⚠️ 重要提示: 此插件仅支持 FP8 量化模型,需要计算能力 8.9 或更高的 GPU。
🔧 安装方法
使用 Git Clone(推荐)
cd ComfyUI/custom_nodes/ git clone https://github.com/yamanacn/ComfyUI-QwenVL3-image.git cd ComfyUI-QwenVL3-image pip install -r requirements.txt
使用 ComfyUI Manager
- 在 ComfyUI 中打开 Manager
- 搜索 “QwenVL3”
- 点击安装
📦 模型下载
模型会在首次使用时自动下载。你也可以从 HuggingFace 手动下载模型,并将其放置在 ComfyUI/models/Qwen/ 目录下。
🎮 基础工作流
对于批量处理,可连接 Text Batch Splitter 和 List Selector 节点来分别查看每张图片的描述。
图片输入 → QwenVL3 Image (FP8) → 文本输出

发表回复