标签: 本地部署

  • AI绘画不止WebUI:如何用ComfyUI实现极致控制与高效生成?​

    AI绘画不止WebUI:如何用ComfyUI实现极致控制与高效生成?​

    ComfyUI 是一款基于​​节点式工作流​​(Node-based Workflow)的开源 AI 图像生成工具,专为 ​​Stable Diffusion​​ 等扩散模型设计。ComfyUI 是一款基于 ​​节点式工作流(Node-based Workflow)​​ 的 Stable Diffusion 图形用户界面(GUI),它通过将图像生成流程拆解为可自由连接和配置的模块化节点,为用户提供了前所未有的​​灵活性、可控性和可复现性​

    AI绘画不止WebUI:如何用ComfyUI实现极致控制与高效生成?​

    它允许用户通过拖拽和连接不同的功能模块(节点)来构建可视化的图像生成流程,实现了高度定制化和灵活可控的 AI 创作体验。下面我将从多个角度为你系统介绍 ComfyUI。ComfyUI 的核心在于其​​模块化​​和​​可视化​​的工作流设计,这与传统的 WebUI(如 AUTOMATIC1111)的表单式操作有根本区别。

    🧠 一、核心特点与设计理念

    ComfyUI 的核心在于其​​模块化​​和​​可视化​​的工作流设计:

    • •​​高度灵活与可控​​:用户可以直接调整每个生成步骤的参数,精确控制图像生成的各个环节,甚至构建非常复杂或特殊的工作流。
    • •​​强大的扩展性​​:支持丰富的插件和自定义脚本(如 ControlNet、LoRA、IP-Adapter等),社区不断贡献新节点和功能。
    • •​​节点式操作(Node-Based)​​:所有功能被拆解为独立节点(如加载模型、输入提示词、设置采样器等),用户通过拖拽和连接这些节点来构建完整流程。这种方式让整个生成过程变得透明,易于理解和调试。
    • •​​高性能与低显存占用​​:ComfyUI 进行了多项优化,例如​​懒加载(Lazy Evaluation)​​,即只有工作流中发生变化的节点才会被重新执行,这大大节省了计算资源和时间。其显存需求通常低于同类工具,使得​​显存≥8GB的消费级显卡​​也能获得良好体验。
    • •​​强大的扩展性​​:支持丰富的自定义节点(Custom Nodes)和插件,社区不断贡献新功能(如 ControlNet、IP-Adapter、AnimateDiff等),使其能力边界持续扩展。
    • •​​工作流的可复现与共享​​:任何生成流程都可以保存为 .json文件或直接嵌入输出图片的元数据中。这意味着你可以轻松分享你的完整创作流程,他人导入后可以完全复现你的结果,这对于协作和研究至关重要。
    • •​​活跃的开源社区​​:拥有一个由开发者和爱好者组成的活跃社区,不断推动其发展,分享工作流、教程和资源。
    AI绘画不止WebUI:如何用ComfyUI实现极致控制与高效生成?​

    🔄 二、ComfyUI 与 Stable Diffusion WebUI 的对比

    了解 ComfyUI 时,常会将其与 AUTOMATIC1111 的 Stable Diffusion WebUI 进行比较:

    ​对比维度​​ComfyUI​​Stable Diffusion WebUI (AUTOMATIC1111)​
    ​界面与交互​节点式流程图,类似编程,​​学习曲线稍陡峭​传统网页布局,按钮与表单操作,​​对新手更友好​
    ​灵活性与控制力​​极高​​,可自由构建和调整复杂工作流相对固定,灵活性较低
    ​硬件需求(显存)​​相对较低​​(例如6GB显存可运行基础模型)相对较高(推荐12GB+显存)
    ​功能扩展​插件生态快速增长插件生态非常成熟和丰富
    ​适用场景​技术研究、流程自动化、批量生成、追求极致控制快速创作、单次生成、初学者入门

    🛠️ 三、核心概念与工作流原理

    要理解 ComfyUI,需要了解其几个核心概念:

    • •​​节点(Nodes)​​:构成工作流的基本单元,每个节点执行特定任务(如 KSampler采样器, CLIPTextEncode文本编码器, VAEDecode解码器等)。
    • •​​工作流(Workflow)​​:由节点通过输入输出接口连接而成的有向无环图(DAG),定义了图像生成的完整管道7。工作流可以保存为 .json文件,方便分享和复用。
    • •​​潜空间(Latent Space)​​:Stable Diffusion 的核心工作原理之一。大部分计算在低维的潜空间中完成,最后由 VAE 解码器转换为像素空间的高清图像。这大大节省了计算资源和内存。

    一个典型的文生图(txt2img)工作流逻辑通常从左向右执行:

    加载模型-> CLIP文本编码器(处理提示词)-> 生成初始潜在噪声-> 采样器(在潜空间中去噪)-> VAE解码器(潜空间转像素空间)-> 保存图像

    📥 四、安装与入门指南

    ComfyUI 的安装方式多样,以下是常见方法:

    1. ​通过 Git 克隆(推荐)​​:这种方式便于后续更新。
    # 克隆官方仓库
    git clone https://github.com/comfyanonymous/ComfyUI.git[4,7](@ref)
    cd ComfyUI
    # 创建并激活Python虚拟环境(可选但推荐)
    # 安装依赖包
    pip install -r requirements.txt[4](@ref)
    1. 完成后,运行 python main.py启动,默认在浏览器中打开 http://127.0.0.1:81885。
    2. ​使用秋叶启动器等整合包​​:针对 Windows 用户,国内开发者秋叶等制作的整合包解压即用,内置了常用插件和依赖,对新手非常友好。请注意从可信来源获取。
    3. ​桌面应用(Beta)​​:ComfyUI 团队正在开发一键安装的桌面版程序,旨在进一步降低安装门槛。

    ​安装后,你需要下载模型文件​​(如 .safetensors格式的 Stable Diffusion 大模型、VAE、LoRA 等),并放置在 ComfyUI 目录下对应的 models子文件夹中(如 checkpointslorasvae)。

    🚀 五、应用场景

    ComfyUI 的灵活性使其适用于多种高级应用场景:

    • •​​艺术创作​​:通过精细控制工作流,生成独特风格的艺术作品。
    • •​​概念设计​​:快速生成和迭代不同风格、主题的图像,辅助创意开发。
    • •​​图像超分辨率与修复​​:构建包含放大和修复节点的流程提升图像质量。
    • •​​风格迁移​​:利用特定节点或模型实现图像风格转换。
    • •​​AI研究与实验​​:其模块化特性非常适合研究人员设计和测试新的生成流程或算法。
    • •​​视频生成​​:通过与 AnimateDiff 等插件结合,可以生成连贯的视频序列。

    以下是COMFY官方在GITHUB的部分自述:

    特色

    工作流程示例可以在示例页面上找到。

    发布流程

    ComfyUI遵循每周一次的发布周期,通常在周五发布,但由于模型更新或代码库的重大修改,这一时间安排会经常发生变化。该项目有三个相互关联的代码仓库:

    1. ComfyUI Core
      • 发布一个新的稳定版本(例如,v0.7.0)
      • 这是桌面版本发布的基础。
    2. ComfyUI桌面版
      • 使用最新的稳定核心版本构建新的发布版本。
    3. ComfyUI 前端
      • 每周的前端更新都会合并到核心代码库中。
      • 即将发布的核心版本中,各项功能将保持不变(即不会进行修改或更新)。
      • 下一个发布周期的开发工作仍在继续。

    快捷方式

    按键绑定解释;说明
    Ctrl + Enter将当前图表排队以进行生成
    Ctrl + Shift + Enter将当前图表排在生成序列的首位。
    Ctrl + Alt + Enter取消当前一代产品
    Ctrl + Z/Ctrl + Y撤销/重做
    Ctrl + S保存工作流程
    Ctrl + O加载工作流程
    Ctrl + A选择所有节点
    Alt C折叠/展开选中的节点
    Ctrl + M静音/取消静音选中的节点
    Ctrl + B绕过选定的节点(相当于将该节点从图中移除,然后重新连接相关线路)
    Delete/Backspace删除选中的节点
    Ctrl + Backspace删除当前图表
    Space在手持画布并移动光标时,可以调整画布的位置。
    Ctrl/Shift + Click将已点击的节点添加到选择集中
    Ctrl + C/Ctrl + V复制并粘贴选中的节点(但不保留与未选中节点输出的连接)
    Ctrl + C/Ctrl + Shift + V复制并粘贴选定的节点(同时保持未选定节点的输出与被粘贴节点的输入之间的连接)
    Shift + Drag同时移动多个选中的节点
    Ctrl + D加载默认图表
    Alt + +在画布上放大显示
    Alt + -在画布上缩小显示范围
    Ctrl + Shift + 左键鼠标 + 向下拖动画布缩放(放大/缩小)
    P固定/取消固定选定的节点
    Ctrl + G选定的节点组
    Q切换队列的可见性
    H切换历史记录的显示/隐藏状态
    R刷新图表
    F显示/隐藏菜单
    .将视图调整以适应所选内容(当未选择任何内容时显示整个图表)
    双击左鼠标按钮打开节点快速搜索调色板
    Shift + 拖动同时移动多根电线
    Ctrl + Alt + 左键鼠标将所有电线从所连接的插槽中拔出。

    对于 macOS 用户来说,Ctrl 也可以被 Cmd 替代。

    安装

    Windows Portable

    有一个适用于 Windows 的便携式独立版本,可以在 发布页面 上找到。该版本既可以在 Nvidia 显卡上运行,也可以仅通过 CPU 运行。

    直接下载链接

    只需下载文件,使用7-Zip解压后运行即可。请确保将您的Stable Diffusion检查点/模型文件(即那些庞大的ckpt/safetensors文件)放入以下路径:ComfyUI\models\checkpoints。

    如果你提取文件有困难,可以右键点击该文件 -> 属性 -> 解锁。

    我该如何在另一个用户界面(UI)和ComfyUI之间共享模型?

    请参阅配置文件,以设置模型的搜索路径。在独立的Windows构建版本中,您可以在ComfyUI目录中找到该文件。将此文件重命名为extra_model_paths.yaml,并使用您喜欢的文本编辑器对其进行编辑。

    comfy-cli

    你可以使用 comfy-cli 来安装并启动 ComfyUI:

    pip install comfy-cli
    comfy install

    手动安装(Windows、Linux)

    Python 3.13得到了很好的支持。如果你在某些自定义节点依赖方面遇到问题,可以尝试使用3.12版本。

    使用 Git 克隆这个仓库。

    将你的 SD 检查点文件(即那些庞大的 checkpoint/safetensors 文件)放在以下路径:models/checkpoints

    将你的变分自编码器(VAE)放入:models/vae

    AMD显卡(仅适用于Linux系统)

    AMD用户如果还没有安装rocm和pytorch,可以通过pip来安装。以下是安装稳定版本的命令:

    pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/rocm6.4

    这是用于安装带有 ROCm 6.4 的 nightly 版本的命令,该版本可能具备一些性能提升。

    pip install --pre torch torchvision torchaudio --index-url https://download.pytorch.org/whl/nightly/rocm6.4

    英特尔显卡(适用于Windows和Linux系统)

    (选项1)Intel Arc GPU用户可以使用pip安装支持torch.xpu的原生PyTorch。更多信息请参见此处

    1. 要安装 PyTorch XPU,请使用以下命令:

    pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/xpu

    这是用于安装 Pytorch xpu nightly 版本的命令,该版本可能具备一些性能提升。

    pip install --pre torch torchvision torchaudio --index-url https://download.pytorch.org/whl/nightly/xpu

    (选项2)或者,支持 Intel Extension for PyTorch(IPEX)的英特尔 GPU 可以利用 IPEX 来提升性能。

    1. 访问安装指南以获取更多信息。

    英伟达

    Nvidia用户应使用以下命令安装稳定的PyTorch版本:

    pip install torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu129

    这是用于安装 nightly 版 PyTorch 的命令,该版本可能在性能上有所提升。

    pip install --pre torch torchvision torchaudio --index-url https://download.pytorch.org/whl/nightly/cu129

    故障排除

    如果你遇到“Torch未使用CUDA编译”错误,可以使用以下命令卸载torch:

    pip uninstall torch

    然后使用上述命令再次安装它。

    依赖项

    通过在 ComfyUI 文件夹内打开终端并执行以下命令来安装依赖项:

    pip install -r requirements.txt

    完成这些步骤后,你应该已经安装好了所有所需的内容,接下来就可以运行 ComfyUI 了。

    其他:

    苹果Mac电脑所使用的硅芯片

    你可以在搭载苹果M1或M2芯片的Mac电脑上,使用任何最新版本的macOS来安装ComfyUI。

    1. 安装 nightly 版本的 PyTorch。有关说明,请阅读 在 Mac 上加速 PyTorch 训练 的 Apple 开发者指南(确保安装最新版本的 nightly PyTorch)。
    2. 请按照ComfyUI手动安装指南中的说明,在Windows和Linux系统上进行操作。
    3. 安装 ComfyUI依赖关系;从属关系如果你有另一个Stable Diffusion用户界面……你或许可以重新使用这些依赖项。.
    4. 通过运行 python main.py 来启动 ComfyUI。

    注意:请按照ComfyUI 手动安装中的说明,将您的模型、VAE、LoRAs 等文件添加到相应的 Comfy 文件夹中。

    DirectML(Windows系统上的AMD显卡)

    这种做法的依据非常薄弱,因此不建议使用。目前确实存在一些非官方的 PyTorch ROCm Windows 版本,它们的使用体验要比这种方法好得多。一旦官方的 PyTorch ROCm Windows 版本发布,这份说明文件将会进行更新。pip install torch-directml 然后你可以使用以下命令启动 ComfyUI:python main.py --directml

    升级神经处理单元(NPU)

    适用于与 PyTorch 的 Ascend Extension(torch_npu)兼容的模型。要开始使用,请确保您的环境满足 安装 页面中列出的先决条件。以下是根据您的平台和安装方法定制的分步指南:

    1. 首先,根据 torch-npu 的安装页面说明,如有必要,安装推荐版本或更新版本的 Linux 内核。
    2. 按照适用于您特定平台的说明,继续安装 Ascend Basekit。该软件包包含驱动程序、固件以及 CANN(Controlled Access Network)组件。
    3. 接下来,请按照安装页面上针对特定平台的说明来安装torch-npu所需的包。
    4. 最后,请按照ComfyUI在Linux系统上的手动安装指南进行操作。所有组件安装完成后,即可按照之前的说明运行ComfyUI。

    Cambricon MLU(门阵列单元)

    适用于兼容 Cambricon Extension for PyTorch (torch_mlu) 的模型。以下是根据您的平台和安装方法定制的逐步指南:

    1. 按照安装中针对相应平台的说明来安装Cambricon CNToolkit。
    2. 接下来,按照安装中的说明安装PyTorch(torch_mlu)。
    3. 通过运行 python main.py 来启动 ComfyUI。

    适用于兼容 PyTorch 的 Iluvatar 扩展的模型。以下是根据您的平台和安装方法定制的逐步指南:

    1. 按照安装中针对特定平台的说明来安装Iluvatar Corex工具包。
    2. 通过运行 python main.py 来启动 ComfyUI。

    💎 六、总结

    ComfyUI 以其​​独特的节点式工作流、极高的灵活性和控制精度​​,在 Stable Diffusion 生态中占据了重要地位,尤其受到进阶用户和研究者的青睐。虽然学习曲线相对陡峭,但一旦掌握,它所能带来的创作自由度和效率提升是显著的。

    无论你是想深入研究 AI 图像生成的奥秘,还是需要精细控制每一个生成环节,ComfyUI 都是一个非常强大且值得尝试的工具。其活跃的社区和丰富的扩展生态也在不断推动其向前发展。

  • 从噪点到画卷:Stable Diffusion如何重塑AI图像生成

    从噪点到画卷:Stable Diffusion如何重塑AI图像生成

    Stable Diffusion 是一款强大且开源的 AI 图像生成模型,它能根据文本描述生成高质量图像,也能进行图像修复、内容扩充等任务。

    在人工智能蓬勃发展的今天,我们或许已经习惯了AI带来的种种惊喜,但当你看到一张​​完全由算法生成、细节丰富、风格多变的图像​​时,仍不免感到惊叹。这背后离不开一项突破性技术——​​Stable Diffusion​​。这项于2022年8月由CompVis、Stability AI和LAION的研究团队共同推出的开源模型,并非简单的工具迭代,而是一次对​​深度学习生成模型范式的革新​

    与此前多数在像素空间直接进行高强度运算的模型不同,Stable Diffusion的核心革命在于将扩散过程移至​​潜在空间(Latent Space)​​ 进行。这一转变不仅大幅降低了计算需求和硬件门槛,使消费级显卡运行高质量图像生成成为可能,更极大地提升了生成效率与图像质量。其背后的潜在扩散模型(Latent Diffusion Model)架构,源自Runway首席科学家Patrick Esser与慕尼黑大学Robin Rombach的前沿研究,为整个生成过程提供了坚实的理论基石。

    技术的生命力在于应用。Stable Diffusion已迅速渗透至多个领域:从​​为艺术家和设计师提供灵感迸发的视觉创作​​,到​​为开发者集成高效的图像生成与编辑功能​​;从​​图像超分辨率、修复增强​​等实用工具,到​​驱动虚拟现实、游戏产业的内容生产流水线​​。其开源特性更催生了空前活跃的社区生态,无数开发者与创作者共同推动着模型迭代、插件开发与应用场景拓展。

    本篇文章旨在系统解析Stable Diffusion的​​技术脉络、核心原理与生态现状​​。无论你是希望深入了解其背后工作机制的技术爱好者,还是寻求在实践中运用此工具的创作者,都能在此找到一份清晰的指引。接下来,我们将共同探索Stable Diffusion如何从一份随机噪声开始,逐步去噪,最终呈现出令人惊艳的视觉画卷,并理解它如何持续推动着AI生成内容的边界。

    从噪点到画卷:Stable Diffusion如何重塑AI图像生成

    🔍 一、什么是 Stable Diffusion?

    ​Stable Diffusion​​ 是一种基于深度学习的​​文本到图像生成模型​​。它由 ​​Stability AI​​ 公司于 2022 年 8 月正式发布,并迅速成为 AI 绘画领域的代表性工具。其核心是一个名为 ​​潜在扩散模型(Latent Diffusion Model, LDM)​​ 的架构。

    与传统的像素级扩散模型不同,Stable Diffusion 在​​潜在空间(Latent Space)​​ 中进行扩散过程。这大幅降低了计算需求,使得用户甚至可以在消费级显卡上运行它。

    ​核心特点​​:

    • •​​开源免费​​:代码和模型权重公开,可自由使用、修改和分发。
    • •​​功能多样​​:支持文生图、图生图、图像修复(Inpainting)、图像扩展(Outpainting)等。
    • •​​高质量输出​​:能生成高分辨率、细节丰富且符合文本描述的图像。
    • •​​活跃生态​​:拥有庞大的开源社区,衍生出众多插件、预训练模型和用户界面。

    📜 二、发展历程与版本迭代

    Stable Diffusion 的诞生和发展是多方协作的结果,其版本迭代迅速。

    表:Stable Diffusion 主要版本演进

    ​版本​​发布时间​​主要特点与意义​
    ​SD v1.4​2022.08首个公开发布的开源版本,奠定了基础。
    ​SD v1.5​2022.10由 RunwayML 发布,成为​​最流行、生态最丰富​​的版本,许多扩展基于此。
    ​SD v2.0/2.1​2022.11/12由 Stability AI 发布,使用了更新的文本编码器,但社区接受度不如 1.58。
    ​SDXL​2023.06重大升级,生成图像质量​​显著提升​​,分辨率更高,细节更优。支持 LoRA 和 ControlNet。
    ​SDXL Turbo​2023.11采用​​潜在一致性模型(LCM)​​,实现​​极速生成​​(1-4步),但图像清晰度稍低。
    ​Stable Diffusion 3​2024.02 (预览)采用了新的​​扩散变压器架构​​,在图像质量、多主题提示和文本渲染(拼写能力)上有巨大飞跃。

    其发展离不开关键人物和组织的贡献:

    • •​​CompVis 研究小组​​:来自慕尼黑大学,是潜在扩散模型(LDM)论文的作者。
    • •​​Stability AI​​:资助并推动了 Stable Diffusion 的开发、训练和开源发布。
    • •​​LAION​​:提供了开源的超大规模图文数据集 LAION-5B 用于模型训练。
    • •​​Runway​​:合作开发并发布了 SD 1.5 等重要版本。

    ⚙️ 三、核心原理:潜在扩散模型

    Stable Diffusion 的工作流程可以概括为以下几个核心步骤

    1. ​文本编码(Text Encoder)​​:用户输入的文本提示(Prompt)首先被 ​​CLIP​​ 文本编码器转换为机器可以理解的​​语义向量​​。这相当于为AI创作提供了“指导思想”。
    2. ​在潜在空间中扩散(Diffusion in Latent Space)​​:
      • •​​正向过程​​:一张图像通过 ​​VAE 编码器​​被压缩到低维的潜在空间,变成潜在表示。然后,​​噪声​​被逐步添加到这个潜在表示中,直到它几乎变成纯噪声。
      • •​​反向过程(去噪)​​:这是生成图像的关键。一个 ​​U-Net 网络​​接收当前的​​噪声潜在表示​​、​​时间步信息​​和​​文本语义向量​​,并预测出其中的噪声。然后,从当前潜在表示中减去预测的噪声。这个过程重复多次(如20-50步),噪声逐渐被去除,最终得到一个清晰的潜在表示。
    3. ​图像解码(Image Decoding)​​:去噪后的潜在表示通过 ​​VAE 解码器​​转换回像素空间,生成最终的​​高清图像​​。

    ​为何要用“潜在空间”?​

    直接在像素空间(例如512×512的图像有近80万个维度)中进行扩散过程计算量极大。VAE将图像压缩到潜在空间(如64x64x4=16384维),​​显著降低了计算复杂度和硬件需求​​,让普通显卡运行SD成为可能


    🖥️ 四、丰富的UI与开源生态

    Stable Diffusion 的开源特性催生了繁荣的生态系统。

    1. 用户界面(UI)

    对于普通用户,通过UI界面操作比编写代码更友好。

    • •​​Stable Diffusion WebUI (AUTOMATIC1111)​​:​​最流行​​的Web界面,功能极其丰富,插件生态庞大,适合大多数用户。
    • •​​ComfyUI​​:采用​​节点式工作流​​的界面,通过连接不同模块实现功能。​​优点​​是显存占用低、可定制性极强、易于可视化工作流程,适合高级用户和自动化任务。
    • •​​ForgeUI​​:在 WebUI 基础上进行优化,改善了用户交互体验并降低了显存占用。

    2. 模型与插件

    开源社区提供了海量的预训练模型和扩展插件。

    • •​​模型类型​​:
      • •​​基础模型(Checkpoint)​​:完整的生成模型,决定图像的整体风格和质量(如 SD1.5, SDXL)。
      • •​​LoRA​​:一种轻量化的模型微调技术,文件小,用于定制特定风格、人物或对象,需与基础模型配合使用。
      • •​​ControlNet​​:​​革命性的插件​​,允许用户通过线稿、深度图、姿态图等额外条件​​精确控制​​图像的构图、姿态和结构。
    • •​​模型下载网站​​:
      • •​​Civitai​​:国际上​​最大的SD模型社区​​,资源极多。
      • •​​哩布哩布AI​​ / ​​炼丹阁​​:优秀的​​国内模型社区​​,访问速度快,中文交流方便。

    📥 五、下载、安装与入门

    1. 主要下载渠道

    • •​​官方代码库​​:在 GitHub 上搜索 CompVis/stable-diffusion或 Stability-AI/stablediffusion可以找到官方源代码和模型。
    • •​​集成包​​:对于新手,推荐使用打包好的整合包,如 ​​Stable Diffusion WebUI​​ 的整合安装包,它通常包含了Python、Git、模型等所有依赖。
    • •​​模型网站​​:从 Civitai、哩布哩布AI 等网站下载你感兴趣的模型,放入 WebUI 的 models/Stable-diffusion文件夹即可使用。

    2. 安装与运行

    1. ​下载​​:获取 WebUI 整合包(如通过网盘链接)并解压。
    2. ​安装依赖​​:首次运行前,通常需要以管理员身份运行依赖安装工具(如 启动运行依赖工具)。
    3. ​启动​​:运行启动器(如 A绘世启动器或 webui-user.bat),程序会自动处理并打开浏览器窗口。
    4. ​下载模型​​:将下载的模型文件(.ckpt或 .safetensors)放入指定文件夹。
    5. 生成图像​​:在WebUI的文生图页面输入提示词(Prompt),点击生成即可。

    3. 硬件需求建议

    • •​​显卡(GPU)​​:是​​最重要的部件​​。推荐 ​​NVIDIA 显卡​​,至少 ​​6GB​​ 显存(如 GTX 1060),8GB 或以上显存(RTX 3060, 4060 或更好)体验更佳。
    • •​​内存(RAM)​​:建议 32GB​​ 或以上。
    • •​​存储​​:至少需要 ​​500GB​​ 以上的硬盘空间来存放模型和工具,最好是使用SSD固态的硬盘,因为加载模型需要从硬盘中调用,固态硬盘的读写速度远超机械。
    从噪点到画卷:Stable Diffusion如何重塑AI图像生成

    Stable Diffusion 及其相关生态的开源和下载地址确实不少,我先用一个表格汇总这些关键地址:

    资源名称地址说明
    ​Stable Diffusion 基础代码库​https://github.com/CompVis/stable-diffusionStable Diffusion 的基础版本开源地址,包含相关源代码和文档。
    ​Stability AI (官方)​https://github.com/Stability-AIStable Diffusion 官方组织,包含多个项目。
    ​Stable Diffusion WebUI​https://github.com/AUTOMATIC1111/stable-diffusion-webui最流行的 Web 界面,普通用户常用,包含可视化界面和常用插件,方便操作。
    ​秋叶启动器 (整合包)​通常通过网盘分享(如文末提供的夸克网盘链接或百度网盘链接),​​请注意识别官方渠道​​。适合新手的 Windows 一键安装包,集成了环境、WebUI 和常用插件,解压即用。
    ​SDXL 相关代码​https://github.com/Stability-AI/generative-modelsStable Diffusion XL(SDXL)相关代码仓库。
    ​ControlNet 插件​https://github.com/Mikubill/sd-webui-controlnet用于控制生成图像结构的重要插件。
    ​中文语言包​https://github.com/VinsonLaro/stable-diffusion-webui-chinese为 WebUI 添加中文支持。
    ​Hugging Face 模型库​https://huggingface.co/CompVis或 https://huggingface.co/stabilityai下载官方和社区训练模型的重要平台。也可使用国内镜像 https://hf-mirror.com。
    ​Civitai 模型社区​https://civitai.com/非常受欢迎的第三方模型社区,有大量用户分享的模型。

    💡 安装与使用提示

    1. 1.​​对于初学者​​:如果你刚开始接触 Stable Diffusion,并且使用的是 ​​Windows 系统​​,​​秋叶启动器​​的整合包可能是最省心的选择。它集成了运行所需的环境、WebUI 和常用插件,解压后按照说明运行即可,能避免很多环境配置的麻烦。
    2. 2.​​对于喜欢折腾和学习的用户​​:可以尝试从 ​​Stable Diffusion WebUI (AUTOMATIC1111)​​ 的 GitHub 页面克隆或下载源码,然后按照官方文档自行配置 Python、PyTorch 等环境。这能让你更了解其工作原理,但也可能遇到更多需要自己解决的问题。
    3. 3.​​模型下载​​:许多模型存储在 Hugging Face 或 Civitai 等平台。从 Hugging Face 下载时,可以尝试使用国内镜像 https://hf-mirror.com来提升下载速度。Civitai 上则有大量社区创作的模型。


    💎 总结

    Stable Diffusion 的成功在于其​​开源精神​​和​​强大的社区力量​​。它不仅仅是一个技术模型,更是一个​​创新的平台​​,降低了AI绘画的门槛,赋予了每个人创作视觉内容的能力。

    从最初的学术研究到如今蓬勃发展的开源生态,Stable Diffusion 的经历展现了开源协作的巨大能量。无论你是艺术家、开发者还是普通爱好者,都能在这个生态中找到属于自己的创作方式。

  • DeepSeek R1本地化部署+web端访问+个人知识库搭建与使用

    DeepSeek R1本地化部署+web端访问+个人知识库搭建与使用

    DeepSeek R1 的本地化部署结合 Web 端访问和个人知识库搭建,能为你提供一个私有、安全且高效的 AI 助手。下面我将为你梳理一套可行的方案,内容综合了多个来源的信息,并会为你标注来源。


    🖥️ 一、DeepSeek R1 本地化部署

    本地部署主要有两种主流方式:​​Ollama​​(适合快速启动)和 ​​Docker​​(适合定制化需求)。

    1. ​​通过 Ollama 部署​​ (最简方式)

    Ollama 能简化模型的下载和管理,非常适合个人用户和开发者。

    • •​​安装 Ollama​​:访问 Ollama 官网,下载并安装对应你操作系统的版本(支持 Windows、macOS、Linux)。
    • •​​拉取并运行 DeepSeek-R1 模型​​:安装完成后,打开终端(命令提示符),执行以下命令来拉取和运行模型。模型版本可根据你的硬件选择(如 deepseek-r1:8b适用于 8GB 显存)。bash复制ollama run deepseek-r1
    • •​​验证安装​​:执行后,Ollama 会自动下载模型。完成后,尝试在命令行中输入“你好”,若得到回复则说明本地模型已成功运行。

    2. ​​通过 Docker 部署​​ (适合熟悉容器的用户)

    Docker 部署能提供更好的环境隔离和灵活性,也便于后续集成 Web 界面。

    • •​​安装 Docker​​:确保你的系统已安装 Docker。对于 Windows 用户,建议启用 WSL2 以获得更好性能。
    • •​​拉取 DeepSeek-R1 镜像并运行容器​​:docker pull deepseek/deepseek-r1:latest docker run -d --name deepseek-r1 -p 8080:8080 -v ./models:/app/models deepseek/deepseek-r1:latest此命令会启动容器,并将本地的 ./models目录挂载到容器内用于存放模型文件。
    • •​​关键参数优化​​:
      • •若使用 CPU,添加 --device cpu;若使用 GPU,则需安装 NVIDIA Docker 支持,并改用 --device cuda:0
      • •内存优化:添加 --quant 4bit参数可显著降低内存占用(降低约70%),添加 --mmap参数可启用内存映射减少加载开销。

    3. ​​硬件与配置建议​

    • •​​硬件要求​​:
      • •​​最低配置​​:GPU(如 GTX 1080 8GB)、16GB 内存、20GB SSD 存储,可运行 7B 量化版。
      • •​​推荐配置​​:GPU(如 RTX 3090/4090 24GB)、32GB 内存、1TB NVMe SSD,可流畅运行 13B+ 模型。
    • •​​系统选择​​:Linux 系统(如 Ubuntu)通常能比 Windows 获得 10%~15% 的性能提升。

    🌐 二、Web 端访问配置

    让 DeepSeek R1 通过浏览器访问,能极大提升交互体验。主要有两种方式:

    1. ​​通过 Chatbox AI 连接 Ollama​

    Chatbox AI 是一款支持多种模型的开源客户端,提供友好的图形界面。

    • •​​下载与设置​​:访问 Chatbox AI 官网,启动网页版或下载桌面应用
    • •​​配置连接​​:
      1. 1.在 Chatbox 设置中,将“模型提供方”选为 “Ollama API”。
      2. 2.在“模型”中选择你本地通过 Ollama 运行的 DeepSeek-R1 模型。
    • •​​环境变量配置(关键步骤)​​:为了让 Ollama 允许外部连接(如 Chatbox),需要在系统环境变量中设置:
      • OLLAMA_HOST=0.0.0.0
      • OLLAMA_ORIGINS=*设置完成后,​​务必重启 Ollama 服务或电脑​​使变量生效5。

    2. ​​通过 Docker 部署 Open WebUI​

    Open WebUI 是一个功能丰富的开源 Web 界面,支持通过 Docker 直接部署。

    • •​​部署命令​​:docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main
    • •​​访问与使用​​:部署完成后,在浏览器中访问 http://localhost:3000,首次进入需设置管理员账户,之后即可通过网页与你的 DeepSeek-R1 交互。

    📚 三、个人知识库搭建与使用

    本地部署的 DeepSeek R1 结合知识库,可以成为你的私人知识管家。

    1. ​​搭建方法​

    • •​​使用 AnythingLLM(适合新手)​​:AnythingLLM 是一款开源知识库前端工具,对用户友好。
      1. 1.从 AnythingLLM 官网下载并安装。
      2. 2.在设置中配置模型,选择“Ollama”并提供你的 DeepSeek-R1 模型名称(如 deepseek-r1:8b)。
      3. 3.在知识库管理中,直接上传你的文档(支持 PDF, Word, TXT 等格式)。
    • •​​使用 DeepSeek R1 的本地 API 集成​​:如果你偏好编程方式,可以在应用中使用 DeepSeek R1 本地部署后提供的 API 端点(通常是 http://localhost:8080/v1/completions),结合 LangChain 等框架构建 RAG(检索增强生成)应用1,来处理你的私人文档。

    2. ​​数据导入与优化​

    • •​​文档准备​​:将知识文档整理为 TXT、PDF、Word 或 MD 格式。单文件建议小于 50MB 以确保处理效率。
    • •​​处理与索引​​:上传后,系统(如 AnythingLLM)会自动进行解析、分块和向量化索引。
    • •​​优化检索​​:知识库工具通常允许调整块大小(Chunk Size)和重叠区间(Overlap)等参数,以优化检索效果。例如,可设置 chunk_size: 1000和 overlap: 200

    3. ​​使用与查询​

    在 Web 界面中,你可以直接向知识库提问。模型会优先从你上传的文档中检索相关信息来生成答案

    11。你可以询问诸如“请总结我上传的《用户体验要素》这本书的核心观点”之类的问题。


    💡 四、注意事项与优化建议

    1. 1.​​隐私与安全​​:本地部署的最大优势是数据完全私有,无需担心隐私泄露1。若需远程访问(如从外部网络连接家里的部署),​​务必使用内网穿透工具(如贝锐花生壳)并设置强密码或API密钥认证​​,以防未授权访问。
    2. 2.​​性能瓶颈​​:
      • •​​显存不足​​:是常见问题。尝试使用更低参数的模型(如 7B 替代 14B),或开启 4-bit 量化(--quant 4bit)。
      • •​​生成速度慢​​:确保模型尽可能运行在 GPU 而非 CPU 上。Linux 系统通常性能更优。
    3. 3.​​知识库维护​​:定期更新知识库内容,并保留历史版本。使用 Markdown 格式整理资料有助于提升文本识别和处理的准确率。
    4. 4.​​模型选择​​:DeepSeek-R1 提供从 1.5B 到 671B 的多种版本。对大多数个人用户,​​7B或8B的量化版本在效果和资源消耗间取得了较好平衡​​。企业级应用可考虑更大参数模型。


    Ollama PC本地化部署

    1.1 下载Ollama

    https://ollama.com

    目前Ollama支持macOS、Linux、Windows,选择相应的系统,macOS和Windows直接下载,Linux系统需要执行下面命令:

    curl -fsSL https://ollama.com/install.sh | sh

     

    DeepSeek R1本地化部署+web端访问+个人知识库搭建与使用

     

     

    选择Windows本地下载,直接安装即可。

    1.2 选择模型

    点击Models,第一条就是deepseek-r1模型。或者搜索框输入模型名称进行搜索。

    DeepSeek R1本地化部署+web端访问+个人知识库搭建与使用

    点击进去后,查看各个模型,不同模型执行的命令不同,最后部分看你选择的参数模型。

    7b命令:ollama run deepseek-r1:7b

    1.5b命令:ollama run deepseek-r1:1.5b

    DeepSeek R1提供多个版本,参数量越大,模型通常越强大,但也需要更多的计算资源。

    比如1.5B代表有15亿个参数。

    具体选择哪一个看你硬件设备了。

    DeepSeek R1本地化部署+web端访问+个人知识库搭建与使用

    1.3 运行命令

    荣姐用的电脑配置不高,选了1.5b。如果你配置高,可以选择更大的,毕竟越大效果越好。

    DeepSeek R1本地化部署+web端访问+个人知识库搭建与使用

    1.4 效果测试

    当界面出现success显示安装成功。

    输入你是谁,看到deepseek的回答。

    DeepSeek R1本地化部署+web端访问+个人知识库搭建与使用

    2 DeepSeek+Chatbox网页端

    本地命令行使用还是不太直观,可以选择Chatbox进行网页端访问,提高可交互性。

    Chatbox AI 是一款 AI 客户端应用和智能助手,支持众多先进的 AI 模型和 API,可在 Windows、MacOS、Android、iOS、Linux 和网页版上使用。

    本地使用Ollama部署完成后,可以使用Chatbox进行调用。

    根据官方文档给出的步骤进行配置

    https://chatboxai.app/zh/help-center/connect-chatbox-remote-ollama-service-guide
    
    DeepSeek R1本地化部署+web端访问+个人知识库搭建与使用

    2.1 环境变量配置

    默认情况下,Ollama 服务仅在本地运行,不对外提供服务。

    要使 Ollama 服务能够对外提供服务,你需要设置以下两个环境变量:

    OLLAMA_HOST:0.0.0.0

    OLLAMA_ORIGINS:*

    在 Windows 上,Ollama 会继承你的用户和系统环境变量。

    1、通过任务栏退出 Ollama。

    2、打开设置(Windows 11)或控制面板(Windows 10),并搜索“环境变量”。

    3、点击编辑你账户的环境变量。

    4、为你的用户账户编辑或创建新的变量 OLLAMA_HOST,值为 0.0.0.0; 为你的用户账户编辑或创建新的变量 OLLAMA_ORIGINS,值为 *。

    DeepSeek R1本地化部署+web端访问+个人知识库搭建与使用
    DeepSeek R1本地化部署+web端访问+个人知识库搭建与使用

    5、点击确定/应用以保存设置。

    DeepSeek R1本地化部署+web端访问+个人知识库搭建与使用

    6、从 Windows 开始菜单启动 Ollama 应用程序。

    2.2 chatbox设置

    1、打开官网:https://chatboxai.app/zh,选择启动网页版。

    DeepSeek R1本地化部署+web端访问+个人知识库搭建与使用

    2、选择本地模型,如果找不到,点击左侧的设置按钮。

    DeepSeek R1本地化部署+web端访问+个人知识库搭建与使用

    3、选择Ollama API。

    DeepSeek R1本地化部署+web端访问+个人知识库搭建与使用

    4、选择模型,本地运行Ollama后会自动出现模型的选项,直接选择即可。

    DeepSeek R1本地化部署+web端访问+个人知识库搭建与使用

    5、点击DISPLAY,选择简体中文,点击保存按钮。

    DeepSeek R1本地化部署+web端访问+个人知识库搭建与使用

    6、在聊天窗口输入问题进行测试。

    DeepSeek R1本地化部署+web端访问+个人知识库搭建与使用

    2.3 搭配GPTs使用

    1、点击左侧我的搭档

    DeepSeek R1本地化部署+web端访问+个人知识库搭建与使用

    2、选择一个你喜欢的应用,本示例选择夸夸机2.0

    DeepSeek R1本地化部署+web端访问+个人知识库搭建与使用

    3、随便输入一个场景,看看大模型的回答。比如自嘲、尴尬、夸张的场景,看看他怎么花样夸你。

    DeepSeek R1本地化部署+web端访问+个人知识库搭建与使用

    3 DeepSeek知识库搭建

    我们还可以通过浏览器插件来访问本地部署的大模型,这个插件还支持本地知识库搭建。

    1、安装插件Page Assist,搜索插件后添加至Chrome

    DeepSeek R1本地化部署+web端访问+个人知识库搭建与使用

    2、选择本地搭建的模型,点击配置按钮,设置中文

     

    DeepSeek R1本地化部署+web端访问+个人知识库搭建与使用

    3、RAG设置,模型选择本地搭建的。

    DeepSeek R1本地化部署+web端访问+个人知识库搭建与使用

    4、点击左侧管理知识,可以添加本地知识库。

    填写知识标题及上传文件,点击提交按钮。

    DeepSeek R1本地化部署+web端访问+个人知识库搭建与使用

    状态为已完成就可以使用了。

    DeepSeek R1本地化部署+web端访问+个人知识库搭建与使用

    新建聊天进行测试,在聊天窗口要记得点击右下角知识,选择刚才搭建的知识库名称,然后在上方看到就可以了。

    对模型进行测试,看看是否可以根据知识库进行回答。