分类： Ollama

Ollama 是一个用于简化和优化机器学习模型的工具，特别是在本地运行和部署大型语言模型（LLM）方面。Ollama 允许用户在本地计算机上运行机器学习模型，避免了对云服务的依赖，提高了数据隐私和安全性。通过优化模型的运行效率，用户可以在较低的硬件配置上体验到高性能的推理。

ComfyUI-GGUF-VLM 结合 llama.cpp GPU 加速：实现图像反推秒级效率

众所周知，ComfyUI中QwenVL节点通过Qwen3VL模型能够将视觉内容转化为详细的文字描述，它广泛应用于图像反推提示词、智能标注、视觉问答等场景。同时把它接入到最近出的Z-Image模型中反推生图是leepoet感觉最合适的搭配组合，毕竟都是阿里出品，在反推生图方面语义对齐这一块应该会更兼容。事实也是如此，在lee poet不断的测试下，拿来反推的图相似度个人觉得大部份生图与原图能达到70%以上。

但是Qwen3VL的缺点就是有些慢，对于4060Ti 16G而言，反推大概在1分钟以内。而3060 12G大概在2分钟左右。自从Z-Image前段时间出了之后，Leepoet就一直在用它接入到Z-Image洗图。就拿4060TI16G来讲，反推50秒出图20秒，这样的效率相较于一些专为速度优化的模型（如Florence2、Joy）存在一定差距，导致其在需要高频、批量处理的“洗图”等场景下略显尴尬，但这种效率上的差异本质上源于模型在设计目标上的根本不同，从而使得它们在应用场景上“各有千秋” 。

但基于Qwen3VL在反推理解能力准确性、丰富度较好的基础上，所以这段时间也就一直这样将就的用着。

一直到昨天从群友处了解另一个好使的节点ComfyUI-GGUF-VLM。才知道除了GGUF加速模型外还可以使用 llama.cpp对模型进行加速。

以下是ComfyUI-GGUF-VLM节点的简介：

ComfyUI 的多模态模型推理插件,专注于 Qwen 系列视觉语言模型,支持多种推理后端。

## ✨ 核心功能

### 主要侧重

**🎯 视觉语言模型 (VLM)**

- **Qwen2.5-VL** / **Qwen3-VL** - 主要支持的视觉模型
- LLaVA、MiniCPM-V 等其他视觉模型
- 单图分析、多图对比、视频分析

**💬 文本生成模型**

- Qwen3、LLaMA3、DeepSeek-R1、Mistral 等
- 支持思维模式 (Thinking Mode)

### 推理方式

- ✅ **GGUF 模式** - 使用 llama-cpp-python 进行量化模型推理
- ✅ **Transformers 模式** - 使用 HuggingFace Transformers 加载完整模型
- ✅ **远程 API 模式** - 通过 Ollama、Nexa SDK、OpenAI 兼容 API 调用

### 主要特性

- ✅ **多推理后端** - GGUF、Transformers、远程 API 灵活切换
- ✅ **Qwen-VL 优化** - 针对 Qwen 视觉模型的参数优化
- ✅ **多图分析** - 最多同时分析 6 张图像
- ✅ **设备优化** - CUDA、MPS、CPU 自动检测
- ✅ **Ollama 集成** - 无缝对接 Ollama 服务

## 🤖 支持的模型

### 🎯 主要支持 (推荐)

**视觉模型:**

- **Qwen2.5-VL** (GGUF / Transformers)
- **Qwen3-VL** (GGUF / Transformers)

**文本模型:**

- Qwen3、Qwen2.5 (GGUF / Ollama)
- LLaMA-3.x (GGUF / Ollama)

### 🔧 其他支持

**视觉模型:** LLaVA、MiniCPM-V、Phi-3-Vision、InternVL 等

**文本模型:** Mistral、DeepSeek-R1、Phi-3、Gemma、Yi 等

> 💡 **推理方式:**
>
> - GGUF 格式 → llama-cpp-python 本地推理
> - Transformers → HuggingFace 模型加载
> - Ollama/Nexa → 远程 API 调用

## 📦 安装

```bash
cd ComfyUI/custom_nodes
git clone https://github.com/walke2019/ComfyUI-GGUF-VLM.git
cd ComfyUI-GGUF-VLM
pip install -r requirements.txt

# 可选: 安装 Nexa SDK 支持
pip install nexaai
```

## 🚀 快速开始

### 本地 GGUF 模式

1. 将 GGUF 模型文件放到 `ComfyUI/models/LLM/GGUF/` 目录
2. 在 ComfyUI 中添加节点:
   - **Text Model Loader** - 加载模型
   - **Text Generation** - 生成文本

### 远程 API 模式

1. 启动 API 服务 (Nexa/Ollama):

   ```bash
   nexa serve  # 或 ollama serve
   ```

2. 在 ComfyUI 中添加节点:

   - **Remote API Config** - 配置 API 地址
   - **Remote Text Generation** - 生成文本

## 📋 可用节点

### 文本生成节点

- **Text Model Loader** - 加载本地 GGUF 模型
- **Text Generation** - 文本生成
- **Remote API Config** - 远程 API 配置
- **Remote Text Generation** - 远程文本生成

### 视觉分析节点

- **Vision Model Loader (GGUF)** - 加载 GGUF 视觉模型
- **Vision Model Loader (Transformers)** - 加载 Transformers 模型
- **Vision Analysis** - 单图分析
- **Multi-Image Analysis** - 多图对比分析

### 🆕 工具节点

- **Memory Manager (GGUF)** - 显存/内存管理工具
  - 清理已加载的模型
  - 强制垃圾回收
  - 清理GPU缓存
  - 显示显存使用情况

### 工具节点

- **System Prompt Config** - 系统提示词配置
- **Model Manager** - 模型管理器

## 💭 思维模式

支持 DeepSeek-R1、Qwen3-Thinking 等模型的思维过程提取。

启用 `enable_thinking` 参数后,会自动提取并分离思维过程和最终答案。

## 📁 项目结构

```
ComfyUI-GGUF-VLM/
├── config/          # 配置文件
├── core/            # 核心推理引擎
│   └── inference/   # 多后端推理实现
├── nodes/           # ComfyUI 节点定义
├── utils/           # 工具函数
└── web/             # 前端扩展
```

##

节点github地址：https://github.com/walke2019/ComfyUI-GGUF-VLM

安装好节点后，可以先通过启动安装一次该节点的依赖、库。然后再下载GGUF模型：

模型地址：https://huggingface.co/mradermacher/Qwen2.5-VL-7B-NSFW-Caption-V3-abliterated-GGUF/tree/main?not-for-all-audiences=true

放到对应的模型文件夹：

.\ComfyUI\models\text_encoders\qwenclip

.\ComfyUI\models\LLM\GGUF

这里建议配置好的可以用以下这两个模型，因为官方的推是

GGUF	Q6_K	6.4	very good quality
GGUF	Q8_0	8.2	fast, best quality

以上基本上就已经安装好节点，并把模型下载好并可进入使用了。但是在这种情况下只能通过CPU进行推理（在速度方面跟QWEN3VL其实并没有太大的区别，有区别的就是这些模型是破限的）。并没有使用llama-cpp-python。

可以这么说，同样为3060 12G的显卡，ComfyUI-QwenVL节点反推一张图的时间在2分左右，而ComfyUI-GGUF-VLM通过llama-cpp-python调用GPU加速可以让反推时间缩短到几秒钟。

那么什么是llama-cpp-python？

llama-cpp-python 是 llama.cpp 的 Python 绑定库，提供高性能的本地大语言模型推理能力，支持 CPU、CUDA GPU、Metal 等多种硬件加速，是部署本地 LLM 应用的常用工具。支持 CPU、CUDA（NVIDIA GPU）、Metal（Apple Silicon）、OpenCL 等多种后端的高性能推理。

话虽如此，正常使用ComfyUI-GGUF-VLM这个节点，在没有安装llama-cpp-python这个库的情况反推是不支持GPU的，但是要想让反推达到秒级的速度，就要先准备一些环境。

步骤前瞻：

先安装好节点并下载模型->安装Visual Studio->配置MSVC系统变量->安装配置对应版本的CUDA->通过CUDA调用MSVC构建llama-cpp-python

1.安装Visual Studio，并配置好MSVC系统变量。

lee poet之前写过一个怎么配置环境篇：加载ComfyUI出现WARNING: Failed to find MSVC解决方案，配置好记得重启。。

2.验证cl,rc,link。如果有返回路径说明已经配置好。

3.安装CUDA及cudnn，并配置CUDA环境变量。

因为lee poet所使用的comfyui环境是的pytorch version: 2.5.1+cu124

所以要下载对应的cuda版本，我下载的是CUDA Toolkit 12.4的CUDA Toolkit 12.4 Downloads Installer for Windows 10 x86_64

同时再下载cudnn，下载地址：https://developer.nvidia.com/rdp/cudnn-archive，找到对应的CUDA版本号

Download cuDNN v8.9.7 (December 5th, 2023), for CUDA 12.x

下载好用，先进行cuda的安装，*如果之前您有安装其它低版本的CUDA，在不使用的情况下可以先通过卸载程序的控制面板里先卸载。再进行安装：

以上安装都说有报错，重启电脑再继续安装即可。安装完后，我们先配置环境变量。

添加CUDA的环境变量（如果已经存在，则不需要重复添加）

配置好后，解压cudnn-windows-x86_64-8.9.7.29_cuda12-archive.zip，可以看到三个文件夹

把红框圈住的地方COPY到刚刚安装好的CUDA的C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v12.4这个文件夹内

继续给cuDNN添加相应的环境变量

#leepoet的CUDA及cuDNN的环境变量如下：
C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v12.4\bin
C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v12.4\include
C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v12.4\lib
C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v12.4\libnvvp

配置好环境变量后，验证：nvcc -V

找到C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v12.4\extras\visual_studio_integration\MSBuildExtentions里的这四个文件复制

粘贴到C:\Program Files\Microsoft Visual Studio\2022\Community\MSBuild\Microsoft\VC\v170\BuildCustomizations这个目录下

以上就算是把llama-cpp-python安装的环境配置好了。下面再通过虚拟环境构建安装llama-cpp-python。

打开启动器命令提示符，可以通过这个直接到这个整合包的虚拟环境。

可以看到红框框住的这个标识，实际上就是这个整合包的虚拟环境的标识

set CMAKE_ARGS=-DGGML_CUDA=on
python.exe -m pip install llama-cpp-python --force-reinstall --no-cache-dir

命令/参数	解释
`set CMAKE_ARGS="-DGGML_CUDA=on"`	设置一个名为 `CMAKE_ARGS`的环境变量，其值为 `-DGGML_CUDA=on`。这个变量会传递给后续的编译过程，指示构建系统启用对CUDA的支持。
`python.exe -m pip install`	使用Python模块方式运行pip进行安装，这通常比直接运行`pip`命令更可靠。
`llama-cpp-python`	要安装的Python包名称，它是对C++库`llama.cpp`的Python封装。
`--force-reinstall`	强制重新安装该包及其所有依赖。如果已存在安装版本，会先卸载再安装，确保是最新编译的版本。
`--no-cache-dir`	禁用pip的缓存。这能确保pip不会使用之前下载或编译的缓存文件，而是从头开始获取源码并进行编译。

这条命令组合起来的效果是：强制pip忽略缓存，重新从源码编译并安装支持CUDA的llama-cpp-python库。通过pip install llama-cpp-python安装的是仅支持CPU的版本。通过从源码编译并设置CMAKE_ARGS，可以解锁GPU加速功能，在处理大语言模型时能获得数倍的速度提升。

执行命令后

先是下载库从源码编译，可能需要十几到二十分钟。

可以看到已经安装成功了。*安装后完有其它库的冲突能解决就自己解决，LeePoet是选择性忽略，主打一个能用就行。

后面就是关掉启动器，重新启动。它会自己解析并检验各种依赖。

启动完进入UI后，这次从反推到Z-image生图768x1536px的图片大概在40秒左右了。

李诗人这次使用的是家用电脑配置相对一般，但是能有这个速度还是相对满意的。

相关文章：Custom_Nodes篇:ComfyUI-QwenVL反推节点

Custom_Nodes篇:ComfyUI-QwenVL3-image反推节点

2025 年 12 月 9 日

赛博辟谷：一份数字修行者的“避世”指南
反者道之动，弱者道之用。逆向思维，反向操作，当AI的算法邂逅老子的叹息。

夜深时，对着满屏流淌的代码与数据，忽然想起先哲这句千年前的偈语。在零与一构筑的坚硬世界里，这抹来自东方的柔光，竟为冰冷的算法镀上了一层温润的釉色。我们总在追求“更强”、“更快”、“更精准”，这固然是进化的铁律。然而，道的运行，却偏爱在事物的反面显影。所谓“反者道之动”，恰似AI领域里那迷人的“逆向思维”——当一条路走到算法的尽头，不妨回首，看看来时的方向。

譬如，我们教AI识万物，用的是海量的“正样本”。但真正的智慧，有时却藏在“负样本”的幽暗处。教会它什么“不是”，它反而更能洞悉什么“是”。

这像极了人生的修行，总是在无数次试错与否定中，勾勒出那个模糊的“真我”。生成对抗网络（GAN）的博弈，不正是“有无相生，难易相成”的数字显化？两个模型在相互的否定与对抗中，竟生成了前所未有的“真实”。而“弱者道之用”，则更显玄妙。水至柔，却驰骋于至坚的万物。

五色令人目盲，五音令人耳聋。——《道德经》

信息爆炸的时代，我们像饥渴的旅人，在数据的洪流中鲸吞牛饮。然而，老子千年前的警示，如今听来更像一句精准的预言。有时，真正的智慧不在于获取更多，而在于懂得主动屏蔽。作为一名“资深二手垃圾收藏家”，我深知数字世界的尘埃与珍宝同样繁多。今日，便效仿先贤“为道日损”的功夫，列一份赛博空间的“避世”清单。这并非出于道德的评判，而更像一种个人修行——当你不想被某些信息消耗心神时，或许可以“绕着走”的这些角落。

若想心境澄澈，可避此十处“声色的盛宴”

如果我不想看到盗版游戏，应该避开哪些网站
1. Pirate Bay
2. IsoHunt
3. Ocean of Games
4. Reloaded
5. CODEX
6. Skidrow
7. FitGirl
8. GOG
9. SteamUnlocked
10. My Abandonware
如果我不想看到色情内容，应该避开哪些网站

[members_only]
1. Pornhub (www.pornhub.com)
2. YouPorn (www.youporn.com)
3. Xvideos (www.xvideos.com)
4. Redtube (www.redtube.com)
5. SpankWire (www.spankwire.com)
6. PornMD (www.pornmd.com)
7. NaughtyAmerica (www.naughtyamerica.com)
8. Brazzers (www.brazzers.com)
9. Kink.com (www.kink.com)
10. XHamster (www.xhamster.com)
[/members_only]

如果我不想看到二次元色情内容，应该避开哪些网站

[members_only]
1. Hentai Foundry (www.hentai-foundry.com)
2. E-Hentai (e-hentai.org)
3. Xbooru (xbooru.com)
4. Rule 34 (rule34.xxx)
5. Fakku (www.fakku.net)
6. Hentai Cafe (www.hentai-cafe.net)
7. Danbooru (danbooru.donmai.us)
8. Gelbooru (gelbooru.com)
9. Paheal (rule34.paheal.net)
10. e621 (e621.net)
[/members_only]

如果我不想出道别人的个人信息
1. Facebook (www.facebook.com)
2. Twitter (www.twitter.com)
3. LinkedIn (www.linkedin.com)
4. Google+ (plus.google.com)
5. Plaxo (www.plaxo.com)
6. Spokeo (www.spokeo.com)
7. Pipl (www.pipl.com)
8. MyLife (www.mylife.com)
9. BeenVerified (www.beenverified.com)
10. Radaris (www.radaris.com)
如果我不想看到女同性恋色情内容，应该避开哪些网站

[members_only]
1. Lesbea (www.lesbea.com)
2. ForHerTube (www.forhertube.com)
3. SweetHeartVideo (www.sweethheartvideo.com)
4. Girlsway (www.girlsway.com)
5. We Live Together (www.welivetogether.com)
6. Girlfriends Films (www.girlfriendsfilms.com)
7. lesbian8 (www.lesbian8.com)
8. PureLesbian (www.purelesbian.net)
9. AllGirlMassage (www.allgirlmassage.com)
10. CzechLesbians (www.czechlesbians.com)
[/members_only]

如果我不想看到sm色情内容，应该避开哪些网站

[members_only]
1. Fetish.com (www.fetish.com)
2. FetLife (www.fetlife.com)
3. Bondage.com (www.bondage.com)
4. ClubFEM (www.clubfem.com)
5. BDSM Library (www.bdsmlibrary.com)
6. Submissive Guide (www.submissiveguide.com)
7. Kink.com (www.kink.com)
8. The Eros Guide (www.theerosesguide.com)
9. TIED (www.tied.com)
10. DomSubFriends (www.domsubfriends.com)
[/members_only]

如果我不想看到免费色情内容，应该避开哪些网站

[members_only]
1. XNXX (www.xnxx.com)
2. Xvideos (www.xvideos.com)
3. PornHub (www.pornhub.com)
4. RedTube (www.redtube.com)
5. YouPorn (www.youporn.com)
6. Tube8 (www.tube8.com)
7. SpankWire (www.spankwire.com)
8. Empflix (www.empflix.com)
9. Pornoxo (www.pornoxo.com)
10. Thumbzilla (www.thumbzilla.com)
[/members_only]

如果我不想看到色情漫画，应该避开哪些网站

[members_only]
1. Hentai Foundry (www.hentaifoundry.com)
2. Hentai Cafe (www.hentaicafe.com)
3. Hentai-Manga (www.hentai-manga.net)
4. Fakku (www.fakku.net)
5. Hentai Rules (www.hentairules.net)
6. Nxtcomics (www.nxtcomics.com)
7. Hentai Mania (www.hentaimanialand.com)
8. My Hentai Gallery (www.myhentaigallery.com)
9. Manga-Mods (www.manga-mods.org)
10. Sankaku Complex (www.sankakucomplex.com)
[/members_only]
2025 年 10 月 17 日
PandaWiki 是一款国产深度融合 AI 能力的开源知识库系统
开源神器 PandaWiki 重新定义知识管理。它不止于存储，更核心的是 AI 智能：可用自然语言对话提问、辅助内容创作，并能将知识库变为企业微信、钉钉内的聊天机器人，极大提升团队知识查找和利用的效率。

它不仅能管理文档，更提供 AI 创作、问答和搜索功能，并可集成到企业微信、飞书等平台，让知识查询无处不在。支持一键脚本部署，极大降低智能 Wiki 的搭建门槛。

01

开源项目简介

PandaWiki 就像一个为你量身定制的智能 Wiki 网站。

你可以用它来整理和展示各种知识内容，而它的特别之处在于，深度融合了当前流行 AI 大模型，为知识库注入了智能化的能力。

目前在 GitHub 上已经获得接近 6K 的 Star。
```
开源地址：https://github.com/chaitin/PandaWiki
```
PandaWiki 开源项目能提供一个更好的方式来管理团队的产品文档、技术手册，搭建一个能智能互动的帮助中心。

它核心提供了三大 AI 功能：AI 创作、AI 问答和 AI 搜索。

这意味着，它不仅能帮你存放文档，还能辅助你生成和优化内容，用户更可以直接用自然语言提问，AI 会基于知识库中的内容给出精准答案，而不是简单地返回一堆链接。

而且还支持接入钉钉、飞书、企业微信等平台里的聊天机器人，直接在企业微信、飞书里面查询知识库内容。

02

5分钟部署

① 安装 PandaWiki

需要使用 Linux 系统部署 PandaWiki，使用 root 权限登录你的服务器，然后执行以下命令。
- bash -c “$(curl -fsSLk https://release.baizhi.cloud/panda-wiki/manager.sh)“
根据命令提示的选项选择安装目录并进行安装，命令执行过程将会持续几分钟，请耐心等待。

安装命令执行结束后，你的终端会输出控制台的访问地址，浏览器中打开就能登录了。

② 配置 AI 大模型

首次使用时，需要为一个关键步骤进行配置：接入 AI 大模型服务。

因为它的智能功能都依赖于此，完成模型配置后，你就可以创建第一个知识库了。

③ 创建 AI 知识库

在管理后台，可以直接创建文件夹或者文档。

PandaWiki 支持强大的编辑器，支持富文本和 Markdown 语法编写，方便不同习惯的用户。

写完的文档还能轻松导出为 Word、PDF 或 Markdown 文件。

同时还支持便捷的内容导入，支持通过飞书文档、Notion、网页链接、Sitemap、RSS 订阅甚至直接上传文件等多种方式，快速将现有内容导入到知识库中，省去大量复制粘贴的麻烦。

④ 额外配置

除了整体知识库的内容，还能自定义你的 Wiki 网站的配色和背景图。

底部的这些脚注、友情链接、品牌曝光也是可以配置的：

⑤ 大工搞成

每个知识库都会独立生成一个对外的 Wiki 网站，你把对外链接丢出去，别人就能访问了。

而且你能在管理后台查看对外 Wiki 网站的实时访问情况、问答情况、反馈情况。

⑥ 集成聊天机器人

你可以将整个知识库以网页挂件的形式嵌入到其他网站，也可以把它变成钉钉、飞书等平台里的聊天机器人，让知识查询无处不在。

目前支持接入如下平台的机器人。

拿企业微信机器人举例子。你需要在企微配置管理创建应用，并设置一些参数，详细手把手的教程可以参考下面这个链接：
- https://pandawiki.docs.baizhi.cloud/node/01971b5f-67e1-73c8-8582–82ccac49cc96
接入企微机器人后，企业内的用户可以在企业微信中搜索并找到对应的机器人，通过聊天窗口直接与 PandaWiki 对话，如图：

总而言之，PandaWiki是一个降低了智能知识库搭建门槛的开源工具。它既考虑了内容管理的便利性，又充分利用AI提升了知识的利用效率。
- 官网地址：https://baizhi.cloud/landing/pandawiki在线文档地址：https://pandawiki.docs.baizhi.cloud/welcome开源地址：https://github.com/chaitin/PandaWiki
- 如果你正在为团队或产品寻找一个更聪明、更高效的知识管理解决方案，不妨试试PandaWiki。
- 在安装、使用过程中遇到了一些问题或 bug，欢迎加入下面的官方交流群，一起探讨学习。
2025 年 10 月 13 日
NoteGen是一款免费开源的跨平台Markdown AI笔记神器！
NoteGen 是一款免费开源的跨平台 AI 笔记应用，它致力于帮助用户高效记录碎片化信息，并通过人工智能技术自动整理和辅助创作，最终生成结构化的笔记。其核心目标是提升用户的学习、工作和创作效率

在日常生活工作中，我们常常会记录一些笔记，但往往散落于聊天记录、截图和备忘录里，当想整理成系统笔记时却无从下手！

今天，给大家介绍一款跨平台的 Markdown 笔记软件，不仅能帮你高效管理知识笔记，更能使用 AI 串联起碎片化信息，让笔记与写作无缝衔接！

Download

Currently supports Mac, Windows, and Linux. Thanks to Tauri2’s cross-platform capabilities, it will support iOS and Android in the future.

Windows MacOS Linux Android iOS
✅ beta ✅ beta ✅ beta 🛠️ alpha 🛠️ alpha
Download Download Download Download Self-compiled

UpgradeLink offers application upgrade and download services

项目介绍

NoteGen —— 一款跨平台的 Markdown 笔记应用，致力于使用 AI 建立记录和写作的桥梁，将碎片化知识整理成一篇可读的笔记。

功能特色:
- 轻量跨平台：安装包仅 20MB，免费无广告且无捆绑软件，支持 Mac、Windows、Linux
- 多种记录方式：支持截图、文本、插图、文件、链接等多种记录方式
- 原生 Markdown 格式：采用标准 .md 格式存储，无修改，易于迁移
- 数据安全：支持本地离线存储，同时可同步到 GitHub、Gitee 私有仓库并支持历史回滚，也支持 WebDAV 同步
- AI 助手：可配置 ChatGPT、DeppSeek、Gemini、Ollama、LM Studio、Grok 等模型，协助你完成记录、写作、整理等任务，而且支持自定义第三方模型配置
- RAG 功能：笔记可作为知识库，支持嵌入模型和重排序模型
快速上手

1、打开下载地址
```
https://github.com/codexu/note-gen/releases
```
2、下载对应操作系统的安装包

3、双击安装包，一键安装

功能体验

记录工具

提供了截图、插图、文件、文本、链接 5 种记录方式。
- 记录
- 截图工具
支持从窗口截图中框选区域，将框选区域截图，通过 OCR 识别文字，再由 AI 生成记录描述。
- 标签管理
用于管理记录的标签，方便对记录进行分类，标签还会影响 AI 助手的对话记录和 AI 的内容关联。

AI 助手

提供 AI 对话，支持配置多个 AI 模型、配置多个 Prompt、知识库检索、AI 建议等功能。

AI 整理

通过对话模式切换，根据记录进行整理，生成文章。

Markdown 编辑器

提供功能强大的 Markdown 编辑器，支持多种编辑模式、AI 辅助写作和实时同步功能。

设置中心

提供同步配置、图床、模型配置、知识库、快捷键等系统设置功能。

在如今 AI 蓬勃发展的时代，使用 AI 可以帮助我们解决很多问题。NoteGen 正是基于大模型提供的能力，与 Markdown 有机结合，打造出了一款强大的笔记神器，可以助力于构建个人笔记知识库！快去安装体验吧~
```
项目地址：https://github.com/codexu/note-gen
```
最后

推荐的开源项目已经收录到 GitHub 项目，欢迎 Star：
```
https://github.com/chenyl8848/great-open-source-project
```
或者访问网站，进行在线浏览：
```
https://chencoding.top:8090/#/
```
2025 年 9 月 7 日
DeepSeek R1本地化部署+web端访问+个人知识库搭建与使用
DeepSeek R1 的本地化部署结合 Web 端访问和个人知识库搭建，能为你提供一个私有、安全且高效的 AI 助手。下面我将为你梳理一套可行的方案，内容综合了多个来源的信息，并会为你标注来源。

🖥️ 一、DeepSeek R1 本地化部署

本地部署主要有两种主流方式：Ollama（适合快速启动）和 Docker（适合定制化需求）。

1. 通过 Ollama 部署 (最简方式)

Ollama 能简化模型的下载和管理，非常适合个人用户和开发者。
- •安装 Ollama：访问 Ollama 官网，下载并安装对应你操作系统的版本（支持 Windows、macOS、Linux）。
- •拉取并运行 DeepSeek-R1 模型：安装完成后，打开终端（命令提示符），执行以下命令来拉取和运行模型。模型版本可根据你的硬件选择（如 deepseek-r1:8b适用于 8GB 显存）。bash复制ollama run deepseek-r1
- •验证安装：执行后，Ollama 会自动下载模型。完成后，尝试在命令行中输入“你好”，若得到回复则说明本地模型已成功运行。
2. 通过 Docker 部署 (适合熟悉容器的用户)

Docker 部署能提供更好的环境隔离和灵活性，也便于后续集成 Web 界面。
- •安装 Docker：确保你的系统已安装 Docker。对于 Windows 用户，建议启用 WSL2 以获得更好性能。
- •拉取 DeepSeek-R1 镜像并运行容器：docker pull deepseek/deepseek-r1:latest docker run -d --name deepseek-r1 -p 8080:8080 -v ./models:/app/models deepseek/deepseek-r1:latest此命令会启动容器，并将本地的 ./models目录挂载到容器内用于存放模型文件。
- •关键参数优化：
  - •若使用 CPU，添加 --device cpu；若使用 GPU，则需安装 NVIDIA Docker 支持，并改用 --device cuda:0
  - •内存优化：添加 --quant 4bit参数可显著降低内存占用（降低约70%），添加 --mmap参数可启用内存映射减少加载开销。
3. 硬件与配置建议
- •硬件要求：
  - •最低配置：GPU（如 GTX 1080 8GB）、16GB 内存、20GB SSD 存储，可运行 7B 量化版。
  - •推荐配置：GPU（如 RTX 3090/4090 24GB）、32GB 内存、1TB NVMe SSD，可流畅运行 13B+ 模型。
- •系统选择：Linux 系统（如 Ubuntu）通常能比 Windows 获得 10%~15% 的性能提升。
🌐 二、Web 端访问配置

让 DeepSeek R1 通过浏览器访问，能极大提升交互体验。主要有两种方式：

1. 通过 Chatbox AI 连接 Ollama

Chatbox AI 是一款支持多种模型的开源客户端，提供友好的图形界面。
- •下载与设置：访问 Chatbox AI 官网，启动网页版或下载桌面应用
- •配置连接：
  1. 1.在 Chatbox 设置中，将“模型提供方”选为 “Ollama API”。
  2. 2.在“模型”中选择你本地通过 Ollama 运行的 DeepSeek-R1 模型。
- •环境变量配置（关键步骤）：为了让 Ollama 允许外部连接（如 Chatbox），需要在系统环境变量中设置：
  - •OLLAMA_HOST=0.0.0.0
  - •OLLAMA_ORIGINS=*设置完成后，务必重启 Ollama 服务或电脑使变量生效5。
2. 通过 Docker 部署 Open WebUI

Open WebUI 是一个功能丰富的开源 Web 界面，支持通过 Docker 直接部署。
- •部署命令：docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main
- •访问与使用：部署完成后，在浏览器中访问 http://localhost:3000，首次进入需设置管理员账户，之后即可通过网页与你的 DeepSeek-R1 交互。
📚 三、个人知识库搭建与使用

本地部署的 DeepSeek R1 结合知识库，可以成为你的私人知识管家。

1. 搭建方法
- •使用 AnythingLLM（适合新手）：AnythingLLM 是一款开源知识库前端工具，对用户友好。
  1. 1.从 AnythingLLM 官网下载并安装。
  2. 2.在设置中配置模型，选择“Ollama”并提供你的 DeepSeek-R1 模型名称（如 deepseek-r1:8b）。
  3. 3.在知识库管理中，直接上传你的文档（支持 PDF, Word, TXT 等格式）。
- •使用 DeepSeek R1 的本地 API 集成：如果你偏好编程方式，可以在应用中使用 DeepSeek R1 本地部署后提供的 API 端点（通常是 http://localhost:8080/v1/completions），结合 LangChain 等框架构建 RAG（检索增强生成）应用1，来处理你的私人文档。
2. 数据导入与优化
- •文档准备：将知识文档整理为 TXT、PDF、Word 或 MD 格式。单文件建议小于 50MB 以确保处理效率。
- •处理与索引：上传后，系统（如 AnythingLLM）会自动进行解析、分块和向量化索引。
- •优化检索：知识库工具通常允许调整块大小（Chunk Size）和重叠区间（Overlap）等参数，以优化检索效果。例如，可设置 chunk_size: 1000和 overlap: 200。
3. 使用与查询

在 Web 界面中，你可以直接向知识库提问。模型会优先从你上传的文档中检索相关信息来生成答案

11。你可以询问诸如“请总结我上传的《用户体验要素》这本书的核心观点”之类的问题。

💡 四、注意事项与优化建议
1. 1.隐私与安全：本地部署的最大优势是数据完全私有，无需担心隐私泄露1。若需远程访问（如从外部网络连接家里的部署），务必使用内网穿透工具（如贝锐花生壳）并设置强密码或API密钥认证，以防未授权访问。
2. 2.性能瓶颈：
  - •显存不足：是常见问题。尝试使用更低参数的模型（如 7B 替代 14B），或开启 4-bit 量化（--quant 4bit）。
  - •生成速度慢：确保模型尽可能运行在 GPU 而非 CPU 上。Linux 系统通常性能更优。
3. 3.知识库维护：定期更新知识库内容，并保留历史版本。使用 Markdown 格式整理资料有助于提升文本识别和处理的准确率。
4. 4.模型选择：DeepSeek-R1 提供从 1.5B 到 671B 的多种版本。对大多数个人用户，7B或8B的量化版本在效果和资源消耗间取得了较好平衡。企业级应用可考虑更大参数模型。
Ollama PC本地化部署

1.1 下载Ollama
```
https://ollama.com
```
目前Ollama支持macOS、Linux、Windows，选择相应的系统，macOS和Windows直接下载，Linux系统需要执行下面命令：
```
curl -fsSL https://ollama.com/install.sh | sh
```
选择Windows本地下载，直接安装即可。

1.2 选择模型

点击Models，第一条就是deepseek-r1模型。或者搜索框输入模型名称进行搜索。

点击进去后，查看各个模型，不同模型执行的命令不同，最后部分看你选择的参数模型。

7b命令：ollama run deepseek-r1:7b

1.5b命令：ollama run deepseek-r1:1.5b

DeepSeek R1提供多个版本，参数量越大，模型通常越强大，但也需要更多的计算资源。

比如1.5B代表有15亿个参数。

具体选择哪一个看你硬件设备了。

1.3 运行命令

荣姐用的电脑配置不高，选了1.5b。如果你配置高，可以选择更大的，毕竟越大效果越好。

1.4 效果测试

当界面出现success显示安装成功。

输入你是谁，看到deepseek的回答。

2 DeepSeek+Chatbox网页端

本地命令行使用还是不太直观，可以选择Chatbox进行网页端访问，提高可交互性。

Chatbox AI 是一款 AI 客户端应用和智能助手，支持众多先进的 AI 模型和 API，可在 Windows、MacOS、Android、iOS、Linux 和网页版上使用。

本地使用Ollama部署完成后，可以使用Chatbox进行调用。

根据官方文档给出的步骤进行配置
```
https://chatboxai.app/zh/help-center/connect-chatbox-remote-ollama-service-guide
```
2.1 环境变量配置

默认情况下，Ollama 服务仅在本地运行，不对外提供服务。

要使 Ollama 服务能够对外提供服务，你需要设置以下两个环境变量：

OLLAMA_HOST：0.0.0.0

OLLAMA_ORIGINS：*

在 Windows 上，Ollama 会继承你的用户和系统环境变量。

1、通过任务栏退出 Ollama。

2、打开设置（Windows 11）或控制面板（Windows 10），并搜索“环境变量”。

3、点击编辑你账户的环境变量。

4、为你的用户账户编辑或创建新的变量 OLLAMA_HOST，值为 0.0.0.0；为你的用户账户编辑或创建新的变量 OLLAMA_ORIGINS，值为 *。

5、点击确定/应用以保存设置。

6、从 Windows 开始菜单启动 Ollama 应用程序。

2.2 chatbox设置

1、打开官网：https://chatboxai.app/zh，选择启动网页版。

2、选择本地模型，如果找不到，点击左侧的设置按钮。

3、选择Ollama API。

4、选择模型，本地运行Ollama后会自动出现模型的选项，直接选择即可。

5、点击DISPLAY，选择简体中文，点击保存按钮。

6、在聊天窗口输入问题进行测试。

2.3 搭配GPTs使用

1、点击左侧我的搭档

2、选择一个你喜欢的应用，本示例选择夸夸机2.0

3、随便输入一个场景，看看大模型的回答。比如自嘲、尴尬、夸张的场景，看看他怎么花样夸你。

3 DeepSeek知识库搭建

我们还可以通过浏览器插件来访问本地部署的大模型，这个插件还支持本地知识库搭建。

1、安装插件Page Assist，搜索插件后添加至Chrome

2、选择本地搭建的模型，点击配置按钮，设置中文

3、RAG设置，模型选择本地搭建的。

4、点击左侧管理知识，可以添加本地知识库。

填写知识标题及上传文件，点击提交按钮。

状态为已完成就可以使用了。

新建聊天进行测试，在聊天窗口要记得点击右下角知识，选择刚才搭建的知识库名称，然后在上方看到就可以了。

对模型进行测试，看看是否可以根据知识库进行回答。
2025 年 9 月 6 日
Seed-TTS – 字节跳动推出的高质量文本到语音生成模型
Seed-TTS是什么

Seed-TTS是由字节跳动开发的高级文本到语音（Text to Speech，TTS）模型，能够生成与人类语音极为相似的高质量语音，具备出色的上下文学习能力和自然度。Seed-TTS支持对情感、语调、说话风格等语音属性的精细控制，适用于有声读物、视频配音等多种场景。此外，该模型还具备零样本学习能力，即使在没有训练数据的情况下也能生成高质量语音，并且支持内容编辑和多语种翻译功能。

Seed-TTS的主要功能
- 高质量语音生成： Seed-TTS采用了先进的自回归模型和声学声码器技术，能够生成接近人类自然语音的高质量语音。模型在大量数据上进行训练，学习到丰富的语音特征和语言模式，从而能够合成清晰、流畅、自然的语音输出。
- 上下文学习：该模型具备出色的上下文学习能力，可以在理解给定文本的上下文基础上，生成与上下文风格和语义相匹配的语音。无论是连续的对话还是单独的句子，Seed-TTS都能够保持语音的连贯性和一致性。
- 情感控制： Seed-TTS能够根据文本内容或额外的情感标签，控制生成语音的情感色彩。用户可以指定语音中应表达的情感，如愤怒、快乐、悲伤或惊讶等，模型会相应地调整语音的音调、强度和节奏，以匹配所选情感。
- 语音属性可控：除了情感，Seed-TTS还允许用户控制其他语音属性，包括语调、节奏和说话风格。用户可以根据应用场景的需求，调整语音使其更正式或非正式，或者更具戏剧化效果。
- 零样本学习能力（Zero-shot Learning）：即使没有特定说话者的训练数据，Seed-TTS也能够利用其在大量数据上训练得到的泛化能力，生成高质量的语音。此能力使得Seed-TTS能够快速适应新的说话者或语言，而无需额外的训练过程。
- 语音编辑： Seed-TTS支持对生成的语音进行编辑，包括内容编辑和说话速度编辑。用户可以根据需要修改语音中的特定部分，或调整语速以适应不同的听众或应用场景。
- 多语种支持：模型设计支持多种语言的文本输入，能够生成相应语言的语音，使得Seed-TTS可以服务于全球化的应用，满足不同语言用户的需求。
- 语音分解： Seed-TTS通过自我蒸馏方法实现了语音的属性分解，例如可以将语音的音色与其他属性（如内容和情感）分离，为语音合成提供了更高的灵活性和控制力，允许用户独立地修改和重组语音的不同组成部分。
Seed-TTS的官网入口
- 官方项目入口：https://bytedancespeech.github.io/seedtts_tech_report/
- arXiv技术论文：https://arxiv.org/pdf/2406.02430
Seed-TTS的工作原理
1. 语音分词（Speech Tokenization）：首先，Seed-TTS使用一个语音分词器将输入的语音信号转换成一系列离散的语音标记（tokens）。这些标记是语音合成的基础，类似于文本中的字符或单词。
2. 条件文本和语音处理：接下来，Seed-TTS的自回归语言模型根据输入的文本和语音标记生成目标语音的标记序列。这个过程依赖于模型对语言结构和语音特性的理解，确保生成的语音标记序列在语义和语法上与输入文本相匹配。
3. 语音表示生成：生成的语音标记序列随后被送入一个扩散变换器（diffusion transformer）模型。这个模型负责将离散的语音标记转换成连续的语音表示，这个过程是逐步细化的，从粗糙到精细，以生成平滑且自然的语音波形。
4. 声学声码器（Acoustic Vocoder）：最后，连续的语音表示被送入声学声码器，该组件负责将这些表示转换成可听的高质量语音。声码器通常使用深度学习技术来模拟人类声道产生语音的过程。
5. 训练和微调： Seed-TTS模型在大量数据上进行预训练，以学习语言和语音的基本规律。之后，可以通过微调来适应特定的说话者或语音风格，进一步提升语音的自然度和表现力。
6. 自我蒸馏和强化学习： Seed-TTS还采用了自我蒸馏方法来实现语音属性的分解，如音色分离，以及使用强化学习技术来增强模型的鲁棒性、说话者相似性和可控性。
7. 端到端处理：对于非自回归的变体Seed-TTSDiT，它采用完全基于扩散的架构，直接从文本到语音的端到端处理，不依赖预先估计的音素持续时间。
如何使用Seed-TTS

Seed-TTS目前只提供了技术论文和官方Demo，暂未开放使用地址，感兴趣的用户可以前往官网查看官方演示。

Seed-TTS的应用场景

辅助残障人士：Seed-TTS可以为有语言障碍的人士提供语音合成服务，帮助他们更好地进行沟通。

虚拟助手：Seed-TTS可以为虚拟助手提供自然、流畅的语音交互能力，提升用户体验。

有声读物和音频书籍：利用Seed-TTS生成高质量语音，可以将电子书籍转换成有声读物，供用户聆听。

视频配音：Seed-TTS可以用于视频内容的配音，特别是在需要特定情感表达或语调的场景下。

客户服务自动化：在客户服务领域，Seed-TTS可以提供自动语音回复功能，处理常规咨询和信息查询。

电影和游戏配音：在电影制作和视频游戏开发中，Seed-TTS可以用于角色配音，提供多样化的声音选择。

新闻和播客制作：Seed-TTS可以自动将文本新闻或播客稿件转换成语音，快速制作音频内容。
2024 年 8 月 20 日