错误 AssertionError: Torch not compiled with CUDA enabled 的核心含义是:你安装的 PyTorch 版本不支持 CUDA(显卡加速),但 Qwen3-TTS 代码默认尝试使用 GPU 运行,导致初始化失败。
在对话中就能直接让模型搜索最新信息
Ollama 在 2026 年 3 月 15 日发布的 0.18.1 版本中,已经内置了网页搜索与抓取插件,能让本地大语言模型获得联网搜索能力。使用时启用 web search 插件,比如执行 “ollama serve --enable-web-search” 命令即可。
Ollama官网下载Windows安装包,双击按提示安装就行,安装后会自动配置环境变量。打开PowerShell或命令提示符,输入“ollama --version”能看到版本号就说明安装成功了。
模型参数量
这里的“1.7B”和“0.6B”指的是模型的参数量,“B”是“Billion”的缩写,也就是10亿。1.7B就是17亿参数,0.6B就是6亿参数。参数量越大,模型通常能学习到更复杂的模式,但对计算资源的要求也更高。
部署大模型应用遇到的相关问题
docker 运行的问题:
error during connect: Get "http://%2F%2F.%2Fpipe%2FdockerDesktopLinuxEngine/v1.51/images/deer-flow-dev-frontend/json": open //./pipe/dockerDesktopLinuxEngine: The system cannot find the file specified.
报错原因是未启动 docker desktop
qwen-3-tts
https://modelscope.cn/studios/Qwen/Qwen3-TTS
voicebox
启动服务遇到的问题:
- python 环境问题:机器上使用 pip 命令时报错找不到位置,看路径,使用的是之前从 ms store 安装的 Python313。排查一番,发现原来是
%USERPROFILE%\AppData\Local\Programs\Python\Python310\Scripts这个目录下的文件不对,居然有 3.13 ,可能是之前病急乱投医放的。 另外发现,vscode 会配置虚拟 python 环境 venv,不知道原理如何 - torch 问题:可能默认安装的是 cpu 的 torch,要卸载后重新安装 cu128
tts 试用体验
- 中年男声,沉稳、大气、正式、中低音,慢节奏,叙事感强,史诗感。
- 宏伟大气的中年男声,中低音,慢节奏,纪录片腔
- 沉稳的中年男声,中低音,慢节奏,纪录片腔
- todo: 下载 tts pro
修改百度账号
网盘账号:一个手机可以绑定 5 个 百度账号,设备需要登录3天才能修改百度账号
- 落叶知秋 liqiu
- 王为恶韩明威
Codex 平替
一个既能兼容 Codex Skills 这种“指令/技能包”模式,又不需要像 Codex 那样按月订阅或高昂付费的替代产品。
- OpenCode (目前最强的开源平替):这是专门为了解决“Codex 太贵”而生的开源项目。 它完全兼容 Codex 的 SKILL.md 规范。你可以把 Codex 里的技能包直接拉过来用。 它是**模型无关(Model-Agnostic)**的。你可以配置自己的 API Key(比如国内便宜的 DeepSeek,或者本地跑的 Llama 3)。
- Aider (Git 友好的免费/低成本工具):虽然它没有标榜自己叫“Skills”,但它的核心逻辑和 Codex Skills 高度重合。它能自动读取你项目中的上下文,支持复杂的重构和多文件编辑。
- Panes (本地优先的开源工作台):这是一个最近在 GitHub 上很火的开源项目,灵感直接来源于 Codex App。它提供了一个类似 Codex 的可视化界面,包含终端、Git 和编辑器。它原生支持 /skills 命令。** 100% 开源 (MIT 协议)。你可以完全跑在本地,或者接入各种低价后端。它不收“平台费”。
总结建议
- 如果你有现成的 Codex Skills 配置文件想直接复用:选 OpenCode。
- 如果你想要像 Codex 一样好用的界面:选 Panes。
- 如果你只想省钱地干活(写代码、修 bug):选 Aider 配合便宜的 API(如 DeepSeek)。 简单来说,Codex 贵在它的“全家桶服务”,而上面这些工具是把“发动机”抽出来,让你自己加便宜的油(API)。
OpenCode 接入本地模型
OpenCode(通常指 OpenCode Interpreter 或相关的开源编程助手)接入本地模型,本质上是将其原有的 API 调用(如 OpenAI)重定向到本地运行的大型语言模型(LLM)上。
实现这一点的最佳路径是通过 Ollama 或 LM Studio 这种能提供 OpenAI 兼容接口的服务工具。
1. 启动本地模型服务器
首先,你需要一个能跑模型的后端。推荐使用 Ollama,因为它轻量且广泛支持。
- 下载并运行: 安装 Ollama 后,在终端运行:
ollama pull Qwen3.5:9B(ollama run deepseek-v3) - 确认接口: Ollama 默认在
http://localhost:11434运行,并提供 OpenAI 兼容的 API 路径。
2. 配置 OpenCode 连接参数
在 OpenCode 的配置文件(通常是 .env 文件或插件设置界面)中,你需要修改以下关键项:
| 配置项 | 修改值 | 说明 |
|---|---|---|
| API Base URL | http://localhost:11434/v1 | 指向本地 Ollama 服务 |
| API Key | ollama (或任意字符) | 本地调用通常不需要真实 Key,但需占位 |
| Model Name | deepseek-coder | 必须与你本地运行的模型名称一致 |
进阶:使用 LocalAI 作为中转
如果你发现 OpenCode 对标准的 OpenAI SDK 依赖较深,可以使用 LocalAI。它是一个完全兼容 OpenAI API 的本地栈。
- 部署 LocalAI: 使用 Docker 快速启动。
- 映射模型: 将下载的模型文件放入
models文件夹。 - 修改 OpenCode: 将
OPENAI_API_BASE指向 LocalAI 的地址(通常是http://localhost:8080/v1)。
为什么推荐 DeepSeek 或 CodeLlama? 接入本地模型进行编程任务时,模型的逻辑推理能力和对特定语法(如 Python/JS)的理解至关重要。
- DeepSeek-Coder: 目前开源界最强的编程模型之一,在代码补全和指令遵循上表现优异。
- CodeLlama: Meta 出品,生态兼容性极佳。
注意事项
- 硬件门槛: 运行 7B 或 13B 参数的模型,建议至少拥有 8GB-16GB 显存 的显卡(如 RTX 3060 及以上)。
- 上下文长度: 本地模型默认上下文可能较短(如 4k),如果处理大型项目,记得在服务端调整
num_ctx参数。 - 隐私保护: 接入本地模型后,所有的代码片段均不会流向云端,这是本地化部署最大的优势。
Ollama 下载的模型的存储位置
Windows 上 Ollama 下载的模型默认在:
%USERPROFILE%\.ollama\models
改到其他盘(避免占 C 盘):
- 新建环境变量:
OLLAMA_MODELS,值设为你想存放的目录,例如:D:\ollama_models - 重启 Ollama(或重启电脑),以后新下载的模型就会存到 D 盘。
- 已下载的模型可把
%USERPROFILE%\.ollama\models整个目录复制到新路径。

