普通人能用AI做什么？

用 AI 把自己写的散文做成有声书

我在试着用 AI 朗诵我写的文章。（这个活动其实更加适合老年人）

小红书标题：用 AI 朗诵自己写的文章，听着真舒服。

这需要先找到参考音频。例如自己喜欢听的有声书 https://b23.tv/Oj9k9Gj
下载视频、提取音频。
剪裁音频。写作关于如何剪裁音频。可以用这个 https://wutools.com/audio/audio-splitter
转录参考音频。 4.准备文案
生成音频。目前我知道的最简便的方法，是使用 https://modelscope.cn/studios/Qwen/Qwen3-TTS 来克隆声音。但文本越长，合成的语音的节奏会越快，一个解决办法是使用 voicebox 本地化部署后，使用文本拆块选项¹。
视频制作：如果音频不需要重新编辑，直接导入字幕就可以了。视频配图，就用自己拍摄的照片
转录音频。转录是可以生成字幕的，

再解析音频，

voicebox 的 setup

每一个步骤都会出问题。服务器老连不上。可能是因为存储空间不足的问题。

voicebox 这个工具，折腾了很久很久。服务器老是出问题连不上。geek 删除数据，重新装。下载下来的模型文件不全，重新放置，hf 产生的 symlink 不管用，重新用文件覆盖。

好在它是可以看日志的，在设置中有个日志选项。遇到问题方便排查。

voicebox 模型下载后，加载不成功，文件也不全，symlink 好型又会有问题。可能要用管理员打开 voicebox 才行。这个东西太不稳定了。

我还观察到即使模型已经下载了，voicebox 在加载模型的过程中还需要跟 hf 通信。查了下，是可以通过改环境变量来指定使用镜像的。

Voicebox 虽然没有在界面中直接提供“镜像设置”选项，但因为它在底层使用的是 Hugging Face 的标准库（如 transformers 和 huggingface_hub），可以通过配置系统环境变量来强制使用镜像站（如 hf-mirror.com）。

例如：变量名：HF_ENDPOINT 变量值：https://hf-mirror.com

（可选）如果你希望更改模型存放的位置（默认为 C 盘），可以再新建一个变量：变量名：HF_HOME 变量值：D:\VoiceboxModels（或其他你想存放的路径）

用 AI 来朗读教材

我喜欢看历史教材

我使用的语音素材

一周AI 大事

有声书：


我是史铁生，很小的时候我就觉得这话有点怪，好像我除了是我，还可以是别的什么。这感觉一直不能消灭，独处时尤为挥之不去。终于想起史铁生是别人眼中的我，我并非全是史铁生。多数情况下，我被史铁生简化和美化着。简化在所难免，美化或出于他人的善意，或出于我的伪装，还可能出于某种文体的畸形。中国人喜爱赞歌，因而史铁生以外还有着更为丰富、更为混沌的我。这样的我，连我也常看他是个谜团。

见 qwen3-tts 合成的语音会越读越快，怎么解决？ ↩

用 AI 把自己写的散文做成有声书

我在试着用 AI 朗诵我写的文章。（这个活动其实更加适合老年人）

小红书标题：用 AI 朗诵自己写的文章，听着真舒服。

这需要先找到参考音频。例如自己喜欢听的有声书 https://b23.tv/Oj9k9Gj
下载视频、提取音频。
剪裁音频。写作关于如何剪裁音频。可以用这个 https://wutools.com/audio/audio-splitter
转录参考音频。 4.准备文案
生成音频。目前我知道的最简便的方法，是使用 https://modelscope.cn/studios/Qwen/Qwen3-TTS 来克隆声音。但文本越长，合成的语音的节奏会越快，一个解决办法是使用 voicebox 本地化部署后，使用文本拆块选项¹。
视频制作：如果音频不需要重新编辑，直接导入字幕就可以了。视频配图，就用自己拍摄的照片
转录音频。转录是可以生成字幕的，

再解析音频，

voicebox 的 setup

每一个步骤都会出问题。服务器老连不上。可能是因为存储空间不足的问题。

好在它是可以看日志的，在设置中有个日志选项。遇到问题方便排查。

voicebox 模型下载后，加载不成功，文件也不全，symlink 好型又会有问题。可能要用管理员打开 voicebox 才行。这个东西太不稳定了。

我还观察到即使模型已经下载了，voicebox 在加载模型的过程中还需要跟 hf 通信。查了下，是可以通过改环境变量来指定使用镜像的。

例如：变量名：HF_ENDPOINT 变量值：https://hf-mirror.com

（可选）如果你希望更改模型存放的位置（默认为 C 盘），可以再新建一个变量：变量名：HF_HOME 变量值：D:\VoiceboxModels（或其他你想存放的路径）

用 AI 来朗读教材

我喜欢看历史教材

我使用的语音素材

一周AI 大事

有声书：


我是史铁生，很小的时候我就觉得这话有点怪，好像我除了是我，还可以是别的什么。这感觉一直不能消灭，独处时尤为挥之不去。终于想起史铁生是别人眼中的我，我并非全是史铁生。多数情况下，我被史铁生简化和美化着。简化在所难免，美化或出于他人的善意，或出于我的伪装，还可能出于某种文体的畸形。中国人喜爱赞歌，因而史铁生以外还有着更为丰富、更为混沌的我。这样的我，连我也常看他是个谜团。

见 qwen3-tts 合成的语音会越读越快，怎么解决？ ↩

用 AI 把自己写的散文做成有声书

voicebox 的 setup

用 AI 来朗读教材

我使用的语音素材

相关内容

Qwen3-TTS避坑：数字一定要手动改写读音

qwen3-tts 合成的语音会越读越快，怎么解决？

花野猫的班级毕业蹭饭地图制作工具概要设计

我生活上遇到的困难

在线吹生日蜡烛工具概要设计

文章大纲

相关内容

Qwen3-TTS避坑：数字一定要手动改写读音

qwen3-tts 合成的语音会越读越快，怎么解决？

花野猫的班级毕业蹭饭地图制作工具概要设计

我生活上遇到的困难

在线吹生日蜡烛工具概要设计

普通人能用AI做什么？

用 AI 把自己写的散文做成有声书

voicebox 的 setup

用 AI 来朗读教材

我使用的语音素材

相关内容

Qwen3-TTS避坑：数字一定要手动改写读音

qwen3-tts 合成的语音会越读越快，怎么解决？

花野猫的班级毕业蹭饭地图制作工具概要设计

我生活上遇到的困难

在线吹生日蜡烛工具概要设计

文章大纲

相关内容

Qwen3-TTS避坑：数字一定要手动改写读音

qwen3-tts 合成的语音会越读越快，怎么解决？

花野猫的班级毕业蹭饭地图制作工具概要设计

我生活上遇到的困难

在线吹生日蜡烛工具概要设计

普通人能用AI做什么？

用 AI 把自己写的散文做成有声书

voicebox 的 setup

用 AI 来朗读教材

我使用的语音素材

脚注

相关内容

Qwen3-TTS避坑：数字一定要手动改写读音

qwen3-tts 合成的语音会越读越快，怎么解决？

花野猫的班级毕业蹭饭地图制作工具概要设计

我生活上遇到的困难

在线吹生日蜡烛工具概要设计

文章大纲

相关内容

Qwen3-TTS避坑：数字一定要手动改写读音

qwen3-tts 合成的语音会越读越快，怎么解决？

花野猫的班级毕业蹭饭地图制作工具概要设计

我生活上遇到的困难

在线吹生日蜡烛工具概要设计

普通人能用AI做什么？

用 AI 把自己写的散文做成有声书

voicebox 的 setup

用 AI 来朗读教材

我使用的语音素材

脚注

相关内容

Qwen3-TTS避坑：数字一定要手动改写读音

qwen3-tts 合成的语音会越读越快，怎么解决？

花野猫的班级毕业蹭饭地图制作工具概要设计

我生活上遇到的困难

在线吹生日蜡烛工具概要设计

文章大纲

相关内容

Qwen3-TTS避坑：数字一定要手动改写读音

qwen3-tts 合成的语音会越读越快，怎么解决？

花野猫的班级毕业蹭饭地图制作工具概要设计

我生活上遇到的困难

在线吹生日蜡烛工具概要设计