用 AI 把自己写的散文做成有声书
我在试着用 AI 朗诵我写的文章。(这个活动其实更加适合老年人)
小红书标题:用 AI 朗诵自己写的文章,听着真舒服。
-
这需要先找到参考音频。例如自己喜欢听的有声书 https://b23.tv/Oj9k9Gj
-
下载视频、提取音频。
-
剪裁音频。写作关于如何剪裁音频。可以用 这个 https://wutools.com/audio/audio-splitter
-
转录参考音频。 4.准备文案
-
生成音频。目前我知道的最简便的方法,是使用 https://modelscope.cn/studios/Qwen/Qwen3-TTS 来克隆声音。但文本越长,合成的语音的节奏会越快,一个解决办法是使用 voicebox 本地化部署后,使用文本拆块选项1。
-
视频制作:如果音频不需要重新编辑,直接导入字幕就可以了。视频配图,就用自己拍摄的照片
-
转录音频。转录是可以生成字幕的,
再解析音频,
voicebox 的 setup
每一个步骤都会出问题。服务器老连不上。可能是因为存储空间不足的问题。
voicebox 这个工具,折腾了很久很久。 服务器老是出问题连不上。geek 删除数据,重新装。下载下来的模型文件不全,重新放置,hf 产生的 symlink 不管用,重新用文件覆盖。
好在它是可以看日志的,在设置中有个日志选项。遇到问题方便排查。
voicebox 模型下载后,加载不成功,文件也不全,symlink 好型又会有问题。可能要用管理员打开 voicebox 才行。这个东西太不稳定了。
我还观察到即使模型已经下载了,voicebox 在加载模型的过程中还需要跟 hf 通信。查了下,是可以通过改环境变量来指定使用镜像的。
Voicebox 虽然没有在界面中直接提供“镜像设置”选项,但因为它在底层使用的是 Hugging Face 的标准库(如 transformers 和 huggingface_hub),可以通过配置系统环境变量来强制使用镜像站(如 hf-mirror.com)。
例如: 变量名:HF_ENDPOINT 变量值:https://hf-mirror.com
(可选)如果你希望更改模型存放的位置(默认为 C 盘),可以再新建一个变量: 变量名:HF_HOME 变量值:D:\VoiceboxModels(或其他你想存放的路径)
用 AI 来朗读教材
我喜欢看历史教材
我使用的语音素材
一周AI 大事
有声书:
我是史铁生,很小的时候我就觉得这话有点怪,好像我除了是我,还可以是别的什么。这感觉一直不能消灭,独处时尤为挥之不去。终于想起史铁生是别人眼中的我,我并非全是史铁生。多数情况下,我被史铁生简化和美化着。简化在所难免,美化或出于他人的善意,或出于我的伪装,还可能出于某种文体的畸形。中国人喜爱赞歌,因而史铁生以外还有着更为丰富、更为混沌的我。这样的我,连我也常看他是个谜团。
