使用 Qwen3-TTS 进行声音克隆时,单句生成效果尚可,但在处理篇幅较长的文本,尤其是制作节奏舒缓的有声书内容时,会明显发现节奏难以控制,生成越往后,语速越快,整体听感越来越急促。
目前 Qwen3-TTS 自身并未提供专门的语速调节参数,即便在提示词中加入语速相关要求,实际效果也不理想。因此可行的解决方案是:将长文本拆分为多个短句,分段合成后再进行拼接,以此将语速维持在合理区间。
但手动拆分拼接过于繁琐,而本地化语音合成桌面应用 Voicebox 提供了更便捷的方案。
在其语音生成设置中,有一个 auto-chunking limit (自动分段字符数阈值)的配置项,这款工具会默认按字符数自动拆分文本,初始值为 800。

经实测,将该数值调小至 200 左右,制作有声书时语音节奏会更加稳定。同一篇文本,拆分阈值从 800 字符降至 200 字符,最终合成语音的时长会明显延长,语速更贴合朗读需求。
⚠️ 注意:修改 chunk 数值后,直接重新生成原有文本可能不生效,需新建一次生成任务才能使配置起效。
需要我帮你把这篇改成更简洁的技术笔记版本,方便直接发博客或社群吗?
