qwen3-tts 合成的语音会越读越快，怎么解决？

使用 Qwen3-TTS 进行声音克隆时，单句生成效果尚可，但在处理篇幅较长的文本，尤其是制作节奏舒缓的有声书内容时，会明显发现节奏难以控制，生成越往后，语速越快，整体听感越来越急促。

目前 Qwen3-TTS 自身并未提供专门的语速调节参数，即便在提示词中加入语速相关要求，实际效果也不理想。因此可行的解决方案是：将长文本拆分为多个短句，分段合成后再进行拼接，以此将语速维持在合理区间。

但手动拆分拼接过于繁琐，而本地化语音合成桌面应用 Voicebox 提供了更便捷的方案。

在其语音生成设置中，有一个 auto-chunking limit （自动分段字符数阈值）的配置项，这款工具会默认按字符数自动拆分文本，初始值为 800。

经实测，将该数值调小至 200 左右，制作有声书时语音节奏会更加稳定。同一篇文本，拆分阈值从 800 字符降至 200 字符，最终合成语音的时长会明显延长，语速更贴合朗读需求。

⚠️ 注意：修改 chunk 数值后，直接重新生成原有文本可能不生效，需新建一次生成任务才能使配置起效。

但手动拆分拼接过于繁琐，而本地化语音合成桌面应用 Voicebox 提供了更便捷的方案。

在其语音生成设置中，有一个 auto-chunking limit （自动分段字符数阈值）的配置项，这款工具会默认按字符数自动拆分文本，初始值为 800。

⚠️ 注意：修改 chunk 数值后，直接重新生成原有文本可能不生效，需新建一次生成任务才能使配置起效。