使用Qwen3-TTS合成中文语音有一个很关键的细节。
模型没办法理解中文里约定俗成的数字读法,只会死板按照标准数字规则去朗读。
像是日常口语里的专有表述:985、211,直接输入阿拉伯数字,模型就会生硬读成九百八十五、二百一十一,听起来十分别扭。
正确处理方式非常简单:所有带有专属读法、简称类的数字,全部提前转换成汉字读音。例如985、211需要修改为:九百五、二幺幺
提前做好文案预处理,才能避开读音出错、语气违和的问题,合成的语音才贴合正常口语。
使用Qwen3-TTS合成中文语音有一个很关键的细节。
模型没办法理解中文里约定俗成的数字读法,只会死板按照标准数字规则去朗读。
像是日常口语里的专有表述:985、211,直接输入阿拉伯数字,模型就会生硬读成九百八十五、二百一十一,听起来十分别扭。
正确处理方式非常简单:所有带有专属读法、简称类的数字,全部提前转换成汉字读音。例如985、211需要修改为:九百五、二幺幺
提前做好文案预处理,才能避开读音出错、语气违和的问题,合成的语音才贴合正常口语。