我认为有两个因素文字转WAV音频