一般情况下都是独立完成文字转WAV音频