也需要分别对待文字转WAV音频