本来只是防御文字转WAV音频