考虑到防御需要文字转WAV音频