他的逻辑是文字转WAV音频