倒不如说是在质问文字转WAV音频