简直无法用常理去判断文字转WAV音频