他甚至要很仔细的分辨文字转WAV音频