所以他们要么一知半解文字转WAV音频