他们明明听到文字转WAV音频