因为他听到的是字正腔圆的普通话文字转WAV音频