因为人们最终文字转WAV音频