只是既然认为观众可以忽略文字转WAV音频