也必须忽略掉观众文字转WAV音频