整个过程当中并没有人说话文字转WAV音频