若是他们先开口文字转WAV音频