我们必须在他们还没有反应过来的时候文字转WAV音频