所以必须需要时间来等待文字转WAV音频