所以他没有选择直接插队文字转WAV音频