我们的原来计划是耗时间文字转WAV音频