所以问题的关键还是在于大人自己能不能继续向前文字转WAV音频