在经过了大约十来分钟的讲述和准备后文字转WAV音频