按照上面故事的时间轴推断文字转WAV音频