结合前后发生的事情来看文字转WAV音频