我们看到的是一个异常复杂的情形文字转WAV音频