从这人来人往的场景就可以看得出来文字转WAV音频