毕竟他想要的东西需要从他们口中得知文字转WAV音频