所以他要从眼前这十个人当中选了文字转WAV音频