主要还得和周围的人进行比较文字转WAV音频