每一个个体接收和输出的信息是极少的文字转WAV音频