结果多个渠道得来的信息最终都指向同一个人文字转WAV音频