从几个人的状态来看文字转WAV音频