根本就难以分别出四人的动辄文字转WAV音频