你是怎么分辨出他们之中有两拨人的文字转WAV音频