大部分时间都是以听众的角色自居文字转WAV音频