更多的时候是以一种旁观者的角色出现文字转WAV音频