他们甚至觉得可以接受文字转WAV音频