他们要对自己的每一句话负责文字转WAV音频