但他毕竟只能初步控制文字转WAV音频