但他只能依靠自己文字转WAV音频