根据x能力的级别和类型文字转WAV音频