如果是普通的人类文字转WAV音频