而是直指人性文字转WAV音频