当然这仅仅是指目前阶段文字转WAV音频