有了两个推断文字转WAV音频