所以这些东西也只能算成是推断文字转WAV音频