也就是结构比较成熟文字转WAV音频