大部分人都是第一种和第二种的结合体文字转WAV音频