不过黄文旭觉得可能还是前者居多文字转WAV音频