这里的技术应该还停留在国内S2文字转WAV音频