表面上看上去是一个4v3的局面文字转WAV音频