他们站位都是按照交叉站位的方式来的文字转WAV音频