一开始并不会在选手最密集的地方文字转WAV音频