因为之前的1v1模式并未消耗多少时间文字转WAV音频