但是总体上就是平均分配文字转WAV音频