毕竟如果要大规模的装备文字转WAV音频