每一组均至少要经历三幕文字转WAV音频