根据场景顺序来排序的文字转WAV音频