无论从时间线还是情节线上考虑文字转WAV音频