根据场次推断文字转WAV音频