仅靠现时的场景和信息文字转WAV音频