用最简单的话把当时的场面描述出来就成文字转WAV音频