前面是重重叠叠的人影文字转WAV音频