由于采取三部连拍的方式文字转WAV音频