还是先去捕捉无心文字转WAV音频