现在最重要的是将人拉上来文字转WAV音频