主要就是看斯内德是否愿意拖后文字转WAV音频