后者嘛……无非是过会儿再输文字转WAV音频