若不是估计外人在场文字转WAV音频