所以只好算客人文字转WAV音频