再根据对方的状况而演绎出根本文字转WAV音频