到那个时候他会理解自己的话文字转WAV音频