从下人的语气以及身体反应文字转WAV音频