接下来是语调和表情是第二次压抑文字转WAV音频