也就是在刚才他说出的那个字的同时文字转WAV音频