一连串的话语声开始从周边响起文字转WAV音频