所以他们猜测出来是很正常的文字转WAV音频