所以推测出来的可能有些出入的地方文字转WAV音频