实际上他们的猜想并没有错文字转WAV音频