在理解中执行文字转WAV音频