似乎也只有这个解释是比较合适的文字转WAV音频