我们只能从其他途径获得的一些零散资料加以推断文字转WAV音频