推测的过程倒也并不复杂……文字转WAV音频