我立刻就能做出两种合理的假设……文字转WAV音频