因为他大致猜到文字转WAV音频