他们实际上已经想到了可能出现的结果文字转WAV音频