显然是经过了各种横量决定文字转WAV音频