最大的因素便是不稳定文字转WAV音频