我看可以把他们看成是不稳定因素对待文字转WAV音频