我们采取的是攀爬式的下降方式文字转WAV音频