但他是用一种动态的方式跟着文字转WAV音频