后者是前者的几倍文字转WAV音频