是按照时间长短来衡量的文字转WAV音频