不似困束场那样需要缩小范围提高密度文字转WAV音频