它并不会仅仅选择临近的层数文字转WAV音频