每一层的虚拟剑者会多增加一个文字转WAV音频