大体上的势力框架就构建好了文字转WAV音频