一个是已经有了清晰的主线和人物设定文字转WAV音频