也就是说他们只需要本色出演就成文字转WAV音频