从动作场面的设计文字转WAV音频