我觉得我们得至少增加两个人文字转WAV音频