最大的弱点也是时间文字转WAV音频