我们还需要两个小时进行数据收集文字转WAV音频