这种要求又意味着海量的工作文字转WAV音频