他们需要大量的物质文字转WAV音频