这是一个可以量化的标准文字转WAV音频