而是正常的数量描述词文字转WAV音频