提出的标准会是文字转WAV音频