他需要综合评判文字转WAV音频