显然也是在观察评估文字转WAV音频