实际是在观察你们文字转WAV音频