的确是越原始文字转WAV音频