他们大部分都是纯粹的人形文字转WAV音频