因为是建立在思维连接上的文字转WAV音频