人工智能爱数据。数据越多,模型越完善。不过,数据常常是筒仓式(即孤岛式)的,在数据好比护城河的这个新环境下更是如此。 但是区块链鼓励在传统的孤岛之间共享数据,如果有足够多前期好处的话。区块链的去中心化性质鼓励数据共享:如果没有哪个单一实体控制存储有数据的基础设施,共享面临的阻力比较小。我在后面会介绍更多的好处。 这种数据共享可能会出现在企业里面(比如在区域办事处之间)、生态系统里面(比如“联合”数据库),或者整个星球(比如共享式全球数据库,又叫公共区块链)。下面介绍了每一种情况的例子:
敌人共享数据为人工智能馈送数据。2016年很好玩! 机会2:数据共享→ 全新的模型 在一些情况下,来自孤岛的数据合并后,你得到的不仅仅是更好的数据集,还能得到全新的模型,由此带来全新的模型,你可以从该新模型获得新的洞察力,并获得新的商业应用。也就是说,你可以做之前做不了的事情。 下面是识别钻石欺诈的一个例子。如果你是一家提供钻石保险的银行,就很想构建一个可识别钻石是否冒牌货的分类器。全球有四家信誉卓著的钻石认证实验室(当然取决于你问的是谁)。如果你只能获得其中一家实验室的钻石数据,那么对另外三家实验室的数据一无所知,你的分类器就很可能将通过那三家实验室鉴定的钻石标为欺诈性(见下图,左边)。你的误报率会让你的系统毫无用处。 不妨改而考虑如果区块链促成所有四家实验室共享数据,那会怎样。你将拥有所有合法的数据,你可以用来构建一个分类器(见下图,右边)。任何送来的钻石(比如eBay上在卖的钻石)都将通过该系统的审查,与这个所有数据的单类分类器(one-class classifier)进行比对。分类器可检测真正的冒牌货,避免误报,因而降低了欺诈率,从而惠及保险提供商和认证实验室。这可能只是被称查询,即不需要人工智能。但是使用人工智能进一步改进了它,比如说根据颜色、克拉等方面预测价格,然后使用“价格与预计价值多接近”,作为主欺诈分类器的输入源。 这里是第二个例子。去中心化系统中一种合适的标记奖励方法可激励数据集加以标记(而之前无法加以标记),或者以一种经济高效的方式加以标记。这基本上就是去中心化的亚马逊Mechanical Turk(https://medium.com/r/?url=https%3A%2F%2Fwww.mturk.com)。有了新的标记,我们获得了新的数据集;我们训练新的数据集,以获得新的模型。 这里是第三个例子。标记奖励方法可以导致数据由物联网设备直接输入。设备控制数据,可以交换数据以获取资产,比如能源。这种新数据再次会带来新模型,这后两个例子要感谢迪米·德·扬赫(Dimi de Jonghe)。 囤积还是共享?两个相反的动机在这里形成对峙。一个是囤积数据――“数据是新的护城河”观点;另一个是共享数据,以获得更好/新的模型。要共享,势必要有一个足够明显的驱动因素压倒“护城河”带来的好处。技术驱动因素是可获得更好的模型或新的模型,但是这个驱动因素势必会带来业务好处。可能具有的好处包括:减少欺诈,节省钻石或供应链方面的保险费;可以在Mechanical Turk中捎带赚钱;数据/模型交换中心;对某个大玩家采取集体性行动,比如唱片公司可以集体起诉苹果iTune,好处不止这些;这需要创新的业务设计。 中心化还是去中心化?即使一些企业组织决定共享,它们还是可以在不需要区块链技术的情况下共享。比如说,它们可能仅仅要把数据聚合到S3实例中,并在它们本身之间公开API。但是在一些情况下,去中心化带来了新的好处。先是名副其实地共享基础设施,那样共享联合体中的一家企业组织无法独自控制所有的“共享数据”。(这在几年前是一块主要的绊脚石,那时唱片公司试图联合起来,建一个通用的注册中心)。另一个好处是,更容易把数据和模型变成资产,然后可以授权外面的人使用,以获得利润。我在下面对此予以了详述。感谢亚当·德雷克(Adam Drake)对囤积与共享这种对峙予以特别关注。 正如讨论的那样,数据和模型共享会出现在三个层面:企业里面(对跨国公司而言,其难度超乎想象);生态系统或联合体里面;或者整个星球(这相当于成了一家公用事业公司)。不妨更深入地探讨全球规模的共享。 机会2:新的全球规模的数据→ 新的全球规模的洞察力 全球规模的数据共享可能最值得关注。不妨进一步探讨这个方面。 IPDB是全球规模的结构化数据,而不是零星的数据。万维网(WWW)好比是互联网上面的文件系统;IPDB是其对应的数据库。(我认为,我们没有更早看到这方面的更多工作,是由于从升级文件系统的角度来看,语义Web试图抵达成功的彼岸。但是通过“升级”文件系统来构建数据库却相当难!) 那么,如果我们使用像IPDB这样的全球规模的共享数据库服务来共享数据,会是什么样子?我们有几个参考点。 第一个参考点是,已经有一个产值达到十亿美元的市场(最近),许多公司精选并重新包装公共数据,让数据更容易使用,从用于天气或网络时间的简单API,到股票和货币等金融数据,不一而足。设想一下:如果所有这些数据可通过单一数据库,以一种类似的结构化方式(即使它只是通过API)来访问,会是怎样子。这相当于1000个彭博。不必担心咽喉被某一个实体牢牢扼住。 第二个参考点来自区块链,体现于这个概念:对外部数据进行oraclizing处理,通过区块链,让外部数据易于使用。但是我们可以对所有数据进行oraclize。去中心化的彭博就是个开始。 总的来说,我们为众多数据库和数据源获得了全新的规模。因此,我们拥有全新的数据。全球规模的结构化数据。我们可以由此构建全新的模型,能够在输入和输出之间建立之前无法建立起来的关系。借助模型,我们可以从模型获得全新的洞察力。 我希望可以在这里讲得更具体些,但是眼下,这是个新领域,我想不出任何例子。不过它们会出现的! 还有机器人这个角度。我们一直假设:区块链API的主要使用者将是人类。但是如果是机器,又会怎样?现代DNS的开发者大卫·霍尔兹曼(David Holtzman)最近表示“IPDB是人工智能的吊桶。”细细分析,那是由于IPDB支持和鼓励全球规模的数据共享,人工智能确实爱吃数据。 机会3:针对数据和模型的审计跟踪记录,获得更可靠的预测 这种应用面对这种现实:如果你训练垃圾数据,就会得到垃圾模型。对测试数据来说也是如此。正可谓,垃圾进垃圾出。 垃圾可能来自恶意的家伙/可能篡改数据的错综复杂的故障。想一想大众公司尾气排放丑闻。垃圾还可能来自并非恶意的家伙/崩溃故障,比如来自有缺陷的物联网传感器、出故障的数据源,或者导致比特翻转的环境辐射(没有很好的纠错机制)。 你怎么知道X/y训练数据就没有缺陷?实时使用怎么样,针对实时输入数据运行模型?模型预测(yhat)怎么样?简而言之:进出模型的数据是什么情况?数据也想要信誉。 区块链技术可助一臂之力。方法如下。在构建模型以及在实际现场运行模型的过程的每一步,该数据的创建者只要给该模型标以时间戳,并添加到区块链数据库,这包括对它进行数字签名处理,声称“目前我相信该数据/模型是好的。”不妨进一步阐述这个: 构建模型方面的数据溯源: 1. 传感器数据(包括物联网)方面的数据溯源。你信任你的物联网传感器告诉你的数据吗? 2. 训练输入/输出(X/y)数据方面的数据溯源。 3. 构建自己的模型方面的数据溯源,如果你喜欢,可通过可信的执行基础设施或类似TrueBit、复核计算的市场来进行。至少,要有证据表明使用构建模型的收敛曲线(比如nmse vs. epoch)来构建模型。 4. 模型本身方面的数据溯源。 测试/实际现场方面的数据溯源: 1. 测试输入(X)数据方面的数据溯源。 2. 模型模拟方面的数据溯源。可信执行和TrueBit等。 3. 测试输出(yhat)数据方面的数据溯源。 我们在构建模型和运用模型方面都获得了数据溯源。结果是获得了更可信的人工智能训练数据和模型。 好处包括:
机会4:训练数据和模型的共享式全球注册中心 人工智能界的一个特别的挑战是:数据集在哪里?传统上,它们分散在互联网上,不过有一些列表列出了主要的数据库。当然,许多数据集是专有的,就因为它们具有价值。还记得数据护城河吗? 但是,如果我们有一个全球数据库,易于管理另一个数据集或数据源(免费或收费),会怎样?这可能包括来自众多机器学习竞赛的广泛的Kaggle数据集、斯坦福大学的ImageNetdataset及其他无数的数据集。 这正是IPDB所做的。人们可以提交数据集,并使用别人的数据。数据本身会放在IPFS之类的去中心化文件系统;元数据(以及数据指针本身)将放在IPDB中。我们会获得一个人工智能数据集的全球共同体。这有助于实现开放数据社区的梦想。 我们不该止步于数据集;我们还可以加入用那些数据集构建的模型。获取和运行别人的模型,提交你自己的模型,这应该很容易。全球数据库会为此提供极大的便利。我们能获得由全球拥有的模型。 机会5:数据和模型是IP资产→数据和模型交换中心 不妨深入叙述运用由训练数据和模型组成的“共享式全球注册中心”。数据和模型可能是共同体的一部分。但是它们也可以买卖! 数据和人工智能模型可以作为一种知识产权(IP)资产来使用,它们受版权法的保护。这意味着:
我认为你可以拥有人工智能模型的版权,并授权别人使用,这很棒。数据已经被认为是一个可能很巨大的市场;模型会亦步亦趋。 在区块链技术问世之前,就可以拥有数据和模型的版权,并授权别人使用。一段时间以来,相关法律为此提供了依据。但是区块链技术让它变得更好,原因是:
我很注重区块链方面的IP,我早在2013年就在开展ascribe方面的工作,帮助数字艺术家拿到应有的报酬。最初的方法在授权的规模和灵活性方面有问题。正如我最近撰写的那样,现在,这些问题已得到了解决。让这成为可能的技术包括如下:
因此,我们得到了作为IP资产的数据和模型。 为了说明,我以ascribe为例,我拥有多年前构建的一个人工智能模型的版权。这个人工智能模型是决策树(CART),用于决定使用哪种模拟电路拓扑结构。这里,它是一种采用密码的防伪证明书(COA)。如果你想获得我的授权以便使用,只管发邮件给我:) 一旦我们有了数据和模型这种资产,可以开始为那些资产建立交换中心。 交换中心应该是中心化的,就像DatastreamX已经为数据建立的机制那样。但到目前为止,它们其实只能使用公开可用的数据源,因为许多公司认为共享带来的风险高于回报。 去中心化的数据和模型交换中心怎么样?如果在“交换中心”这种环境下实现数据共享去中心化,就会出现新的好处。由于去中心化,没有哪一个实体控制数据存储基础设施或表明谁拥有什么的账本,这样企业组织更容易协同工作或共享数据,如本文前面所述。不妨想一想用于深度网络(Deep Nets)的OpenBazaar。 有了这样一种去中心化的交换中心,我们会看到真正开放的数据市场出现。这有望实现数据和人工智能人士长期以来怀有的梦想。 当然了,我们在那些交换中心上会有基于人工智能的算法交易:人工智能算法购买人工智能模型。人工智能交易算法甚至可能购买算法交易人工智能模型,然后更新自己! 机会5:控制你数据和模型的上游 这承接前一种应用。 如果你注册使用Facebook,也就把它对你输入其系统的数据可以做什么、不可以做什么方面很具体的权限授予了Facebook。它有权使用你的个人数据。 当音乐家与唱片公司签约后,他们将非常具体的权限授予了这家唱片公司,比如编辑音乐、发行音乐等。(通常唱片公司试图获得所有版权,这显然太过了,不过那是题外话!) 对人工智能数据和人工智能模型来说可能一样。如果你构建的数据可用于构建模型,当你构建好模型,就可以预先指定许可证,限制上游的别人如何使用它们。 区块链技术为所有使用场合简化了这方面,从个人数据到音乐,从人工智能数据到人工智能模型,不一而足。在区块链数据库中,你把权限当成资产:比如说,读取权限或查看某一部分数据或模型的权限。作为权限拥有者,你可以把作为资产的这些权限转让给系统中的别人,就像转让比特币那样:创建转让交易,并用你的私钥来签名。这方面感谢迪米特里·德·扬赫(Dimitri de Jonghe)。 因此,你对于使用你的人工智能训练数据、人工智能模型及更多内容的上游有了极大的控制权。比如说,“你可以重新混合这个数据,但不可以深度学习它。” 这可能是DeepMind在医疗区块链项目中采用的战略的一部分。在数据挖掘中,医疗数据让它们面临监管风险和反托拉斯问题(在欧洲更是如此)。但是如果用户能改而真正拥有其医疗数据,并控制上游使用,那么DeepMind只要告诉消费者和监管者:“嘿,客户实际拥有他们自己的数据,我们只能使用它。”我的朋友劳伦斯·伦迪(Lawrence Lundy)提供了这个很棒的例子(谢谢劳伦斯!)他随后作了进一步的外推: 完全有这个可能:政府允许私人拥有(人类或AGI)数据的唯一方式就是借助共享式数据基础设施,采用“网络中立”规则,就像AT&T和长长的原始线路那样。从这个意义上来说,日益自主的人工智能需要区块链及其他共享式数据基础设施得到政府的接受,因而从长远来看需要可持续发展-―劳伦斯·伦迪 机会6:人工智能DAO —能积累财富,你无法关闭的人工智能 这个很出色。人工智能DAO是拥有自己,你无法关闭的人工智能。我之前在三篇文章中探讨了人工智能DAO;我会在下面概述它到底怎样。我鼓励有兴趣的读者不妨深入探究。 到目前为止,我们谈论了作为去中心化数据库的区块链。但是我们也可以实现去中心化处理:基本上,存储状态机的状态。拥有这方面的一点基础设施让它更容易实现,而这就是以太坊(Ethereum)等“智能合约”技术的精髓。 我们之前也实现了流程去中心化,表现为计算机病毒。没有哪一个实体拥有或控制病毒,你无法关闭它们。但是它们有限制的――它们基本上试图破坏你的电脑,就是那样。 但是如果你与这个流程有更丰富的交互,该流程本身可以独立积累财富,那会怎样?现在通过更好的API,这成为了可能,比如智能合约语言,以及公共区块链之类的去中心化价值存储系统。 去中心化自治组织(DAO)这种流程体现了这些特点。代码可以拥有数据。 这给我们带来了人工智能。名为“强人工智能”(AGI)的人工智能子领域最密切相关。AGI是指在环境下交互的自治代理。AGI可以建模成反馈控制系统。这是好消息,因为控制系统有许多出色的特性。首先,它们有强大的运算基础,可以追溯到50年代――诺伯特·维纳(Norbert Wiener)的“控制论”。它们捕获与外界的交互(驱动和感知),并适应(根据内部模型和外部传感器来更新状态)。控制系统使用广泛。它们控制着简单的恒温器如何根据目标温度来调节。它们可以为你昂贵的耳机降噪。它们是另外众多设备的核心部件:从微波炉到汽车制动器。 人工智能界最近更积极地拥抱控制系统。比如说,它们是AlphaGo的关键。AGI代理本身就是控制系统。 人工智能DAO是一种类似AGI的控制系统,它在去中心化的处理和存储底层上运行。反馈回路自成一体,获得输入信息后,更新状态,驱动输出,并拥有不断这么做的资源。 我们可获得人工智能DAO,只要从人工智能(AGI代理)入手,并让它去中心化。或者,我们可以从DAO入手,为它赋予人工智能决策功能。 人工智能得到了其缺失的一环:资源。DAO得到了其缺失的一环:自主决策。正由于如此,人工智能DAO可能比人工智能本身或者DAO本身要庞大得多。潜在的影响是倍增的。 下面是几个应用:
|