火星财经APP一线报道,2019年5月27日,由2019中国国际大数据产业博览会组委会主办,中央广播电视总台央视财经频道联合主办,中国信息通信研究院承办的“区块链高端对话”在贵阳举行。
香港理工大学电子计算学主任、华为区块链奠基者、香港理工大学大数据分析中心实验室主任曹建农发表了题为《区块链技术作为大数据的共享和交换的支持》的演讲。他表示,大数据并不是有数据就能用得好,大数据是多元的,要解决一个现象常常要用到不同领域的数据集,这就涉及到“数据共享”和“数据交换”,区块链提供了大数据共享和交换非常有用的解决方案。而去中心化,透明性,不可篡改这些区块链的特性也保证了数据的隐私性,权威性和可信任,为数据共享提供了前提。
但曹建农同时指出,采用区块链技术来解决数据共享和数据交换也存在四个方面的挑战:1.怎么让用户控制数据灵活共享;2.不同方法查找数据;3.如何减少延迟;4.怎么解决公平性。他表示,目前这四个挑战已经在实验室环境下找了一些解决方案。
以下为曹建农演讲全文:
各位大家早上好,我是来自香港大学的曹建农。过去的研究都是围绕着互联网和移动计算。近几年学校又成立了大数据中心分析研究中心。研究的范围从传统的分布式研究和移动和无线网络扩展到现在大数据分析,以及云计算、边缘计算和今天要讲的区块链技术。
今天分享《区块链技术作为大数据的共享和交换的支持》。建立区块链共享数据时,我们会遇到什么样的挑战?以及我们想到和研究的方案。首先讲一下为什么要做大数据交换,为什么区块链作为大数据交换技术支持是很有用的解决方案,最后讲一下未来研发发展的方向。
大家都知道现在大数据很热,包括贵阳大数据博览会也进行了四届了,从大会刚刚兴起时,大家谈到的都是应用。但是有很多挑战,包括挑战其中之一,大数据用起来不是说你有一个数据就可以用得非常好。大数据来自于多元,而且是来自于不同领域的。要解决一个现象时要用到很多不同领域的数据集,这些不是从一个资源方可以得到。所以牵涉到一个问题,怎么“共享”我们的数据。从数据融合里面找到关联,从而解决重要的挑战性问题。
其中最大挑战就是怎么样共享数据。什么情况下有共享数据的需求?
首先,各地政府,包括底层的初创公司他们都强烈需求数据能够共享。开放数据这个概念。开放数据为什么推动这么多年推不下去。很重要的原因是因为没有数据支持,使得你的数据可以更好的使用。其中一个原因就是我不信任你,你用了我的数据,会不会误用,会不会篡改后,在数据没有授权的情况下给别人使用。公开数据现在是一个运动,但是这个运动推广不下去,是因为数据共享技术方案没有得到很好的解决。
第二,需要互相合作。举例:比如智慧家居,智慧家庭说了这么多年,很多做智慧家居的公司,包括海尔、包括生产电冰箱的公司。你买了电冰箱、洗衣机,电视机,都是来自不同智慧家居服务商,他们的数据不公开,你怎么形成智慧家居的统一方案,现在做不到。现在政府迫使他们把数据开放,使第三方可以联合解决这样的方案。这是需要大家互相合作。
第三,大数据交易。数据是一个资产,我的数据给你用时,也不是无限给你用。贵阳很多年前就有大数据交易平台落地。交易平台里面的数据共享也存在着信任的问题,怎么样定价,各种各样的法律问题。这也是数据共享的其中一个应用场景。
应对不同的需求,现在在国内和世界上都有很多大数据共享平台。比如有英国的IPMOKS,DATAEXCHANGE。就是希望有一个专门的平台发表数据和寻找数据,进行交换和交易的数据。也有科学数据分享,大家收集的数据都是独特的。
香港在政府推动下,想成立一个数据中心,叫DATASHARING,推广这么多年还是一个信任问题,他要求不同公司把不同的数据贡献出来,支持第三方公司进行数据创新,但是这个没有很好的底下信任支持也很难推动。作为分布式技术平台也有IPFS,这是全球文件共享系统,也是点对点的系统,它也是支持大家怎么共享数据。
虽然有各种各样的大数据分享平台,归纳成几种方式。
第一,数据托管。有数据供应方把数据上传到托管中心,有不同的代理查询这些数据,得到这些数据后进行使用。数据的托管中心还是一个中心化,需要大家把数据上传到托管的平台上。
第二,数据聚合平台。不需要把原始数据和大量数据上传到平台上,但是你把数据的原数据,这些数据的信息上传下去,可以成为文件的缩影,供大家查询。他们私下进行交换和共享时,通过点对点方式做。这样还是存在中心化的聚合中心。它们有各种不同的好处和坏处。从X纬和Y纬来看,Y纬谈到你这组数据有没有权威性,X纬就想你这个平台能不能保证安全。
数据托管的权威性很多,大多数数据托管中心都是经过政府和一些可信任的机构认证或者授权的。数据的聚合中心适应性相对会增加,但是,它是让用户上传数据原数据,可信度就相对降低了一些。我们需要寻找解决方案,它是由有权威性,同时,又可以保证你的私隐和安全。区块链就提供了一个很好的解决方案。区块链是分布式的账本和分布式的中心库,它可以去中心化,有数据不可篡改,加上匿名化都是数据所需要的特征之一。
区块链有三个性质。去中心化,透明性,不可篡改。首先去中心化可以保证私隐性,我的数据共享上来你甚至不知道谁共享这个数据,你只能看到这个数据。第二,透明性和不可更改性,就保证的权威性,大家互相信任。数据共享和交换方面,区块链满足了这些需要的要求。
我们在区块链方面的研究,起源于跟华为的合作,华为当时有一个数据共享平台,包括它想在脸书上和谷歌上面都可以共享他们的数据。后来我们想到这是很难的一件事。为何不去做相对基础化的技术研究。大家的数据可以共享出来,加上适当的API和适当的方式,让大家对等交换。所以我们就做了A13的项目:
第一,有很多数据平台应用,这个平台最好跟具体数据应用无关,这样就需要我们有一个可通用性的表达方法。
第二,必须安全和可靠。这就是去中心化,有共识,不可篡改,要保证分布式的账本。
第三,保证数据共享的内容和数据共享的方式。所以有各种不同的控制方式让大家享用这个数据。
总结一下,这是我们设计的三个原则:应用无关、安全可靠、灵活的控制数据共享内容。
系统架构非常简单,每个人只要下载一个API就可以了,这个上面有写界面,主要有三个方面,怎么样发表数据,怎么样使大家可以查找取得数据,用了数据后进行共享,共享的记录怎么保存起来。上面有两种不同的数据。一种是原始数据不希望放在区块链上。因为太大了,也想保留在局部范围内控制它,你上传原数据这样有一个单独的区块链专门保存原数据的记录。另一种是,通过原始数据去交易的时候有单独的一个链,这就是共享的数据连,所以有两条链在里面,这两个链相互交互,具有一致性和协调和同步。
应用很简单,首先去查找,我们有数据。到系统后会通过分布式账本查到数据,所有应用结果,交易的记录也会存在账本里面。同时还支持智能合约。使得你想多步完成进行原子化和计算的步骤,可以被强迫的自动执行,它可以通过条件的满足同步执行。最后把结果反馈给应用,所以是很简单的系统架构。
表面上看着很简单,实际上下面有很多挑战性,我讲四方面的挑战。
第一,怎么让用户自己控制他的数据如何被灵活共享和灵活的被使用。数据怎么样被共享?能不能保持时间窗口,什么时间可以共享一年数据,两年数据,三年数据或者哪方面数据可以共享。我可以给你一个灵活的机制,让你决定你要共享哪些数据。我们有三种解决方法。1,跟你达成协议可以把你的数据下载到我这里,你数据有一个拷贝件在我使用方拷贝。这种情况下,大家不愿意。2,只是看一下你的数据,浏览一下你的数据,我觉得哪些数据有用再跟你交易。3,更加安全可靠的方法,把你的运算放在数据方我来给你运算。这三方面都可以支持它。
第二,怎么样快速处理你的数据。当你的数据交易记录,共享记录越来越多时,查找的时候性能很慢。大家可以想一想,比特币刚刚出来的时候,大家用POW算法,共识的方法需要很长时间。这跟我们现在用的VISA的速度不能比。
第三,取数据时会延迟,怎么减少延迟?用户就想看到我的交易能很快的认证和存到区块链里面,所以它的时延比较短。怎么样时延比较短?牵涉到两方面。1,你去查找它时,或者得到数据查找时,可以把以前经常查找的结果把它缓存起来,所以不需要每次都到区块链里面一个一个找。2,把数据打包时就优化,这样方便到后面查找。这个时候你在每个块的前一端,最好有一个关于块内容的总结。看一下这个总结就可以决定是不是到块里面逐个记录查找。
大家都知道POW和POS很多不同的传统方法,都先起一个共识,共识就是我是最合适打包的,大家有共识说对,你是最有权利打包之后,我再拣出1000个记录打成一个包。这是两个证明,第一我是最适合打包,第二选哪些交易记录打包。
数据共享里面能不能把这两个结合起来。存这个包时,能不能想到数据之间的相关性,怎么样让后面查找方面一点。数据是不是近似的数据。查找数据时,比如你是做食品的,可能会专门查食品交易的块,而不会查关于专利的块。
我们提了一个共识方法,谁能首先在这么多交易记录里面找到它的语义上距离最近的交易记录进行打包,我们证明叫“近似性证明”。这样的方法是满足共识算法。第一你做的时候非常困难,一旦做出来要验证很简单。同时,它也把打包和共识证明我最适合打包这两个方面有机的结合起来了。
把近似的数据放在一个块里面,这个块头里面就是总结这个里面有哪些数据。比如有水果的数据,就把关于有关水果的交易记录放在块里面。有关于人物的,所有图林奖获得者的记录,这样查找就先查找块的头文,不满足就不进去找,满足的时候就进去找,这样节约很多时间。
在交易池里面很多交易记录,通过它的交易的把最合适的予以距离最小的若干包打包就变成了“块”。在块用BLOCKSEARZH技术就产生了总结的块,这样就形成新的打包的块,它有块的记录,同时里面所有交易记录满足语义最小化的要求。
第四,区块链现在不能保证公平性?公平性的概念就是有了数据后,存在交易,交易记录可以长时间不被打包,这可能不是有意,也可能是有意。进行交易的记录可能十秒钟被打包,也有可能是一小时,两小时被打包。这是系统设计没有考虑公平性问题。也可能是别人攻击你,有意不让你打包或者恶意攻击。现在的区块链里面没有说明公平性。现在我们扩展到“服务质量打包”。这样把公平性作为其中特殊的理由,你还有没有想到其他公平性或者其他服务质量。我付的钱多一点,我是VIP你给我打包是不是速度快一点,像传统物联网里面也可以应用到区块链打包记录。
这四个方面的挑战是现在存在技术的问题。怎么样能够最大化区块链的公平性,同时不影响它的系统的吞吐力?
定义公平性,肯定有N的交易记录,有T1、T2到TN在交易池里面,在区块里面要找到它的交易记录。它打包性是存在的。有的时候在记录池里面并不代表被认证过和打包的。假设所有的交易块的有效性是相同,我们的目标就是设计这样的策略,使得大家被打包的时间尽量相等,使它最大化。同时不要影响到系统的吞吐力和性能的要求。
将等待时间最长的打包是解决公平性最好方法。把交易池的交易记录按照时间排成序,排成等待时间最长的先打成包。并不是交易池里面取出来的任何交易记录都可以打包。有的交易记录有关系。这个记录跟那个记录相关联,那个记录没有被认证时,他们不能被打进包里。也时候执行智能合约时需要多个智能合约,比执行一个智能合约产生的交易记录还没有完成时你也不能打包,你不能任意取出来。
当等待时间不能被打包时,我们应该选择什么方式打包?我们用的方式是在互联网里面使用资源公平性的INDEX,我们证明你把所有交易记录,里面等待时间最大块的结合起来,它的公平性也就最大。证明了这个之后你就很好做,从资源池挑出K个可以被打包,使得他们等待时间最长,这样打起包来公平性最大。这实际上也是一个基于传统公平性解决方法。
刚才简单说了一下,如果你享用区块链做大数据的分享和交换。这是一个很好的技术支持方案,可以解决信任问题,同时也可以解决数据共享里面的各种各样的公平交易,质量,还有不可篡改,不可抵赖。我讲了四挑战,可能后面还有更多的挑战。比如你的匿名性怎么保证。匿名性现在在区块链里面不会被严格的保护,我跟你交换时不喜欢你是谁,你也不想知道我是谁。我们叫匿名交换。
总结,我们实验室在区块链里面从各种不同的层次上,我们都做了很多研究。从最底层,数据这一层怎么打包,怎么做新的匿名性的方法,做非对称的数字编码和签名。上面这一层就是你的共识层,我们提出了两个,第一,新的共识方法,怎么基于数据相似形进行打包。怎么样保证打包时你的服务质量的打包。第二,智能合约怎么保证它的可靠性,怎么保证它的性能。智能合约用到很多运算,有的运算很费资源,有的运算不费资源,怎么样比较节省的利用智能合约,防止智能合约被攻击。
我们有三个项目,第一个跟华为共享的项目,跟阿里巴巴做了供应链数据管理的项目。现在在做的就是刚刚拿到香港政府支持的,怎么样做食物安全的供应链方面的区块链应用研究方法。我们产出了一些我们的专利和发表的文章。谢谢大家!今天就分享到这里。谢谢!
郑重声明: 本文版权归原作者所有, 转载文章仅为传播更多信息之目的, 如作者信息标记有误, 请第一时间联系我们修改或删除, 多谢。