COS:科普:联邦学习的分类和应用场景

前言

上一篇我们讲述了人工智能,机器学习与联邦学习的关系。

这篇我们将继续探索联邦学习方法的分类。联邦学习方法被分为横向联邦学习、纵向联邦学习和迁移联邦学习三类,适用于解决不同的实际问题。

横向联邦学习

在两个数据集的用户特征重叠较多而用户重叠较少的情况下,把数据集按照用户维度切分,并取出双方用户特征相同而用户不完全相同的那部分数据进行训练。这种方法叫做横向联邦学习。

▲?应用场景

横向联邦学习的本质是样本的联合,适用于参与者间业态相同但触达客户不同,即特征重叠多,用户重叠少时的场景,比如不同地区的银行间,他们的业务相似,但用户不同。

国务院:推进科普与区块链技术深度融合:为贯彻落实党中央、国务院关于科普和科学素质建设的重要部署,依据《中华人民共和国科学技术进步法》、《中华人民共和国科学技术普及法》制定《全民科学素质行动规划纲要(2021-2035年)》,其中要求实施智慧科普建设工程。推进科普与区块链等技术深度融合,强化需求感知、用户分层、情景应用理念,推动传播方式、组织动员、运营服务等创新升级,加强“科普中国”建设,强化科普信息落地应用,与智慧教育、智慧城市、智慧社区等深度融合。(新华社)[2021/7/10 0:40:52]

比如,有两家不同地区银行?—?上海与杭州两地的两家银行,它们的用户群体分别来自上海与杭州的居住人口,用户的交集相对较小。由于银行间的业务相似,记录的用户特征大概率是相同的。因此,横向联邦学习可以被考虑用来构建联合模型。

于2017年,Google提出了一个针对安卓手机模型更新的数据联合建模方案:在单个用户使用安卓手机时,不断在本地更新模型参数并将参数上传到安卓云上,从而使特征维度相同的各数据拥有方建立联合模型的一种联邦学习方案。

欧易OKEx将于3月18日推出DeFi系列科普视频:据欧易OKEx官方消息显示,欧易OKEx将正式推出DeFi系列科普视频《欧易DeFi20讲》,本系列节目由欧易OKEx亚太区CEO马克金主讲。该视频首期将于3月18日11:00(HKT)推出,用户可以在欧易OKEx官方学院、金色财经观看。

《欧易DeFi20讲》主要包含DeFi入门指南、全景解读DeFi生态及如何参与DeFi三个篇章,可以轻松使用户了解DeFi原理,洞察DeFi价值,掌握DeFi热点,更多详情请关注欧易OKEx官方学院。[2021/3/18 18:55:59]

▲?学习过程

Step1.参与方各自从协调方上下载最新模型;

火币推出《一分钟读懂DeFi》系列科普视频:据官方消息,8月24日,火币推出《一分钟读懂DeFi》系列科普视频,并与微博财经合作冠名播出,布道DeFi认知,助力行业发展《一分钟读懂DeFi》是由火币成长学院打造的业内首个系统全面讲解DeFi的系列科普动画,继推出《区块链100问》后的再续佳作。《一分钟读懂DeFi》系列动画对DeFi的发展进行系统梳理,适合想要由浅入深、全面系统了解区块链DeFi的人们轻松了解DeFi。目前视频已由火币网官方微博发布。[2020/8/24]

Step2.每个参与方利用本地数据训练模型,加密梯度上传给协调方,协调方聚合各用户的梯度以更新模型参数;

Step3.协调方返回更新后的模型给各参与方;

Step4.各参与方更新各自模型。

纵向联邦学习

在两个数据集的用户重叠较多而用户特征重叠较少的情况下,把数据集按照特征维度切分,并取出双方用户相同而用户特征不完全相同的那部分数据进行训练。这种方法叫做纵向联邦学习。

动态 | 新浪财经:官媒针对区块链的报道从科普宣传转向打假监管:据新浪财经今日消息,“1025新政”满月,一个月间,官媒对区块链的态度风向已转。据11月初的一项统计,七家党媒在新政一周内发布了65篇直接相关报道,当时文章中的关键词是数据、产业、安全、创新等,大量文章偏向于科普区块链的概念以及应用介绍,提醒警惕虚拟货币炒作的仅有3篇。近期,官媒的批评焦点则纷纷指向借区块链之名进行的虚拟货币发行和炒作行为。据统计,新华网、人民网收录转载的,以打击虚拟货币或揭露假借区块链行为主题的文章,自10月25日到11月25日午间,共28篇;其中,11月19日至11月25日的一周内就高达15篇。这些文章主要围绕三个观点展开:厘清区块链和虚拟货币的关系,说明二者概念不等;打击伪“区块链”局,或是虚拟货币局揭露;提醒民众,区块链不能成为炒作的噱头,更不是行的招牌,需警惕此类活动,理性投资。[2019/11/26]

▲?适用场景

纵向联邦学习的本质是特征的联合,适用于用户重叠多,特征重叠少的场景,比如同一地区的商超和银行,他们触达的用户都为该地区的居民,但业务不同。

比如,有两个不同机构,一家是某地的银行,另一家是同一个地方的电商。它们的用户群体很有可能包含该地的大部分居民,用户的交集可能较大。由于银行记录的都是用户的收支行为与信用评级,而电商则保有用户的浏览与购买历史,因此它们的用户特征交集较小。纵向联邦学习就是将这些不同特征在加密的状态下加以聚合,以增强模型能力的联邦学习。

▲?学习过程

介绍一种简单通用的纵向联邦学习的建模学习过程,加密方式也以半同态加密的PallierEncryption为主。

训练前:

先采用加密文本对齐的技术手段,在系统内筛选出不同企业之间的共同用户。

训练时:

Step1.协调方C向企业A与B发送公钥,用来加密所需传输的数据;

Step2.A和B分别计算和自己相关特征的中间结果,并加密完后进行交互,用来求解各自的梯度结果和损失结果;

Step3.A和B分别计算各自加密后的梯度并添加掩码后发送给C,同时B计算加密后的损失先发送给C;

Step4.C解密梯度和损失后回传给A和B,A、B去除掩码并更新模型。

迁移联邦学习

在两个数据集的用户与用户特征重叠都较少的情况下,不对数据进行切分,而可以利用迁移学习来克服数据或标签不足的情况。这种方法叫做联邦迁移学习。

▲?适用场景

当参与者间特征和样本重叠都很少时可以考虑使用联邦迁移学习,如不同地区的银行和商超间的联合。主要适用于以深度神经网络为基模型的场景。

迁移学习的核心是,找到源领域和目标领域之间的相似性。举一个杨强教授经常举的例子来说明:我们都知道在开车时,驾驶员坐在左边,靠马路右侧行驶。这是基本的规则。然而,如果在英国、香港等地区开车,驾驶员是坐在右边,需要靠马路左侧行驶。那么,如果我们从到了香港,应该如何快速地适应他们的开车方式呢?诀窍就是找到这里的不变量:不论在哪个地区,驾驶员都是紧靠马路中间。这就是我们这个开车问题中的不变量。找到相似性?(不变量),是进行迁移学习的核心。

比如有两个不同机构,一家是位于中国的银行,另一家是位于美国的电商。由于受到地域限制,这两家机构的用户群体交集很小。同时,由于机构类型的不同,二者的数据特征也只有小部分重合。在这种情况下,要想进行有效的联邦学习,就必须引入迁移学习,来解决单边数据规模小和标签样本少的问题,从而提升模型的效果。

▲?学习过程

联邦迁移学习的步骤与纵向联邦学习相似,只是中间传递结果不同。

以上是常见的几种联邦学习类型,联邦学习这件“小事”能用在什么场景中,带来怎样的价值,会在下一篇文章中详细介绍。也欢迎各位与我们一起对以上三种类型的联邦学习进行更深一步的讨论,添加小助手加入技术交流群。

作者简介

严杨

来自数据网格实验室BitXMesh团队?PirvAIの修道者

郑重声明: 本文版权归原作者所有, 转载文章仅为传播更多信息之目的, 如作者信息标记有误, 请第一时间联系我们修改或删除, 多谢。

链链资讯

[0:0ms0-4:37ms