蚂蚁集团「共享智能技术」战略全布局丨万字长文-金号角网

当前位置：金号角网> 金融资讯> 行业资讯> 蚂蚁集团「共享智能技术」战略全布局丨万字长文

恭喜湖南/长沙市【成功】需求金额200万元

恭喜湖南/长沙市【成功】需求金额300万元

恭喜湖南/长沙市【成功】需求金额200万元

恭喜湖南/长沙市【成功】需求金额1000万元

蚂蚁集团「共享智能技术」战略全布局丨万字长文

2020-08-18 编辑：网站编辑 有600人参与 手机查看

微信或浏览器扫一扫查看详情

隐私性跟可用性难以兼顾，让人工智能落入了鱼与熊掌不可兼得的尴尬境地。

当前，业界解决隐私泄露和数据滥用的数据共享技术路线主要有两条：一条是基于硬件可信执行环境（TEE：Trusted Execution Environment）技术的可信计算，另一条是基于密码学的多方安全计算（MPC：Multi-party Computation）。

针对数据共享场景，包括联邦学习、隐私保护机器学习（PPML）在内的多个技术解决方案纷纷出炉。蚂蚁金服提出了共享智能（又称：共享机器学习），结合TEE与MPC两条路线，同时结合蚂蚁自身业务场景特性，聚焦于金融行业的应用。

究竟共享智能与我们熟知的联邦学习有何不同？在共享智能落地金融等多个重要领域的过程中，蚂蚁金服又遇到过哪些挑战，留下了怎样的宝贵经验？

为此，雷锋网《AI金融评论》邀请到了蚂蚁集团共享智能部总经理周俊做客线上讲堂，详解蚂蚁金服共享智能的技术进展和落地实践。

以下为周俊公开课全文，AI金融评论做了不改变原意的编辑：

在业界做隐私保护技术研发之前，是通过协同学习方法来实现多方信息融合，联邦学习就是其中一种。近年来，学术圈相应的证明发现此类方法的一些安全性问题，尤其是直接共享梯度，本质上存在一些安全性问题。

我们先来看一下去年在一个学术顶会上比较火的Paper引发的讨论。Paper里面的方法也比较好理解，实际上就是近几年大家保护隐私的方法之一：就是不传原始的数据，只传共享的梯度，把梯度汇聚到一起，然后再汇集到模型。

这种方法在前几年一直都比较火，无论是联邦学习还是其他的协同学习方式。

工作里面证明了，如果有恶意者在模型训练过程中拿到真正的梯度之后，就可以反推出数据中的特征（x）和标签（y）。

蚂蚁集团「共享智能技术」战略全布局丨万字长文

这里举了两个例子，能够看到，尤其是在图像领域，通过梯度本身是可以反推出原始输入的这张图像和原始的Y。

右边的例子，是在NIPS网站上抠的一些文字，刚开始是随机生成的，迭代到第30轮的时候，可以看到从梯度里恢复出来的一个样本，跟原始样本是非常接近的，只有个别词有一定差异。

从学术上能够看到，在这种协同学习中，以前大家认为安全的共享梯度方式，本身并不是很安全，我们给它取了一个标题叫做非可证安全。

蚂蚁集团「共享智能技术」战略全布局丨万字长文

在这之后，DLG方法有了改进。这个方法首先通过推导可以精确拿到Label本身，有了Label再去反推X就更简单了。从公式可以看到，它能更容易反推出原始数据的X。

从它的三个数据集可以看到，改进版DLG相对于原始的DLG在攻击的准确率提升非常大。

阿里巴巴在去年也做过一个更加贴合实际情况的例子：假定双方有两个数据拥有者，它们的特征空间一样，样本空间不一样，我们称之为水平切分。

蚂蚁集团「共享智能技术」战略全布局丨万字长文

按照联邦学习的协作方式，计算本地的梯度，发到服务器，平均之后更新本地的模型，看起来比较安全——实际上，由于A和B精确知道每一轮梯度，它其实可以反馈出很多相关信息。

满足一定条件的情况下，尤其是逻辑回归，可以构造出这样的一组方程组，当方程组的个数大于这个数据的特征维度，方程组是可以解出来的。因此也可以反推出原始的数据。

蚂蚁集团「共享智能技术」战略全布局丨万字长文

从右下角的结果中，能够看到我们攻击出来的结果，跟原始特征非常接近。这说明，不论是从学术圈里面假定的setting，还是真实情况中，目前这种共享梯度的协作方式，也包括联邦学习，本身都有比较大的安全隐患。

做保护隐私的机器学习方法，本身还是需要结合其他方法去弥补它的不足，才有可能让方法本身更安全，真正保护用户隐私。

如何“精修”机器学习处理方法各环节

数据预处理：

我们自己所做的机器学习处理方法，从数据预处理到模型训练再到模型推断，都是遵循这样切实保护用户隐私的思路，将MPC、TEE或其他技术，跟现在技术相应结合，确保中间每一步的隐私都能得到更好地保护。

蚂蚁集团「共享智能技术」战略全布局丨万字长文

以数据预处理中的降维为例，假定数据在水平切分的情况下，大家样本空间不一样，两方希望能够把数据能降低一个维度，降维之后的结果能够送到后面的机器学习模型进行相应训练，这种方法能较好提升效率。

同时，模型的泛化能力会有进一步提升，结合MPC里同态加密和秘密分享的技术，加固PCA（Principal Components Analysis，主成分分析），使得它能真正保护数据安全性。

蚂蚁集团「共享智能技术」战略全布局丨万字长文

此处有几步核心操作：

首先是计算均值。如果是在同态加密的情况下，需要密态空间要进行计算；如果是秘密分享的方法，则需要将原始数据拆成多个秘密分片，再配合起来算出均值。

其次是计算协方差矩阵，最后再算出相应的特征值、特征向量，就得到了降维后的X′。同态加密和秘密分享的技术，跟PCA做相应结合，就能比较好的拿到相应结果。

蚂蚁集团「共享智能技术」战略全布局丨万字长文

从结果可以看出，相比于各方单独算一个PCA再拼凑结果，我们的方法精度提升比较大。同时，它跟原始PCA方法相比，在后面都接相同的机器学习模型的情况下，几乎没有精度损失的情况。

除了降维以外，还有很多类似的工作可做，比如共线性检测，隐私求交（PSI）等。

当然，安全的方法计算时间会更长一些，因为天下没有免费的午餐，要保护隐私，肯定有相应的计算和通信成本在里面。

模型训练：

DNN模型是现在大家用的比较多的。这里分别列出来业界三种典型做法。

蚂蚁集团「共享智能技术」战略全布局丨万字长文

左边是传统的基于明文的神经网络训练方法。

中间是完全基于MPC的方法，有很多非线性运算，可以做到可证安全，但速度会慢几个数量级，效率本身也不高。

右边是MIT提出来的方法，比较快，但它的Label也放在服务器里计算，安全性有一定问题；而且它没有考虑特征之间的相关性，精度上有一定损失。

发现这些问题之后，我们提出了一个创新的体系。

蚂蚁集团「共享智能技术」战略全布局丨万字长文

首先，为了考虑特征之间的相关性，我们在底层利用MPC技术去做跟隐私数据相关的一部分模型计算。计算完之后，再把跟隐层相关的复杂计算，放到一个Semi-honest 服务器（半诚实服务器）去完成其他运算。

这服务器里可以利用现有的各种计算资源，比如TF、PyTorch，甚至可以利用一些比较灵活的处理框架。

Label的部分还是放到数据持有者本身，全程能确保没有哪一部分隐私会被泄露。

蚂蚁集团「共享智能技术」战略全布局丨万字长文

Semi-honest 服务器会拿到中间的隐层结果，我们可以通过一些对抗学习方式去防止服务器获取中间信息。这一方法尽可能做到隐私、准确率、效率三者之间的平衡。此外，我们还可以使用贝叶斯学习的方法（SGLD）去替换传统的SGD（随机梯度下降），从而更好保护训练过程中的隐私。

蚂蚁集团「共享智能技术」战略全布局丨万字长文

SGLD是在贝叶斯神经网络中应用较广泛的方法，可以看作是加噪版本的SGD。

以前很多方法都在探讨它的泛化能力，在这里我们发现了它另外的好处：因为训练过程中添加了噪声，所以可以更好的保护隐私，尤其是在对成员攻击（Membership attack）的情况。比如有时医疗领域想知道自己的数据有没有被这个模型所用。

蚂蚁集团「共享智能技术」战略全布局丨万字长文

我们在评估Membership攻击效果时，定了一个成员隐私的loss，这个loss就是为了看SGLD到底能不能保护成员隐私，我们通过大量的实验发现SGLD是能较好阻止Membership attack。

蚂蚁集团「共享智能技术」战略全布局丨万字长文

具体来讲，我们在两个数据上面做了相应的测试，无论是在Table1还是在Table2里，尤其是在Attack Metric上，SGLD跟普通的方法相比，能够大大降低成员攻击的准确率。

同时，我们也发现用它也能很好提升模型的撸棒性，SGLD和变种，比前面单独的不加噪版本在Test上面的Metric会更好一些。

因此，我们在训练时也把传统的SGD换成了SGLD，能进一步提升安全等级，在兼顾三方面要求后，具有比较高的安全性和高效性。

蚂蚁集团「共享智能技术」战略全布局丨万字长文

刚才讲到，在服务器里，可以很好利用现有的TensorFlow或Pytorch，从右边这个代码可以看出来，该方法是非常用户友好的。

其次，在服务器里面，对于网络结构这部分，设计可以非常灵活，也可以设置任意的网络结构，充分发挥中心服务器的计算力。

通过训练过程中引入的SGLD，也就是加噪的SGD，再加上Adversary loss，使得哪怕是服务器试图做恶，也无法由此推断出更多相应信息，安全等级进一步提升。

蚂蚁集团「共享智能技术」战略全布局丨万字长文

我们跟业界的几个方法也对比过，比如2017年 MIT的 SplitNN和现在最好的SecureML。

性能上，（我们的方法）比这俩更好一些。从这两个数据集来看，训练时间上，由于我们使用了中间服务器，训练时间相对于纯MPC的方法（SecureML）大大降低，但相比SplitNN训练时间还是要长，因为我们安全等级要高。

总体而言，我们的方法能较好地实现效率、安全性和准确率的折中。

模型预测：

在模型训练上，涉及到前向、反向的计算，非常耗资源，它跟现有的一些隐私计算技术结合之后，对效率本身还是有比较大的影响。所以有很多工作都在考虑怎么做模型推理。在模型预测时，既要保护云上的模型，也要保护客户手里的数据。

蚂蚁集团「共享智能技术」战略全布局丨万字长文

我们这个方法跟原来不一样，之前可能有很多工作局限于支持一部分的激活函数。比如有时都无法支持sigmoid或max pooling，有的干脆只保护客户端的Input data，但不保护服务器上的模型。

还有极端情况是完全用MPC做计算，单次模型预测用时会非常长。

另外，现在MPC尚不能完全精确计算一些比较复杂的函数，只能做一些展开或近似计算，精度上也有所损失。

我们希望能够提出一种方式，尽可能在效率、精度、安全性方面能达到比较好的折中，保护服务器和用户的隐私。

蚂蚁集团「共享智能技术」战略全布局丨万字长文

方法采用了两点，一是前面介绍的贝叶斯神经网络，因为它里面可以引入权重的不确定性，这能让服务器上的精确模型不被拿到。

第二，无论是在数据保护还是在客户端上，用同态加密的机制去保护。

蚂蚁集团「共享智能技术」战略全布局丨万字长文

具体是把DNN的计算拆分成两级，一是首先通过采样的方法拿到W，有了W之后，客户端传过来的加密Input，通过线下的运算出Z，这也是密态的。密态下的Z在返回到客户端解密后，在客户端上就能拿到最后的a。

这样的方式，既保护了服务器上的模型，也保护了客户端上面输入数据的效果，起到了比较好的trade-off。

通过迭代式的同态加密计算，既保护了用户隐私，也保护了密态下的服务器隐私。

蚂蚁集团「共享智能技术」战略全布局丨万字长文

我们的方法，因为大量的复杂运算很多是返回到客户端上面，在非密态的情况下进行计算，所以Latency比较低。它还能支持任意的激活函数，可以比较好地扩展到RNN和CNN。

典型应用案例：POI上的推荐

蚂蚁集团「共享智能技术」战略全布局丨万字长文

原来的做法，不论是非常详细的profile数据，还是一些用户跟POI的交互数据，用户的所有相关数据都要被推荐系统所收集。一些隐私模型，比如用户偏好也都是被推荐系统所保留。所以推荐系统有很大的机会窥探到用户相关隐私。

蚂蚁集团「共享智能技术」战略全布局丨万字长文

我们的思路是：首先，比较敏感的用户隐私数据和模型，能够在用户本地，而不能上传到服务器的推荐系统这里。

第二，我们还是会收集用户和POI的交互数据，通过本地化差分隐私的方式注入噪音，这样传上去的是一个带噪音且能够保护隐私的版本。

通过这样的方式产生动态的POI，再通过去中心化的梯度下降方法学习能保护隐私的FM模型。

通过各式各样的安全聚合方式使隐私得到保护，这种方法我们称为PriRec。

蚂蚁集团「共享智能技术」战略全布局丨万字长文

我们在两个数据集上做了比较，在Foursquare数据上，因为用户特征只有两三个，我们的方法比FM稍弱；但切换到真实的场景数据，因为这里面有大量的用户和POI数据，能看到我们这个方法比FM起到更好的效果。

之所以会更好，原因就是用户和POI的数据，往往具有聚焦性，而去中心化的学习方法恰恰可以很好的利用这一点。在PriRec中，服务器上也没有拿到隐私的数据和模型，所以能保护隐私。

实际上，推荐搜索广告方面都有类似应用；金融科技领域的风控也有类似的方法，就是对现有的机器学习方法进行加固，产生一个更好的、更具有隐私保护的版本，达到AI助力业务效果的目的。

目前业界的四种技术

包括MPC，可信执行环境，差分隐私和联邦学习。

蚂蚁集团「共享智能技术」战略全布局丨万字长文

在多方安全计算时，理想情况是有一个大家都完全相信的可信服务器，所有人把所有东西都放上去计算，再把结果分发给大家。

现实是找不到完全的可信服务器，还是需要很多协作方，协同完成函数f的计算。

当然，大家希望在计算的过程当中既能够保护Input privacy，也能够保护计算的privacy，如果同时能保护Output privacy最好。

MPC的提出，是希望能够保护Input privacy和Compute过程当中的privacy。

蚂蚁集团「共享智能技术」战略全布局丨万字长文

这里面有几个典型技术，一是秘密分享（Secret Sharing），密码学里一个比较老的技术。早在七八十年代就已经有相应的论文发表。

举个例子：有两个人想协同计算他们求和的结果，每个人会把自己的数拆成多个share，share加起来等于他们自己，但任何人拿到其中一个的share是没有什么物理含义的。

通过share的交互，双方最后拿到7和6的结果（上图右侧），这其实已经完成加法的求和运算，既保护了Input的隐私，也保护了中间计算的隐私。

这几年在工业界里，随着算力的丰盛，以欧美为代表的很多公司都在用这样的技术，比如著名的开源SPDZ等。

蚂蚁集团「共享智能技术」战略全布局丨万字长文

二是姚期智院士在1989年提出来的混淆电路。它主要是通过两个大的building block构建，一个是混淆的真值表，一个是遗忘传输，通过这两种方式完成协同计算，解决了著名的百万富翁问题。

秘密分享因为它需要通过大量交互迭代，通信代价一般较高。

混淆电路中间是通过大量电路运算，电路的门个数较高时，效率相对来说没有那么高。

蚂蚁集团「共享智能技术」战略全布局丨万字长文

其次还有同态加密方法，过程中是在密态下计算完的，之后才解密得到相应结果。

同态加密和秘密分享在一些比较复杂的函数上，是没有办法进行相应计算的，要通过一些近似计算的方法才能拿到相应的结果。

由于算力的逐步提升，和一些基础突破，这两年工业界对MPC也用得越来越多。

三个技术有各自的优缺点，组合使用也能产生一个相对理想的结果。

蚂蚁集团「共享智能技术」战略全布局丨万字长文

可信执行环境，相当于是一个硬件级的密码箱。把加密数据放到密码箱里之后，OS操作系统都没有办法打开密码箱，只有持有相关密钥的人才能在里面进行运算，就是所说的可信区域。

这个方法本身是非常安全，但很依赖于硬件，目前做得比较好的是因特尔的SGX。

前面所介绍的 MPC、TEE，都是可以保护Input privacy和compute privacy ，但没能很好地保护output privacy。

蚂蚁集团「共享智能技术」战略全布局丨万字长文

在差分隐私（Differential Privacy）之前有很多别的方法去处理数据中的隐私，比如像各种匿名化方法，除了K匿名，还有一些L-diversity等方法保护隐私。

但随着大数据时代的到来，通过链接一些别的数据，能够反推出来单人ID，匿名化基本上没有什么用。所以差分隐私之前的一些技术，现在来看是不安全的。对Output或Release的数据集，都在慢慢切换到差分隐私的技术上来。

蚂蚁集团「共享智能技术」战略全布局丨万字长文

这个技术本身较好地考虑到实用性和隐私性的折中，隐私肯定有代价，要么牺牲一定的实用性，要么有计算代价。

差分隐私是在数据中加噪声，对实用性有所影响，尤其是在数据本身也不大的情况下，对结果的影响较大。

差分隐私提供了一种量化的方法，能测量到底加多少噪声，能够取得比较好的trade-off。

蚂蚁集团「共享智能技术」战略全布局丨万字长文

差分隐私从从概率学和信息论得到一个隐私保护的bound，实操不是很复杂，就是在数据中添加相应的噪声，并且通过参数控制噪音的大小。

当然，它本身怎么使用、怎么设置privacy budget，有着非常复杂的考量机制，但原理本身不算特别复杂。

这个技术在提出来之后，因为它有比较好的理论保障，所以在学术界、工业界很多人也都在用，能比较好地保护Output privacy，跟前面的技术也有比较好的结合。

Local 差分隐私类似多方，就是自己本身加上噪声，再上传到一个地方。

它在工业界遇到的一个较大问题是，因为要在里面加噪声，所以模型精度受影响。

蚂蚁集团「共享智能技术」战略全布局丨万字长文

联邦学习，谷歌在2014年就已经在内部开始做这样的技术，它本身是解决to C的问题，所以想解决几十亿的设备间如何协同、安全地利用数据训练模型。

当然设备之间可能不满足独立同分布的概念，硬件之间差异非常大，所以会导致可靠度的差异也很大，有时在训练的时候自己就下线了。

蚂蚁集团「共享智能技术」战略全布局丨万字长文

在2016-2017年，联邦学习有相应论文发表。目前用的算法也是从服务器上拉了一个模型,做完更新，delta发给服务器做average并更新模型。

直接这么做肯定会有一些问题，所以paper里面做了大量的优化，能够让通信成本和训练的稳定性都有比较大的提升。

蚂蚁集团「共享智能技术」战略全布局丨万字长文

谷歌在2017年期间已经发现了，原来把梯度直接汇聚到服务器上的协同学习方法也不是很安全；如果要保护隐私，必须得结合MPC的技术。

几种技术的比较和解决方案

蚂蚁集团「共享智能技术」战略全布局丨万字长文

我们从自己的角度做了一张总结表格，像MPC能保护好Input privacy和计算过程中的privacy；但对于Outputprivacy，它的保护能力比较弱。效率上，因为牵涉到大量密码学技术，代价不低。

TEE跟MPC类似，把它们理解成密码学偏软件和偏硬件的实验版本。

差分隐私就可以较好保护Output privacy，计算代价相对不高，实用性有一定损失，尤其是local 差分隐私加了某种噪声之后，只能用于某些统计学运算。

联邦学习无法很好地保护Input privacy和Output privacy，好处在于效率相对高。

站在从业者的角度来看，这些技术还是需要一个端到端的设计，结合各方技术优势提供相应的方案，达到最后总体的效果。

蚂蚁集团「共享智能技术」战略全布局丨万字长文

我们结合了这样三个方案：

首先，MPC底下分为这么几层，用前面所讲的秘密共享、OT或其他密码学的原语。为什么要实现这么多密码学的协议？就是希望能够利用每种协议的优缺点，有更加好的组合，在合适的地方选用合适的技术。

第二层，我们希望把底下比较偏密码学的原语，再做一层封装，这上面提供一些机器学习经常要用的运算，比如比较、求交、矩阵加法、求max的运算。

上面再抽象成一个DSL语言，开发算法时，不用直接面对底层密码学原语，速度相对会更快。

另外，因为我们参考的是机器学习里面的DSL，整个语法也跟机器学习类似，机器学习的创业者就能用比较低的成本，切换到共享智能技术上，进行算法开发。

同时，我们也提供编译器，它能够将用户对上层开发的算法，自动选择最优的安全算子，实现安全的程序，进而实现整个MPC里面的一些方法。

TEE方面，因为TEE本身的SDK也不是那么友好，并且单机的SGX的运算能力并不是特别强，为此我们做了一些改进：

组建安全可信集群，以扩展算力；做了很多防止各种攻击的方法，在安全性上有个更好的工业级框架出来，便于开发者能够基于这些核心能力开发出各种算法。

上面是比较偏差分隐私或矩阵变换的方法。这种方法还是有比较好的适用场合，比如前面讲的Output privacy里面用到差分隐私，或者是MPC和TEE里面在Output 的地方加上差分隐私，本身有比较好的互补的作用。技术之间也可以两两去组合。

每个方案都有各自的优缺点，做隐私保护相关的工作，还是需要通过精心的工程设计，算法设计加上密码学原语，才能够端到端地保护数据输入、计算过程、数据输出等隐私，从而达到相应的目的。

蚂蚁共享智能的落地经验

蚂蚁集团「共享智能技术」战略全布局丨万字长文

合作案例：江苏银行

去年上半年，江苏银行希望使用MPC实现联合风控，模型的产出完全放在江苏银行，自主可控。构建出联合模型之后，模型分数给到银行，由它去做独立的风控判断，之后再产生结果给到最后的申请判断。整个模型的效果在测试的时候发现提升了50%左右。

同样，我们还在支付的联合风控、联合营销以及联合保险也进行了相应的落地。

AI研究前沿动态和未来展望

目前看来，现在这几个技术之间彼此有互补，但端到端的系统怎么在各个环节去利用合适的技术，去产生合适的效果？怎么样把这样一个系统在超大规模的数据上做相应的实践？在不影响效率的情况下，将隐私保护的等级能够升级到更高的级别？

我觉得还需要有整个业界需要投入更多的资源，更长的研发投入，更长的耐心，才有可能在一些更关键的技术上面产生更好的结果。

同时也需要整个AI圈子加上密码学的硬件再加上工程系统，一起努力才有可能在一些点上面取得真正的大的突破，才有可能使得整个隐私计算的效率能够再提升1~2个数量级。

目前隐私计算效率本身，相比非隐私保护的AI，在速度甚至精度上都会有一定的损失。

所以，怎么样去设计更好的方式，除了在技术本身的突破，也需要有更多的场景去打磨技术，才能发现的问题，逐步让技术往前走。

蚂蚁集团「共享智能技术」战略全布局丨万字长文

从三大维度来看：

第一，从算法维度看，无论是在学术界还是工业界，目前的这几个方法割裂程度比较明显。比如TEE跟差分隐私，虽然他们之间有交集但并不多。

TEE里也有很多技术要去突破，比如目前TEE的内存只有128兆，相比普通系统还是比较小的。现在数据量比较大，尤其是在一个图像数据上，怎么在这么大的数据情况下完成隐私计算，是难度比较大的一个问题。

第二，由于内存比较小，为了保护安全和隐私，所以在很多运算效率跟目前正常操作有一定差距。

第三，SDK的友好性方面，因为比较偏硬件，还涉及到大量的密码学等机制，比如远程认证，对于很多从业人员而言还是有相应的学习成本。

当然，业界很多开源的、在原生的TEE上封装的一些SDK，各方面有一些提升，可扩展性本质上有些突破，但突破不是特别大，意味着很多东西不能拿来直接在工业界使用。所以TEE也还需要整个社区有更多的投入。

TEE上面，现在很多都在做支持中小规模的算法训练和预测。怎么让更大的规模、更新的算法能够被集成进来，这也是需要业界有更多投入。

差分隐私技术本身的理论性质比较优美，但在实用性上有一定损失。

我们提到过，对于utility loss以及差分隐私输出来的结果，因为毕竟是在原始的数据上面加了一定的噪声，这个数据相对来讲会不会有一定的损失度？

如果完全是local 差分隐私的方式，在很多场景下面就没有办法用，怎么让差分隐私能够再更进一步，更贴合现在AI这个情况？

目前看到，差分隐私在很多数据分析应用非常广泛，比如，苹果系统上收集了emoji的数据；微软操作系统的浏览器里面也嵌入了差分隐私的数据；Uber也用了这样一个技术，但目前大部分用在数据统计方面。

怎么样把差分隐私这样的技术能够跟AI有更好的结合，是未来一个比较大的突破点。

MPC技术本身，从经典论文发表来看，虽然不算特别新，但在很多很复杂的运算上，尤其是在AI的一些新方法，MPC效率本身还是有一定的代价。

怎样取得算力的增长，有新模式突破，像完全同态的方法什么时候真的变成实用，怎么能够使这个技术在工业界更进一步，这也是需要考量的一个点。

联邦学习目前也存在一定的安全隐患，四个技术之间怎么去做相应的结合，取长补短，能够形成比较好的下一代的解决方案，真真正正保护隐私，让AI落地变得更简单？

尤其是在一些数据比较敏感的地方，像医疗的某些领域，病例的数据采集特别困难，真的能够让AI进到这些地方，辅助决策，才能更加好实现社会意义和价值。

我觉得，在算法层面会需要深度结合，无论是基于某些算力，还是说在技术领域的突破，能让这里面的一些问题有更进一步的解法。

在平台层，无论是差分隐私、TEE还是别的技术，越靠近数学和越靠近密码学硬件，为了保护隐私，里面大量的设置都比较难以理解。怎样让大家更高效产出不一样的算法，降低使用门槛，这些方法才能够跟更多地方结合，产生更多的新突破。

在DSL和在编译器方面，甚至在整个系统的运维、部署，以及系统稳定性、安全生产等各方面，有没有进一步的突破，变得易用？

在一些对时效性要求没有那么强的情况，如果能够持续稳定计算，对于很多产品也是比较适用的。对于整个隐私计算领域而言，这也是一个巨大的挑战。

所以怎样有更高效的平台一体化设计，让使用门槛变低，才有可能会真正带来一些繁荣的社区，让技术能够走进更多场景、更多机构，真正产生一些化学反应。

金融学院

更多 >

企业服务

更多 >

蚂蚁集团「共享智能技术」战略全布局丨万字长文

微信或浏览器扫一扫查看详情

如何“精修”机器学习处理方法各环节

蚂蚁共享智能的落地经验

AI研究前沿动态和未来展望

相关阅读

金融学院

企业服务

金号角服务号

金号角商讯