1 最近这几年生意没那么好做了,很多人马不停蹄地去学习,他们的目的很简单,就是去寻找可以解决问题的方案。但是一个残酷的事实是:凡是企图希望能从别人或外界那里获得成功方法的,都加速倒下了。 如果一个人说可以给你方法和答案,那基本上是在收割你。 2 这就是为什么很多人虽然花了很多钱上了那么多课,却依然改变不了丝毫的原因,他们到处去学习的样子,只是看上去很努力而已。 就好像我写的很多关于商业变化趋势的文章,很多人却在后台留言说:不要跟我说那么多,你直接告诉我直接赚到钱的方法就行了! 我想说的是:这个世界上没有放之四海而皆准的道理,更不会有直接拿来就可以用的办法。因为每个人的资源、环境、特点不一样,即便是同样的事情,用同样的方法去做,但如果是不同的人去做,往往是不同的结果。 所有人都用同一套方法去成功?如果真有这样的东西,上帝直接把它公布出来,岂不是人人都发财了,人人都过上了美好而幸福的生活? 3 我们要记住一个道理:无论多么高明的人或者成功人士,他们最多只能给你一个启示,你所能直接学到的只是技巧,你学不到的才是智慧,技巧是可以传授的,但是智慧是靠自己悟的,没有任何人能直接给你方法,别人最多能给你一个启示,真正的方法必须靠你自己去悟。 每个人的资源不一样,条件不一样,性格特点不一样,每个人都应该找到和自己的资源/条件最匹配的协作方式,而不是非得去走别人成功的道路。 这就是“求人不如求己”。 无论养生,创业,还是社交,恋爱,婚姻,等等各方面,最好的方法就是没有固定方法;真正的规律,就是无规可循。别人传授的经验和总结,你要是直接拿来就用,基本上都是失败的。 《金刚经》里也说:一切有为法,如梦幻泡影,如露亦如电,应作如是观。意思是:所有被写出来的方法,都像梦幻泡影一样,并不是永远都会成立,可以随时破灭的,我们应该洞察它的本质,而不是执迷于方法本身,即不要执着于各种表象。 《道德经》开篇就说:道可道,非常道。没有人能把成功的方法真正地表达出来,即便他很想表达,但是只要他表达出来了,那些方法就不成立了。 4 正式因为太多人都在找捷径,这就让很多投机者钻了空子,他们利用人们急于求成的心理,宣称自己的重大理论和发现,声称找到了成功的捷径或诀窍,可以帮我们绕开弯路,甚至打着只是付费的幌子,于是让很多人趋之若胡,其实就是在缴智商税。 这个世界是公平的,老天的安排很有意思,聪明人一定要下笨功夫才能成功,如果一个聪明的人也在拼命找捷径,那很容易误入歧途,也是很可怕的。比如那些传销/资金盘等等骗局,都是走捷径的聪明人设计出来的。 举个例子,很多大师会告诉你:你只要给我100块,我就教你马上能赚1000块的方法,你愿不愿意? 绝大多数人都会愿意,因为马上就能赚钱,这是多么落地的方案,我当然需要啊。 当你把100块交给他的时候,他会告诉你方法:马上去找10个像你一样的傻瓜。 看似如此合理,却又如此荒唐,而且这一招早就被各种培训机构、招商加盟机构等等学会了,使用的淋漓尽致。 大家一定要记住:那些告诉你持有某些秘籍的大师,需要你花钱入会才能得到,大部分都是江湖骗子。 5 还有一点,我们看到的很多成功都是偶然,千万不要把“偶然”当“必然”去分析。 举个例子:有一天你发现有个人很厉害,竟然能爬到100层高的大楼上,于是你问他是怎么上来的?他说自己是做俯卧撑上来的,于是一个传说诞生了:有的人居然靠做俯卧撑就爬到了100层高的大楼,于是所有的人都开始练习俯卧撑,期望能跟他一样创造奇迹。 而实际上他是乘着电梯上来的,只不过他在电梯里顺便做了几个俯卧撑而已,至于他究竟是在电梯里做俯卧撑还是打太极,跟他能爬那么高都没有任何关系,只不过他从不对外宣称是因为自己乘了电梯,那样就没有任何传奇性了。 因此,所有成功的背后都有运气成分,而一次偶尔的成功却可以包装成各种传奇故事不断的贩卖。当一个人成功了,他说的一切都是对的,于是无数人过来充当信徒,追捧着他传授方法,而且这些信徒深信成功是有捷径的,成功一定要掌握了某个秘诀,或者借助了某个力量的推动。 为什么大家那么迷恋成功者的经验呢? 因为世界上99%的人都活在假象里,他们是普通人,相信传奇,活在鸡汤里。只有1%的人才能看清真相,活在现实里,他们是高手。 我们在探讨那些成功人士的时候,也习惯于把他们刻画的非常传奇,毕竟只有传奇才能才能成为街头巷尾的热议流传,只有传奇才能有故事,而大众想要的就是各种故事,而非真相。 越是能让大众产生幻想的传奇,越容易让大众疯狂和着迷。而真相和价值都太普通了,大家根本对此毫无兴趣,一直充耳不闻。 大众崇拜的英雄,都是传说里的英雄,而不是现实中的英雄。大众崇拜的方法,都是具有传奇色彩的方法,并不是真正切实有效的方法。 所以,绝大部分人追求的并不是真理或真相,而是各种情绪安慰,各种心灵鸡汤,各种被编织的哄骗。 大家之所以看不到真相,是因为真相都是复杂又残忍的,一个人没有足够的勇气和智慧,即便你把真相和价值呈现在他面前,他也接不住。 那些给大家提供“价值”的人,会遭到大家的一致唾弃。那些给大众提供美好幻想的人,却可以成为大众的主人。 我们最大的挑战,是如何给残酷的真相(或价值)裹上一层糖衣,让世人吞下这片甜甜的药。 请大家牢记这四句话: 1:人们最想表达的,永远不是内容本身,而是迫切被理解的心情; 3:人们最想得到的,永远不是真正的价值,而是包装出来的捷径。 水木然
山河药辅9月18日午间公告,公司自主研发的 “一种高松密度二氧化硅的制备方法”于近日荣获国家知识产权局发明专利授权。 据介绍,二氧化硅在药剂制造中,主要用作崩解剂、抗黏剂、助流剂,可改善颗粒流动性,提高松密度,使制得的片剂硬度增加,缩短崩解时限,提高药物溶出速度。在颗粒剂制造中可作内干燥剂,增强药物的稳定性。二氧化硅还可以作助滤剂、澄清剂和消泡剂,以及液体制剂的助悬剂、增稠剂。同时在食品工业中也有相似的用途。 公司表示,核心工艺技术获得国家发明专利,有利于公司进一步完善知识产权保护体系,形成持续创新机制,从而巩固和保持公司技术优势,提升核心竞争力。
隐私性跟可用性难以兼顾,让人工智能落入了鱼与熊掌不可兼得的尴尬境地。当前,业界解决隐私泄露和数据滥用的数据共享技术路线主要有两条:一条是基于硬件可信执行环境(TEE:Trusted Execution Environment)技术的可信计算,另一条是基于密码学的多方安全计算(MPC:Multi-party Computation)。针对数据共享场景,包括联邦学习、隐私保护机器学习(PPML)在内的多个技术解决方案纷纷出炉。蚂蚁金服提出了共享智能(又称:共享机器学习),结合TEE与MPC两条路线,同时结合蚂蚁自身业务场景特性,聚焦于金融行业的应用。究竟共享智能与我们熟知的联邦学习有何不同?在共享智能落地金融等多个重要领域的过程中,蚂蚁金服又遇到过哪些挑战,留下了怎样的宝贵经验?为此,雷锋网《AI金融评论》邀请到了蚂蚁集团共享智能部总经理周俊做客线上讲堂,详解蚂蚁金服共享智能的技术进展和落地实践。以下为周俊公开课全文,AI金融评论做了不改变原意的编辑:在业界做隐私保护技术研发之前,是通过协同学习方法来实现多方信息融合,联邦学习就是其中一种。近年来,学术圈相应的证明发现此类方法的一些安全性问题,尤其是直接共享梯度,本质上存在一些安全性问题。我们先来看一下去年在一个学术顶会上比较火的Paper引发的讨论。Paper里面的方法也比较好理解,实际上就是近几年大家保护隐私的方法之一:就是不传原始的数据,只传共享的梯度,把梯度汇聚到一起,然后再汇集到模型。这种方法在前几年一直都比较火,无论是联邦学习还是其他的协同学习方式。工作里面证明了,如果有恶意者在模型训练过程中拿到真正的梯度之后,就可以反推出数据中的特征(x)和标签(y)。这里举了两个例子,能够看到,尤其是在图像领域,通过梯度本身是可以反推出原始输入的这张图像和原始的Y。右边的例子,是在NIPS网站上抠的一些文字,刚开始是随机生成的,迭代到第30轮的时候,可以看到从梯度里恢复出来的一个样本,跟原始样本是非常接近的,只有个别词有一定差异。从学术上能够看到,在这种协同学习中,以前大家认为安全的共享梯度方式,本身并不是很安全,我们给它取了一个标题叫做非可证安全。在这之后,DLG方法有了改进。这个方法首先通过推导可以精确拿到Label本身,有了Label再去反推X就更简单了。从公式可以看到,它能更容易反推出原始数据的X。从它的三个数据集可以看到,改进版DLG相对于原始的DLG在攻击的准确率提升非常大。阿里巴巴在去年也做过一个更加贴合实际情况的例子:假定双方有两个数据拥有者,它们的特征空间一样,样本空间不一样,我们称之为水平切分。按照联邦学习的协作方式,计算本地的梯度,发到服务器,平均之后更新本地的模型,看起来比较安全——实际上,由于A和B精确知道每一轮梯度,它其实可以反馈出很多相关信息。满足一定条件的情况下,尤其是逻辑回归,可以构造出这样的一组方程组,当方程组的个数大于这个数据的特征维度,方程组是可以解出来的。因此也可以反推出原始的数据。从右下角的结果中,能够看到我们攻击出来的结果,跟原始特征非常接近。这说明,不论是从学术圈里面假定的setting,还是真实情况中,目前这种共享梯度的协作方式,也包括联邦学习,本身都有比较大的安全隐患。做保护隐私的机器学习方法,本身还是需要结合其他方法去弥补它的不足,才有可能让方法本身更安全,真正保护用户隐私。如何“精修”机器学习处理方法各环节数据预处理:我们自己所做的机器学习处理方法,从数据预处理到模型训练再到模型推断,都是遵循这样切实保护用户隐私的思路,将MPC、TEE或其他技术,跟现在技术相应结合,确保中间每一步的隐私都能得到更好地保护。以数据预处理中的降维为例,假定数据在水平切分的情况下,大家样本空间不一样,两方希望能够把数据能降低一个维度,降维之后的结果能够送到后面的机器学习模型进行相应训练,这种方法能较好提升效率。同时,模型的泛化能力会有进一步提升,结合MPC里同态加密和秘密分享的技术,加固PCA(Principal Components Analysis,主成分分析),使得它能真正保护数据安全性。此处有几步核心操作:首先是计算均值。如果是在同态加密的情况下,需要密态空间要进行计算;如果是秘密分享的方法,则需要将原始数据拆成多个秘密分片,再配合起来算出均值。其次是计算协方差矩阵,最后再算出相应的特征值、特征向量,就得到了降维后的X′。同态加密和秘密分享的技术,跟PCA做相应结合,就能比较好的拿到相应结果。从结果可以看出,相比于各方单独算一个PCA再拼凑结果,我们的方法精度提升比较大。同时,它跟原始PCA方法相比,在后面都接相同的机器学习模型的情况下,几乎没有精度损失的情况。除了降维以外,还有很多类似的工作可做,比如共线性检测,隐私求交(PSI)等。当然,安全的方法计算时间会更长一些,因为天下没有免费的午餐,要保护隐私,肯定有相应的计算和通信成本在里面。模型训练:DNN模型是现在大家用的比较多的。这里分别列出来业界三种典型做法。左边是传统的基于明文的神经网络训练方法。中间是完全基于MPC的方法,有很多非线性运算,可以做到可证安全,但速度会慢几个数量级,效率本身也不高。右边是MIT提出来的方法,比较快,但它的Label也放在服务器里计算,安全性有一定问题;而且它没有考虑特征之间的相关性,精度上有一定损失。发现这些问题之后,我们提出了一个创新的体系。首先,为了考虑特征之间的相关性,我们在底层利用MPC技术去做跟隐私数据相关的一部分模型计算。计算完之后,再把跟隐层相关的复杂计算,放到一个Semi-honest 服务器(半诚实服务器)去完成其他运算。这服务器里可以利用现有的各种计算资源,比如TF、PyTorch,甚至可以利用一些比较灵活的处理框架。Label的部分还是放到数据持有者本身,全程能确保没有哪一部分隐私会被泄露。Semi-honest 服务器会拿到中间的隐层结果,我们可以通过一些对抗学习方式去防止服务器获取中间信息。这一方法尽可能做到隐私、准确率、效率三者之间的平衡。此外,我们还可以使用贝叶斯学习的方法(SGLD)去替换传统的SGD(随机梯度下降),从而更好保护训练过程中的隐私。SGLD是在贝叶斯神经网络中应用较广泛的方法,可以看作是加噪版本的SGD。以前很多方法都在探讨它的泛化能力,在这里我们发现了它另外的好处:因为训练过程中添加了噪声,所以可以更好的保护隐私,尤其是在对成员攻击(Membership attack)的情况。比如有时医疗领域想知道自己的数据有没有被这个模型所用。我们在评估Membership攻击效果时,定了一个成员隐私的loss,这个loss就是为了看SGLD到底能不能保护成员隐私,我们通过大量的实验发现SGLD是能较好阻止Membership attack。具体来讲,我们在两个数据上面做了相应的测试,无论是在Table1还是在Table2里,尤其是在Attack Metric上,SGLD跟普通的方法相比,能够大大降低成员攻击的准确率。同时,我们也发现用它也能很好提升模型的撸棒性,SGLD和变种,比前面单独的不加噪版本在Test上面的Metric会更好一些。因此,我们在训练时也把传统的SGD换成了SGLD,能进一步提升安全等级,在兼顾三方面要求后,具有比较高的安全性和高效性。刚才讲到,在服务器里,可以很好利用现有的TensorFlow或Pytorch,从右边这个代码可以看出来,该方法是非常用户友好的。其次,在服务器里面,对于网络结构这部分,设计可以非常灵活,也可以设置任意的网络结构,充分发挥中心服务器的计算力。通过训练过程中引入的SGLD,也就是加噪的SGD,再加上Adversary loss,使得哪怕是服务器试图做恶,也无法由此推断出更多相应信息,安全等级进一步提升。我们跟业界的几个方法也对比过,比如2017年 MIT的 SplitNN和现在最好的SecureML。性能上,(我们的方法)比这俩更好一些。从这两个数据集来看,训练时间上,由于我们使用了中间服务器,训练时间相对于纯MPC的方法(SecureML)大大降低,但相比SplitNN训练时间还是要长,因为我们安全等级要高。总体而言,我们的方法能较好地实现效率、安全性和准确率的折中。模型预测:在模型训练上,涉及到前向、反向的计算,非常耗资源,它跟现有的一些隐私计算技术结合之后,对效率本身还是有比较大的影响。所以有很多工作都在考虑怎么做模型推理。在模型预测时,既要保护云上的模型,也要保护客户手里的数据。我们这个方法跟原来不一样,之前可能有很多工作局限于支持一部分的激活函数。比如有时都无法支持sigmoid或max pooling,有的干脆只保护客户端的Input data,但不保护服务器上的模型。还有极端情况是完全用MPC做计算,单次模型预测用时会非常长。另外,现在MPC尚不能完全精确计算一些比较复杂的函数,只能做一些展开或近似计算,精度上也有所损失。我们希望能够提出一种方式,尽可能在效率、精度、安全性方面能达到比较好的折中,保护服务器和用户的隐私。方法采用了两点,一是前面介绍的贝叶斯神经网络,因为它里面可以引入权重的不确定性,这能让服务器上的精确模型不被拿到。第二,无论是在数据保护还是在客户端上,用同态加密的机制去保护。具体是把DNN的计算拆分成两级,一是首先通过采样的方法拿到W,有了W之后,客户端传过来的加密Input,通过线下的运算出Z,这也是密态的。密态下的Z在返回到客户端解密后,在客户端上就能拿到最后的a。这样的方式,既保护了服务器上的模型,也保护了客户端上面输入数据的效果,起到了比较好的trade-off。通过迭代式的同态加密计算,既保护了用户隐私,也保护了密态下的服务器隐私。我们的方法,因为大量的复杂运算很多是返回到客户端上面,在非密态的情况下进行计算,所以Latency比较低。它还能支持任意的激活函数,可以比较好地扩展到RNN和CNN。典型应用案例:POI上的推荐原来的做法,不论是非常详细的profile数据,还是一些用户跟POI的交互数据,用户的所有相关数据都要被推荐系统所收集。一些隐私模型,比如用户偏好也都是被推荐系统所保留。所以推荐系统有很大的机会窥探到用户相关隐私。我们的思路是:首先,比较敏感的用户隐私数据和模型,能够在用户本地,而不能上传到服务器的推荐系统这里。第二,我们还是会收集用户和POI的交互数据,通过本地化差分隐私的方式注入噪音,这样传上去的是一个带噪音且能够保护隐私的版本。通过这样的方式产生动态的POI,再通过去中心化的梯度下降方法学习能保护隐私的FM模型。通过各式各样的安全聚合方式使隐私得到保护,这种方法我们称为PriRec。我们在两个数据集上做了比较,在Foursquare数据上,因为用户特征只有两三个,我们的方法比FM稍弱;但切换到真实的场景数据,因为这里面有大量的用户和POI数据,能看到我们这个方法比FM起到更好的效果。之所以会更好,原因就是用户和POI的数据,往往具有聚焦性,而去中心化的学习方法恰恰可以很好的利用这一点。在PriRec中,服务器上也没有拿到隐私的数据和模型,所以能保护隐私。实际上,推荐搜索广告方面都有类似应用;金融科技领域的风控也有类似的方法,就是对现有的机器学习方法进行加固,产生一个更好的、更具有隐私保护的版本,达到AI助力业务效果的目的。目前业界的四种技术包括MPC,可信执行环境,差分隐私和联邦学习。在多方安全计算时,理想情况是有一个大家都完全相信的可信服务器,所有人把所有东西都放上去计算,再把结果分发给大家。现实是找不到完全的可信服务器,还是需要很多协作方,协同完成函数f的计算。当然,大家希望在计算的过程当中既能够保护Input privacy,也能够保护计算的privacy,如果同时能保护Output privacy最好。MPC的提出,是希望能够保护Input privacy和Compute过程当中的privacy。这里面有几个典型技术,一是秘密分享(Secret Sharing),密码学里一个比较老的技术。早在七八十年代就已经有相应的论文发表。举个例子:有两个人想协同计算他们求和的结果,每个人会把自己的数拆成多个share,share加起来等于他们自己,但任何人拿到其中一个的share是没有什么物理含义的。通过share的交互,双方最后拿到7和6的结果(上图右侧),这其实已经完成加法的求和运算,既保护了Input的隐私,也保护了中间计算的隐私。这几年在工业界里,随着算力的丰盛,以欧美为代表的很多公司都在用这样的技术,比如著名的开源SPDZ等。二是姚期智院士在1989年提出来的混淆电路。它主要是通过两个大的building block构建,一个是混淆的真值表,一个是遗忘传输,通过这两种方式完成协同计算,解决了著名的百万富翁问题。秘密分享因为它需要通过大量交互迭代,通信代价一般较高。混淆电路中间是通过大量电路运算,电路的门个数较高时,效率相对来说没有那么高。其次还有同态加密方法,过程中是在密态下计算完的,之后才解密得到相应结果。同态加密和秘密分享在一些比较复杂的函数上,是没有办法进行相应计算的,要通过一些近似计算的方法才能拿到相应的结果。由于算力的逐步提升,和一些基础突破,这两年工业界对MPC也用得越来越多。三个技术有各自的优缺点,组合使用也能产生一个相对理想的结果。可信执行环境,相当于是一个硬件级的密码箱。把加密数据放到密码箱里之后,OS操作系统都没有办法打开密码箱,只有持有相关密钥的人才能在里面进行运算,就是所说的可信区域。这个方法本身是非常安全,但很依赖于硬件,目前做得比较好的是因特尔的SGX。前面所介绍的 MPC、TEE,都是可以保护Input privacy和compute privacy ,但没能很好地保护output privacy。在差分隐私(Differential Privacy)之前有很多别的方法去处理数据中的隐私,比如像各种匿名化方法,除了K匿名,还有一些L-diversity等方法保护隐私。但随着大数据时代的到来,通过链接一些别的数据,能够反推出来单人ID,匿名化基本上没有什么用。所以差分隐私之前的一些技术,现在来看是不安全的。对Output或Release的数据集,都在慢慢切换到差分隐私的技术上来。这个技术本身较好地考虑到实用性和隐私性的折中,隐私肯定有代价,要么牺牲一定的实用性,要么有计算代价。差分隐私是在数据中加噪声,对实用性有所影响,尤其是在数据本身也不大的情况下,对结果的影响较大。差分隐私提供了一种量化的方法,能测量到底加多少噪声,能够取得比较好的trade-off。差分隐私从从概率学和信息论得到一个隐私保护的bound,实操不是很复杂,就是在数据中添加相应的噪声,并且通过参数控制噪音的大小。当然,它本身怎么使用、怎么设置privacy budget,有着非常复杂的考量机制,但原理本身不算特别复杂。这个技术在提出来之后,因为它有比较好的理论保障,所以在学术界、工业界很多人也都在用,能比较好地保护Output privacy,跟前面的技术也有比较好的结合。Local 差分隐私类似多方,就是自己本身加上噪声,再上传到一个地方。它在工业界遇到的一个较大问题是,因为要在里面加噪声,所以模型精度受影响。 联邦学习,谷歌在2014年就已经在内部开始做这样的技术,它本身是解决to C的问题,所以想解决几十亿的设备间如何协同、安全地利用数据训练模型。当然设备之间可能不满足独立同分布的概念,硬件之间差异非常大,所以会导致可靠度的差异也很大,有时在训练的时候自己就下线了。在2016-2017年,联邦学习有相应论文发表。目前用的算法也是从服务器上拉了一个模型,做完更新,delta发给服务器做average并更新模型。直接这么做肯定会有一些问题,所以paper里面做了大量的优化,能够让通信成本和训练的稳定性都有比较大的提升。谷歌在2017年期间已经发现了,原来把梯度直接汇聚到服务器上的协同学习方法也不是很安全;如果要保护隐私,必须得结合MPC的技术。几种技术的比较和解决方案我们从自己的角度做了一张总结表格,像MPC能保护好Input privacy和计算过程中的privacy;但对于Outputprivacy,它的保护能力比较弱。效率上,因为牵涉到大量密码学技术,代价不低。TEE跟MPC类似,把它们理解成密码学偏软件和偏硬件的实验版本。差分隐私就可以较好保护Output privacy,计算代价相对不高,实用性有一定损失,尤其是local 差分隐私加了某种噪声之后,只能用于某些统计学运算。联邦学习无法很好地保护Input privacy和Output privacy,好处在于效率相对高。站在从业者的角度来看,这些技术还是需要一个端到端的设计,结合各方技术优势提供相应的方案,达到最后总体的效果。我们结合了这样三个方案:首先,MPC底下分为这么几层,用前面所讲的秘密共享、OT或其他密码学的原语。为什么要实现这么多密码学的协议?就是希望能够利用每种协议的优缺点,有更加好的组合,在合适的地方选用合适的技术。第二层,我们希望把底下比较偏密码学的原语,再做一层封装,这上面提供一些机器学习经常要用的运算,比如比较、求交、矩阵加法、求max的运算。上面再抽象成一个DSL语言,开发算法时,不用直接面对底层密码学原语,速度相对会更快。另外,因为我们参考的是机器学习里面的DSL,整个语法也跟机器学习类似,机器学习的创业者就能用比较低的成本,切换到共享智能技术上,进行算法开发。同时,我们也提供编译器,它能够将用户对上层开发的算法,自动选择最优的安全算子,实现安全的程序,进而实现整个MPC里面的一些方法。TEE方面,因为TEE本身的SDK也不是那么友好,并且单机的SGX的运算能力并不是特别强,为此我们做了一些改进:组建安全可信集群,以扩展算力;做了很多防止各种攻击的方法,在安全性上有个更好的工业级框架出来,便于开发者能够基于这些核心能力开发出各种算法。上面是比较偏差分隐私或矩阵变换的方法。这种方法还是有比较好的适用场合,比如前面讲的Output privacy里面用到差分隐私,或者是MPC和TEE里面在Output 的地方加上差分隐私,本身有比较好的互补的作用。技术之间也可以两两去组合。每个方案都有各自的优缺点,做隐私保护相关的工作,还是需要通过精心的工程设计,算法设计加上密码学原语,才能够端到端地保护数据输入、计算过程、数据输出等隐私,从而达到相应的目的。蚂蚁共享智能的落地经验合作案例:江苏银行去年上半年,江苏银行希望使用MPC实现联合风控,模型的产出完全放在江苏银行,自主可控。构建出联合模型之后,模型分数给到银行,由它去做独立的风控判断,之后再产生结果给到最后的申请判断。整个模型的效果在测试的时候发现提升了50%左右。同样,我们还在支付的联合风控、联合营销以及联合保险也进行了相应的落地。AI研究前沿动态和未来展望目前看来,现在这几个技术之间彼此有互补,但端到端的系统怎么在各个环节去利用合适的技术,去产生合适的效果?怎么样把这样一个系统在超大规模的数据上做相应的实践?在不影响效率的情况下,将隐私保护的等级能够升级到更高的级别?我觉得还需要有整个业界需要投入更多的资源,更长的研发投入,更长的耐心,才有可能在一些更关键的技术上面产生更好的结果。同时也需要整个AI圈子加上密码学的硬件再加上工程系统,一起努力才有可能在一些点上面取得真正的大的突破,才有可能使得整个隐私计算的效率能够再提升1~2个数量级。目前隐私计算效率本身,相比非隐私保护的AI,在速度甚至精度上都会有一定的损失。所以,怎么样去设计更好的方式,除了在技术本身的突破,也需要有更多的场景去打磨技术,才能发现的问题,逐步让技术往前走。从三大维度来看:第一,从算法维度看,无论是在学术界还是工业界,目前的这几个方法割裂程度比较明显。比如TEE跟差分隐私,虽然他们之间有交集但并不多。TEE里也有很多技术要去突破,比如目前TEE的内存只有128兆,相比普通系统还是比较小的。现在数据量比较大,尤其是在一个图像数据上,怎么在这么大的数据情况下完成隐私计算,是难度比较大的一个问题。第二,由于内存比较小,为了保护安全和隐私,所以在很多运算效率跟目前正常操作有一定差距。第三,SDK的友好性方面,因为比较偏硬件,还涉及到大量的密码学等机制,比如远程认证,对于很多从业人员而言还是有相应的学习成本。当然,业界很多开源的、在原生的TEE上封装的一些SDK,各方面有一些提升,可扩展性本质上有些突破,但突破不是特别大,意味着很多东西不能拿来直接在工业界使用。所以TEE也还需要整个社区有更多的投入。TEE上面,现在很多都在做支持中小规模的算法训练和预测。怎么让更大的规模、更新的算法能够被集成进来,这也是需要业界有更多投入。差分隐私技术本身的理论性质比较优美,但在实用性上有一定损失。我们提到过,对于utility loss以及差分隐私输出来的结果,因为毕竟是在原始的数据上面加了一定的噪声,这个数据相对来讲会不会有一定的损失度?如果完全是local 差分隐私的方式,在很多场景下面就没有办法用,怎么让差分隐私能够再更进一步,更贴合现在AI这个情况?目前看到,差分隐私在很多数据分析应用非常广泛,比如,苹果系统上收集了emoji的数据;微软操作系统的浏览器里面也嵌入了差分隐私的数据;Uber也用了这样一个技术,但目前大部分用在数据统计方面。怎么样把差分隐私这样的技术能够跟AI有更好的结合,是未来一个比较大的突破点。MPC技术本身,从经典论文发表来看,虽然不算特别新,但在很多很复杂的运算上,尤其是在AI的一些新方法,MPC效率本身还是有一定的代价。怎样取得算力的增长,有新模式突破,像完全同态的方法什么时候真的变成实用,怎么能够使这个技术在工业界更进一步,这也是需要考量的一个点。联邦学习目前也存在一定的安全隐患,四个技术之间怎么去做相应的结合,取长补短,能够形成比较好的下一代的解决方案,真真正正保护隐私,让AI落地变得更简单?尤其是在一些数据比较敏感的地方,像医疗的某些领域,病例的数据采集特别困难,真的能够让AI进到这些地方,辅助决策,才能更加好实现社会意义和价值。我觉得,在算法层面会需要深度结合,无论是基于某些算力,还是说在技术领域的突破,能让这里面的一些问题有更进一步的解法。在平台层,无论是差分隐私、TEE还是别的技术,越靠近数学和越靠近密码学硬件,为了保护隐私,里面大量的设置都比较难以理解。怎样让大家更高效产出不一样的算法,降低使用门槛,这些方法才能够跟更多地方结合,产生更多的新突破。在DSL和在编译器方面,甚至在整个系统的运维、部署,以及系统稳定性、安全生产等各方面,有没有进一步的突破,变得易用?在一些对时效性要求没有那么强的情况,如果能够持续稳定计算,对于很多产品也是比较适用的。对于整个隐私计算领域而言,这也是一个巨大的挑战。所以怎样有更高效的平台一体化设计,让使用门槛变低,才有可能会真正带来一些繁荣的社区,让技术能够走进更多场景、更多机构,真正产生一些化学反应。
如果收到了法院的限制消费令,就意味着被列入限制高消费名单,那么就不得实施以下高消费及非生活和工作必需的消费行为: (一)乘坐交通工具时,选择飞机、列车软卧、轮船二等以上舱位; (二)在星级以上宾馆、酒店、夜总会、高尔夫球场等场所进行高消费; (三)购买不动产或者新建、扩建、高档装修房屋; (四)租赁高档写字楼、宾馆、公寓等场所办公; (五)购买非经营必需车辆; (六)旅游、度假; (七)子女就读高收费私立学校; (八)支付高额保费购买保险理财产品; (九)乘坐G字头动车组列车全部座位、其他动车组列车一等以上座位等其他非生活和工作必需的消费行为。 被限高过的人都知道,其实以上条款里其它事务都还好,最影响本来生活的是对交通工具的限制。 很多生意人虽然上了黑名单,但业务还要继续,还有业务要跑、差要出、人要见,就像头条里的主人公中信证券董事长张佑君,连高铁都不给坐了,可能嘛…… 甚至有黑户,还有他们的三角债债务人要去讨债,所以也还得各地到处跑。不能坐飞机不能坐高铁,花在路上的时间就会巨幅增加,颇影响工作。 于是“愉见财经”身边就有某黑户,暗搓搓搞出了一套“下有对策”,靠一箩筐办法,竟然还能正常坐高铁、甚至还顺利坐了一次飞机。 今晚我们一来给大家扒一扒这些黑户密道;二来也是把这些现象曝曝光。 坐高铁密道 作为一个逻辑清晰的八姐,“愉见财经”先要给大家厘厘清,黑户坐高铁,一共要过四道关: - 第一,买得了票(你们要知道黑掉的身份证号码买G字头、或D字头一等座以上,系统都是弹窗提示,通不过的);- 第二,进得了站(身份证得对应已购当日火车票才能刷进站,对吧?);- 第三,进得了闸(黑户需要本次列车的车票入站);- 第四,列车内有可能被乘务员查票。 下文就来扒,有多少种办法,来过以上关口。 对于关口一,买得了票: - 方法A,借别人名字买一张高铁票。但比较麻烦的是,坐火车时为了过闸,还得带上那个“别人”的身份证。我朋友的办法是让他老爸去派出所挂失身份证后补办了一张,这样新老身份证其实在有效期内都可用,于是其中一张就专门归他买高铁票用了。 - 方法B,不坑爹了,用咱自己的护照(护照号码)+姓名拼音购票,可以是人工代销点,也可以是除了12360以外的、网上那些杂七杂八的代理购票服务(一般是那种要加10元20元手续费的旅行网代理)。那黑户亲测,要点是用拼音姓名,尽量不要输入中文名字,也有相当概率,能够搞到票(乘车码)。 - 方法C,用自己的身份证复印件,并且要PS改掉几位数字,改动的数字要和火车票票面上打“****”的数位一致(目的是以备后面有查票做身份证比对),然后去外头的人工代销点买高铁票。我那黑户朋友亲测,也有成功的概率,可以成功购票。 - 方法D,不适用于高铁但适用于动车一等座及以上(比如是我那黑户朋友经常买隔夜京沪动车想睡一等卧铺,有句讲句,破产后,比起以前连飞机都只坐公务舱,他现在真的已经很省了)。这个办法很直白,黑户去买张二等座及以下的票,就能正常进站、过闸,上了火车后去软卧那里再补票“升舱”,以京沪线为例,只要别买周五晚上那趟高峰的,余下时间软卧都不满座,都可以车上补。而车上补票系统是不查乘客黑户与否的。 对于关口二,进得了站: 用上头ABC方法,就算搞得到票,未必进得了站(注意,现在大部分站点,入站是刷身份证进行人脸识别咯)。如果混不进去,下面这些方法可供选择。 - 方法A,买一张当日接下去随便什么线路的K字头火车票,对就是那种最便宜的。黑户身份证就能买,买完就能靠自己身份证,挺胸抬头大摇大摆稳妥妥进站了。如果心疼小钱,进站以后再去退票。 - 方法B,办一张“中铁银通卡”,那卡是购票叠加身份证双重用途的,上面有照片,可等同于身份证件刷脸入站。且因为“中铁银通卡”购票覆盖所有快慢列车,所以黑户也能办。 对于关口三,过得了闸: 这道关就比较简单了,只要取得了票,有票的直接插票过闸呗,那里不用再人脸识别了;如果是某些火车站要用身份证和乘车码的闸口,就趁人流多时去人工通道吧,那家伙忙,不会多关心你是谁。 对于关口四,查得了票: 绝大部分情况下,上车查票,就是看乘客手上有张对应座位的票就行了,乘务员并不会非要看身份证。偶尔遇到非要看的,上面购票方法C里头提示的“改动的数字要和火车票票面上打****的数位一致”,在这里就优秀了缜密了起到作用了。至于用老爸身份证买的票,只能说,祝福黑户看起来比较老成、或老爸看起来比较年轻吧,再不然,就说身份证刚刚又弄丢了好了,反正自从黑户后,这身份证是没少“丢”啊。 坐飞机密道 相比买限制级火车票的“四套花招”,买飞机票是真心难了。 首先,身份证肯定是不能用了。 其次,以前听说过黑户可以通过护照+拼音姓名买到机票,也听说在春秋航空联入中航信系统前有人成功买到春秋的机票。但后来大家都联入了系统,护照号码也可能联上了(这点无从求证),总之听黑户说,现在通过境内航司,以及包括携程、艺龙在内的境内购票网站,就算用护照号+拼音姓名,都买不到机票了。 我那黑户朋友唯一一次尝试成功,是用护照+拼音姓名,从外航的系统链路出到的票。或许是因为那个线路没有过中航信的某个系统。天晓得了。 不过就算侥幸买到了票,在机场还有一道安检口前的证件身份比对检查,没人能担保黑户在那里不被拦下。 愉见财经