近日,雷锋网《AI金融评论》联合香港人工智能与机器人学会(HKSAIR),邀请京东数字科技AI实验室首席科学家薄列峰做客公开课,以《京东数科的联邦学习战略全布局》为题进行分享。除了分享横向和纵向联邦学习以外,他也通过案例形式给出了京东数科对联邦学习性能与安全性方面的研究成果,以及区块链和联邦学习的融合讨论。以下为薄列峰的课程分享全程回顾,雷锋网AI金融评论做了不影响原意的编辑:随着互联网发展,数据安全管理越发严格,对数据管理的关注也越来越全面化。怎么在保护数据隐私的情况下,还能做一些好的机器学习模型,应用到各种各样的问题?这就变得越来越重要,需要从集中式机器学习过渡到分布式机器学习。而2006年开始掀起的深度学习热潮,更把AI和机器学习模型对数据的需求推向了顶峰。什么是联邦学习?就是在满足数据隐私安全和监管要求的前提下,让人工智能系统更加高效准确地共同使用各自数据的机器学习框架。应用方面,举一个简单的例子:各企业或机构大家都出不同的数据,相互进行模型学习,又不会看到对方的数据。数据还可能分布在不同的国家,各国数据监管政策有所不同,也可以把分布在各国数据高效利用、训练模型,不存在数据上的交换。两个典型的联邦学习算法,分别是横向联邦学习和纵向联邦学习,横轴表示特征维度,竖轴表示用户维度。横向联邦学习,看两方的数据和标签,用户重合度非常低,特征重合度比较大。这里显示的是用户无重合的极端情况,实际情况中它可能仅仅重合90%用户特征,5%用户重合,到时进行对齐即可。纵向联邦学习,两方用户重合较多,可对用户的部分对齐。A、B各拥有用户一部分数据,可能都会有用户的一部分标注,纵向联邦学习也能去处理。对计算机视觉、自然语言语音识别等领域而言,2006年深度学习(的出现)是非常大的推动。大家熟悉的语音识别、语音合成、人脸识别等应用,都是大量深度学习模型在背后发挥作用。深度学习、梯度下降与横向联邦学习三种典型深度学习首先是深度神经网络(Deep Neural Networks,DNN)在语音识别误差上有30%的简化,性能有非常大的提升。后来是卷积神经网络(Convolutional Neural Networks, CNN),它的训练误差相对于其他方法降低了十个百分点左右,在计算机视觉领域有着非常广泛的应用。递归神经网络(Recursive Neural Networks,RNN)在自然语言处理领域是非常基础性的工具。优化神经网络的典型方法:不管神经网络有多复杂,大家实际上都能把它写成一个f,一个输入加一个参数。常用方法之一是随机梯度下降。大家都知道,优化最基本的是梯度下降,就是精确计算梯度,再对参数的方向和模型参数用梯度做下降。如果我的样本量非常大,有100万、1000万,做梯度下降计算代价非常高。实际运用中,我们可以随机提出采样。极端情况下,可以只采用一个样本去估计梯度,比如包含50-100个样本的小样本集,它的梯度估计不准确,但计算代价非常低,这样能有效优化神经网络参数。如图,红线是随机梯度下降的结果,梯度估计不准所以路线较曲折。蓝线是典型的梯度下降结果,估计比较精确所以不会拐弯的路线。但最终都会去到最优解。虽然红色路线比较长,但它走每一步的代价明显更低,相对于随机梯度而言,整体效率还是更高。这是典型的横向联邦学习框架。设置里下面是客户端(client1,2,3,……,t)。蓝色云是服务端(Server)。横向联邦学习的设置是数据的不同样本存在不同用户端,这实际上是对传统分布式框架的改善。首先每个客户端训练模型,产生参数w1、w2、w3……wt,参数传到云端,服务端对模型做平均,得到 w-。服务端做完模型平均之后,每个客户端再下载模型w-,再对模型做几轮梯度下降或优化,再将模型上传到服务端,循环往复,形成这样一个迭代的过程。在这个过程中,客户端的数据并没有向服务端传递,传递的只是模型的参数w,保护了客户端数据的隐私。它与传统分布式学习的不同之处在于,后者在此传递的是梯度;在联邦学习里,客户端向服务端传的是模型的参数。实际上现在也有证明表示,梯度信息其实也能泄露不少数据信息,而模型参数经过几轮梯度下降后,对数据的保护会做得更好。如图,联邦Average(FedAvg)和 联邦SGD,前者实际使用代数明显更少,就可以收敛,SGD需要的代数明显更多。在很多setting里,在分布式学习里,通信代价通常会是瓶颈,这个差异意味着FedAvg能有效降低这一代价,提升了训练效率,同时也加强了对数据隐私的保护。在这个设置下,实际上服务端还是知道我的模型参数的,有没有可能进一步对我的模型参数加密和保护?其实不需要加密也有相当的安全性,但加密能对攻击、对服务端、对可能的数据欺诈有更好的防护。同态加密简单来讲,这是一个密码学的算法,主要操作是生成公钥和私钥,加密算子,应用到明文,产生密文;用私钥对密文解密,产生明文。同态加密的特点之一就是,两个数m1和m2的和同态加密,等于m1的同态加密加m2的同台加密;m和一个常数相乘的同态加密,等于对这个样本同态加密,再乘以常数。横向联盟学习+同态加密:和刚才的情况类似,传递参数过程中,可对w1……wt同态加密,然后在服务端对同态加密域做平均,以得到模型参数。在这一设置下,服务端不知道私钥,但客户端知道。服务端实际上不能对w-解密,甚至连模型参数也不知道,它只知道同态加密域,但没有私钥就没法解密。客户端下载参数,用自己的私钥解密,再更新自己的模型——因此同态加密也提升了数据安全性。横向联邦学习之人脸识别应用:人脸识别有多场景的数据收集,比如打卡的门禁数据、多角度监控、证件类数据等。甚至还有一些海外业务,海外数据不能传递到国内,联邦学习就能解决这个问题,有效提升在人证场景或配合式场景下的通过率。Q:各方的特征怎么对齐?在横向联邦学习,大家的特征集是一样的。举个例子,a方和b方都是人脸数据,那么模型取的就是人脸数据,可以规范化到一个图像标准,比如说128×128的头像,这样输入x就自然对齐了。除了同态加密,另一个在横向联邦学习应用较多的是差分方法,思路是在分布式学习的时候传递梯度,同时对梯度加噪,以噪声方式保证梯度安全性。纵向联邦学习假设两个公司各有数据的部分特征,同时 b方拥有数据的标记,可以用一个安全的方法对齐数据ID,再做纵向联邦学习。这通常需要一个合作者Collaborator(有些方式可能不需要),AB两方的数据交换都需要对它加密。此处设置为:合作者有公钥和私钥,两个机构a和b,分别都只有公钥,没有私钥,能通过加密保护自己的数据。得到同态加密域的梯度之后,会对梯度加噪声再送到合作者处,合作者会用自己的私钥解密,然后把梯度还给它。在各方得到自己的梯度之后,可以进行梯度下降。Q:若合作者方占主导地位,是否有泄露风险?这是实际操作中需要注意的问题,比如A方特征占10%,B方特征占90%,这块你能写出的方程数量明显少于参数数量,理论上是推不出来的,但随着不平衡性的增加,安全性也会下降。纵向联邦学习某种程度上,是有信息泄露的,但是从大方向说,它泄露的信息足够少以至于别人推不出来主要的特征。线性回归是一个典型的算法。在很多模型的应用中,当样本量较大,线性回归的性能或许不会很好。此处常用的方法之一是随机森林(random forest)。随机森林Step 1:随机森林会对原始特征采样(bootstrapped)。这个步骤是放回式采样,比如说100个训练样本,它会每次放回,然后做采样100个。完成采样后,每个数的训练样本就不一样了,都是原始训练样本衍生出来的。这样主要是为了增加数的随机性和多样性,在树的集成过程中会产生更好的效果。Step 2:建每一棵树时,在每个节点选择一个特征的一个随机子集。举个例子,这里有30位特征,建树时随机选择五维的特征;建每个节点时,随机选的5个特征都不一样,再从中挑选最好的特征,保了每个节点的多样性。建树过程中,可以是深度优先,然后走到叶子节点,直到它满足一个判据,完成树的分支搭建,最后再逐个预测。联邦随机森林大致思路是,主动方、被动方各一,主动方有标记,并加密标记和标记的平方,然后发送给被动方。此处三角号表示对yi、zi进行同态加密。加密后,被动方根据自己每一维的特征,当它的这维特征被整个机制选中的时候,它会针对这个特征做直方图,然后用直方图在同态加密域的yi和zi进行聚合。每一个直方图会把它划分成很多区间,在每个区间做平均,得到Y和Z。简单讲,主动方传同态加密后的y和zi是一个向量,该向量和样本数一样。被动方会对向量做聚合每次会选向量的一个子集,看哪个特征落到区间上,再对传递过来的yi和zi平均进行同态加密域的求和运算。在随机森林里,既要选取特征,也要选阈值,通过该阈值下的特征得分算出y的矩阵,矩阵还给主动方。此处主动方有公钥和密钥,被动方只有公钥无密钥,所以被动方无法解密y和z,它把Y和Z的矩阵传给主动方,后者会依所得进行解密,再计算每个特征和每个阈值的得分,择其得分高者,如此即可完成随机森林中一棵树的某节点构建。重复该过程可构建不同的树和整个随机森林。可以看到,主动方得到被动方的数据,实际只是得到聚合后自己发送的y和z,所以不知道被动方的特征,也很难推导出;被动方只知道主动方同态加密运送来的y和z,并不知道更多的信息,整个过程可以保证安全。何为快速安全的联邦学习框架?传统纵向联邦学习需要用同态加密进行保护,同态加密比较低效,我们是否能设计一个不依赖于同态加密的联邦学习框架?设计快速安全的联盟学习框架有如下特点:第一,隐私能得到保护;第二,利用树状通信结构,有效提升传输效率。利用不同的数聚合信息;第三,新框架支持异步计算,能再次提升数据安全性。同时整个过程只涉及一些内积(此处不确定)计算,包括加噪后内积传递,所以该框架下不会用到同态加密,效率更高。如图,模型隐私在传递过程中,会传递参数和特征的内积,再进行加噪保护,最终有数据结构的聚合。整个框架的安全性如何?可以从理论上证明,这个算法能有效抵御精确攻击和近似推理攻击。看主要算法步骤,在第二步可以看到聚合的是内积+噪声,以及聚合噪声,然后返回到coordinator计算所有参数和所有内积再减去聚合的噪声,得到决策值,不过此处并不得到模型参数,这也正是模型信息能被保护的原因。coordinator在此只知道内积,不知道参数,所以它也无法推断各参与方信息。实现过程要确保通信的安全,数据在通信过程中不会被联邦系统之外的攻击者所获取,也需要一个可信赖的第三方来进行调度。谁做coordinator?可以是监管机构,独立第三方机构等。原始数据主要通过两项:1.任一通信节点接收到的均为加噪声后的内积,由于树状结构的差异,随机数又无法被移离,内积值因此得到保护。2.即使在串通的情况下,多个节点能移离随机数,根据内积本身也只能构造出方程,也无法通过方程精确推断所含变量。有噪声、有内积,方程数明显少于变量数,树机制……这些多重机制都能保证安全性。刚才所讲的逻辑回归还是线性模型范畴,怎样把线性模型推广到非线性模型?这也是关键,推广的非线性模型精度会大幅提升。右边算法概念大致是:先产生随机特征,生成随机数,然后做cos生成随机特征;在随机特征域上,再做刚才提到的这种联盟学习框架,来完成随机特征的参数学习。随机特征这一步引入了非线性函数,它能很好逼近原始核函数。此处,各参与方会有一部分随机特征,特征上的模型参数也保留在各方,不为他人所知。全程将通过噪声、聚合等方式提升安全性。随机梯度下降法,是首次实现了快速安全的异步并行纵向联邦随机梯度算法,并理论上分析了其收敛率核问题的双随机梯度算法,则是首次实现了大规模、高速、安全的基于核方法的纵向联邦学习。测试性能结果对比如下。LIBSVM是很多同学在研究机器学习时常用的工具,PP-SVMV是一个隐私保护算法,FDSKL则是我们目前所设计的算法。可以看到训练时间的对比。PP-SVMV涉及核矩阵,因此在大样本上操作非常慢。FDSKL收敛速度与DSG类似,后者没有联邦学习的设置。FDSKL几乎达到了不在同态加密状态下的训练速度。精度结果对比如下。FDSKL也接近了原始的不用联邦学习的效果。京东数科的最新工作也将在KDD发表。区块链联邦学习区块链受到很大关注,数据上链有透明化、分布式、不能篡改等优势,它是一种不依赖第三方,通过自身分布式节点,进行网络数据存储验证传递和交流的技术方案。区块链的分布式、去中心化特点,和联邦也有一些关系。实际上,联邦学习在大型的多方参与项目中都有类似机制,也可以考虑采用去中心化。最简单的应用是,把联邦学习和区块链结合,建立在区块链上的联邦学习算法。我们也完成了二者更深层次的融合,包括共识机制等。我们认为二者的结合在未来会有越来越多的应用。区块链可以解决数的存储,具有不可篡改性,联邦学习能对数据隐私做表保护,其中有不少地方互补。互动问答精选问:联邦学习可以不加入加密技术,不加密是不是也算对数据隐私保护?还是说得进行加密后,才算是各方进行隐私保护?薄列峰:就像我刚才在横向联邦学习中提到的那样,第一种算法实际上不加密,是用均值进行保护,整个过程中并没有传递数据。不同类型的联邦学习算法,有不同方向的数据保护。现在的问题是,哪一种对信息的保护级别更高,效率更高?同态加密是一种方法;差分隐私基本上就是给梯度加噪。这方面,像我们刚才提到的方法,都是不用同态加密对数据保护的联邦学习算法。问:联盟学习在京东有实际的落地场景和业务吗?薄列峰:有,其实联邦学习就是在做多方机构的落地,比如人脸识别、营销、风控等场景,京东数科都有案例。问:联邦学习和边缘计算的区别是什么?薄列峰:边缘计算讲的是每个用户端有自己的计算设施;联邦学习讲的是对数据隐私的保护,同时合作建模。大概念上还是非常不一样。当然,在做这种分布式联盟协议的时候,它也会用到各自的客户端,有自己的计算设备,在这一点上它会和边缘计算有一些结合点。问:怎样保护在客户端的运算速度?薄列峰:客户端的运算速度,得靠其自身计算资源来进行保护。如果计算资源比较有限,通常它的数据也比较有限,参与更少的计算。如果数据比较多,它的计算资源也多,如果是多个机构合作,这都可以协调。问:实验中列出来的时间对比,是参与方与第三方之间通信,是内网还是外网?薄列峰:我们在实验比较时,没有特别考虑网络延迟因素,是相对理想情况下的比较。有网络延迟的话,在计算的情况就会增加网络延迟。网络延迟针对每次具体的setting并不一样,所以并不容易做标准化的比较。我们比较的是没有网络延迟的情况,具体有网络延迟或者有各种情况,可能还是需要在具体设置里做更好的处理。问:每个客户端上的特征异构以及标签异构如何理解?可以举个例子吗?薄列峰:这个看是水平联邦学习还是垂直联邦学习。在水平联邦学习情况下,各个客户端也有自己的标记。刚才我举了个例子,比如说image net,每一个有1000类,每一类有1000个样本,这样你有100万个样本。假设有100个客户端,然后每个客户端有1万个样本,它有1万个样本标记,然后大家可以用横向联盟学习框架,可以有效地利用每个人手上的样本来建模。最终,每个参与方建造的模型都用了别人的样本,但是又不会去实际获取别人的数据。在纵向联盟框架下,举个例子,大机构和小机构做完用户对齐,大机构作为主动方,小机构是被动方,各参与方都可以商讨解决。像横向联盟学习,在很多时候,参与方其实就是同一个公司的分布在不同的国家的情况,信任度实际上是有保证的。即使说不同的机构之间,大家也是有相互的信任度。如果完全没有信任度,要去做这样的联邦学习,可能还是比较难的。参与方可能会对整个框架进行攻击。它的安全性会变得更加复杂。所以,我们现在还是假设各参与方是honest,是相对比较协作的,在实际应用中是可以做很多协调的。问:目前在联邦学习研究遇到的瓶颈有哪些?是否有后续未来的规划?薄列峰:后续京东数科会在联邦学习上做大量的投入,因为我们认为联邦学习是整个人工智能,包括整个机器学习的基石,它有潜力去改变所有的机器学习算法。我们会做重点布局,研发越来越多的联邦学习算法,来进一步提升联盟学习在各个领域的落地,提升它的有效性和效率,包括和区块链结合这种前沿方向。我们既会去提供一些可信度较高的软件,同时也会去落地,考虑前沿的研究,带动整个联邦学习生态的建设。问:是否可以动态变更合作机构的数量?薄列峰:合作机构的数量,是可以变化的。在纵向联盟学习里,相对比较复杂。它不参与之后,可能有些东西需要重新开始。但横向联盟学习,相对比较容易,因为大家都是拥有不同的样本,假设有1000个参与方,两三个不参与,那就少了千分之2,千分之3的样本,并不影响整个联盟学习的框架。横向联盟学习里,也有一些机制,可以保证参与方突然不参与,还能完成这个模型的训练。问:联邦学习可以用于表情识别吗?薄列峰:可以。举个例子,不同机构之间有表情识别的不同数据,大家可以利用彼此的数据来增强模型,同时又不想把数据给到对方。表情识别更像是一个横向联盟学习问题,怎么激励大公司愿意跟小公司之间共享信息。我的个人理解,它还是商业利益的驱动问题,怎么鼓励这件事。如果现在联邦学习的整个框架,只有一个小公司参与,大公司可能缺乏热情,但是如果有1000个小公司参与,那么这样以小积多,有更越来越多的可供交换的数据,大公司参与的意愿就会变强。问:服务器端,共享梯度和共享模型参数有什么区别?薄列峰:共享模型参数是做了几轮梯度下降,针对共享梯度,它的一大优势是通信代价会低;同时,对整个梯度信息的保护,也会更好。关注「AI金融评论」,在对话框发送关键词“听课”进群,即可收看课程直播,和往期课程全部回放。雷锋网雷锋网
最新公布的一系列房地产相关数据均显示房地产市场元气恢复。前5个月,房地产开发投资同比接近转正,5月当月商品房销售面积及销售额同比增速均超过20%。成交回暖也带动价格回升,5月全国70大中城市房价略有上涨。 国家统计局昨日公布数据显示,1月至5月,全国房地产开发投资同比下降0.3%,降幅连续3个月收窄。其中,住宅投资3.4万亿元,已恢复到去年同期水平。 植信投资研究院高级研究员马泓表示,随着房企和居民融资环境进一步改善,房地产投资将会进一步反弹,至三季度末增速有望回升至6%左右。 从销售数据来看,1月至5月,商品房销售面积及销售额同比降幅均大幅收窄,市场成交修复加快。 尽管累计数据仍是负增长,但最近两个月,房地产市场多项指标单月数据纷纷开始正增长。 数据显示,5月份,商品房销售面积、销售额同比增速均超过20%;房地产开发企业土地购置面积同比增长0.8%,环比增长35.4%;房屋新开工面积同比增长2.5%。 “各项数据相继同比转正,说明房地产行业已基本摆脱疫情影响恢复到正常状态了。”易居研究院研究员沈昕说。 楼市成交回暖也刺激了价格的上涨。统计局昨日公布全国70个大中城市房价数据显示,5月份,各线城市新建商品住宅销售价格环比涨幅均略有扩大,二手住宅涨幅与上月相同或微扩。 国家统计局城市司首席统计师孔鹏解读称,随着生产生活秩序持续恢复,住房需求得到进一步释放,70个大中城市房地产市场总体稳定,价格略有上涨。 一线城市房价全面上涨。从新房价格来看,5月份,北京、上海、广州和深圳环比分别上涨0.5%、0.8%、0.3%和0.6%。从二手房市场来看,北京、上海、广州和深圳分别上涨1.8%、0.6%、0.4%和1.6%。 “全国楼市持续复苏,基本已经回到了去年疫情前水平。”中原地产分析师张大伟认为,目前一二线城市已经明显出现楼市“小阳春”。 与此同时,一二线城市土地市场也持续升温,特别是一线城市优质土地成交活跃,带动土地溢价率和出让金较大幅度上行,二线城市中杭州、重庆、南京等地出让金领跑全国。 交行金融研究中心资深研究员夏丹表示,6月是上半年业绩收官月,房企料将加大推盘和营销力度,加紧业绩冲刺,市场成交有望继续修复。年内加快城镇化补短板强弱项和城市内旧改项目推进也将是一个抓手,有利于促进相关地区房地产投资和消费。 今年政府工作报告再次重申“房住不炒”,可见房地产调控基调并未随疫情发生而改变。 夏丹预计,未来房地产或呈现局部相对整体边际宽松、供给端相对需求端宽松的格局,以保证房地产市场平稳健康发展。
历史在我们眼前巨浪起伏。 匆匆那年 如今,谈及银行转型,必谈数字化。 仿佛银行已成为时代的恐龙。 其实在不远的十年前,中国银行业的信息化水平在世界金融界、在国内各行各业堪称翘楚。 即使今天,仍有可圈可点之处。 至今很多大行老科技人提到那段时光,眼中依然闪耀光芒。 追溯这份荣光,还需上溯十年,那是世纪之交的千禧年。 千禧年的元旦,天安门广场人潮涌动,周边交通中断。同样的沸腾也发生在深圳,一家名叫腾讯的小公司员工集体出门吃饭,结果被迎接千禧年的人潮堵在路上,动弹不得。 马化腾不在其中,那夜因“千年虫”,马作为唯一客服竟然成功安抚了OICQ所有用户。 元旦前夕,刘强东在北京九头鸟大酒店开年会,台下一桌十人,全公司两桌搞定。刘提出新年目标,明年聘个库管,搬到一个大点的写字间。1999年,他在刚开业的海龙大厦有个不到4平米的柜台,主营业务刻光盘,附赠傻瓜式多媒体系统。 同年杭州湖畔花园,马云对他的18罗汉说,我们要建世界上最大的电子商务公司,然后说“现在你们每人留一点吃饭的钱,将剩下的钱全部拿出来”。 千禧年后的第一年,2001年百度推出服务用户的独立搜索引擎,腾讯QQ突破500万用户大关,两年后2003年阿里淘宝才诞生。日后的BAT并未意识到,彼时的用户,意味着来日的流量、场景和生态。 那一年,经过98年的财政注资、99年的不良剥离,四大国有商业银行的新一轮改革悄然拉开大幕。 有些伏笔埋了许多年。 千禧年前4个月,中国工商银行于1999年9月1日正式启动数据集中工程,命名为“9991工程”,开中国大型商业银行大集中先河。 自1905年,中国历史上第一家国家银行——户部银行(中国银行前身)成立,在近百年的时间里,银行靠一把算盘一支笔、一本账簿一双手,记载了一代代的兴与衰,计算了一家家的盈与亏,清点了一笔笔的进与出。“点钞不用手、记账不用笔、利息自动算、传票自己走”成为一代代银行人梦寐以求的理想。 1993年银行网点开始普遍使用单机记账。 1995年,部分银行开始尝试联行报单、银行汇票签发的微机处理,重要凭证也进入微机管理。随后,各家银行逐步实现会计电算化。2000年前后,随着省域数据集中、全国数据集中工程的推进,银行计算机运用由储蓄、会计等柜面业务和后台核算业务扩展到信贷统计、资金调拨、客户数据库、信贷台账,再发展到办公自动化、决策支持等经营管理的方方面面,本地存款异地取、资金瞬间到账、跨国使用银行卡、本外币在账户间自由转换等不再是天方夜谭。 至此,中国银行业彻底从算盘时代走向了键盘时代。进入键盘时代后,第一个成效是数据,第一个痛点也是数据。 如果把银行过去的信息化、进行中的数字化和智能化喻为一盘棋,“数据”始终是这盘棋的“势”所在。数据集中,不仅是为银行提供了最为重要的生产要素,更是为银行经营管理和各项业务创新发展提供了平台,从根本上推动了银行变革发展。 善弈者谋势。 工行先行后,农行、中行、建行的数据大集中也拉开帷幕。虽然资源禀赋不同、技术路线不同、个中心酸不同,但是毫无疑问,千禧年后那场中国金融业波澜壮阔的大集中,铸就了今日各行数字化转型的底气。 如今,再踏转型路,往事尽云烟。 往事并不如烟 前传 各行数据大集中前有一“前传”,名为核心系统。 银行“核心系统”并不为普通人所熟知。核心系统是商业银行管理客户信息、处理客户账户及核心总账、提供基础存贷款、支付服务的系统,如同人的心脏。 商业银行核心系统的建设发展,是我国整体经济金融环境变化、金融业改革发展以及信息技术进步革新,三者共同驱动的结果。 1995年到2000年,是我国股份制银行和地方性银行大发展之际。这些银行建立之初,各路人才聚集,不乏有着大型国有银行科技工作经验之士,他们有了从零起步、跨越发展的舞台,直接提出了建设综合业务系统的目标。 而对于大型国有银行,服务不能降级,人员需要培训,数据需要迁移,不能不考虑历史和现实的因素,因此通过吸取了国外大型银行发展经验,更加细分了银行的应用系统,提出了核心银行系统的概念。 1986年,工行引进SAFEII系统,并以之为基础,构建了工行第一代核心银行系统,主要聚焦储蓄和对公业务。1997年,工行拉开第二代核心CB2000建设序幕,至2000年工行核心银行系统一期工程全面研发完成。 工行先行后,国内多家银行吹响了核心系统建设和大集中的号角。受限于当时计算机设备和网络传输的发展水平,大多以部分集中或省分行为主的省域集中尝试推进。1997年,中国农业银行启动第一代核心业务系统(ABIS)建设,经过两年多的鏖战,1999年3月,ABIS系统在宁夏投产成功后推广到农行全辖。2000年,中国银行实现五大区域系统集中,建设银行核心业务系统DCC上线。 纵观20世纪90年代中后期到千禧年后十年,如同今日的数字化,核心系统建设与升级换代,是各家银行共同的追求。背后深层次的因素是,随着加入WTO的日益临近,中国银行业必须在短时间内缩短与国际先进银行的差距,构筑信息化为内涵的竞争力成为关键性的抉择。 核心系统与数据大集中很难说是先有鸡,还是先有蛋。在核心系统建设同时,很多银行有识之士发现,仅仅是软件版本统一但不集中数据,对外难以提供跨地域的服务能力,对内则难以把控银行整体经营状况。 因此,唯有数据集中与核心系统一起扇动,才能为中国银行业插上翱翔九天的翅膀。 从集中,一路走来 1999年9月1日,工行启动 “9991工程”。 公开数据显示,这项工程最终把工行40多个中心、几万个机构合并到北京和上海两大中心,建立起全行统一的电子化体系。到工程完成,两大数据中心承载了工行全国全部37家分行以及总行票据营业部和牡丹卡中心、408个地区行、27,630个营业网点核心业务的处理,存储、处理4.8亿个账户,1.2万台ATM、6万台POS,日均处理交易超过9,000万笔,年均300亿笔,高峰日交易量超过1.2亿笔,存储处理的账户网点数达到世界领先水平。 工行大集中成功并非一日之功。1994年,工行开发了全国电子汇兑系统;1999年,工行正式投产运行资金清算汇划系统,实现汇划与清算实时,开创了异地结算业务全新的处理模式。 工行大集中的另一成效是,以“9991工程”打下的牢固根基为依托,工行2014年率先成功完成了“两地三中心”工程。2018年,工行全面实现新一代主机双活2.0架构下同城切换。这一看似“技术”的成效,实际是“业务”成效,业务连续性既是银行科技的生命线,更已成为数字化时代银行风控的重要范畴。 2019年,工行发布ECOS工程。E是Enterprise-level,代表“企业级”。C是Customer-centred,代表“以客户为中心”。O是Open,代表“开放融合”。S是Smart,代表“智慧智能”。 从1998年开始,中国农业银行开始启动省域数据集中工程,将全行近200个中心的核心业务数据集中到了36个省域数据中心,实现了所辖全部有效网点的集中联网,统一了全行业务应用。 2006年底,农行将全行37家分行的数据集中到北京数据运行中心。2007年初,农行将数据运行由北京切换到上海。与此同时,农业银行实施经营转型和县域蓝海战略,开创新的市场空间。在此背景下,2008年底,农行做出了建设新一代核心业务系统建设的决定。2015年10月,历时六年,农行新一代核心业务系统(Blue Ocean Engineering,BoEing)完成整个核心系统的切换和投产。 2020年,农业银行提出信息科技 “iABC”战略,代表“智慧(intelligent)的农业银行(ABC)、我(i)的农业银行(ABC)、融合(integrated)的农业银行(ABC)、科技助力(impetus)的农业银行(ABC)”。“iABC”战略将通过“七大技术、五大支柱、六大中台、两大保障”具体推进。 2011年10月中行IT蓝图完成全面推广,实现了经营模式和管理理念由“以账户为中心”向“以客户为中心”的转变,完成了境内全辖数据逻辑集中和应用版本高度统一,构建了安全可靠的“两地三中心”基础设施架构和7×24小时的运维体系。 2012至2018年,中行完成海外信息系统整合转型工程建设,在国内同业中率先构筑起7×24不间断、全球一体化运维的领先优势。 2018年,中行宣布数字化发展之路将围绕“1234”展开:以一个“数字化”为主轴,搭建企业级业务与服务两大架构,打造云计算、大数据、人工智能三大平台,聚焦业务创新发展、业务科技融合、技术能力建设、科技体制机制转型四大领域。 2005年,历时三年的建行数据集中工程(DCC)宣告完成。建行DCC表明,建行的科技应用模式已经从过去的分散开发转变为集中管理模式。 2011年至2017年,建行举全行之力历时6年,完成了新一代项目建设。其突出价值在于,基于业务流程全行共享的理念,构建了覆盖全行,以产品、流程、数据、用户体验四大模型为核心的企业级业务架构。同时,承接企业级业务架构模型,坚持组件化、平台化、松耦合、面向服务的原则,构建应用、数据、技术、安全四大IT基础架构。 2018年,建行发布“TOP+”金融科技战略规划。T为科技驱动,以技术和数据为双要素双轮驱动。O是能力开放。P代表平台生态,+是培育鼓励创新和支持创新的文化。 备注:上述工农中建大集中成果与数据全部来自公开资料 最深的敬意 数据大集中,是整个中国银行业“十五”期间的重大事件。 至“十五”末,各银行基本都实现了“数据大集中”。集中后,工农中建四大行的客户数、账户数、日交易量位列银行业前列,当然在数据集中的同时,也集中了风险,这是后话了。 回望数据大集中,工程之外,有几个点依然值得今天的银行数字化追忆。 一是主动变革。近年来的数字化转型多多少少还有几分外部倒逼的味道。20年前的中国银行业大集中,却是一场技术、管理和经营三位一体的主动式变革。大集中的历史告诉我们,数字化转型要做到主动变革,关键是三不要:不要在墨守成规的文化理念上搞数字化;不要在固守传统的体制机制上搞数字化;不要在封闭的技术体系上搞数字化。 二是技术路线。无论电子化、信息化、数字化,技术路线是决定IT建设方向的大问题。技术路线选择外部受制于当时的技术发展趋势、外部技术产品服务供给,内部要符合自身实际、投入预算和队伍能力。同时,制定一个正确的技术路线固然重要,但是更重要的是在长达数年的工程建设中一以贯之、久久为功。今天的银行数字化转型也面临过公有云、私有云的困惑,还将啃下自主可控的硬骨头,在这些抉择中,技术路线的选择更显珍贵。 三是队伍文化。科技和医学类似,本质上是实践性学科。再牛的医学院毕业,没有经历足够数量的临床,成不了名医,真正的科技人才也一定是在实践中才得以成长。大集中培养了一批银行应用、系统、数据库等专业人士,这些人有些留在大行“传帮带”,有些走向其他银行和后来的互联网公司。从更宏大的格局看,大集中培育出的人才,是银行对后来中国数字经济的一份贡献。有队伍必有文化,攻坚协同的文化,科技以人为本的文化,依托数据经营管理的文化……全面萌芽于大集中。 毫不夸张的说,这场变革是中国金融史上浓墨重彩的一笔,是世界科技史上石破惊天的工程。 集中的过程中,凝聚了一代银行科技人的智慧、汗水和青春,他们攻克了诸多性能、网络、算法难关,填补了诸多计算机金融应用的空白。 他们和最初的“思想者”、“谋势者”以及决策者们,顺应了时代,也超越了时代,值得我们送上最深的敬意。 善弈者谋势 2017年前后开始,四大行纷纷将数字化定位为核心或首要战略,依旧善弈者谋势。 势之所向,其锋称王。 2020年是“十三五”收官之年,也是“十四五”(2021-2025)擘画蓝图之年。突如其来的新冠黑天鹅疫情,给银行业带来史无前例的困难和挑战。 本次疫情再次证明并凸显了金融科技的极端重要性,也对金融行业数字化转型注入了新内涵、带来了新启示。 站在这样的历史节点,回味20年前的大集中,展望“十四五”的银行数字化发展,总有鉴往知来的感慨。 在“十四五”诸多影响因素中,笔者认为对银行数字化转型最大的两个宏观影响因素是: 一是我国大概率2022年前后跨入“高收入国家”门槛,同时伴随互联网成长起来的“Z世代”全面进入社会,老龄化现象愈加严重,由此带来银行客户结构、客户需求的全新变化。 二是2025年中国数字经济规模或将达到60万亿元,作为全球最大的数字经济体之一的特征将愈加明显,由此带来的银行经营范式的全新变化。 谋篇布局之际,纵观各行战略,其实共性已显,不同的是资源摆布和轻重缓急而已。 在不确定性的时代,战略往往不是目标,而是选择。提炼各行未来数字化转型发展的最大公约数,可以概括为“三化”、“三心”、“三新”。 “三化”的战略内涵 首先,通过数字化着力实现物理银行的“数字化孪生”。随后,基于智能化开展经营管理,低成本、实时性地洞察和服务于海量客户的个性化需求。同时通过开放化主动出击,紧密耦合场景生态伙伴,嵌入到客户的各种生产生活场景中,更敏捷地捕捉需求、获取数据、鉴别风险、提供服务。 数字化、智能化、开放化实际上构成了未来银行的经营范式。数字化提供核心资产,使银行无缝感知、全面理解客户;智能化为生产动力,使银行洞悉需求、创造服务;开放化为组织形态,使银行具备无处不在的触角,随时、随地、随心而在。 “三心”的战略核心 普惠为初心。任凭时代变迁,国有银行服务实体的初心不变。长期以来,诸多因素导致普惠金融的服务对象小微、低收入人群等,长期被排斥在正规融资体系之外。要将数字化作为破解普惠的关键一招,通过技术与金融服务的深度融合,充分释放大型银行的科技、信息与平台优势,助力解决普惠中的信息不对称、成本高、风险大等关键问题。 风控为核心。银行本质上“贩卖”的是风险。本次新冠疫情启示唯有借助金融科技手段,综合运用大数据、人工智能、区块链等多项技术,提升科技应用产品间的协同性,打造实时智能的“全面风险管理”,才能提升对“黑天鹅”、“灰犀牛”的企业级风险应对能力。 创新为恒心。在充满不确定性和技术日新月异的时代,创新是基业长青的根本所在。对于商业银行,既要有用于解决特定问题的技术创新,更为重要的是,要组合运用现有技术实现商业模式创新,特别是从把握金融跨时空转移的基本功能,着力为客户解决时间、空间、物质稀缺性问题,探索未来银行的无限可能。 “三新”战略支柱 新基建。一方面是柔性的新基建,包括各行投入大量资源的企业级架构、中台架构,为去全行系统性、普遍性问题提供高度共享复用的解决方案;大力发展开放银行,借助API、SDK等手段,构建开放、合作、共赢的金融服务生态体系。另一方面是硬核的新基建,包括构建以云计算、分布式计算为基础的新一代机房基础设施,以及推进国产化的“壮怀激烈”;实现IPV6规模部署,奠定万物互联时代的网络基础;持续完善人工智能、大数据、区块链等基础新技术平台,提供企业级新技术输出服务。 新体验。以客户为中心成为唯一的第一选择,纷纷致力于将传统商业银行的品牌美誉度和信用优势转化为极致客户体验。一方面围绕客户全旅程推动敏捷、快速、端到端的数字化改造。另一方面通过数字化经营,有效盘活和深耕存量客户,实现对用户有目的的组织管理和针对性营销,增加用户粘性、贡献和忠诚度,并通过系统性获取用户反馈,沉淀出一整盘真正属于银行自己的数字资产,不断改进提升。 新赛道。顺应国家战略,把握技术发展趋势,洞悉经济金融环境,在一些新赛道开启新竞争。比如,此次疫情培养了企业线上业务办理习惯,需要以对私思路开启对公数字化新蓝海,突破银行账户属性,视企业为用户,全面运用金融科技的力量,对公司金融既有的底层架构、服务流程、产品体系进行深层次重塑和优化。再比如,这轮全民抗疫也是一场高强度、沉浸式用户习惯培养活动,是对5G时代、物联网时代社会经济生活新形态的集中酝酿。经此一“疫”,全社会步入深度在线模式。此次疫情加快了零售银行通过线上化渠道满足客户多样化金融需求的进程。随着5G高速传输、万物互联时代的来临,以及人工智能的迅猛发展,零售金融既要在全面场景化过程中迈入实时、敏捷、智能的新境界,同时也驱动零售银行在线上渠道营销运营以及线上线下协同方面迈上新台阶。比如,把握国家发行数字货币的历史契机,挖掘更多的场景蓝海...... 胜天半子 从蒸汽时代到电气时代,人类用了100年。从电气时代到信息时代,用了60年。最近,从3G到4G普及只用了4年。 佛利德曼在《世界是平的》中说,技术平台每隔5至7年就要发生一次颠覆性改变,但很多人却需要用10至15年才能适应。 瞬息万变的变局,飞速传递的变量,裹挟前行的我们,共同构成当下的变局。 变局之下,宏观唯有接受,微观才能有所作为。 2019年,《BANK 4.0》红遍金融圈,封皮上赫然标识“金融常在,银行不在”。 的确,金融常在。那么银行呢? 根植于近三十年的信息化成果,得益于二十年前的大集中,中国银行业在变局中始终默默努力。 但是长路漫漫,总有艰难困苦,才能玉汝于成。 比如,面对各类互联网公司不断蚕食银行业的传统市场空间,场景生态已成为银行数字化转型的题中必有之义,但是围绕场景如何进行研发、营销、管理、服务,如何变革组织架构、运营管理、风险管控等,已成为银行业当前最大的焦虑。 各大银行往往在场景建设上投入大量资源,但依托场景获得的用户流量,能否创造可持续的收益有待观察。同时,银行传统的客户维护以产品营销为出发点,对客户全旅程体验缺乏精细化深刻研究,导致在客户场景服务上缺乏整体把握,客户场景金融服务能否持续有待观察。此外,传统的体制机制依然惯性制约着新金融发展,传统商业银行始终面临着场景金融和传统金融的取舍难题。 在可预见的将来,银行仍将是中国最重要的金融供给者。因为一个国家的金融体系运转,往往是惯性存在。美英两国的金融体系长期以资本市场为主导,中国、日本、德国则长期以银行为主导。在某个国家,不同金融市场之间固然可以协调发展,但彻底转变金融体系的主导模式和惯性存在则难上加难。在未来相当长一段时间内,银行仍将是中国金融供给的主体。 中国银行业的发展方向,最终取决于中国经济增长的逻辑。当前,实现经济转型升级和高质量发展的关键在于创新,特别是科技创新。创新的关键在于优化体制机制,优化体制机制的关键在于变革与改革的力量。 进化论中说,存活下来的不是最强大的生物,而是适应变化的生物。 的确,当前传统商业银行一些固有的产品和服务模式,已不适应经济发展的新要求,只有那些能够主动适应创新型经济发展要求的银行,能够快速转变经营模式、优化金融服务供给的银行,能够把握时代机遇和变局机遇的银行,才有可能在新的一轮竞争中脱颖而出。
日前,上交所受理北京中数智汇科技股份有限公司(简称“中数智汇”)科创板上市申请。中数智汇是一家金融科技与大数据服务提供商。本次公司拟募资3.77亿元,投向BIdata平台面向智能化应用升级项目、K+金融知识图谱综合服务平台项目、“大禹智汇”一站式数据管理平台项目。公司表示,未来将运用人工智能、知识图谱、云计算和机器学习等科技成果,加大科技研发投入,强化技术驱动场景创新,致力于发展成为业界领先的科技公司。专注大数据征信服务根据招股说明书,中数智汇成立于2012年,是一家金融科技与大数据服务提供商,通过构建业内领先的数据采集平台(DCP)、智能大数据平台(EDP)和面向客户的BIdata综合服务平台,为客户提供综合查询、风控反欺诈、关联洞察、反洗钱、商业智能和解决方案类服务。据了解,公司通过自主研发的综合信息服务产品,为客户提供海量、实时、针对性强的高质量企业数据,向下游客户(主要为商业银行、征信企业)提供数据产品及服务。公司丰富的客户群包括国内知名的国有和股份制商业银行、大中型互联网企业、征信机构、电信运营商、保险公司以及其他大中型企业客户。如:工农中建交五大银行,以及中国移动、中国电信、百度、阿里巴巴、腾讯、滴滴、美团、万达、京东金融等头部互联网和电信运营商公司。截至2019年底,公司大客户数量超过400个,最高日访问1000万次,季度访问量5亿次、最快响应时间5毫秒。不过,公司产品特性、应用场景以及长期根植大中型金融客户的业务模式特点导致公司客户集中度较高。2017年至2019年(简称“报告期内”),公司对前五大客户的销售额主要集中于商业银行、征信业客户,对应销售额占营业收入的比例分别为35.87%、37.59%和37.36%。对此,公司表示,因公司客户集中度较高,可能存在因客户自身的经营情况或运营事故造成客户合同期满后减少订单、而公司又无法短期内有效发展其他优质客户的风险,从而影响公司的生产经营情况,以致进一步影响公司的盈利能力。据介绍,公司根据客户在多元化商业场景下的需求,自主研发企业智能标签画像引擎、基于企业多维特征大数据的信用风险预警模型、BI知识图谱构建挖掘引擎、反洗钱-受益所有人挖掘认定算法、集团公司挖掘认定算法、空壳公司识别及风险量化模型六大核心技术,均已应用于公司现有产品或服务中,助力公司业绩持续高速增长。不断加大研发投入报告期内,中数智汇经营业绩稳步增长,分别实现营业收入6992.53万元、9197.82万元和13202.38万元,实现归属于母公司股东的净利润2135.98万元、3123.60万元、5023.21万元。报告期内,公司主营业务未发生重大变化。研发投入方面,报告期内,公司研发投入占营业收入的比例分别为13.19%、10.21%和10.20%。研发人员方面,据介绍,公司主要研发人员拥有在金融机构、IT、人工智能领域的多年从业经验,能够敏锐地把握市场动态,通过市场分析能力实现低价值数据产品向高价值服务转化,通过模型算法研发实现知识产品的工业化、自动化输出,通过顾问式销售能力收集用户第一手需求和反馈,确保公司产品的快速迭代和高速推广。截至2019年12月31日,公司拥有16项已登记的计算机软件著作权,并有5项发明专利正在申请当中。目前,公司业务处于快速发展期,在数据分析能力、数据处理技术、数据安全技术、数据资源整合等领域仍在不断加强研发投入,对技术人员的依赖性强。公司称,如果未来公司对技术人员的激励机制缺乏竞争力,可能会影响技术团队的稳定性,产生技术人员流失的风险。据了解,中数智汇在服务和运营模式上均具有创新性。传统的企业征信服务主要以线下调查、征信报告的形式提供给终端用户,存在着数据滞后、无法与客户流程紧密衔接等问题,导致信息传递使用的效率较低。而中数智汇将产品服务高效嵌入客户业务流程,依托不同场景的API接口实时连接客户系统,将线下纸质报告模式转化为线上自动化数据模式,从而帮助客户大幅提升业务决策效率。在服务模式方面,传统的企业征信服务方式以被动接受客户请求、根据客户提出的需求出具征信报告为主,较少参与客户业务流程。中数智汇是通过对原始资源的整合、挖掘,形成蕴含高价值的产品增值服务,主动帮助客户提升金融领域专业能力与洞察力,推动客户从数据辅助业务决策向数据引导业务决策转变。近年来,中数智汇不断深耕人工智能、机器学习、知识图谱等技术研发,开发完善风控算法模型、反欺诈模型,推出“风铃”风险预警平台、“融e开”银行在线企业开户系统、空壳公司识别、反洗钱受益所有人系统等多个产品,应用于银行业信贷生命周期管理、商户反欺诈风险识别、反洗钱客户身份识别KYC等业务领域。应收账款持续上升随着行业内公司不断开发新产品、拓展新市场,提升各自的竞争优势,行业整体竞争未来将呈现逐步加剧的态势。对此,公司提示,未来市场竞争的逐步加剧将很可能导致相关产品和服务价格的下降,公司将面临毛利率下滑、市场占有率无法持续提高等风险。如果公司未能持续提升产品技术水平和服务能力,将会给公司业务拓展带来不利影响。值得注意的是,报告期内公司应收账款金额分别为2770.86万元、4333.79万元和7168.60万元,分别占公司总资产的22.17%、28.86%和35.48%。2017年至2019年,公司营业收入与净利润规模呈快速增长趋势,随着公司业务规模不断扩大,营业收入持续增长,应收账款也相应增长。对此,公司表示,如果未来客户资信情况发生极端变化,或者公司未能继续在实际运营中对应收账款进行有效管理,将可能导致因应收账款发生坏账而对公司的经营业绩产生不利影响。公司自2016年2月挂牌新三板,并自2017年5月17日起终止其股票挂牌。公司实际控制人为屈庆超,其直接和间接持有公司控股股东龙信数据合计57.53%股份。此外,国有股东中国工商出版社有限公司持有中数智汇2%的股权。业内人士表示,随着人工智能、大数据、云计算、区块链等新兴技术的高速发展,金融科技与合规科技市场在未来具有较大的发展空间。公司表示,未来将运用人工智能、知识图谱、云计算和机器学习等科技成果,加大科技研发投入,强化技术驱动场景创新,致力于发展成为业界领先的科技公司。公司将聚焦BIdata平台面向智能化应用升级、K+金融知识图谱综合服务和“大禹智汇”一站式数据管理平台的研发和投入。
总结教训, P2P金融实际上是中国传统的农村里以高息揽储的老鼠会、乡里乡亲间的高利贷,在互联网基础上的死灰复燃。老鼠会这类东西本来是熟人经济、乡村经济中的一个陋习,即便要闯祸,也就是几十万元、几百万元,了不得到几个亿,辐射面积不会太大。 2019年是中国的5G元年,工信部在全世界率先推出5G标准;2019年也是中国互联网区块链的元年,党中央在10月份开了中共中央政治局会议,专门就区块链听取了专家的学术报告并对区块链发展提出很深刻的评述和要求。 经过中央的推动,5G、区块链家喻户晓。在5G背景下,大数据、云计算、人工智能、区块链、物联网就有了新的发展。在3G、4G背景下,大数据、云计算、人工智能、物联网还是浅层次、初级阶段的,主要的应用层面是消费互联网。因为3G、4G的速度不够快,迟滞效应比较明显,在这种情况下,发展物联网、产业互联网、工业互联网,机器反应不过来,发展无人驾驶汽车,汽车反应不过来。所以,实际上在3G、4G背景下,所谓工业互联网、物联网,只能是理论探索,无法工业化系统实施。到了5G时代,由于速度比4G快100多倍,时延是4G的1%,同时能耗低、安全稳定。基于这些特点,物联网才、区块链才能发展,大数据、云计算、人工智能在新的空间里就能发展到新的产业互联网阶段,5G背景下的数字化平台五个关键要素也就有了新的生命力。 云计算、大数据、人工智能和区块链的常识概念 (一)云计算 云计算可以被理解成一个系统硬件,一个具有巨大的计算能力、网络通讯能力和存储能力的数据处理中心(Internet Data Center,简称IDC)。数据处理中心本质上是大量服务器的集合,数据处理中心的功能、规模是以服务器的数量来衡量的。 上海在2015年有差不多30多万台服务器,为上海的2500万人的手机、电话机、电脑等提供后台服务。北京当时也有25万台。谷歌2015年在全世界运转的服务器有200多万台。截至2019年,阿里巴巴在中国境内有150万台服务器运转,有100万台正在安装。 最近,中国政府提出新基建,今后五年全中国至少会增加1000万台服务器。1000万台服务器不是装在一起,而是集中在一个个的数据处理中心。10万台服务器规模以上的数据处理中心就算是一个大型的数据处理中心。去年全世界一共有180个大型数据处理中心在建设中,也就是全世界有1800多万台服务器在安装建设中。数据处理中心的规模标志着云计算的功能服务能力。 (二)大数据 大数据之大有静态之大、动态之大和运算之后叠加之大。静态数据,比如大英博物馆、上海博物馆的存储资料全部以数字化的形式存储。动态变量之大可能有几千个、几万个坐标,这个坐标上每个指标每一秒钟、每一分钟、每一小时、每一天、每一个月、每一年不断叠加,就有一个动态数据越加越多。所有的静态、动态数据被任何人使用,就会有变化,数据与数据计算后产生新的数据,数据就会在使用中不断叠加、增长。数据大就大在静态数据大、动态数据大以及使用的数据大。这就是大数据的概念。 (三)人工智能 数据不等于信息,数据里面一串串符号有各种各样的,从这个角度看是垃圾,但从另一个角度看是有用的,怎么把一大堆的数据变成有用的信息,这个过程需要人工智能。信息不等于知识,比如,手机里大量的信息,每天看十个小时看得头晕脑胀,这些碎片化的信息要变成知识,又要经过特定的处理,也要用人工智能。知识不等于见识,知识变成可以决策智能化的判断又是一种转变,这个转变也要人工智能。人工智能在这三个转变过程中分析数据,挖掘信息,推送信息,或用各种数学模型关键词来筛选信息。另外,还有人工智能模仿、仿真系统、深度学习系统等,都是各种算法,整个数据处理过程中数据变信息,信息变知识,知识变见识、变判断,决策的过程就是算法。 科学家发明各种算法以后,需要用大数据来“喂养”。谷歌的AlphaGo要把人类几百年积累的几十万个棋谱作为大数据装在人工智能系统里用它的算法不断演练。用大数据“喂养”这么巨大的模型,算一小时可以等待,算一年等待不了,那么只有把计算机速度加快,快到每秒钟亿次,每秒钟十亿次,每秒钟一百亿亿次,现在超算最快的是一百亿亿次。人工智能三个概念:一是算法;二是有“喂养”算法的大数据;三是计算速度要快。人工智能技术能力高低关键在于这三个方面的能力。 (四)区块链 区块链有五个特点。一是开放性,二是不能篡改,三是可追溯性,四是匿名性,五是分布式去中心化。这五个特征是四种技术支撑起来的。第一,分布式记帐技术。人类社会几千年发明了4种记帐方式,一是原始社会的结绳记帐;二是农业社会的记流水帐;三是工业社会的复式记帐;四是信息化时代的分布式记帐。复式记帐三张平衡表,使企业资产帐目一目了然,但无法防止原始数据造假。采用区块链技术的分布式记帐是无法造假的。第二,共识机制技术。这种技术开发者必须首先考虑用怎样的技术可以使更多人对一种规则达成共识,同时还要考虑通过多少个特殊节点好确认,才能在很短的时间内实现对数据行为的确认。第三,非对称的保密技术,就是一套保密的密钥算法。第四,智能合约技术,基于大量的可信的不可篡改的数据,自动化地执行预先定义好的规则。四种技术使得区块链能得到很好的应用。 在实际应用时,一个区域全体人群一起参与的区块链,叫做公有链;五十人一百人等形成的某个特定人群参与的圈子是私有链;若干个私有连联合起来形成同盟,就是同盟链;也就是说,区块链在发展的时候可以分成一块块,根据需要展开。应用范围凡是有价值的东西都可以用区块链来覆盖。比如金融、保险、供应链物流、公共服务、认证和公证、公益和慈善、数字版权开发、数据信息共享等等领域。 数字化平台是大数据、云计算、人工智能、区块链跟网络(互联网、移动互联网、物联网)五位一体形成的一个体系,共同生成在5G基础上,有机结合成为一个类似于人的智能生命体。如果将数字化平台用人来类比:互联网、移动互联网以及物联网就像人类的神经系统,大数据就像人体内的五脏六腑、皮肤以及器官,云计算相当于人体的脊梁。没有网络,五脏六腑与和脊梁就无法相互协同;没有云计算,五脏六腑无法挂架;而没有大数据,云计算就是行尸走肉、空心骷髅。有了神经系统、脊梁、五脏六腑、皮肤和器官之后,加上相当于灵魂的人工智能——人的大脑和神经末梢系统,基础的“大智移云”平台就已经成型了。而区块链技术,就像人类不可篡改的分布式基因,经过更先进的“基因改造技术”,从基础层面大幅度地提升大脑反应速度、骨骼健壮程度、四肢操控灵活性。互联网数字化平台在区块链技术的帮助下,基础功能和应用将得到颠覆性改造,从而对经济社会产生更强大的推动力。 数字化平台不仅自身系统产值巨大,而且具有颠覆性作用。就数字化平台自身的产值而言,大数据、云计算、人工智能、通信网络等形成的服务都可以收费,本身就能形成几万亿、几十万亿的数字经济产业化市场。颠覆性是指数字化平台跟任何一个社会的空间结合就会产生颠覆性改造作用,跟城市结合就形成智慧城市,跟工业制造结合就形成工业制造4.0,跟物流结合当然就是智慧物流,跟金融结合就是金融科技。它可以颠覆各个传统,形成传统产业数字化的发展。党中央最近提出的新基建非常科学地归纳了这种趋势性特点。中央将新基建表达为三大工程:一是数字化工程。大数据、云计算、人工智能、物联网本身需要巨大的投资,一年需要投资几万亿。二是新基建的内容一旦和传统的工业、传统的基础设施和城市结合,就产生了融合工程,这就是颠覆概念。三是新能源、生物医药等创新工程。总之,新基建的提法是很有内涵深意的。 金融科技发展中的教训 (一)P2P发展的教训 在数字经济、数字化平台发展的过程中,我们也走过了一段弯路,就是P2P。2006年P2P在我国起步,2012、2013年在我国大规模推开,P2P一下子变成时髦、科技金融的代名词,成千上万的P2P公司诞生,有的叫P2P、有的叫网络金融、有的叫投资咨询公司,五花八门。一哄而上,几年时间就闯祸了,一个个公司资金断链而倒闭,最后变成系统性风险,大家对这件事记忆犹新。 P2P按照国外的定义,“P”是一个人,另外一个“P”也是一个人,两个人之间互相认识而形成借贷;“2”是指中间有一个平台,只是起介绍作用,本身是不融资借贷的。P2P这种网络金融模式,在发达的美国金融系统、英国金融系统和欧洲都没有展开。为什么英国人发明的P2P二十年下来只有十来个P2P公司;美国在2002年前后批准搞P2P,15年下来P2P公司也没超过20个企业。他们没发展开来,我们为什么一搞就泛滥成灾? 总结教训, P2P金融实际上是中国传统的农村里以高息揽储的老鼠会、乡里乡亲间的高利贷,在互联网基础上的死灰复燃。老鼠会这类东西本来是熟人经济、乡村经济中的一个陋习,即便要闯祸,也就是几十万元、几百万元,了不得到几个亿,辐射面积不会太大。P2P通过互联网,不仅可以覆盖一个城市,覆盖几十个城市,甚至可以覆盖到全国,最后造成了网民们彼此之间连面都没见过,就形成几十亿元、上百亿元金额坏账的局面。 (二)P2P存在的五大问题 在互联网平台的外衣下,与现代金融风险管理原则背道而驰的P2P平台,有着高息揽储、乱集资、乱放高利贷款等五大问题: 1.这种P2P公司的资本金是所谓众筹而来。这个众筹是网络众筹,即通过互联网向网民刚性承诺高回报投资拉来的资本金。 2.P2P的融资杠杆从网民来。假设有3亿元资本金,如果要想放30亿元贷款、放100亿元贷款,资本金和贷款之间有一个杠杆,这个杠杆性资金从哪里来?银行资本金通过吸收老百姓储蓄,资本充足率10倍,10亿元资本金一般可以吸收100亿元储蓄,这个资金是老百姓储蓄来的,是有规范机制的,这种储蓄转化为贷款来源、杠杆来源,有资本充足率、存款准备金、存贷比、坏账拨备等一套制度监管组合在一起的信用系统。然而,P2P没有这些系统,P2P单单通过对网民的高息揽储、给予储户高利息回报承诺,进而将网民的钱集资过来。 3.放贷对象通过互联网面向所有的没有客户关系、没有场景信息的网民。P2P企业对网民乱放高利贷,对网民高息揽储,对网民众筹资本金。本来互联网最大的特点就是它的客户群、产业链会雁过留声,是有场景的,但是P2P的服务对象作为互联网上对象,并没有具体的产业链,也没有什么场景,导致互联网的信息起不了客户信用的补充作用,但是互联网穿透辐射贷款放出去的速度又异常快,只要有人想借高利贷,钱就会被立刻借出去,造成了P2P平台跟网民乱放高利贷,对网民高息揽储,跟网民众筹资本金的混乱现象。 4.借贷资金短长不一。由此导致靠借新还旧形成庞氏骗局式的资金池,而这个资金池不由任何其他方面监管,仅由P2P公司平台负责。 5.一旦出事,要么P2P企业卷款而走,要么瘫痪无法运转。 究其原因,根源在于对有可能出现的严重后果缺少预判,也没有在监管层面上形成“资金要第三方存管,放贷要有抵押物,投资项目与投资者要一一对应”等负面清单,导致P2P网贷脱离了纯粹的“P to P”的原意,异化为互联网的民间集资和高息揽储。针对P2P金融,只要稍有金融常识,就应该判断出这是新瓶装旧酒——新瓶指的是互联网,旧酒指的是封建余孽式的老鼠会、高息揽储式的高利贷。无论是P2P也好,互联网金融也好,不管打着什么旗号,只要向网民高息揽储乱集资,只要跟网民搞乱集资、众筹资本金,只要在网上乱放高利贷,最后这个企业必将借新还旧形成不断循环,俨然成为庞氏骗局。所以,基于互联网的辐射性、穿透性,就应禁止,因为这个过程是无法有序控制的。 (三)网贷公司应遵循五个运行原则 当然,不允许搞P2P并不等于不可以搞网络贷款公司。合理的网贷公司是金融科技发展的重要内容,是帮助金融脱虚就实、为实体经济服务、为中小企业服务的重要途径,是普惠金融得以实现的技术基础。 这类网络贷款公司规范运行的关键在于实施五大基本原则: 一是资本信用原则,有较大的自有资本金。不同于传统的小贷公司,互联网金融有很强的辐射性、很快的发放贷款能力,业务范围往往覆盖全国,应当具有较高的资本金门槛。 二是信用规范原则。贷款资金的主要来源是银行贷款、银行间市场发的中票和证交所发行的ABS(资产证券化)债券。 三是信用杠杆原则。网贷公司的资本金和贷款余额总量的杠杆比,任何时候都应控制在1:10左右,决不能超过1:20甚至1:30。在常规的ABS、ABN(资产支持票据)的发债机制中,并没有约定一笔贷款资产的发债循环的次数,基于网贷业务的快速周转能力,一笔底层资产一年就可能循环5次、10次,几年下来,杠杆比有可能达到30次、40次,形成巨大的泡沫风险。鉴于网络贷款公司往往以资本金1:2~1:2.5向银行融资,网络贷款形成的底层资产在ABS、ABN中的循环次数不宜超过5~6次,只有这样,网络贷款公司的总债务杠杆比才能控制在10倍左右。 四是放贷征信原则。有互联网产业的产业链信用、全场景信用,不能无约束、无场景地放贷,甚至到校园里搞校园贷、为买房者搞首付贷。 五是大数据风控处理原则。平台拥有强大的技术基础,能形成大数据、云计算、人工智能的处理技术,这样就可以把控风险,形成较低的不良贷款率,并由此有条件为客户提供相对低的贷款利率,形成网络贷款良好的普惠金融能力。 总之,在发展网络贷款公司的过程中,只要合乎以上五条原则,一般都能实现小贷业务发展快、中小企业融资难融资贵得以缓解且不良贷款率低的效果。
资产管理行业体系庞大,按领域可以大致分为公募、私募、券商、保险、银行、信托六大领域。星石投资《2018年中国资产管理行业报告》中的数据显示,2018年中国的资管规模约为124.03万亿元。 面对百万亿级市场,近年来,也出现了不少初创公司针对资产管理的细分领域提供专有解决方案。近日,36氪就接触到了一家专注于为资产管理领域打造领先的量化分析解决方案和数字新基建的金融量化科技公司——「上海格蓝威驰信息科技有限公司(Starhouse.ai)」(以下简称:格蓝威驰科技)。 该公司成立于2019年,主要产品包括针对于不同垂直资管领域的一体化量化分析解决方案,覆盖金融、商业地产、不良资产等领域,业务内容包括基金量化投研工具、策略、风控的系统研发,商业地产资产管理分析和决策体系,不良资产管理全流程处置和分析体系,交易所做市体系等。服务的客户包括知名金融投资公司、世界500强地产企业、对冲基金、私募投资机构等。 公司的联合创始人兼总经理俞修源告诉36氪,现有的资产管理市场存在以下痛点: 不断膨胀的数据量使得资产管理公司管理和分析数据的难度和成本都所有加大。另外,资产管理公司所面对的竞争越来越激烈,需要引入新科技增强竞争优势。 与人工智能结合的量化建模技术在传统资管行业运用不多,但在二级市场中的量化基金已经有了很好的应用,与此同时基本面基金正在积极探索关于量化工具的应用。 传统资管企业在引入新技术时,在IT基础建设层面,研发层和分析执行层之间存在真空部分。这个真空在于IT部门难以专门针对某一种资产、某种业务,在金融背景专门编程设计相应的量化模型;而专业分析师分散在各个业务部门中,且他们所使用的量化分析难以统一,分析水平也参差不齐。 资产管理业务SaaS平台 针对这些痛点,格蓝威驰科技以专业的量化分析与建模为核心,为客户搭建的是一个基于标准化功能模块的定制化全生命周期业务及数据协作分析大中台,其中包括资产管理SaaS平台、量化分析与建模引擎、可视化商业分析三大核心模块。 “公司创新性地提出了Quant as a Service (QaaS) for Asset Management这个概念,我们的量化解决方案首先通过资管SaaS平台梳理了企业客户资产管理的标准化业务流程,然后提供了模块化的专业量化建模分析系统,之后再通过一个可视化的互动协作实现成果的输出。最终是希望用量化手段去提升资产管理的运营效率。”俞修源说。 具体而言,资产管理SaaS平台实现的是企业全数据的对齐和统一管理,数据包括企业内部系统结构化数据,CRM、ERP、物联网等系统的数据,员工手工维护的EXCEL数据,以及任何外部可获得另类数据(如社交网络、宏观报告、新闻数据等)。 量化分析与建模引擎则集成了机器学习算法和金融量化建模的各类算法,同时集成了高性能分布式算力,是进行海量数据计算分析的中枢部分。 量化分析和金融建模引擎 可视化商业分析体系则由各类主题建模分析体系和互动型可视化平台两个主要部分构成。在这个体系中,企业各团队通过大数据分析和平台协作,可以为企业业务决策以及综合管理提供数据化支持。在可视化方面,格蓝威驰科技是知名数据可视化分析软件Tableau大中华区的官方合作伙伴。 格蓝威驰科技的联合创始人史方舟博士告诉36氪:“目前阶段,我们基于量化的核心重点打造一些产品解决细分领域的痛点或者是和大客户合作直接输出量化分析能力,提供一个高端定制的解决方案,比如基金量化风控管理解决方案、商业地产管理多维分析体系、不良资产管理处置分析体系、商业智能平台架构解决方案等” 史方舟认为公司的核心竞争力在于团队自身专业的量化建模能力,以及对量化分析三个核心要素的把握。 “我们自己内部有一个类比,将量化分析的三个核心数据、模型、分析师比作弹药、武器和士兵。” 史方舟说。“产品战斗力首先来自于对业务场景的熟悉,基于了解才能高质量系统性的收集全面合适的数据“弹药”;然后根据业务场景的每个细分需求,打造专业的模型“武器”;最后就是为分析师选择合适的武器,让他们正确使用并与决策层形成互动。” 互动式可视化分析洞察平台 团队方面,格蓝威驰科技的联合创始人俞修源是芝加哥大学金融数学系硕士,曾就职于华尔街量化对冲基金AQR Capital Management担任量化工程师,作为核心团队成员设计并搭建公司的大数据可视化智能风控平台,其管理近2000亿美金规模基金的风险策略和日常风控运营。 联合创始人史方舟,美国哥伦比亚大学商学院金融学博士,曾就职于硅谷知名风险投资机构CircleUp,担任高级量化研究员,负责将二级市场成熟的量化分析方法结合新兴人工智能算法应用于传统风投基金, 领衔研发以量化数据驱动的新一代风险投资模型。在此之前曾于AQR Capital Management担任副总裁,负责多资产的多因子投资策略及投资组合优化模型的研发、审核和迭代。
6月12日晚间,同兴达发布2018年年报更正公告,2018年行政人员数量从56人变更为465人,行政人员2018年薪酬从百万变更为21.31万元。 2018年的数据为何此时突然说错误了,要更正?无他,因为上证报日前刊发了《行政人员人均年薪百万,一朝降薪八成,这家上市公司薪酬玩起过山车》的深度报道,报道系统分析了该公司最近三年财务的异常乱象,其中一个反常问题就是:同兴达2018年管理人员中除去董监高,行政与财务人员合计69人,当年平均薪酬100.38万元,比肩当年董监高薪酬。其中,2018年的行政人员仅有56人,而2019年有553人。 对于此次数据修订,同兴达表示:“因年报个别数据有误,现对相关数据进行修订”。但是否真如同兴达所言,行政人员2018年百万年薪系信披有误,还是无奈之下找信披来“背锅”? 此前,曾有公司披露了误导性陈述的公告,被上证报揪出之后,公司发澄清公告说是工作人员笔误造成,没有误导性陈述。但随着上证报后续持续深入报道,最终该公司被证监会立案调查,公司以及公司董监高相继被广东证监局、中国证监会处以罚单。这案例就是炮制“非洲猪瘟神药”的海印。 如今,同兴达将一个差距8倍的异常的数据问题,简单归咎于“个别数据有误”,轻描淡写地更正年报了事。究竟是笔误还是另有惊天隐情?上证报将继续深入调查。