在9月4日至9月9日举办的2020中国国际服务贸易交易会(以下简称服贸会)上,多家教育企业携新产品亮相,在现场看到,在这些参展的教育企业展台上,OMO(Online-Merge-Offline以下简称OMO)模式讲解、基于AI技术的新产品展示多有出现。 AI技术被企业重视 “这是我们自主研发的两款AI产品,利用AI技术,学生可以对比自己的英语口语薄弱环节,有针对性地改进。”在新东方的展台上,工作人员对记者说。 科大讯飞展台的工作人员则对记者说,展出的AI技术相关产品则主要针对中小学生中的AI课程培训,“和很多中小学校已经有合作。”而参展的其它企业情况来看,基于AI技术的产品也占据着展台的显要位置,不时有参观者向工作人员问询相关情况。 作为此届服贸会八大行业专题之一,记者在现场看到,有多家教育相关企业在服贸会期间发布新产品,其中,基于AI技术的新产品和基于OMO模式的新应用,在多家参展的教育企业的展台中有所呈现。 例如,在服贸会期间,新东方对外发布了留学考试OMO融合态新产品。 对于此时推出留学考试OMO融合态新产品的原因,新东方教育科技集团助理副总裁、国外考试推广管理中心总经理刘烁炀在接受记者采访时说,“随着中国经济的发展,学员及家长对于国际化教育的需求是不可能下降的,出国留学只是其中的一个方式,选择在此时推出留学考试OMO融合态产品,和外在的原因没有关系,只是想让学员在当前能有更好的学习体验。” 据悉,此次新东方发布的留学考试OMO融合态产品从“高效融合、全学习流程、个性化推荐、管理系统支持、数据反哺”五大方面进行迭代升级。升级后的产品体系中,学生可以提前利用碎片化的时间进行导学预习、以及线上练习和测试,让教师线下教学更有针对性,真正实现“学生有准备地学,老师有针对性地教”。在新OMO融合态产品中,从报名前到考试后均可为学生提供匹配真实教学场景的学习内容,涵盖托福、雅思、GRE、SAT等科目共计110个独立课程,实现学生的全流程学习管理。 OMO模式仍受关注 援引公开信息可知,今年以来,教育企业对于OMO模式较为推崇,而如何能够使线上线下更好地融合发展,则是公认的行业难题。 对于此次发布的留学考试OMO融合态产品,刘烁炀认为,新东方优势明显,“提出以线上融合线下的OMO课程的企业很多,然而在实践过程中,却由于线下场景不健全,出现了内容叠加、重复、延长学习时间等一系列的问题。此次新东方留学考试对新产品提出了‘内容融合,时间融合,场景融合’的理念。学生可以通过线上学习平台,将系统化的知识系统化地学习。而直播、线上练习等功能则可以保证时效性,实现及时精准地进行内容学习、记录学习数据。而这些学习数据将会为老师在线下强交互场景中提供有力的依据和支持。” “教育是重体验的产品,在线教育的优势可以把最好的师资覆盖到全国,但学员是否真正掌握了课程,线下检验效果更重要。”刘烁炀对记者说,新东方可以利用线上线下布局的优势,让OMO这一模式在留学考试的业务发展中有更好的效果。 此外,也有参展企业对记者表示,会基于自身的优势,利用OMO模式发展业务的同时,走差异化发展路线。
2020年8月7日-9日,第五届CCF-GAIR全球人工智能与机器人峰会,于深圳隆重举办。此次峰会由中国计算机学会主办,雷锋网、香港中文大学(深圳)联合承办,鹏城实验室、深圳市人工智能与机器人研究院协办。在大会第三日的「AI金融专场」中,著名统计学家、普林斯顿大学金融讲座教授范剑青,从大数据与人工智能、稳健因子学习及其应用、债券风险溢价预测、高频交易预测、文本分析与金融投资,这五大板块,向与会者报告近些年他的研究团队的部分工作成果。范剑青是国际数理统计学会创办70年以来第一位华人主席,也是统计旗舰杂志《统计年鉴》的第一位华人主编,论文引用数多年位列世界数学家前十名,是素有统计学诺贝尔奖之称的CPOSS总统奖得主,也是《概率及其相关领域》、《计量经济》、《商务统计》等五个国际顶尖学术期刊的主编。在范剑青看来,人工智能是机器学习的平方,让机器自动学习机器算法、是机器学习的理想境界。而大数据赋能AI,从大数据相关的科学挑战衍生的新兴科学即为数据科学,他认为数据科学以应用为背景,其目的是想把大数据解决成智慧数据。他指出,大数据=系统+分析+应用,机器学习=统计+优化+实现环境。如今深度学习之所以能如此成功,范剑青认为它是权衡偏差和方差的有效方法,深度网络使高维函数更加灵活,大数据降低了统计方差,而现在计算技术使大数据深度学习得到有效的实现。范剑青认为,在经济金融、生物医学、管理决策和人文社会中,机器学习有很多挑战和机遇。由于个体差异大,数据集未知,现在发生的事情与几年后的变量完全不一样,难以提取特征,需要各学科交叉。尤其是在金融行业,数据不平稳,随着时间而变,多人参与竞争的市场也是对金融的挑战。而机器学习本身就是为降低维数和预测而设计的,他认为机器能学习金融,尽管金融非常复杂,但它的形式是可预测的。以股票收益预测为例,可以通过高维线性模型、机器学习模型或是深度学习模型来处理。他强调,成功预测的属性一是大数据,二是鲁棒,三是模型具备市场的重要特征。他还详尽地用几个例子来说明溢价预测相关的问题,例如通过市场因子来预测债券风险;并介绍了现阶段可以使用的两种因子学习方法,一是传统主成分方法,二是利用投影主成分来操作。此外,范剑青也与现场观众介绍了文本数据如何协助股票投资决策,他表示现在可以通过对新闻内容的分析,解析文章对股票的褒贬程度。最后,范剑青总结称,资产定价本质上是预测问题,机器可以学习金融。他认为机器学习可以帮助处理大数据并从中选择重要因素和特征,能很好地应对过度拟合的问题,允许非线性学习极大地改善预测效果,将稳健性和对抗性网络提炼为定价,智能预测也会带来很大的经济收益。以下是范剑青的大会报告内容,雷锋网做了不改变原意的编辑与整理:非常荣幸能够参加第五届CCF-GAIR全球人工智能与机器人峰会。我今天的报告主题是《机器是怎么学习金融的》。这次报告的内容,是我们金融工程实验室多人的工作成果,大纲如下:大数据与人工智能稳健因子学习及其应用债券风险溢价预测高频交易预测文本数据与资产定价重新理解大数据与人工智能众所周知,人工智能是由John McCarthy于1955年首次提出,一年后,他也与多名科学家组织了著名的Dartmouth会议。何谓人工智能?Wikipedia中是这样介绍的:“人工智能”指机器模仿人类的“认知”功能所展示的智能,例如“学习”和“解决问题”。现实中的人工智能是技术能够训练机器,将人从重复性、简单性、危险性的繁琐事务中解除出来。Thomas J.Sargent:人工智能其实是统计学,只不过用了一个华丽辞藻。我认为人工智能是机器学习的平方,让机器自动学习机器算法、是机器学习的理想境界。目前内容包括图像识别、语音识别、机器学习、机器人、专家系统、计算机视觉、自然语言处理等。为什么现在大家谈人工智能?What powers AI?是大数据。现在大数据无处不在,商业大数据、医学大数据、网络大数据、政府大数据等。针对大数据的共性,解决其对大数据系统和分析的科学挑战所产生的新兴科学叫数据科学。我个人认为数据科学以应用为背景,包括数据的获取、存储、数据分析、科学计算。数据科学的目的是想把大数据解决成智慧数据。我把它总结为:大数据=系统+分析+应用。何谓机器学习?Arthur L Samuel在1959年的“跳棋游戏”论文中创造了“机器学习”这个术语:让机器从数据中学习并做决策,它是可扩展的统计算法,充分融合统计建模思想和计算优化方法。使这些数据分析的思想能在大数据环境下得到有效的实现。我个人认为机器学习是:统计+优化+实现环境。机器学习最后的产品一定是可操作的代码(Actionable codes)。为了有可操作的代码,我们需有优化的目标(Optimization objects),为了有优化的目标,我们需有统计模型(Statistical Modeling)和经济效用(Economic Utility)。现在最常见的是深度学习。深度学习的概念是很常见的,是数学的函数逼近,它用的是两种方法,信号源的线性组合,再做非线性的选择,重复的过程构成很复杂的函数逼近方法。为何今天深度学习这么成功?我认为它是很好的权衡偏差和方差的有效方法。深度网络使得高维函数逼近更加灵活,即偏差很小。另外90年代,我们就参与建设了这方面的工作,为什么学术界和工业界现在才大谈深度学习?主要是因为大数据的到来,大数据的到来大大减少统计的方差,样本量变大,方差自然变小。现在计算技术使得大规模优化成为现实,使得我们可以在大数据上实现深度神经网络逼近函数。简而言之是非参数统计思想在高维海量数据环境下的实现。具体成功案例是图像识别、机器翻译、语音处理等等。这些问题的共同特点是个体差异小,我们说话尽管各有口音,但个体间的差异小,而且信号集已知,你看到的图像就是你那张图像。换句话说X是已知的,信噪比大,∈小,学习得比较好。我们今天要谈的主要是机器学习的挑战。对于经济金融、生物医学、管理决策和人文社会,机器学习有很多挑战和机遇,第一是个体差异大,第二是数据集未知。例如上图是闪电崩盘,这次发生的事情和几年后发生的事情,可能变量完全不一样,是什么引起的我们也不知道,所以难以提取特征,需要各学科交叉,使得这方面的发展挑战更大。对金融来说,金融数据的特点是什么?第一信号低,跟物理不一样,物理信噪比很强。第二数据不平稳,一直是随着时间的变化而变化的,整个市场也是随着时间的变化而变化,很多人参与,这是一个竞争的市场。这是对金融的挑战。机器能学习金融吗?回答是肯定的:第一,资产定价问题,本质上是预测问题,机器学习本身就是为预测设计的。第二,影响市场的因子变量很多,这些变量往往是相关的。机器学习本身就是为降低维度和变量选择设计的。第三,定价的公式,不像物理是推导出来的、有很多假设的。资产定价非常复杂、形式未知。机器学习正是为高维复杂的非线性组合而设计。基于这三个原因,我认为机器从某种程度上讲是能够学习金融。如果我有一个黑盒子可以预测金融下一刻的回报,我们应该如何投资?假设有1000只股票,有这1000只股票的额外收益数据,还有风险因子和公司本身变量数据,我们要预测每一只股票的额外收益或者投在每一只股票上的权重。如果你预测第i只股票,你肯定要建一个形式,一个是宏观变量(macro-factors),一个是公司的变量(firm characteristics)。我们对每一只股票进行预测,常用回归来做,,可以是高维线性模型、机器学习模型或者深度学习模型。举例来说,我要预测下一个时刻的股票回报,我要用现在时刻市场因子,加上每个预测的参数肯定跟第i只股票和时刻t有关系。这既依赖第i只股票,也依赖第t天。我们把做成线性回归的形式,把写在一起,我们很容易得到1000个变量甚至更多。有了预测后,我们一般怎么投?1000只股票里,在我预测里的top 10%做多,bottom 10%做空。首先这应该是Risk-neutral的投资。市场涨时,top 10%涨,bottom 10%降;市场降时,top 10%降,bottom 10%涨。第二是这样的投资组合足够多样性(diversified)。第三充分体现你的预测信息,哪些股票是top 10%,哪些股票是bottom 10%。还有一种方法比较好,是6月份刚写完放在网上的一篇文章。关键词是“Principal Portfolios”,用你估计到的信号和做一个主成分投资组合。第三种很传统,用资产定价理论,在时刻t构造一个Portfolio,使得最小化。神经对抗网络可以解决这种条件预测问题。以上是资产定价常见的三种方法。大家自然会问预测成功的因素是什么?一是大数据;二是鲁棒性;三是你的模型捕获能力。什么是大数据的典型特征?相依性和厚尾性:我们很多变量都是衡量市场的经济状况,必然相关异样性、内生性、假相关等数据缺失,测量误差幸存者偏差,采样偏差这些特征对金融和宏观经济学尤其明显。今天我们主要讲如何处理相依性和厚尾性一些方法。接下来我用一个学术上常用的例子预测债券风险溢价来说明。我要预测的变量是美国债券,债券有2、3、4等年期,可以对每一个债券进行预测。是131个宏观经济系列的月度数据。除此之外我们还有8个国内生产总值,居民消费价格指数等汇总宏观经济系列。这131个变量都是衡量经济的健康状况,所以他们是相关的。我们对每一个时间序列算峰度(kurtosis),分布如图所示。有大概三分之一左右峰度大于,它们应该是厚尾分布。我们自然而然会问:如何处理厚尾?我们从131个变量学习决定市场的因子之外,我们还有8个宏观经济时间序列,我们如何使用这8个信息更好地提取市场因子?稳健因子学习及其应用如果大家要看论文,可以看看这一篇综述:Fan, J., Wang, K., Zhong, Y., and Zhu, Z. (2020).Robust high dimensional factor models with applications to statistical machine learning. Statistical Science, to appear.如果更详尽大家可以看看我们新著的《Statistical Foundations of Data Science》这本书,有三章会讲这方面内容。什么是因子模型?假设我有1000只股票,有5个影响这1000只股票涨幅的市场因子,不同的股票对不同因子的依赖程度不一样,因此有一个载荷矩阵 B。再加上每一只股票自己的特质因素(idiosyncratic components) ,很多时候我们把这两个部分称为。这种衡量1000只股票的相关性,在股票市场上有很多应用,同样对其它方面也有很多应用。比如根据1000个基因的表达共同性,找出潜在的因子。我们主要的信息是什么?我们学习了因子后,我们把因子共性的部分完全学习好,把它减掉,则整个信噪比增加。举一个简单的例子。设想我用131个宏观经济序列来预测债券风险溢价。这131个变量具有高相关性,机器学习里常用的变量选择方法,正则性会不满足。如果把131个变量分成不同因子:共性+个性,然后把代到里,我们变成两部分:共性和个性。假设影响这些宏观变量的共同因子是5个,共性的参数是5个,个性的参数是131个,最后得到136维空间的变量。这136维空间中变量的相关性很弱,因为相关的部分已经取出来。如果把现在的作为你新的变量,我们平时采用的高维方法就能工作。这就是我们提出的因子调整的模型(FARMselect)方法。简而言之是先学习共同的因子,然后用和作为预测变量。如果你把学好了,求出来之后解一解就可以了。整个思想是把原来131个变量变成136个变量,空间变得大了,变量变得弱相关。用共性+个性,和原来的是等价的,这个过程其实是用因子增进预测能力。举一个模拟的例子。这是线性模型,前10个变量对Y有影响,后面的变量没有影响。X如果是有共同的相关性,假设有250个变量,做100次模拟,每一个时间序列长度是100。如果我们用原始Lasso来做变量选择,只有在完全不相关时,Lasso工作得还好。只要相关系数增加一点点,Lasso就不能完全选出这10个变量。另一方面,如果我把这250个个性,加上每一个共同的因子拿出来作为第251个变量,就可以达到100%的正确模型选择。如果说不知道是不是251个,而用255个可以吗?可以,也可以得到这样的效果。如果Σ设成像标普500只成分股那样的协方差,最后的结果是一样的,我们可以百分百把重要的变量选出来,其他的方法做不到。同样的话,我们可以把这个方法拿来做统计推断。比如我们自然而然会问到底有多少共同基金有技能(positive alpha)?设想我有1000个共同基金,我们把分成共性+个性。以前最简单的做法是把每一个共同基金的额外收益平均作为统计量,这样的统计量肯定是相关的,有共同因子,且噪音比较大。我们所说的因子调整是学习共同的因子并减去,这样得到的统计量是弱相关,且减少噪音。我们有相关的模拟试验来证明,我只是做一个简单的介绍。想象我们有500只股票,为了图像方便理解,25%的基金有技能,为0.6, 75%没有。假设观测100天,只是做500只基金平均回报的直方图,基本分不出哪部分有技能,哪些没有。如果我们把共同因子先学习一下然后减掉,就比较容易区分了。因为是t3-分布,尾巴比较重(heavy-tailed),如果我们做鲁棒均值估计, 就可以把这两者分得很开。同样地,因子学习后,我们也可以做预测。从131个宏观变量里,我可以学到5个潜在因子,有8个汇总宏观变量,加起来有13个变量。最简单的是用这13个变量做线性回归来预测债券风险溢价。另外一种是构建预测指标,整个模型看起来像神经网络。我们认为有一些共同的因子影响这些宏观变量,所以从131个宏观变量中学习共同因子后,构造预测指标,最后预测债券风险溢价。提起因子,除了我们平时做的主成分分析之外,我们如何把8个额外的变量加入因子学习的过程中?很简单,是常见的因子模型,假设这几个未知因子跟是有关系的,对这个模型我们如何操作?我们对每一个宏观经济序列和8个汇总宏观变量做回归,这个拟合所得是X用W回归的拟合值,再对该拟合值做主成分分析,这样就把8个变量糅合到131个变量里。为什么这个方法可行?因为做回归从数学上来说是基于条件期望。我们做投影的目的是什么?先把这部分的噪声平滑掉,这样就可以把因子学得更好。这是我们主要的想法。因子模型还有其他的应用。比如金融风险建模,对高频金融里流动性强和差的股票之间的协方差矩阵的估计,用矩阵填补的方法可以获得。你也可以用相关性来学习社区增强自回归模型之类,其关键是降维。因子模型的目的是处理相关性,接下来我讲几分钟我们如何处理稳健性。假设你给我们的数据不一定是正态分布的,也可能是t分布的,有均值及方差。我们平时对数据最简单的处理是剪裁或截断,如把数据在-3到3个标准差之间就保留,其余就截掉,这样做好处是肯定产生偏差。如果τ选择的足够大的话,这种偏差是可以忽略的:裁剪的数据的样本平均跟原来的母体平均的差别就像数据是来自高斯分布一样。换句话说,如果τ足够大,那么裁剪样本平均与母体平均之间的区别跟正态的样本平均与母体平均之间区别是一样的,最后的分布是具有高斯的尾部性质。说宽泛一点的话,裁剪样本平均表现像高斯分布,而没有裁剪样本平均表现像柯西分布。为什么我们以前不太强调裁剪?因为我们在低维传统统计中做样本平均不多,在高维统计中会做很多样本平均。所以高斯浓缩(Gaussian concentration) 是高维统计的核心。举一个例子。如果你给我1000只股票,我要做投资,我要估计这1000乘1000个协方差矩阵,应该有50万个参数左右。所以要算样本均值50万个。如果数据是厚尾的,最后的协方差矩阵就不鲁棒。如果用了裁剪,当数据仅具有4阶距,就能实现与高斯数据的样本协方差矩阵相同的估计精度。做回归时,如果我们用裁剪数据不是很方便,这时候我们会用Huber 损失函数。为什么说是自适应Huber 损失,是因为是跟你的样本量有关系。基本在里面是一个二次型,外面是一个线性的。我们这里画了这么多图,是因为我们用了很多不同的。这显然对回归更方便,就像前面说的高斯浓缩性质任然成立,这是两个鲁棒方法的主要思想。简单做个小结:我们用因子模型来解决观测到股票相关的问题。我们是用裁剪数据来解决鲁棒问题,对回归问题我们用裁剪损失函数,即Huber损失函数,来得到鲁棒性质的。我们说过预测的好特征必须是鲁棒。债券风险溢价预测关于溢价预测,我们现在有两种因子学习方法:一是传统因子学习方法。从131个未汇总的宏观变量中提取因子,加上8个汇总的宏观变量,一共是13个变量,来预测债券风险溢价。二是投影主成分(PPCA)。直接糅入里面一起学习。不是简单地从131个变量变成139个变量来学习,而是用投影主成分分析来学习,因为这两种变量不一样,是未汇总的,而是汇总的。然后用新的和作为预测变量。我们来看一下预测的效果。如果我预测两年期的债券风险溢价,用传统方法学习到5个因子,再加上8个汇总宏观变量,一共13个做线性回归,得到的Out-of-sample R²,有24%的债券风险溢价能够被这131+8个变量所预测。如果因子学习得好一点,把揉入学习因子,就是投影主成分分析,这一下预测率就可涨到32.6%。如果说把统计的稳健思想都加进去的话,就可以预测到38.1%。对三年期也是一样,从21-28-32%。这些预测都是用线性模型做的。如果我们用非线性模型来预测,效果比刚才的预测都要好,最后Out-of-sample R²可以达到45%左右。这就可以看出来稳健方法和PPCA因子学习一起学习比较好,这是其改进的程度。高频交易预测接下来简单介绍高频交易的预测。高频交易在过去10年里是高速增长的,带来了金融大数据。到2015年,高频交易在美国股票市场占比超过50%,约55%左右,在欧洲大概占40%左右,日本大概是30%左右。其他的亚洲国家是5%左右,高频交易是在其他亚洲国家出现得比较少。从2012年10月到2014年十月,在外汇交易中,80%的交易量是算法交易,其中多半是高频交易。所以高频交易显然是把大数据带到金融世界里。我们自然而然会问机器学习的方法是不是能够帮助我们做预测或者做高频交易?这个环境显然是大数据环境。我们总的目的是要用过去预测未来。那么,自然而然需要问,什么是可以预测,Momentums可以预测还是Durations可以预测?那么,什么是有用的预测因素呢?我们要往后看多久?现在机器学习的方法有没有任何优势?关于TAQ数据这个我们就不多讲了。我们说的Momentum是这样定义的。如图红点(出价)和绿点(要价),它们未来或往上走或往下走。第一次,这两个点同时往上或往下走1-tick,对这个例子来说正好是负的,我们就定义。如果我们继续等待这两个点同时往上或往下走2-tick时,这两个点同时往上走,是正的,也就是。简单来说,我们的Momentum是站在现在的时刻(也即是t),+1表示往上, -1表示往下。在中间的交易量,t到t'之间称为duration。1-tick的Duration表示的是当前时刻t到下一个同时往上或者往下走1-tick的时刻t'之间的交易量,用表示,Duration同理。我们问的是站在现在这个时间,我们能不能预测?我们能预测的变量显然来自于交易数据,包括交易价格、交易量多少、还有交易方向(是买入还是卖出)。对于报价数据,有最佳买入价和最佳卖出价,和它们相应的买入量和卖出量,一共7个变量。如果往后看L步,那就是7乘L。为了简单起见,我用表示(最佳买入价格)和(最佳卖出价格),表示 (最佳买入量)和(最佳卖出量),上述这些都是原始数据。另一方面,是专家构造的预测因子,由于定义比较复杂,公式我没有写出来,例如Order Book Imbalance和Order Flow Imbalance。上述全部就是我们构造的变量。首先尝试微软的Momentum能否预测?我们最后的结论是可预测的。我们对微软的数据用过去50个最佳报价,每一个包含bid和ask,所以一共100个变量。我们用过去10天的数据训练,5天的数据做测试。如果你只是做最佳随机预测(BRG),基本正确率是50%左右。如果你做逻辑回归(LR),大概是在55%左右。如果做EN,大概也是55%左右。如果用随机森林(RF),你可以达到59%左右。GBT和FNN都差不多是59%左右。换句话说,机器学习的确有优势。怎样的变量是重要的?用绿线表示所有7个变量的结果,红线表示选择的一个子集(quote size和trade direction)的结果,红线比随机预测多预测8%。用该子集预测的效果跟用所有的变量预测几乎差不多。如果往后看,这是,大概有900个变量。这时候过度拟合就可以看出来。但是如果用GBT或者FNN,过度拟合就不存在。如果用专家设计的变量,例如OBL,不管你用哪个机器学习的方法来做,没有超过8%左右。如果你用OFI来做,效果更差。第一幅柱状图是我们用原始数据来做的,第二幅是原始数据+专家构造的变量来预测,最后的效果几乎差不多,说明机器完全学习了专家的变量。第三幅是用瞬时的原始数据做的,第四幅是瞬时的原始数据+专家构造的变量。加专家构造的变量几乎没多少改进,说明专家建立的变量已经被机器学习的变量所涵盖。如果是0.5个tick,预测结果就会高很多。如果是2个tick,效果几乎是差不多的。对duration,我们也可做类似的研究。这时duration是有多少交易量,它是一个连续的变量,所以我们做的是线性回归,用Out-of-sample R²来衡量。由于时间关系,我不再赘述。这个图是说加专家构造的变量可能对预测duration有一点点帮助,但帮助可能不那么大。对我们刚才高频数据一个简单的总结如下图:文本数据与资产定价由于时间不多,我简单介绍文本数据以及资产定价。这是我以前的学生,他用我们的筛选方法来做,我把他们的结果快速介绍一下。目的是学习文件和新闻的褒贬度,用它预测选择股票。传统一般用基于Dictionary的方法。这是一个IBM的短文为例。词典中总共有38,862个单词,其中只有160个出现在短文中。我们有一个n × m个文档-词汇矩阵d。假设100万条新闻有4万个词汇。我们把这4万个词汇变成S(带情感词汇) 和 N(情感中性词汇)。我们主要关心带情感词汇。假设选出来的200个词,在第i个短文里出现5次第j个单词,这样,得到一个100万x200的矩阵。如果这个文章的褒贬程度是百分百正,这个单词出现的概率是多少?如果是百分百负的话,这个单词出现概率多少?如果这第i个文章的褒贬程度是的话,这个单词出现概率则是它们两个概率的加权平均。这样第i个文章中S词汇出现的次数服从多项分布,其中表示S词汇在百分之百正的文章中出现的概率,表示S词汇在百分之百负的文章中出现的概率。最后给定一个短文或者新闻,假设这个股票涨或者降与这篇文章对股票的褒贬程度的关系呈单调性。这是我们的模型。我们如何学习?第一步学习哪些单词带有情绪,我们对每一个单词可以计算:包含该单词的新闻出现的那天回报是正的,除以该单词出现的次数。即在回报是正时,它出现的频率有多少?越靠近百分百,说明它是正面的词;越靠近0,它应该是负面的词,因为回报要么是正的,要么是负的。如果我们用最简单的相关筛选方法来做,看每个单词跟正回报之间的相关性是多少,做一个简单的扫描我们的文件集,我们大概扫描出100-200个词左右。这100-200个词里频率出现最高的有比如rally、undervalue等都是正面词汇。相似的,blame、shortfall、fall等都是负面的词汇。我们用很简单的方法,比如你选top 100个词汇,然后再选bottom 100个词汇,就是褒义和贬抑的单词200个词左右。下面就是让计算机学习词义,比如我们有100万条新闻和200个单词,就是100w × 200大小的矩阵,这是单词出现的次数或者出现的频率。按我们刚才的模型,出现的概率等于出现在百分百是正的文章概率是多少,以及出现在百分百是负的文章概率是多少的加权平均,这是常用的主题建模(topic modeling)。写成矩阵P大小为100万乘2,以及θ为2乘200。如果你给我每篇文章的情绪或者褒贬程度P,我就能够把θ求出来,即把词义学习出来。这个P如何学习?这个学习直接跟股票回报连在一块。因为我们有100万篇文章,每一篇文章都有那天的回报,所以你很容易看第i个文章回报的排名是多少。这篇文章回报的排名就变成这篇文章情绪的排名。有了,我们就可以学习情绪θ,学习了情绪后,对未来新的文章就很容易给出一个分数。已经知道未来文章的200个词的词义,唯一不知道的是这篇文章能打几分。因为我们有Multinomial Model,所以就很容易把用极大似然法求出来。把它求出来,这篇文章就有新的分数。总结一下,先用相关性筛选法把与情感相关的词汇选出来;然后对过去100万个文章,按他们回报的高低来给他们情绪打分;有了情绪打分P之后,就可以把词义学习出来;对未来新的文章就可以用Multinomial统计学习得到它相应的分数。以下是具体的应用,数据来自Dow Jones Newswires 1989-2017年,有650万条新闻。我们用前15年的数据作为学习,其中10年数据作为训练集,5年数据作为验证集,选择最优参数。2004-2017年数据做为测试,使用第t天的情绪来预测第t + 1天的收益。交易策略是什么?对每天每个新闻打分。我们买最高、最好的新闻的股票50只,做空分数最低的50只股票。我们投资策略是Equal-Weighted或是Value-Weighted。最后是Zero net investment construction。投资的效果是什么?黑线是我们刚刚画的long-short equal-weighted表现。黄线是SP500,要低很多。仔细看L-S的return,Sharpe ratios (SR)是4.29,average return大概是33%,用Fama-French 5个因子加上momentum factor(FF5+MOM)的风险调整后的alphas大概是32,而且汇报与这些风险因子几乎无关。比较Dictionary方法与RavenPack,我们的方法更有效。下图是Speed of News Assimilation,如果你投得太晚,新闻的价值很快就没有了。总结如下:现场提问环节IEEE Fellow王强:在深度学习里使用监督或者半监督的模型,我也可以看到lowest数据或是非lowest数据,您觉得PCA方式跟深度学习的方式,哪个更好用?范剑青:这个提问很好。PCA本身是线性的因子学习。做PCA的目的是想将相关的变量的共性跟特性分开。对于很相关的变量,例如刚才把131个变量直接放在机器学习里,可能会包含太大的相关。我们主要想讲的是PCA将共性和个性分开,可以把136个变量放到深度学习里。深度学习可以作为很好的预测方式,但是如果变量很大相关的话,可能预测效果并不好。PCA要学习的东西跟深度学习要学习的不完全一样,可以互补。
2020年中国国际服务贸易交易会在北京举办,作业帮在会上发布了旗下教育硬件产品“喵喵机”错题打印机,其中包括P3系列全新升级机型、P3Pro全新旗舰机型,以及与环球影视联合推出的小黄人IP联名款系列。 错题打印直击学习痛点 作业帮喵喵机联合创始人谢发炎表示:“整理错题本是学生在学习中最广泛应用也是最有效的学习方法之一,科学的错题学习是一个整理、诊断、解决、巩固的学习过程,但在学生的实际体验中,在整理过程中消耗了大量精力,很多学生一晚上花1个小时、2个小时甚至3个小时来整理错题,超过70%的时间学生们都在抄题目。很多学生甚至因为题目太难抄而选择放弃相应错题的整理。” “喵喵机错题打印机就是从解决这个痛点开始。”谢发炎称,喵喵机于2017年2月进入市场,依托OCR文本识别技术及作业帮2.5亿题库,为学生、家长、老师等用户搭建“在线搜题、思路学习、知识点解剖、智能学情分析、举一反三练习并即时线下高效打印整理”的易错知识点学习场景,提供了一套智能化错题学习方案。 可脱离手机独立使用 作业帮此次发布的新款P3“喵喵机”在硬件方面全面升级,拥有更高打印清晰度及全新升级三寸画幅,为学生学习提供更多便利,可以适应更多使用场景。P3ProWiFi/4G版则是错题打印机跨时代升级,不但可以摆脱手机的束缚,使用方式全面革新,应用场景更加广泛,并且第一次使用了为K12人群专门设计开发的学习系统,使用更加智能便捷,让学习变得有趣。 据了解,P3Pro最明显的体验优化就是无打扰的学习聚焦,因为脱离了手机,不会有各类应用的通知提示、电话、短信这些额外干扰,所有可使用的应用和交互都基于使用者正在建立的学习项目。对家长和老师来说,“喵喵机”P3Pro可以作为更安全和可靠的学习工具,学生不再需要额外购买手机或借用家长的手机,生活场景里面也相应地减少了“监督使用”“偷玩手机”这些非正向的体验。 近些年来,教育市场的竞争日益多元,作业帮选择了“手抄错题”与“辅导作业”两大痛点为切入口,以“喵喵机”为起跳点,入局“教育硬件”市场,进行差异化布局。通过内容与硬件的深度融合,缓解孩子学习过程中“低效手抄”的难题,为用户提供线上线下学习闭环的更优质解决方案。 据了解,截至2019年11月,喵喵机已连续三年成为国内电商打印机品类Top1,年出货量超过150万台,喵喵机APP注册用户超过500万,位居行业第一。
文/林峰 忽如一夜春风来,千树万树梨花开。万物似乎总是在突然之间横空出世,140余亿年前,一个奇点的大爆炸,就突然诞生了整个宇宙。5.7亿年前,一场在寒武纪的大爆发,就突然出现上百万种的生命形态。与之相若,人类的思想,也仿佛是在一夜之间突然爆发式升华。 在公元前500年左右的轴心时代,在东西方没有联系的情况下,同时诞生了大量的思想家,从以苏格拉底为首的古希腊群贤及中东犹太的众先知,到印度的释迦摩尼,再到东方孔子与诸子百家,如同群星般璀璨夺目,人类仿佛一夜之间想通了很多事。 时至今日,人类的思考仍然没有超越那时的大范畴,如同生命物种的数量再没能超过寒武纪时代一样。时间和环境的剃刀,只是把不适应的生命物种和思想修剪掉而已,哪怕有些许的变化,也如同生命的进化一样,只是部分的延展与进化,但从未曾超越与颠覆。 01 未经反省的人生是不值得过的 悉达多在经过六年的身体苦修之后,发现无果,最终在菩提树下端坐,苦思反省了七七四十九天之后,恍然顿悟诸法无常、诸行无我、诸念皆苦、涅槃寂静之道,遂而成释迦摩尼。 苏格拉底是西方哲学之父,与弟子柏拉图,再传弟子亚里士多德一起,并称古希腊三贤,他提出助产士的启发性教育原则,强调民众要通过省察去“认识自己”,他把希腊诸神拉下神坛,博学多才而片纸不留,他有一句话流传至今:“未经反省的人生是不值得过的。” 孔子,开创了以仁义礼智信为核心的儒家学说,其学识观点都是口耳相传,《论语》实则由弟子们的笔记汇总而成。东西方两位大贤在不著书立说这一点上出奇一致,他们还有一个一致的地方,就是对反省的态度,孔子也曾强调:“吾日三省吾身。” 我们离圣贤的高度相去甚远,但是一样可以仰望星空,一样拥有反省与思考的权力。每一年或是每一段时间,静下心来,去回顾过往经历的教训,分析当下面对的问题,思考未来应走的道路,可能可以更好地认识自己、发现自己、改变自己。 旭辉每一年,都把司庆月当作反省月,对标出发之时,看初心、看变化、看未来,以期走得更远。 每一年的自省大概分成两个层面:企业层面和个人层面。其中企业的自省可以再分拆成七个小方面去看:战略、组织、机制、人才、文化、管理、创新。个人的自省,我倾向从三个问题去思考:初心意义、学习成长、奋斗发展,这三方面或可简化成虚舟、虚心、虚怀。 02 企业反省之七思 七个思考的组成当中,战略是方向与路径,组织、机制、人才、文化是组织执行力的根本,管理则是基础系统,而创新代表了应对未来变化的能力。 1)战略反省 一看目标,回顾前一个阶段制定的战略目标偏差如何?原因为何?如何调整?同时思考下一个阶段的目标;二看外部,客户需求有何变化?市场和政策环境有何变化?竞企策略有何变化?战略的方向是否需要修正?规划路径是否合理?三看自身,组织能力的建设与战略目标和路径规划是否匹配?组织优势是否发挥?护城河是否足够? 2)组织反省 看组织模式是否匹配战略、是否最简洁、是否提高效能?组织的模式如同生命的形式,没有绝对的对错,只有适应自身的环境、战略与发展阶段,合适的才是最好的。衡量合适与否的标准可以用奥卡姆剃刀原理,如果能达成同样的效果,选择最简洁的组织形式。同时关注组织的膨胀是否超过规模和效益的增长,组织的边际效能要确保为正。 3)机制反省 物质激励与精神激励两手抓,两手都要硬。物质激励要考虑利出一孔,确保上下同心,并且能长期有效。好的机制不在于有多完美,而是到一线去看,他们的眼里有没有光,脚下有没有风。精神的激励在于团队成员获取的成果能否得到及时的肯定与鼓励,个人是否有长远的职业发展的规划与机会,敬业度可能是一个很好的标尺。 4)人才反省 人才是核心资产,选用育留对战略目标的达成至关重要。如何能够识别人才?如何去找到牛人并且能吸引他加入?如何充分发挥人才的价值?如何让牛人能互相配合发挥出更大的团队效应?对应战略目标,干部梯队的数量和能力是否足够?如何能够保留好优秀的人才不流失?一把手有没有投入足够的时间精力做人的工作? 5)文化反省 组织越大,文化越重要,文化是一种味道,价值观的味道,道不同则不相为谋。文化建设可以分成固化于制、外化于行到内化于心三个阶段,不管哪一段,直接主管的以身作则、身先士卒、身体力行都是对下属团队成员有最直接和最重大的影响。文化内化于心与否,看能否做到胜则举杯相庆,败则拼死相救。 6)管理反省 管理与组织模式一样,没有绝对对错,要看与组织的匹配度。企业在不断发展时,管理的重点也会从冲锋陷阵、排兵布阵转向系统设计。通过制度与流程设计,形成有增强回路的系统,并且选择合适的人在关键的节点上,才能使同样的资源输入能产生更大的产出。如果把组织架构比作硬件的话,管理体系就是操作系统,系统越完善,管理的杠杆就越大,能驾驭的组织也就越大。 7)创新反省 我们能否时刻保持创新意识?能否接受并拥抱创新?创新是在迭代中进化,以期能生存得更久。对产品和服务的创新是为了能够更好地活在当下,对第二曲线的创新则是更多地考虑未来,但不管何种创新,都要以客户为导向,以更好生存为目标。在多元化创新时,一定要想想企业在这个领域有没有独特的资源和能力去支撑,一般而言,相关多元化的创新存活率要远高于跨界多元化。但不论哪种多元化,该业务都应该在度过从零到一的阶段后,独立去市场拼杀,自己实现从一到一百,这样的创新才有生命力。 03 个人反省之三问 个人的反省我常常试着问自己三个问题:价值观标准和初心还在不在?是否还在持续地学习与成长?能否还能坚持奋斗并不断改进?我将之总结为:虚舟求渡、虚心求学与虚怀求进。 1)虚舟求渡 每个人出发时都有自己初心,很多的初心都与自己的理想情怀有关,最终体现为自我的价值实现。我们总是在忙碌中,有时会忘了因何而来,前几天被一位朋友问起,你的梦想是什么?还特别说明不是目标是梦想,我沉默了许久,没有正面回答,但我的内心在回顾多年之前的一段思考,那是经历过生死轮回之后的反思,人生何为?因为你拥有的一切转眼可能都不是你的,你以为能力超群的时候,却可能连自己的身体都操控不了。 天行健,君子以自强不息,地势坤,君子以厚德载物。易经的乾卦给了上述问题思考的答案:生命结局皆同,注定熵增化于尘土,生命的价值与意义都在于过程,哪怕是西西弗斯的滚石上山,也能体会过程中向上的成就充实感。生命的形态可能不同,但如果是草你就努力长成最绿的草,如果是树,您就努力长成最高的树,只要方式正当,不损他人,其余可以不用多想。你的价值会在遮挡阳光的荫凉中,会在吸入二氧化碳分解的氧气中,会在劈成木材释放的光和热中。 有时梦想可能不断在变化,因为要努力到最后才知道自己能成为什么,唯有奋不顾身,纵身一跃,拼命向前,在追梦的过程中体验生命的意义,最后或许,因为坚持,所以看见。 庄子曾言,虚舟撞人,人不气怒,唯避之而已。我擅自推导,虚舟渡人,人亦不言谢,但赠人玫瑰,手有余香,自足自乐可矣。做好自己,就是做好一个摆渡人,以虚舟摆渡,渡人即渡己,渡己亦渡人。年年皆可扪心自问,渡人渡己之心,尚在否? 2)虚心求学 前行路上,最不够用的,就是知识与智慧。常常觉得面对未来,有一贫如洗和诚惶诚恐之感,是因为脑袋空空如也,在未来不确定性的无边黑暗当中,自身的微光如此不足,难以照清前路。于是读书,但越读越觉得差距大,一是小时候没有系统地读过书,功力最扎实的恐怕只是武侠小说,但也没有认真总结、全面思考过,唯一沉淀下的是家国情怀、侠义精神;其二是记忆力不好,别人读一遍,我读两遍还不行,速度还慢,另外看到复杂的函数与公式就头大,是以学习效果实在一般。 因为一般,所以更须坚持,才能跟上别人的进度。学习如拼图、如球面,触面越多,就会发现外部越广阔,内在越渺小,唯一值得安慰的就是,相比于不知道的人,能更知道自己不知道。 能与读书相媲美的学习方式是与高手同行,以开放与谦虚之心,多看多问多听多想,从高手的身上,不仅可以学知识,更容易看到的是他们的智慧。同时反思自省也是一种很好的学习,可以与别人的观点碰撞,得出自己的独立思考,不是人云亦云,而是观察现象,多维思考,总结规律,然后可以自己设计思想实验将这个规律放进去论证一番,不亦悦乎。 奋斗的过程,一定是终身学习的过程,只有学习才是对自己的输入,其他都是输出。学习的方式学习的机会有很多,但最重要的是保持终身学习的习惯,不断提升学习的效果。须常问自己,能否还能自醒自谦、吐故纳新、虚心求学? 3)虚怀求进 虚怀是包容、不执念,同时又是不满足、不止步。前行的征程如此之长,不会是一个人能走下去的,一个人可以走很快,一群人才能走更远。但一群人,往往有不一样的个性,唯有更大的胸怀与包容,才能与更多的伙伴共同前行。 将军赶路,不追小兔,不执念,方能放下小纠结,聚焦大目标,心有泰山而眼无土丘。不满足,是不要安逸于现状,停留在舒适区,是要克服惰怠主义和享乐主义,不能小富即安、小成即喜,须知水满则溢,舟止则退,要胸怀梦想,永不止步。 试问自己还能否坚持奋斗?还能否虚怀若谷?还能否滚石上山? 个人自省的三问其实就是工作、学习和初心三个方面,尝试着以三虚应三问,虚为无,虚为谦,虚为谷,但虚亦可为实、为学、为进。效果如何我不知道,但是易经的六十四卦中唯有谦卦是六爻皆吉,姑且信之。 自省路径的七思三问仅是个人总结的思考框架,远不如佛家十戒或基督教七宗罪的经典,甚至说不上是成功经验,仅供参考与批判。在反省的过程中,也不一定要面面俱到,最好聚焦重点,三五条亦足矣。但要深度思考,并将之转化为行动,再转化为成果。保持一个反省的心态确是很重要,可日日挥刀五百次,一念为一刀,百刀为一省,聚沙成塔,积跬步而成千里。 达利欧也曾说过:如果你没有发现去年的自己是个傻瓜,那说明过去的一年你白过了。希望我们都不要浪费掉美好的人生,能常常发现昨天的自己就是个傻瓜。
8月18日,在线青少儿英语教育品牌VIPKID宣布,公司单位运营利润(UE)已经连续两个季度为正,90%的渠道首单实现盈利,获客成本同比降低45%,业绩保持持续增长。 新京报讯在线青少儿英语一对一长期以来“规模不经济”的魔咒,正在被打破。 8月18日,在线青少儿英语教育品牌VIPKID宣布,公司单位运营利润(UE)已经连续两个季度为正,90%的渠道首单实现盈利,获客成本同比降低45%,业绩保持持续增长。VIPKID也由此成为国内唯一一家收入在百亿级规模且实现UE转正的在线教育企业。 追求“有教学品质的规模扩张” 根据中科院今年6月发布的《2020年中国在线青少儿英语教育市场报告》 ,中国在线青少儿英语培训市场包括北美外教一对一、菲教一对一、小班课、大班课和轻课等产品模式。其中,一对一模式收入规模占行业总体收入的58%。而在这个领域中,VIPKID一家占据的份额超其他品牌之和。 报告还显示,39%的家长认为线上师资和教研产品已经赶上甚至超过线下机构,接受线上学习的家长比例达到72%。同时,8成以上家长愿意选择北美外教,53%的家长倾向选择一对一的授课模式。在用户参培意愿方面,VIPKID也位列品牌第一。 VIPKID联合创始人、总裁张月佳表示,VIPKID一直关注品质、规模和效率之间的战略平衡,并追求“有教学品质的规模扩张”。目前,VIPKID成功拿下在线青少儿英语80%的市场份额,签约超过9万名北美外教。 张月佳透露,VIPKID在过去几年沉淀下来的北美外教、品牌、技术及服务体系优势,为公司做大做强英语赛道和推出扩科课程提供保障。除了今年年初宣布的大米网校外,VIPKID还推出了中外教培优课、英语启蒙课、数学思维等多个课程产品。 根据VIPKID最新的产品战略,VIPKID在加速一对一北美外教在线英语教育业务接近盈利的同时,也在挖掘80万学员更加细分的英语学习和扩科需求,打造“第二增长曲线”,构建全功能、全价位和全年龄段的一站式青少儿英语学习产品矩阵。 督学体系提升学生英语学习完成率 VIPKID首席技术官郑子斌表示,VIPKID推出业界首个督学体系,通过学生端、家长端、教辅端的“黄金三角”联动,帮助家长轻松督学,提升学生学习动力和学习效果,并在商业数据上取得令人满意的表现。 郑子斌将VIPKID的产品拆解为教材、外教、技术等组成部分。在教材方面,VIPKID引入了牛津、HMH等国际主流教材,通过本土化开发,推出了覆盖全年龄层、兼顾素质及应试等多种需求的课程进阶体系;外教方面, 在VIPKID平台上教学的北美外教已超过9万人。其中超过33%的人拥有硕士及以上学历,6000余人毕业于常青藤名校。 今年初,VIPKID正式上线督学体系,通过在家长端整体规划学习进度并智能提醒学习时间、教辅端实时掌握外教和学员的教学情况,以及学生端智能展示学习任务,形成了课前、课中、课后的完整督学链条。 前两个季度的测试数据显示,经过督学的学员,学习任务完成率较整体学员提升25%,相同时间学到的知识点提升20%,对学习效果的认可度上升了15%。 与ETS签署合作备忘录 当天,郑子斌还宣布,VIPKID与ETS(美国教育考试服务中心)签署了新的全球战略合作备忘录,全面升级战略合作。 据了解,VIPKID和ETS双方将在青少儿在线测评、课程对标、学术研究、考位合作等方面展开全面合作,借助ETS专业学术能力,为中国青少年打造一站式备考、测评体系。 “与ETS的深化合作,既是VIPKID行业领导地位及教研实力的彰显,也让VIPKID学员有了更多的权威工具去检测学习效果。”郑子斌表示。
2020年8月7日-9日,第五届CCF-GAIR全球人工智能与机器人峰会,于深圳隆重举办。此次峰会由中国计算机学会主办,香港中文大学(深圳)、雷锋网联合承办,鹏城实验室、深圳市人工智能与机器人研究院协办。在8月9日的「AI金融专场」中,《AI金融评论》邀请了6位最具代表性的顶尖AI金融专家,分享能够代表未来10年风向的智能技术方法论、产品逻辑和风险管理理念。首先登场的,是微众银行首席AI官杨强教授。联邦学习和隐私计算,是今年所有金融巨鳄和科技寡头们,都在重点布局的重要技术方向。作为这一领域的全球领军人物,杨强也在会上带来了他在前沿研究与产业应用的真知灼见。以下为杨强教授演讲全文,雷锋网AI金融评论做了不改变原意的整理:先简单介绍一下,微众到现在有五年的历史了,目前有大概两亿的个人用户,还有将近百万的小微企业用户。这么短的时间可以获得这么大的用户群,应该说很大程度上是取决于技术上的创新,包括云计算、大数据和人工智能。其中一大亮点就是做连接,把不同的企业连接成一个生态。在这个过程当中,AI是不可或缺的——正如今天的主题:AI到底在金融界能起到什么作用?我们在很短的时间内汇聚了很多人才,这些人才主要在四个方面把互联网银行大致规模化、模型化了。这四个团队把微众银行内部和外部的业务过程、经验总结成了模型,这些模型可以供应给其他行业一键下载、一键装配,比如可以做营销、服务、资产管理,把金融的前台和后台都包括了。迁移学习和联邦学习也是如今比较突出的两项技术,可以把整个金融业务再往前推进一步。我们可以把未来的银行想像成从左到右的流程,最左边的是获客,这是任何企业都需要做的,要找到有价值的客户,对客户进行安全评估、风险信用评估,尽早发现可能的欺诈行为。评估办法之一是参考央行的征信数据,但国内很多人没有征信数据(信用分),而且它只是一个维度,所以我们需要把维度变得更加丰富。还有运营、监管、对沉睡用户的唤醒、7×24小时的客户服务,里面都有人工智能的影子。分布性数据隐私保护、联合建模的挑战和需求在所有这些过程当中有一个主线:如何能够顺利把尽量多的数据用起来。我们联邦学习的宗旨是数据不动模型动,这是一个做法,目标就是数据可用不可见:数据可以用,但是别人的数据我是见不到的,所以可以把数据加入到生态里面来共同建模,一些散乱的小数据就可以成为虚拟的大数据,这是我们的思想。这个思想的初衷其实是,现在很多行业并没有真正意义上的大数据,像在金融里面有很多的数据,其实是黑天鹅现象。比方说在反洗钱应用中用于模型训练的洗钱案例,其实数量并没有想象中那么多,还是属于少数现象。这种数据拿它来训练,效果不是很好。如果要用人工智能改变很多行业的话,其实都没有高质量、有标注、不断更新的数据。第四范式公司在实践当中就发现,如果要为大额贷款做一个营销模型或风控模型,数据往往是在上百例以内,这点样本是没有办法训练一个好的深度模型的,所以他们的做法是从小额贷款到大额贷款做迁移学习。每个人也都有手机,手机都是联到云端的,每个手机上的数据,每时每刻都在更新,都有新的图片、新的声音、新的文章可以点击,每个手机上的信息又是私密的,如何保证私密不传出去,又能让云端的大数据模型得到更新呢?大家都熟悉无人车,比如有一千辆无人车,每辆车见到的数据都是有限的,我们能不能让一千辆车的数据汇聚成一个虚拟的大数据,同时又不暴露某个车看到的某个场景?这就是分布性数据隐私、联合建模的挑战和需求——能不能把小数据聚合起来成为大数据?问题是,现在监管和社会的要求也非常严格,老百姓、社会对于技术工作者的要求是首先要保护隐私。政府也纷纷立法,比如欧洲建立了GDPR的数据法规。我们国内也有相关的保护法,在国家层面、地区层面,大家都在探索类似于、甚至更加严格于GDPR的数据法规。所以,简单粗暴地把数据从A传到B是违法的。透视联邦学习联邦学习,“邦”的意思是每个实体参与者地位都是相同的,无论大小,提供的价值才是他们存在的意义。“联”就是用一种方式把它们联起来,把隐私保护起来,同时又可以做一些有意义的事情。用一个简单的例子来解释:假设用一只羊来类比机器学习模型,草就是数据,我们希望羊吃了草以后能够长大。过去的做法是,把草买到一起来建立模型。比方说左边的模型,左边的箭头是指向羊的。羊不动,但是草被购买到中心。相当于简单粗暴地获取数据,形成大数据,来建立模型。但我们希望能够保护各自的隐私,所以让草不动,让羊动。这样羊既能吃那个地方的草,主人又不知道到底吃了哪些草,久而久之羊就长大了——这个就是联邦学习的新思路,就是让草不出草场,本地主人无法知道羊吃了哪些草,但是羊还是长大了。这个思想的关键是,当我们的模型从一个地方传到另外一个地方的时候,要传尽量少的东西,同时传的模型参数要被加密。图右这些带有一个框的W就是加密的意思,在本地加密,就只能在本地解密。现在有一种穿透式的加密,把所有的加密包放在云端的时候,还可以对它进行更新操作。比如对这个模型的集成更新,用集成学习。谷歌就提出了“对模型联邦平均”的做法,还有其他比较复杂的方法如神经网络等。这种做法分两种数据格式,一种格式是把样本分割,放在终端,像图左边所表示的一样,这是横向联邦。还有一种是纵向联邦,沿着特征把数据分成几块,每一块属于一个机构。比如有两家医院,双方数据可能在用户上有很多重叠,可是在特征上面没有很多重复。比如其中一家医院做的是胸片,另外一家做的是核酸检测,如果联合就可以做更好的模型。但出于隐私或利益等原因,他们不愿意互传。这时就可以用如图所示的方式,可以让一方的数据在加密状态下传到另一方,参与模型更新,重复多次后得到最优化的模型。有新用户的时候也是通过加密传输,使中间结果得到运算。纵向联邦适合to B的场景,横向联邦适合to C的场景。谷歌用的比较多的是横向,我们微众用的比较多的就是纵向,当然也有混合的用法,横向中有纵向,纵向中有横向。在座的朋友们可能会问,联邦学习跟以前的分布式AI、参数服务器、联邦数据库有什么区别?过去,分布式AI和联邦数据库里面,数据的形态、分布、表征都是一样的,是同类的。在联邦学习里面,它们可以是异构的,特征不一样,分布也不一样。从机器学习的角度来说,更加复杂。同时,隐私保护是第一性的要求。过去,分布式AI和联邦数据库都是在一个数据的功能下,把数据分布在不同的数据库,目的是并行计算、提高效率。但是现在数据本身属于不同的属主,所以需要做加密情况下保护隐私的计算。可能还有听众想问,假如在多个参与者中,有一个参与者是坏人怎么办?他在努力猜你的数据,甚至在做数据的“下毒”,比如故意标注一些错误的信息,就有可能把最终的模型变成对自己有利的方向,这也是有可能的。如果原始数据是0,在OCR的场景下,另一方可以不断地接受对方的梯度猜出对方的数据。如果百分之百地采用同态加密,用联邦学习的方法,这种情况就不会发生。联邦学习的特点是引入了生态的维持机制,也就是经济学机制。如果要让联盟能够持续下去,每个参与者都要感觉到作用和收益是成正比的,这就要引入经济学或者博弈论的机制来保证持续的平衡点。总结一下,其中有很多工作要做,包括安全合规,这是跟法律层面、跟政府层面合作;有防御攻击,还有算法效率,技术应用、还有激励机制,要引入很多经济学家的工作。举个例子,因为联邦学习是一个大的框架,所以有各种各样落地的场景。比如推荐场景,大家用抖音、用头条、用电商,这个时候都离不开个性化的推荐,但是推荐是数据越多越好。如果数据来自不同方,过去是把数据买到本地来进行推荐模型的建立。可以用联邦学习来解决这个问题,这个做法是“联邦推荐”。最近我们把联邦推荐的算法应用在广告推荐的场景上,用各方的数据,最后广告推荐的场景可以个性化,但是数据可以不出本地。联邦学习如何为金融发挥作用?应用在信贷和征信系统,我们希望利用大数据建立360度的用户和企业画像,参加建立更好的征信。但是联邦学习出现以前都没有很好的技术,大家都不参与到这个生态里面,担心自己的数据被偷走。用了联邦学习以后就可以做这个尝试。比如这个尝试是一家银行和票据公司的合作,数据都不出本地,银行所提供的是这个用户贷款的关键数据,合作企业提供的是企业的交易数据,这种交易数据为企业的活跃度提供了很多的信息,这两个数据进行联邦,可以让坏账率大幅度降低。应用在计算机视觉,每个库房都有很多摄像头监控本地的库存,可以用不同视觉公司的监控数据进行供应链联邦。更多跨领域的应用,比如监管和银行、互联网和电商、互联网和医院,都可以进行联邦。建立这样一个生态,离不开行业标准。我们推进建立的IEEE国际标准这个月也会出台,国家层面也有标准。我们也推出了开源软件FATE。我用微众银行的典型案例进行总结,刚才说的联邦技术贯穿了所有前台和后台。比如智能营销,引入联邦学习以后,可以把不同的数据源结合起来,让营销提高点击率。特别受关注的是点击之后用户有没有转化、有没有变成你的用户,这个过程需要更多的数据支持,这些数据往往来源于合作者,利用联邦学习的效果可以大幅度提高20%以上。反欺诈方面,可以在人脸识别、语音识别方面都可以大幅度提高效率。风控方面,也是利用大数据把金融公司和非金融公司联成生态,大家在这个生态里面进行数据价值的交易。还可以利用另类数据,比如把卫星数据、电信数据、非传统财报数据联合起来,可以实时为投资者服务。如何唤醒沉睡的、有价值的用户?也可以用联邦学习识别这个客户有没有重新跟你合作的意愿。我们的经验是在当前这个经济形势下,是非常好的金融场景。7×24小时的机器人服务,微众现在有98%以上是机器人在做后台服务,包括对话系统、客户服务、服务当中的监管、质量检测、智能监控、反洗钱,把细碎的小数据联系起来,变成可用数据。以上就是我们的经验和总结,谢谢大家。
2020年8月7日-9日,第五届CCF-GAIR全球人工智能与机器人峰会,于深圳隆重举办。此次峰会由中国计算机学会主办,香港中文大学(深圳)、雷锋网联合承办,鹏城实验室、深圳市人工智能与机器人研究院协办。在大会第三日的「AI金融专场」中,《AI金融评论》邀请了6位最具代表性的顶尖AI金融专家,分享能够代表未来10年风向的智能技术方法论、产品逻辑和风险管理理念;也在2020这个特别的时间节点上,展望他们眼中的「AI金融新十年」。微众银行首席AI官杨强:联邦学习,重塑金融范式大会开场,微众银行首席AI官杨强教授首先登台演讲。杨强是国际联邦学习与迁移学习的领军人物,也是国际人工智能联合会(IJCAI)成立50多年来,首位华人理事会主席。微众银行目前已经有五年的经营历史,有大约两亿的个人用户和将近百万的小微企业客户。作为微众首席AI官,杨强教授认为微众银行之所以获得如此大规模的用户群,很大程度上是取决于技术上的创新,包括云计算、大数据和人工智能。他表示,获客、客户信用评估、客服等金融业务都有AI的影子,这当中的主线就是“如何将尽可能多的数据顺利使用起来”。而联邦学习这种“数据不动模型动”的做法,能实现“数据可用不可见”的目标,更好地助力金融。迁移学习和联邦学习也是如今比较突出的两项技术,可以把整个金融业务再往前推进一步。杨强认为,目前很多行业并没有真正意义上的大数据,缺乏高质量、有标注、不断更新的数据。如何保证各方数据私密不外传,又能保证数据更新?这就是分布性数据隐私保护、联合建模的挑战和需求——把小数据聚合起来成为大数据。加上现在人们愈发重视隐私,政府纷纷立法,对技术的监管趋严,联邦学习正为保护隐私带来了技术上的新思路。如何理解联邦学习?“邦”是指每个实体参与者地位相同,无论大小,提供的价值才是他们存在的意义;“联”是用一种方式把它们联合起来,保护隐私,一起做有意义的事情。联邦学习的宗旨是“数据不动模型动”,目标是“数据可用不可见”。数据可以用,但是这些原始数据是合作方彼此之间见不到的,所以一些散乱的小数据就可以成为虚拟的大数据。杨强教授介绍称,目前联邦学习主要有横向联邦(样本不同、特征重叠)和纵向联邦(样本重叠、特征不同)两种做法,前者更适用于to C场景,后者适合to B场景。他强调,联邦学习和分布式AI、联邦数据库的区别在于:过去这二者的数据形态、分布、表征皆为同类,但在联邦学习里它们可以是异构的;且过去联邦数据库目的是并行计算、增加效率,但现在数据本身属于不同的属主,所以需要做加密情况下保护隐私的计算。最后,杨强谈到了联邦学习在金融领域的应用。除了推荐系统,联邦学习也可以在征信系统和信贷业务上发挥作用,银行提供用户贷款的关键数据,合作方提供企业的交易数据,两方数据后联邦可让坏账率大幅降低。在保险业,则可以让不同的保险公司可以横向联邦,更好地建立个性化定价模型。平安集团首席科学家肖京:1%的效率提升,100亿的价值创造紧接着,平安集团首席科学家肖京博士上台发表演讲。肖京博士长期从事人工智能与大数据分析挖掘相关领域研究,目前主持平安集团的AI赋能与技术创新工作,包括智能化大数据分析等技术在金融、医疗、智慧城市等领域的研发和应用。他曾经指出,运营上1%的效率提升,就可以给平安集团带来100亿的价值——全集团180多万员工,每一点效率的提高带来的收益都十分明显。现场,肖京以「人工智能赋能金融业务」为主题,同与会者进行了分享讨论。他指出,金融市场目前面临越来越多的挑战和诉求,随着监管趋严,互联网和高科技企业、传统银行等金融机构的竞争愈加激烈;未来银行不管在体制还是技术上,都会更加开放,同时,金融机构的投融结合将成为明显的发展趋势,平安的经营管理也将逐渐向混业经营、精细化、轻资产化转变。肖京博士分享称,线上化和多线联动使平安集团实现渠道的实时触达,起到降本增效的目的;而智能化、尤其是AI技术的研发及应用,让集团真正实现数字化经营,形成业务生产和服务流程的重构。肖京认为,技术要和业务紧密结合,不光要形成具体解决业务问题的智能化方案和平台,更要形成规模化拓展AI应用的能力,覆盖各类场景,快速有效地实现业务环节的智能化,持续夯实关键技术和业务壁垒。他还透露,现阶段平安主要在进行智能化业务方案中台的建设,将技术与业务深度融合,抽象浓缩成中台组件,帮助业务快速组建前端服务机器人,将AI算法应用于不同的业务场景。“平安脑”智能引擎作为其核心框架,高效赋能集团各业务单位完善智能化建设。在此之前,平安前后花费了近一年时间,打通了集团内部的数据孤岛,整合到一个平台上,并建立了自动更新及质量控制机制,对原始数据自动化进行脱敏、整合、清洗、标准化等处理,并对这部分数据采取严格保密管理,建立有关数据安全、隐私保护的管理规范。此外,肖京博士也谈到了联邦学习技术。平安已经推出蜂巢联邦智能平台,以解决“数据孤岛”情况下数据不可共用的问题,平台具有安全性、隐私性、合法性的特点,目前已应用于动态保险定价、专属语音客服等多个场景。同时肖京也提到,联邦学习需要加密、分布部署、改变模型等具体细节,在沟通、开发、部署等各方面成本都较高,只有在必需的场合,平安才会使用联邦学习技术。在此次大会上,肖博士详细分享了不少平安的人工智能技术应用,比如多模态身份认证,准确率高、稳定性优、适用范围广,已应用于普惠小额贷款、银行保险账户开户、门禁等多个场景,通过微表情、人脸识别等技术提升平安普惠的放贷效率,将放款时间缩短至3分钟,违约率也大幅下降;平安的企业大数据知识图谱欧拉图谱,构建了专业的债券违约、财务造假、企业评级等多个模型,实现贷前贷中贷后、投前投中投后等业务领域的风险管理,预警防控企业金融风险;平安的图像识别技术也已经在车险理赔中发挥重要作用,其应用不仅可以在理赔早期就识别出欺诈的风险,每年减少几十亿元的风险渗透,还提升了业务效率,优化用户体验。京东数字科技集团副总裁程建波:AI时代下的风控理念随后,京东数字科技集团副总裁、风险管理中心总经理程建波,深入讲述了AI在风险管理中的应用实践。程建波先生先后就职于深发展银行、华夏银行、FICO等机构,具备传统金融与互联网跨行业经验,对行业有广泛和深入的了解,业务实践经验丰富。2014年8月,程建波加入京东,组建京东金融风险管理团队,推进了京东白条、金条等系列有行业影响力的产品的发展。他分享了很多颇具建设性的风控思路和理念。风险不仅是控制,更是主动选择的经营管理。管理风险意味着机遇。风险管理做的好不仅可以止损,还可以带来很多的商业机会。好的风险管理不是滞后的,而会更具有前瞻性。学习的过程是终生的,更需要预见式,而不是反应式。在大会现场,程建波首先和与会嘉宾分享了京东数科的三个阶段:数字金融、金融科技、数字科技。三个阶段里,不变的核心是一直将数字当作基因,不做和数字无关的业务。程建波强调新的技术一定要放在商业实践当中反复打磨,尤其是在线上业务中,风险管理的模式和传统相比有很大差别,虽然依然在解决一些老问题,比如信息不对称、如何了解用户、如何让大家理解产品并且使用。但是新的风控模式已经打破了以前的路径,企业仍需要做很多促进消费者理解的工作。此外,程建波认为有体系的产品建设十分重要。当技术积累到一定程度,比如微众银行建造的模型高达60个,最大的挑战是庞大的技术团队如何管理,比如平安的业务很大,1%的变动,就是几万亿的规模。这不再是单纯技术的问题,还需要构建一个复杂的框架体系,并且需要多团队联合作战。关于风控,程建波也向与会嘉宾分享了许多自己多年来的实践经验和思考。他认为风险一定是滞后的。如何在风险不断裂变的情况下更快速地预测用户的风险等级,对于风险管理人员来说是非常重要的,需要更多的技术储备。程建波还十分重视人才的培养和建设。他认为所有新兴的商业,对人才的要求都是全方位的,第一是和策略相关的专家,第二是AI科学家,第三是大数据的专家。原摩根大通执行董事黄又钢: 小微贷款风控模型中的算法探索第四位演讲嘉宾,是华尔街知名建模和风控专家黄又钢。他曾任摩根大通执行董事和花旗银行高级副总裁,拥有数十年的海外零售银行数据分析经验和前沿算法思维,今年回国与金融界顶尖技术大牛王强博士联合创立了弘犀智能科技有限公司,出任首席风控官。以《小微贷款风控模型中的算法探索》为主题,黄又钢和嘉宾及与会朋友们分享了自己在风控实践中的一些心得体会。黄又钢认为,中小微企业解决了国家80%的就业,这些企业的生存和贷款需求问题是需要关心和全力解决。但和上市的公司相比,这类企业信息透露不够充分,数据来源纷杂,数据格式不标准,数据更新周期不稳定,导致面向中小微企业的信贷产品难度更高。中小微企业信用贷款是一个世界性的难题,除了有国家层面的政策扶助,更需要顶尖人才的智慧和付出。在现场,黄又钢主要介绍了集成算法,降维算法、聚类算法和决策树算法。他指出,现在弘犀智能建任何模型一定是“双轨模型”, 即两个算法同时进行。主模型是传统模型回归算法,挑战者模型是机器学习算法。无论在美国还是中国,经典风控领域全都是以回归模型为主导,原因在于稳定性好,可解释性非常强。机器学习由于很难被解释,在美国的信贷场景基本不能合规落地。黄又钢解释了实操“双轨”建模中的几大过程:一是预测能力的比较; 二是变量维度的判断;三是对比同一个观测值,如何交叉使用;四是策略应用,即如何使用这个模型。通过模型、变量、维度和个体等层面的比较,他给出了机器学习相较于传统模型的优劣性分析,表示机器学习在准确性等方面比传统模型要好,没有概念和业务场景的限制;当回归模型与机器学习的结果冲突,适当配置后端策略是可以解决这样的问题。黄又钢指出人群分类在建模中的重要性,任何人群中都有可能包含不同的子群体。如果仅在全局人群上建一个模型、一条回归线很难解决所有问题,而将人群分类后做独立测试可能会更好地预测风险。决策树算法和聚类算法是人群分类中经常用到的算法,前者用树的方法把人群分为多个叶子,每个叶子表示一个子人群;从机器学习角度来看,决策树算法和聚类算法分别代表有监督学习和无监督学习。他认为,人群分类的概念听起来非常简单,实际操作相当复杂的。最终结果的评判标准一般是两个方面,一是算法层面的比较,二是预测准确性层面,特指各子人群模型汇总到全局人群上的预测准确性。黄又钢还分享了算法探索与创新方面有两个思路:一是单一的算法,从数学角度和(或)计算机角度,产生新的突破;二是两种(或多种)算法的相互嵌入和混搭形成新的算法。从实际应用的层面,“匹配”可能会更快地实现突破, 即现成的算法匹配特定的人群和特定的特征,就可能产生非常成功的应用,比如CNN算法在图像识别上的应用效果就是一个事例。他最后总结称,未来的方向是“算法+人群+特征”,也即,算法的突破,人群的细分,数据的深挖,及相互之间适当的匹配都可能产生革命性的突破。移卡集团副总裁奚少杰:支付企业的商业全链数字化赋能逻辑随后演讲的嘉宾,是移卡集团副总裁奚少杰。移卡是中国第二大二维码支付的服务提供商,有14%的二维码支付市场份额。截止2019年12月31号,移卡有530万的活跃支付商户,触达3.68亿消费者。作为移卡集团副总裁,奚少杰专注于中小微企业的数字化转型和商业服务,他本人也曾在腾讯任职多年,有着丰富的互联网和金融科技从业经验。现场,奚少杰为与会者带来了题为《数字化转型下的金融科技应用》的主题演讲。奚少杰首先叙述了第三方支付的发展历程,并认为简单的支付入口,比如二维码,已经不能满足整体的数字化升级的需求,他提出未来几年“产业支付”将驱动行业迎来新的一波发展。从技术角度(需求端和供给端)和宏观角度,奚少杰详细介绍了产业数字化升级的趋势,目前移卡不仅仅是单一的支付服务商,还逐步会成为综合的数字化服务商。这个服务不仅仅包括支付环节,还包括获客、留存、供应链等商户经营全链条的打通。奚少杰向与会者介绍,目前移卡也给商户提供了很多不同业务板块,包括基于SaaS的智能餐饮经营管理平台——智掌柜,涵盖点餐、收银、后厨管理、外卖、会员营销、营业报表等一体化功能,提高商家经营效率;基于区块链技术的商户优惠券聚合平台“约惠圈”,可以为商户提供优惠券创建、分发、领取、分享获客服务,助力商家打造私有流量池;支付和商户服务“好生意”,通过连接多种支付方式,帮助商户实现集中收银和一体化账单功能,同时为商家提供店铺管理功能,布局商户服务。在金融服务和风险管理方面,移卡在提供支付服务的过程中,结合了人脸识别等生物识别技术,这些技术在支付过程中为客户的风控、反欺诈、精准定位方面发挥了很大作用。在智能经营管理中,企业如何切入其中并为商家提供服务?奚少杰举例称,与商户合作时,可借助基于AI视觉识别的门店热力分析技术关注店铺的热点区域、到店客人的行为、商品陈列等与营业情况的关系,以帮助商户更好地管理会员、经营店铺。基于积累的数据,移卡还可以给商户提供精准的营销服务,提供客户留存、会员留存等服务;基于对商家的精准评估,可以提供贷款等金融产品的服务。普林斯顿大学教授范剑青:站在最高维,透视AI金融的运行本质本次专场的最后一位重量级嘉宾,是普林斯顿大学金融讲座教授范剑青。他是国际数理统计学会创办70年以来第一位华人主席,论文引用数多年位列世界数学家前十名,是素有统计学诺贝尔奖之称的CPOSS总统奖得主,也是《计量经济》、《商务统计》、《统计年鉴》等五个国际顶尖杂志的主编。在大洋彼岸的范教授,通过实时连线的方式,以“机器是怎么学习金融的”为主题,带来了长达1个小时的精彩报告。他从大数据与人工智能、稳健因子学习及其应用、债券风险溢价预测、高频交易预测,文本分析与金融投资,这五个板块向大家报告近年来他的研究团队的部分工作成果。在范剑青看来,人工智能是机器学习的平方,让机器自动学习机器算法、是机器学习的理想境界。而大数据赋能AI,从大数据相关的科学挑战衍生的新兴科学即为数据科学,他认为数据科学以应用为背景,其目的是想把大数据解决成智慧数据。他指出,大数据=系统+分析+应用,机器学习=统计+优化+实现环境。如今深度学习之所以能如此成功,范剑青认为它是权衡偏差和方差的有效方法,深度网络使高维函数更加灵活,而现在计算技术使大数据深度学习得到有效的实现。范剑青认为,在经济金融、生物医学、管理决策和人文社会中,机器学习有很多挑战和机遇。由于个体差异大,数据集未知,现在发生的事情与几年后的变量完全不一样,难以提取特征,需要各学科交叉。尤其是在金融行业,数据不平稳,随着时间而变,多人参与竞争的市场也是对金融的挑战。而机器学习本身就是为降低维数和预测而设计的,他认为机器能学习金融,尽管金融非常复杂,但它的形式是可预测的。以股票收益预测为例,可以通过高维线性模型、机器学习模型或是深度学习模型来处理。他强调,成功预测的属性一是大数据,二是鲁棒,三是模型具备市场的重要特征。他还详尽地用几个例子来说明溢价预测相关的问题,例如通过市场因子来预测债券风险;并介绍了现阶段可以使用的两种因子学习方法,一是传统主成分方法,二是利用投影主成分来操作。此外,范剑青也与现场观众介绍了文本数据如何协助股票投资决策,他表示现在可以通过对新闻内容的分析,解析文章对股票的褒贬程度。最后,范剑青总结称,资产定价本质上是预测问题,机器可以学习金融。他认为机器学习可以帮助处理大数据并从中选择重要因素和特征,能很好地应对过度拟合的问题,允许非线性学习极大地改善预测效果,将稳健性和对抗性网络提炼为定价,智能预测也会带来很大的经济收益。历届「AI金融专场」,均会吸引中国及欧美地区众多AI金融专家到场。在上一届论坛中,加拿大工程院院士、Citadel首席人工智能官邓力博士,加拿大工程院院士凌晓峰教授等多位重量级人物来到现场学习交流。杨强和黄铠在会场热切交流而在今年,包括黄铠、刘江川、王强等十多位IEEE Fellow以及各大金融机构的首席信息官/科学家来到现场,共同促进AI金融的产学融合与商业应用。(雷锋网雷锋网)黄铠教授在AI金融论坛的现场