数字经济是未来发展方向。近年来,随着科技的不断发展,数字经济逐渐成为经济社会可持续发展的新引擎。面对这一趋势,小水滴平台在大数据平台建设的基础上,积极探索前沿技术、核心算法、加快大数据、人工智能服务等技术应用布局,推动线上线下融合发展,对业务发展的支撑和服务能力得到跨越式发展。 大数据技术是重中之重,大数据的算法、模型逻辑、技术和行业规制是创新的核心竞争力。大数据催生了市场新场景,线上经营模式日趋成熟,实现了服务场景的无缝对接。 小水滴工作室是以金融互联网为一体的大数据平台。团队成员大多从各大高校中精挑细选而来。是一群有理想,有能力有梦想的年轻人。他们在这里筑梦,刚毅是他们的性格,用梦想武装自己,在实践中锻炼自己,每天进步一点是他们不懈的目标,目前管理高层54人,中级管理146人。 目前经营稳定,在小水滴的环境中收益匪浅。团队技术平台目前有稳定的大数据支撑,专业的数据分析小组,对各大数据均有统计分析,加上公司发展以人为主,客服更是一对一服务到位,小水滴的平台人数越来越多,增幅也越来越快,使得小水滴在众多竞品公司中脱颖而出,稳稳占据行业龙头位置。 小水滴平台有执行力,有公信力,有影响力并且充满快乐的团队,这么久以来,秉承客户第一,服务至上。始终保持着让跟着团队成长收获,也让团队慢慢壮大,发展为现在的规模! 基于互联网、基于大数据的应用让小水滴后期的增长保持了较高的增长速度,这一趋势在未来会越来越明显。大数据算法的创新带来盈利模式的快速发展,助力让小水滴平台能够快速盈利,在实现单点盈利后迅速复制扩展业务。
记者获悉,算法交易服务商卡方科技今日宣布获得数千万元B轮融资,由广发信德领投,老股东华盖资本跟投,由义柏资本担任独家财务顾问。卡方科技联合创始人郑盛表示,本轮融资将用于进一步的研发投入及人才引进。 公开资料显示,卡方科技曾于2019年12月获得华盖资本领投、铭笙资本跟投的A轮融资,此前获得明势资本的Pre-A轮融资及珠池资产的天使轮融资。 卡方科技成立于2017年,以算法交易执行切入量化交易领域。算法交易执行旨在订单执行过程中根据数学模型、统计数据、市场实时信息等多方面的信息通过预先设计好的算法进行下单。卡方科技拥有完全自主知识产权的交易服务平台ATGO,为客户提供算法交易策略和量化投资的整体解决方案,从而起到降低交易成本、提高交易效率的效果。 算法交易的发展与量化投资的兴起密不可分,计算机算力的提升及机器学习、自然语言处理等技术的发展推动了算法交易的落地与应用。Preqin发布的2019Q3对冲基金报告显示,Top10海外对冲基金机构中,70%为量化类管理人。中国的量化基金规模也在不断增加,2019年达到4570亿元,近三年的规模平均年复合增长率达到24%。同时,许多传统机构也转向量化/半量化或发展其量化投资能力。目前,我国股票算法交易约占股市总交易量的20-30%,与国外成熟市场75%以上的占比相比,有很大的增长空间。 据郑盛介绍,卡方科技的算法在交易成功率和交易速度等核心指标上表现优异,同时卡方科技也开始打造综合的全业务量化交易平台,满足客户在风控、交易、数据、系统等多方面的交易需求。卡方科技的ATGO客户端2.0版本经过2年时间打磨,于今年6月正式上线。依托客户端功能的迭代,卡方科技的产品和业务的进展如下: 卡方科技的主营业务为股票类业务,品类由中国大陆股票拓展至美股、港股等境外市场。除了股票业务算法,卡方科技还投入研发期权、期货及其他衍生品的算法,目前期权、期货算法已投入使用。 伴随业务类型的拓展,卡方科技的客群由私募资金为主转变为包括私募基金、券商、上市公司、高净值人群在内的综合客群。具体来说,在证券领域,卡方科技布局逐渐完善,目前已进入近三十家券商采购目录;在上市公司方面,除了帮助对冲资金提供智能交易算法,卡方科技还为上市公司股东提供合规减持股票的算法,避免市场监控风险以及冲击成本带来的价差。 具体产品方面,在算法产品之外,卡方科技计划于今年下半年及明年推出数据产品线、风控产品线、资管产品线等,希望通过自研和合作结合的方式打造开放的生态链。 郑盛还向36氪介绍了卡方科技的商业模式。他表示,卡方科技通过费用与算法效果及使用规模挂钩,打开付费天花板,目前年营收达数千万元,近几年实现数倍增长。 团队方面,目前卡方科技团队共约60人,研发人员占75%。创始人陆洋毕业于中国科学技术大学物理系,曾任职于北美对冲基金LaurionCapital;创始人郑盛毕业于长江商学院金融MBA,负责管理市场运营团队。成立至今,卡方科技迎来多位业内人士加盟,2019年原恒生电子资管事业部副总经理何剑勇出任CEO,2020年初原恒生电子研究院研发部门经理金基东出任CTO,近日上海贵酒股份有限公司CFO孙瑶女士出任财务总监。 未来,卡方科技希望继续打磨算法,将算法业务做精做深,并积极拓展产品品类。本轮融资的领投机构广发信德也将凭借金融背景和投资经验为卡方科技带来更多业务支持。 投资方观点 广发信德投资总监张和表示: “金融科技及服务是广发信德持续重点投资的方向。在资管领域,我们深入关注并努力把握其结构性变化和机遇。伴随政策的完善和金融市场的成熟,国内市场将呈现交易智能化、散户机构化、参与者全球化和交易策略由主观转量化等趋势,国内的量化投资和算法交易呈较大的上升空间。卡方致力于为机构投资者提供交易执行环节的算法交易,有效降低交易中的冲击成本,提高交易执行的效率。我们认为卡方团队的专业能力、视野和背景,很好地契合了这一历史发展机遇,能够在其中大展宏图,並结出丰硕的果实。广发信德很荣幸能够参与卡方科技的此次投资,并完全相信双方的合作将达致双赢的愿景!” 华盖资本TMT基金合伙人王宝华表示: “量化投资是中国资管行业增长最快的领域之一,也是华盖资本长期关注的赛道。卡方科技运用人工智能技术不断优化算法,满足了行业和客户对交易执行的刚需,有助于改变我国资本市场交易技术落后于海外发达市场的局面。” 义柏资本创始合伙人侯杰超表示: “义柏长期关注技术对各行业的赋能。金融科技领域,我们看好资管和量化的发展。卡方对产品和技术极致的追求、极佳的用户口碑和卓越的团队在我们见过的公司中独树一帜,我们期待卡方成为推动中国资管行业进步的重要力量。” 相关阅读 为金融机构提供算法交易执行方案,「卡方科技」获华盖资本领投数千万元A轮融资 36氪首发 | 获明势资本 Pre-A 轮融资,「卡方科技」为金融机构提供算法交易执行方案
近日,一篇名为《外卖骑手,困在系统里》《外卖骑手 困在系统里》原文的文章在朋友圈刷屏,文章称在外卖平台智能算法的深度学习下,外卖骑手送餐的时间被平台逐渐压缩。 人们一边因“共情”而转发分享,一边又不禁思考:外卖平台运用的“算法”是什么操作?外卖骑手的安全如何保障?我们引以为豪的算法如何不再冰冷、更有温度? 1 平台是怎样利用“算法”计算时间的? 随着互联网和外卖行业的发展,算法被用在送外卖上。为了让用户体验更佳,很多平台都从“人工抢单模式”变为了“系统派单模式”,并预估了配送时间,这个过程我们也称之为“外卖履约时间预估”。 为了便于理解,我们举几个简单的例子。 比如,餐厅和骑手的“配合”问题。餐厅的备餐、骑手的取餐和送餐都需要时间。然而如何把这几个时间段更好地配合在一起?平台需要从中协调用户、餐厅、骑手并兼顾配送效率。 ▲订单在平台流转的过程示意图。图片来源:阿里技术▲订单在平台流转的过程示意图。图片来源:阿里技术 再比如,订单指派与路径规划。订单指派是指将订单分给附近合适的骑手,而路径规划是指给骑手推荐合理的取送路径,此路径需要同时考虑骑手配送距离和订单超时风险。以上还没有考虑一些特殊情况,如交通、天气状况等。 另外,还有供需关系的动态影响。很多用户应该都能注意到,平时半个小时能送到的外卖,在中午、晚间的用餐高峰时段,配送时间会大大增加。针对这种供需变化,很多平台构造了基于时段的供需比和完成率等特征。当供需比越高时,履约时间会越长。 ▲一天中外卖履约时间预估(OFCT)的变化(蓝色线代表工作日,黄色线代表周末)。图片来源:阿里技术▲一天中外卖履约时间预估(OFCT)的变化(蓝色线代表工作日,黄色线代表周末)。图片来源:阿里技术 算法所触及的远不止这些,经过长时间的“打磨”,各大平台的外卖配送机制日趋成熟。这种配送机制提高了资源利用的效率,也让用户更快吃到一口热乎饭。 但它真的一点问题没有吗? 2 有了智能导航,外卖骑手为何还疯狂冲卡? 对于外卖骑手的送餐路,外卖平台不是没有花过心思。 无论是美团外卖的“超脑”系统还是饿了么的“方舟”系统,无不号称通过大数据调配,实现高峰时期外卖也可在半小时内送达。 根据相关报道,通过智能系统智能配单和路线指导,美团平均配送时长从41分钟缩短至30分钟,饿了么平均每单配送时长已经缩短至28分36秒。 ▲美团“超脑”系统▲美团“超脑”系统 平台导航不考虑绕路和等待红绿灯、导航指示骑手逆行,甚至是引导“穿墙而过”,再加上无法预计的商家出餐慢、高峰时长时间等待电梯……这一切因素都逼迫着外卖员压缩路上的送餐时间。 正是这个时不时不智能的“智能路线”导航,加上平台的超时惩罚,逼迫着外卖骑手在“安全”和“准时”间不断博弈。 一位骑手在知乎上谈到由算法造成的送单压力: 系统会给骑手派同一个方向的不同单子,因为顺路,一切正常的话成功送完问题不大,但里面有很多不可控的因素:点餐高峰时间,可能遇到其中一个商家到点没出餐;多个消费者都住在高层,等电梯耗时长;若联系不到消费者一般会先等3~5分钟,等不到会先离开,但后续联系到了还要回去再送…… 而“所有客户的问题,商家的问题,骑手配送的问题以及大多数意外情况,都要骑手来负责,异常数据要罚骑手的钱。” 可见,单纯依靠算法和智能导航并不能完全解决外卖骑手遇到的一系列问题。“系统是死的,但制定系统和游戏规则的人是活的!”面对外卖骑手遇到的种种问题,网民发出了这样的感慨。 3 到底谁该为“消失的时间”买单? 9月9日凌晨,饿了么通过官方微博宣布,将于近期发布两个新功能:一是在结算付款时增加“愿意多等5分钟/10分钟”的自主小按钮,消费者可以选择也可以不选择。饿了么会为按下按钮的消费者提供红包或吃货豆等权益;二是针对历史信用好、服务好的蓝骑士提供个别订单的“超时免责”权益。 回应一出,立刻引发网友热议。一些网友表示支持,如果多等5分钟,能够让外卖员遵守交通规则,确实值得。 但也有很多的网友觉得明明是平台机制的问题,企业却把矛盾转移给了消费者,让步的应该是平台,而不应该由消费者买单。 在“互联网+”浪潮下,餐饮外卖蓬勃发展尤为引人注目。数据显示,截至2019年底,中国外卖市场规模超6500亿元,覆盖4.6亿消费者。 对企业来说,商业有时是责任和利益的平衡,以及如何倾斜的选择。面对如此庞大的消费群体,外卖平台应该在配送效率、消费者感受、外卖小哥安全之中求得一个平衡点和公约数,不应偏废,整个行业更不能为了一味追求效率而忽视从业者的安全,否则也会危及长远的发展。 其实,在这个高速运转和发展的社会里,不只是外卖小哥困在系统里,也不只是外卖员是高危群体。要想让行业变得不高危,也需要适当慢下来,更需要规则的完善、法律的保障。刹车其实比油门重要。 算法是冰冷的,如何给冰冷的算法注入人文关怀,是我们应该思考的方向。
2020年是不寻常的一年,全球的健康、贸易、经济、文化、政治和科技领域,无不发生着深刻的变化。笔者所在的科技领域,也恰逢现代人工智能(简称AI)发展10周年。前10年,人工智能技术得到了长足的发展,但也留下许多问题有待解决。那么,未来AI技术将会如何发展呢?本文将结合学术界、工业界的研究成果,以及笔者个人研究见解,从算力、数据、算法、工程化4个维度,与读者一起探索和展望AI发展的未来。 一 数据 我们首先分析数据的发展趋势。数据对人工智能,犹如食材对美味菜肴,过去10年,数据的获取无论是数量,还是质量,又或者是数据的种类,均增长显著,支撑着AI技术的发展。未来,数据层面的发展会有哪些趋势呢,我们来看一组分析数据。 首先,世界互联网用户的基数已达到十亿量级,随着物联网、5G技术的进一步发展,会带来更多数据源和传输层面的能力提升,因此可以预见的是,数据的总量将继续快速发展,且增速加快。参考IDC的数据报告(图1),数据总量预计将从2018年的33ZB(1ZB=106GB),增长到2025年的175ZB。 其次,数据的存储位置,业界预测仍将以集中存储为主,且数据利用公有云存储的比例将逐年提高,如图2、图3所示。 以上对于未来数据的趋势,可以总结为:数量持续增长;云端集中存储为主;公有云渗透率持续增长。站在AI技术的角度,可以预期数据量的持续供给是有保证的。 另一个方面,AI技术需要的不仅仅是原始数据,很多还需要标注数据。标注数据可分为自动标注、半自动标注、人工标注3个类别。 那么,标注数据未来的趋势会是怎样的? 我们可从标注数据工具市场的趋势窥探一二,如图4所示。可以看到,人工标注数据在未来的5-10年内,大概率依然是标注数据的主要来源,占比超过75%。 通过以上数据维度的分析与预测,我们可以得到的判断是,数据量本身不会限制AI技术,但是人工标注的成本与规模很可能成为限制AI技术发展的因素,这将倒逼AI技术从算法和技术本身有所突破,有效解决对数据特别是人工标注数据的依赖。 二 算力 我们再来看看算力。算力对于AI技术,如同厨房灶台对于美味佳肴一样,本质是一种基础设施的支撑。 算力指的是实现AI系统所需要的硬件计算能力。半导体计算类芯片的发展是AI算力的根本源动力,好消息是,虽然半导体行业发展有起有落,并一直伴随着是否可持续性的怀疑,但是半导体行业著名的“摩尔定律”已经经受住了120年考验(图5),相信未来5-10年依然能够平稳发展。 不过,值得注意的是,摩尔定律在计算芯片领域依然维持,很大原因是因为图形处理器(GPU)的迅速发展,弥补了通用处理器(CPU)发展的趋缓,如图6所示,从图中可以看出GPU的晶体管数量增长已超过CPU,CPU晶体管开始落后于摩尔定律。 当然,半导体晶体管数量反映整体趋势可以,但还不够准确地反映算力发展情况。对于AI系统来说,浮点运算和内存是更直接的算力指标,下面具体对比一下GPU和CPU这2方面的性能,如图7所示。可以看出,GPU无论是在计算能力还是在内存访问速度上,近10年发展远超CPU,很好的填补了CPU的性能发展瓶颈问题。 另一方面,依照前瞻产业研究院梳理的数据,就2019年的AI芯片收入规模来看,GPU芯片拥有27%左右的份额,CPU芯片仅占17%的份额。可以看到,GPU已成为由深度学习技术为代表的人工智能领域的硬件计算标准配置,形成的原因也十分简单,现有的AI算法,尤其在模型训练阶段,对算力的需求持续增加,而GPU算力恰好比CPU要强很多,同时是一种与AI算法模型本身耦合度很低的一种通用计算设备。 除了GPU与CPU,其他计算设备如ASIC、FGPA等新兴AI芯片也在发展,值得行业关注。鉴于未来数据大概率仍在云端存储的情况下,这些芯片能否在提高性能效率的同时,保证通用性,且可以被云厂商规模性部署,获得软件生态的支持,有待进一步观察。 三 算法 现在我们来分析算法。AI算法对于人工智能,就是厨师与美味佳肴的关系。过去10年AI的发展,数据和算力都起到了很好的辅助作用,但是不可否认的是,基于深度学习的算法结合其应用取得的性能突破,是AI技术在2020年取得里程碑式发展阶段的重要原因。 那么,AI算法在未来的发展趋势是什么呢?这个问题是学术界、工业界集中讨论的核心问题之一,一个普遍的共识是,延续过去10年AI技术的发展,得益于深度学习,但是此路径发展带来的算力问题,较难持续。下面我们看一张图,以及一组数据: 1. 根据OpenAI最新的测算,训练一个大型AI模型的算力,从2012年开始计算已经翻了30万倍,即年平均增长11.5倍,而算力的硬件增长速率,即摩尔定律,只达到年平均增速1.4倍;另一方面,算法效率的进步,年平均节省约1.7倍的算力。这意味着,随着我们继续追求算法性能的不断提升,每年平均有约8.5倍的算力赤字,令人担忧。一个实际的例子为今年最新发布的自然语义预训练模型GPT-3,仅训练成本已达到约1300万美元,这种方式是否可持续,值得我们思考。 2. MIT最新研究表明,对于一个过参数化(即参数数量比训练数据样本多)的AI模型,满足一个理论上限公式: 上述公式表明,其算力需求在理想情况下,大于等于性能需求的4次方,从2012年至今的模型表现在ImageNet数据集上分析,现实情况是在9次方的水平上下浮动,意味着现有的算法研究和实现方法,在效率上有很大的优化空间。 3. 按以上数据测算,人工智能算法在图像分类任务(ImageNet)达到1%的错误率预计要花费1亿万亿(10的20次方)美元,成本不可承受。 结合前文所述的数据和算力2个维度的分析,相信读者可以发现,未来标注数据成本、算力成本的代价之高,意味着数据红利与算力红利正在逐渐消退,人工智能技术发展的核心驱动力未来将主要依靠算法层面的突破与创新。就目前最新的学术与工业界研究成果来看,笔者认为AI算法在未来的发展,可能具有以下特点: ?? (1)先验知识表示与深度学习的结合 纵观70多年的人工智能发展史,符号主义、连接主义、行为主义是人工智能发展初期形成的3个学术流派。如今,以深度学习为典型代表的连接主义事实成为过去10年的发展主流,行为主义则在强化学习领域获得重大突破,围棋大脑AlphaGo的成就已家喻户晓。 值得注意的是,原本独立发展的3个学派,正在开始以深度学习为主线的技术融合,比如在2013年,强化学习领域发明了DQN网络,其中采用了神经网络,开启了一个新的研究领域称作深度强化学习(Deep Reinforcement Learning)。 那么,符号主义类算法是否也会和深度学习进行融合呢?一个热门候选是图网络(Graph Network)技术,这项技术正在与深度学习技术相融合,形成深度图网络研究领域。图网络的数据结构易于表达人类的先验知识,且是一种更加通用、推理能力更强(又称归纳偏置)的信息表达方法,这或许是可同时解决深度学习模型数据饥渴、推理能力不足以及输出结果可解释性不足的一把钥匙。 (2)模型结构借鉴生物科学 深度学习模型的模型结构由前反馈和反向传播构成,与生物神经网络相比,模型的结构过于简单。深度学习模型结构是否可以从生物科学、生物神经科学的进步和发现中吸取灵感,从而发现更加优秀的模型是一个值得关注的领域。另一个方面,如何给深度学习模型加入不确定性的参数建模,使其更好的处理随机不确定性,也是一个可能产生突破的领域。 (3)数据生成 AI模型训练依赖数据,这一点目前来看不是问题,但是AI模型训练依赖人工标注数据,是一个头痛的问题。利用算法有效解决或者大幅降低模型训练对于人工标注数据的依赖,是一个热点研究领域。实际上,在人工智能技术发展过程中一直若隐若现的美国国防部高级研究计划局(DARPA),已经将此领域定为其AI3.0发展计划目标之一,可见其重要程度。 (4)模型自评估 现有的AI算法,无论是机器学习算法,还是深度学习算法,其研发模式本质上是通过训练闭环(closed loop)、推理开环(open loop)的方式进行的。是否可以通过设计模型自评估,在推理环节将开环系统进化成闭环系统也是一个值得研究的领域。在通信领域,控制领域等其他行业领域的大量算法实践表明,采用闭环算法的系统在性能和输出可预测性上,通常均比开环系统优秀,且闭环系统可大幅降低性能断崖式衰减的可能性。闭环系统的这些特性,提供了对AI系统提高鲁棒性和可对抗性的一种思路和方法。 四 工程化 上文已经对人工智能数据、算力、算法层面进行了梳理和分析,最后我们看看工程化。工程化对于人工智能,如同厨具对于美味佳肴一样,是将数据、算力、算法结合到一起的媒介。 工程化的本质作用是提升效率,即最大化利用资源,最小化减少信息之间的转换损失。打一个简单的比喻,要做出美味佳肴,食材、厨房灶台、厨师都有,但是唯独没有合适的厨具,那么厨师既无法发挥厨艺(算法),又无法处理食材(数据),也无法使用厨房灶台的水电气(算力)。因此,可以预见,工程化未来的发展,是将上文提到的算力与算法性能关系,从现在的9次方,逼近到理论上限4次方的重要手段之一。 过去10年,AI工程化发展,已形成一个明晰的工具链体系,近期也伴随着一些值得关注的变化,笔者将一些较为明显的趋势,汇总如下: 总结来说,AI工程化正在形成从用户端到云端的,以Python为编程语言的一整套工具链,其3个重要的特点为:远程编程与调试,深度学习与机器学习的GPU加速支持,以及模型训练与推理工具链的解耦。与此同时,产业链上游厂商对开源社区的大量投入,将为中下游企业和个人带来工具链的技术红利,降低其研发门槛和成本,笔者认为微软、脸书、英伟达3家上游厂商主推的开源工具链尤其值得关注。 五 结语 对于人工智能技术过去10年发展取得的成就,有人归因于数据,也有人归因于算力。未来人工智能技术发展,笔者大胆预测,算法将是核心驱动力。同时,算法研发的实际效率,除了算法结构本身,还取决于设计者对先进工具链的掌握程度。 未来10年,科技界是否能用更少的数据,更经济的算力,获得真正意义上的通用智能呢?我们拭目以待。
2020年是不寻常的一年,全球的健康、贸易、经济、文化、政治和科技领域,无不发生着深刻的变化。笔者所在的科技领域,也恰逢现代人工智能(简称AI)发展10周年。前10年,人工智能技术得到了长足的发展,但也留下许多问题有待解决。那么,未来AI技术将会如何发展呢?本文将结合学术界、工业界的研究成果,以及笔者个人研究见解,从算力、数据、算法、工程化4个维度,与读者一起探索和展望AI发展的未来。一数据我们首先分析数据的发展趋势。数据对人工智能,犹如食材对美味菜肴,过去10年,数据的获取无论是数量,还是质量,又或者是数据的种类,均增长显著,支撑着AI技术的发展。未来,数据层面的发展会有哪些趋势呢,我们来看一组分析数据。首先,世界互联网用户的基数已达到十亿量级,随着物联网、5G技术的进一步发展,会带来更多数据源和传输层面的能力提升,因此可以预见的是,数据的总量将继续快速发展,且增速加快。参考IDC的数据报告(图1),数据总量预计将从2018年的33ZB(1ZB=106GB),增长到2025年的175ZB。其次,数据的存储位置,业界预测仍将以集中存储为主,且数据利用公有云存储的比例将逐年提高,如图2、图3所示。以上对于未来数据的趋势,可以总结为:数量持续增长;云端集中存储为主;公有云渗透率持续增长。站在AI技术的角度,可以预期数据量的持续供给是有保证的。另一个方面,AI技术需要的不仅仅是原始数据,很多还需要标注数据。标注数据可分为自动标注、半自动标注、人工标注3个类别。那么,标注数据未来的趋势会是怎样的?我们可从标注数据工具市场的趋势窥探一二,如图4所示。可以看到,人工标注数据在未来的5-10年内,大概率依然是标注数据的主要来源,占比超过75%。通过以上数据维度的分析与预测,我们可以得到的判断是,数据量本身不会限制AI技术,但是人工标注的成本与规模很可能成为限制AI技术发展的因素,这将倒逼AI技术从算法和技术本身有所突破,有效解决对数据特别是人工标注数据的依赖。二算力我们再来看看算力。算力对于AI技术,如同厨房灶台对于美味佳肴一样,本质是一种基础设施的支撑。算力指的是实现AI系统所需要的硬件计算能力。半导体计算类芯片的发展是AI算力的根本源动力,好消息是,虽然半导体行业发展有起有落,并一直伴随着是否可持续性的怀疑,但是半导体行业著名的“摩尔定律”已经经受住了120年考验(图5),相信未来5-10年依然能够平稳发展。不过,值得注意的是,摩尔定律在计算芯片领域依然维持,很大原因是因为图形处理器(GPU)的迅速发展,弥补了通用处理器(CPU)发展的趋缓,如图6所示,从图中可以看出GPU的晶体管数量增长已超过CPU,CPU晶体管开始落后于摩尔定律。当然,半导体晶体管数量反映整体趋势可以,但还不够准确地反映算力发展情况。对于AI系统来说,浮点运算和内存是更直接的算力指标,下面具体对比一下GPU和CPU这2方面的性能,如图7所示。可以看出,GPU无论是在计算能力还是在内存访问速度上,近10年发展远超CPU,很好的填补了CPU的性能发展瓶颈问题。另一方面,依照前瞻产业研究院梳理的数据,就2019年的AI芯片收入规模来看,GPU芯片拥有27%左右的份额,CPU芯片仅占17%的份额。可以看到,GPU已成为由深度学习技术为代表的人工智能领域的硬件计算标准配置,形成的原因也十分简单,现有的AI算法,尤其在模型训练阶段,对算力的需求持续增加,而GPU算力恰好比CPU要强很多,同时是一种与AI算法模型本身耦合度很低的一种通用计算设备。除了GPU与CPU,其他计算设备如ASIC、FGPA等新兴AI芯片也在发展,值得行业关注。鉴于未来数据大概率仍在云端存储的情况下,这些芯片能否在提高性能效率的同时,保证通用性,且可以被云厂商规模性部署,获得软件生态的支持,有待进一步观察。三算法现在我们来分析算法。AI算法对于人工智能,就是厨师与美味佳肴的关系。过去10年AI的发展,数据和算力都起到了很好的辅助作用,但是不可否认的是,基于深度学习的算法结合其应用取得的性能突破,是AI技术在2020年取得里程碑式发展阶段的重要原因。那么,AI算法在未来的发展趋势是什么呢?这个问题是学术界、工业界集中讨论的核心问题之一,一个普遍的共识是,延续过去10年AI技术的发展,得益于深度学习,但是此路径发展带来的算力问题,较难持续。下面我们看一张图,以及一组数据:1. 根据OpenAI最新的测算,训练一个大型AI模型的算力,从2012年开始计算已经翻了30万倍,即年平均增长11.5倍,而算力的硬件增长速率,即摩尔定律,只达到年平均增速1.4倍;另一方面,算法效率的进步,年平均节省约1.7倍的算力。这意味着,随着我们继续追求算法性能的不断提升,每年平均有约8.5倍的算力赤字,令人担忧。一个实际的例子为今年最新发布的自然语义预训练模型GPT-3,仅训练成本已达到约1300万美元,这种方式是否可持续,值得我们思考。2. MIT最新研究表明,对于一个过参数化(即参数数量比训练数据样本多)的AI模型,满足一个理论上限公式:上述公式表明,其算力需求在理想情况下,大于等于性能需求的4次方,从2012年至今的模型表现在ImageNet数据集上分析,现实情况是在9次方的水平上下浮动,意味着现有的算法研究和实现方法,在效率上有很大的优化空间。3. 按以上数据测算,人工智能算法在图像分类任务(ImageNet)达到1%的错误率预计要花费1亿万亿(10的20次方)美元,成本不可承受。结合前文所述的数据和算力2个维度的分析,相信读者可以发现,未来标注数据成本、算力成本的代价之高,意味着数据红利与算力红利正在逐渐消退,人工智能技术发展的核心驱动力未来将主要依靠算法层面的突破与创新。就目前最新的学术与工业界研究成果来看,笔者认为AI算法在未来的发展,可能具有以下特点:(1)先验知识表示与深度学习的结合纵观70多年的人工智能发展史,符号主义、连接主义、行为主义是人工智能发展初期形成的3个学术流派。如今,以深度学习为典型代表的连接主义事实成为过去10年的发展主流,行为主义则在强化学习领域获得重大突破,围棋大脑AlphaGo的成就已家喻户晓。值得注意的是,原本独立发展的3个学派,正在开始以深度学习为主线的技术融合,比如在2013年,强化学习领域发明了DQN网络,其中采用了神经网络,开启了一个新的研究领域称作深度强化学习(Deep Reinforcement Learning)。那么,符号主义类算法是否也会和深度学习进行融合呢?一个热门候选是图网络(Graph Network)技术,这项技术正在与深度学习技术相融合,形成深度图网络研究领域。图网络的数据结构易于表达人类的先验知识,且是一种更加通用、推理能力更强(又称归纳偏置)的信息表达方法,这或许是可同时解决深度学习模型数据饥渴、推理能力不足以及输出结果可解释性不足的一把钥匙。(2)模型结构借鉴生物科学深度学习模型的模型结构由前反馈和反向传播构成,与生物神经网络相比,模型的结构过于简单。深度学习模型结构是否可以从生物科学、生物神经科学的进步和发现中吸取灵感,从而发现更加优秀的模型是一个值得关注的领域。另一个方面,如何给深度学习模型加入不确定性的参数建模,使其更好的处理随机不确定性,也是一个可能产生突破的领域。(3)数据生成AI模型训练依赖数据,这一点目前来看不是问题,但是AI模型训练依赖人工标注数据,是一个头痛的问题。利用算法有效解决或者大幅降低模型训练对于人工标注数据的依赖,是一个热点研究领域。实际上,在人工智能技术发展过程中一直若隐若现的美国国防部高级研究计划局(DARPA),已经将此领域定为其AI3.0发展计划目标之一,可见其重要程度。(4)模型自评估现有的AI算法,无论是机器学习算法,还是深度学习算法,其研发模式本质上是通过训练闭环(closed loop)、推理开环(open loop)的方式进行的。是否可以通过设计模型自评估,在推理环节将开环系统进化成闭环系统也是一个值得研究的领域。在通信领域,控制领域等其他行业领域的大量算法实践表明,采用闭环算法的系统在性能和输出可预测性上,通常均比开环系统优秀,且闭环系统可大幅降低性能断崖式衰减的可能性。闭环系统的这些特性,提供了对AI系统提高鲁棒性和可对抗性的一种思路和方法。四工程化上文已经对人工智能数据、算力、算法层面进行了梳理和分析,最后我们看看工程化。工程化对于人工智能,如同厨具对于美味佳肴一样,是将数据、算力、算法结合到一起的媒介。工程化的本质作用是提升效率,即最大化利用资源,最小化减少信息之间的转换损失。打一个简单的比喻,要做出美味佳肴,食材、厨房灶台、厨师都有,但是唯独没有合适的厨具,那么厨师既无法发挥厨艺(算法),又无法处理食材(数据),也无法使用厨房灶台的水电气(算力)。因此,可以预见,工程化未来的发展,是将上文提到的算力与算法性能关系,从现在的9次方,逼近到理论上限4次方的重要手段之一。过去10年,AI工程化发展,已形成一个明晰的工具链体系,近期也伴随着一些值得关注的变化,笔者将一些较为明显的趋势,汇总如下:总结来说,AI工程化正在形成从用户端到云端的,以Python为编程语言的一整套工具链,其3个重要的特点为:远程编程与调试,深度学习与机器学习的GPU加速支持,以及模型训练与推理工具链的解耦。与此同时,产业链上游厂商对开源社区的大量投入,将为中下游企业和个人带来工具链的技术红利,降低其研发门槛和成本,笔者认为微软、脸书、英伟达3家上游厂商主推的开源工具链尤其值得关注。五结语对于人工智能技术过去10年发展取得的成就,有人归因于数据,也有人归因于算力。未来人工智能技术发展,笔者大胆预测,算法将是核心驱动力。同时,算法研发的实际效率,除了算法结构本身,还取决于设计者对先进工具链的掌握程度。未来10年,科技界是否能用更少的数据,更经济的算力,获得真正意义上的通用智能呢?我们拭目以待。
2020年8月7日-9日,第五届CCF-GAIR全球人工智能与机器人峰会,于深圳隆重举办。此次峰会由中国计算机学会主办,雷锋网、香港中文大学(深圳)联合承办,鹏城实验室、深圳市人工智能与机器人研究院协办。在大会第三日的「AI金融专场」中,《AI金融评论》邀请了6位最具代表性的顶尖AI金融专家,分享能够代表未来10年风向的智能技术方法论、产品逻辑和风险管理理念;也在2020这个特别的时间节点上,展望他们眼中的「AI金融新十年」。华尔街知名建模和风控专家黄又钢参加了此次会议,他曾任摩根大通执行董事和花旗银行高级副总裁,拥有数十年的海外零售银行数据分析经验和前沿算法思维,今年回国与金融界顶尖技术大牛王强博士联合创立了弘犀智能科技有限公司,出任首席风控官。以《小微贷款风控模型中的算法探索》为主题,黄又钢和嘉宾及与会朋友们分享了自己在风控实践中的一些心得体会。黄又钢认为,中小微企业解决了国家80%的就业,这些企业的生存和贷款需求问题是需要关心和全力解决。但和上市的公司相比,这类企业信息透露不够充分,数据来源纷杂,数据格式不标准,数据更新周期不稳定,导致面向中小微企业的信贷产品难度更高。中小微企业信用贷款是一个世界性的难题,除了有国家层面的政策扶助,更需要顶尖人才的智慧和付出。在现场,黄又钢主要介绍了集成算法,降维算法、聚类算法和决策树算法。他指出,现在弘犀智能建任何模型一定是“双轨模型”, 即两个算法同时进行。此外,黄又钢还解释了实操“双轨”建模中的几大过程,详细讲述了人群分类在建模中的重要性,分享了算法探索与创新方面的两个思路。以下为黄又钢演讲全文,雷锋网AI金融评论做了不改变原意的整理(关注《AI金融评论》公众号,发送关键词“黄又钢”,获取他的演讲PPT。):首先,感谢雷锋网提供这样的平台。在美国,这样的机会不是很多,各行业封闭得很厉害。能够有平台互相交流,特别是看到有这么多年轻的朋友在这里听,真的很好。我今天的主题是《小微贷款风险模型中的算法探索》。首先,我想谈谈股市和信贷谁更难这个问题。股市VS信贷,谁更难?从人才角度,信贷行业急需人才。股票市场比较容易吸引人眼球,高大上的人都选择去那儿。不光是中国,美国更是如此,华尔街吸引了全球最高端的人才。但是,如果有人选择信用贷款,特别是到小微贷款这个行业,给大家的感觉像是无奈之举。而且,两者都是在处理非常复杂的问题,股票市场需要需要考虑几千家上市公司和几千万散户的博弈,而小微贷款也需要考虑到几千万家企业。如何判断一家企业的信用、以什么样的利率贷款给企业、如何贷款后收到还款,这些都是非常复杂的问题,需要人才,尤其是顶尖人才去分析。从数据层面,信贷比股票市场更难,信贷行业更需要标准和规范和确切的数据。股票市场上,每家公司必须有财报,它的格式和框架是一致的。财报的数据是标准的、业绩等信息发布的时间和周期是确定的,我们可以确切的得到股票市场里的许多重要信息。和上市的公司相比,小微企业的信息透露不够充分,数据来源纷杂,数据格式不标准,数据更新周期不稳定,导致面向中小微企业的信贷产品难度更高。中小微企业信用贷款是一个世界性的难题。在股票市场,我们要关注两件事:价格和数量。什么价格买?高价买,还是低价买?买多少数量?1千股还是1万股?而在信用贷款行业中,我们需要关注它的四个维度:一是风险程度,我要判断你这个人是否靠谱;二是给你放贷,我给你多少利息,价格是高是低;三是我给你多少钱,借你1000元、1万元还是300万元;四是期限,我是按天、按月计算还是按年计算?在我国,中小微企业解决了国家80%的就业,这些企业的生存和贷款需求问题是需要持续关心和全力解决的。2006年,诺贝尔和平奖给了孟加拉国的经济学家,当时我在花旗银行,听到这个故事非常感动。经济学家真正去底层考察和生活,把27美元借给40多人,每人几毛钱、几美分地贷,这很难得。当时花旗银行没有小微贷款,也没有普惠的概念。我直接找到我老板,我问他看和平奖了吗?他说看了。我问他花旗银行怎么没有普惠性的东西?他耸了耸肩,没搭理我。我问我们能否做这样的事情,他回答我“做好你的工作就行了,别管那么多闲事”。美国的银行在为富人服务,他们并不关心底下的中小企业。而在中国,国家真的会把钱倾斜到中小企业身上。机器学习算法概述机器学习是AI的分支,现在机器学习有非常成熟的算法。我很喜欢这个图片,虽然这张并不是最新的图片。它列出的算法比较规范、有条理性。深度学习、集成算法、神经网络、正则化算法、规则算法、回归算法、贝叶斯算法、决策树算法、降维算法、实例算法、聚类算法,这些算法十几年前就有了,有些仍在不断更新。如果一个人想做机器学习,至少要懂每个算法的原理,这些算法背后的逻辑是什么?其底层数据是怎么回事?我今天主要介绍集成算法、降维算法、聚类算法和决策树算法。每个算法都有实实在在的应用和意义,不是为了算法而算法。如何应用算法?我们现在做任何模型一定是两个算法同时进行,既要做传统模型回归算法,也要做机器学习算法。传统模型主要指的是回归算法(LR),取决于应用场景。机器学习模型,我们主要指的是XGB,集成随机树的算法。经典风控领域全都是以回归模型为主导。原因在于其稳定性好,可解释性非常强。在美国,机器学习在任何信贷场景都不能落地,也不能使用,原因在于我们无法解释底层拒绝贷款申请的原因是什么。由于不能解释,在美国的法规下就不能应用。所以机器学习只能在底层,我们分析团队、模型团队可以高大上地玩,但只能玩而已,真正实战一律不许用。在中国,我们不仅玩,还有机会可以使用。至少从法规层面,我们还没有严格要求拒绝一个贷款必须跟企业或者客户解释理由。实操“双轨”建模有几大过程:一是预测能力的比较; 二是变量维度的判断;三是对比同一个观测值,如何交叉使用;四是策略应用,即如何使用这个模型。如何使用这两个模型?我们可以将数据集分为两类(路径):一类是传统模型,另一类是机器学习模型。建完模型一定要有预测能力,假如用KS表述模型的准确率,你可以通过ROC、AUC等统计控制。假如我们用(统计)变量(做评估),不管(使用)哪个统计变量一定有好坏的比较。机器学习好或者不好的比较,首先是评测模型的层面。有了模型层面的比较后,(谈)模型一定会牵扯具体的特征值或者变量。它用哪些变量,在变量的层面上我们也进行比较。真正实际应用的是特征(变量),关键特征特别是关键维度覆盖性怎么样?传统模型覆盖了多少?10个维度还是20个维度?机器学习的维度到底是多少?都是我们需要考虑的。由于传统模型回归算法的局限性,它是线性(关系)的,维度一般在10~30个变量。而机器学习在准确性等方面比传统模型要好;在变量层面,总体来说机器学习完全没有概念和业务场景的限制,可以按照数据结构往下走,使用的变量相对较多。比如XGboost有一两百个变量是常态,三五百个变量也是常态。我们比较两个模型时,在变量维度之间要做一个比较。一般来讲我们建回归模型,在处理变量时,我们做了数据本身的转换,可以在变量维度上做聚类分析,控制变量维度。假定回归有20个变量,回归模型一般就(代表)有20个维度。虽然机器学习的变量很多,但是我们至少可以判断维度上是不是有问题。而每个观测值的评分,也是需要具体比较的。如果评分一致,我可以确定这个企业的评分比较准确。但是,如果两个评分出现差异怎么办?如一家企业用传统模型测出720分,用机器学习测出来可能只有600分。(也即)回归模型说这个人风险低,机器学习说这个人风险高,那我们如何决策?这是我们后端策略上要解决的问题。综上所述,每一个评分的好坏,可以通过三个层面的比较:模型层面、变量层面、观测者层面。人群分类是建模中十分重要的环节。如图示,这里有多个子人群。如果我能把人群打开,按照其实际状态,分为红、绿、黄等图中标注的群体,在每一个人群上做独立的测试,可能会做出更好的预测。这是人群分类的基本点。任何人群可能会存在不同的子人群中。每个子人群可能会有其独立的特征和趋势。问题是我们能否找到这样的趋势和特征。而前提条件是我们能否把人群分开,每个人(建模师)的经验不同所以做到的程度不同。决策树算法和聚类算法是人群分类中常用的两个算法。决策树算法,是用树的方法把底下人群分为几个叶子,每个叶子为一个子人群。聚类算法,是以每个观测点(如企业)的相似性为基础,将相似的企业分为一类。“相似性”是由统计学上的距离来决定的。从机器学习角度分为有监督学习和无监督学习。有监督,指的是知道Y是什么,在有Y标签的前提下进行训练。无监督,指的是不知道Y,只知道X变量。决策树算法是有监督算法的一种,而聚类算法是无监督算法的一种。这两种算法都非常有用。目前的算法变量越多,计算量越大,信息多了可以做更好的事情,信息多了可以分析各个层面,可能会有更好的结果,所以我们引入特征变量端。但是,在实际的统计分析上并非如此,信息多了可能会带来更多的噪音,当你无法区分噪音和有效数值时,你可能把噪音当做有用的。变量越多,算力肯定很沉重,如果我们涉及几千万人,算法用到几百棵树的时候,我们算力的时间不是按小时、分钟,可能是按天计算。特征少自然最好,我们能判断我们的特征是否是真的重要特征。我有5万个变量、1万个变量,过程中我选出20个变量,这20个变量是不是真正的主要变量?在1000个、10000个变量里如何选择20个你认为关键的,这是我们算法上要解决的问题。人群分类实际操作的第一步,是构造分类。我们从模型数据中判断,最上面的分支我们不做任何人群分类,全体人群做回归模型。出来的20个变量、30个变量,我们暂时判定经过一个算法(如LR),这20个变量是主要的变量、主要的特征。我把这个主要特征应用到后面的人群分类,通过回归模型判断主要特征。在此之后做人群分类,不管任何时候,数据驱动一定是我们的方法之一。人的经验(业务经验)一定有意义,人(的经验)和数据驱动永远是相辅相成的。如果你只靠机器学习做所有决策,不能说绝对不对,但可能走到比较危险的地方。从算法层面,我用两类算法,监督和无监督。在特征变量上,我给出两个的维度(主要变量和全量变量),主要变量可以方便我们快速有效地分类。而全量变量可以全面考查各方面的信息。第二步是比较评估,我们用两个算法,决策树和Cluster(聚类算法),及在特征变量上两个维度,那麽我们一起构成4个人群分类的方法。决策树用关键(主要)变量(ST2),SK1用聚类算法用全量变量。说是4个方法 (4个圈), 可是每个圈可以是非常复杂的东西。假定用决策树,如果特征有2000个变量,这个树可以长到几百个,非常容易。决策树要对着2000个变量找树,统计上可以做限制。每一层分多少?叶子最多是多少?分多少层?有2000个变量足够你找几百棵树,在几百棵树下,至少有几百个子集。你用聚类也可以做很多的聚类人群。在做了决策树等4个方法后,怎么知道哪个人群分类的方法就是好的呢?我们最终谈的是预期模型和预测。在一个方法中可能出了200个子集,在另一个方法中出了40个子集。每一个子集要建模型,重新合起来,直到可以判断总人群到底是好还是不好。这四个方法,上面有一个LR模型,这是主模型,合到最后是5个模型。这5个模型之间的KS预测值谁好谁坏,可以判断最终的效果。不管分成多少个子集,我们最终要回归到总人群上比较,才能证明哪个方法好还是不好。如果一个决策树分为300个人群,那麽就会有300个模型,再加上总量的一个模型,就是301个模型。任何一个方法底层意味着几百个模型。人群分类的概念听起来非常简单,实际操作相当复杂。最终的结果有明确的评判好坏的标准,一是算法层面,二是参数层面,最终的效果必须汇总到整体后才可以评判。算法及应用的探索前面谈到如何分类人群,最后我们讲一讲算法的探索。我回到中国学到一个词叫混搭,衣服、鞋子都可以混搭,我的女儿告诉我她左脚穿红袜子,右脚穿蓝袜子,这就是混搭。混搭的概念在统计里早就应用到。比如两种算法相互匹配,两种算法相互兼容,两种算法相互嵌入,就可能做新的算法。如何做回归算法和集成随机决策树算法二者之间的交互?我们可以先训练LR模型,然后分箱(分层),分箱后每个点之间一定有误差值。在误差值的基础上,哪个层面的误差值最大,就在哪个层面直接插入XGboost。用 XGboost在这一层上单独进行计算以减小预测误差。至于如何使用,是属于技术上的问题了。算法探索与创新方面有两个思路。一是在单一算法层面,从数学角度和(或)计算机角度,产生新的突破。二是两种(或多种)算法的相互嵌入和混搭形成新的算法。比如XGboost的算法就是这样混搭出来的。从实际应用的层面,“匹配”可能会更快地实现突破, 即现成的算法匹配特定的人群和特定的特征,就可能产生非常成功的应用,比如CNN算法在图像识别上的应用效果就是一个事例。未来的方向是“算法+人群+特征”,也即,算法的突破,人群的细分,数据的深挖,及相互之间适当的匹配都可能产生革命性的突破。关于 CCF-GAIR 2020 AI金融专场「AI金融专场」是CCF-GAIR 2020最受关注的主题论坛之一,其余5位嘉宾分别是:国际人工智能联合会首位华人理事会主席杨强、平安集团首席科学家肖京、京东数字科技集团副总裁程建波、移卡集团副总裁奚少杰、统计学诺贝尔-COPSS总统奖得主范剑青。「AI金融专场」除了拥有业内最顶尖的阵容外,每年都会吸引中国及欧美地区众多AI金融专家到场。在上一届论坛中,加拿大工程院院士、Citadel首席人工智能官邓力博士,加拿大工程院院士凌晓峰教授等多位重量级人物来到现场学习交流。而在今年,包括黄铠、刘江川、王强等十多位IEEE Fellow以及各大金融机构的首席信息官/科学家来到现场,共同促进AI金融的产学融合与商业应用。(雷锋网雷锋网)
2020年是不寻常的一年,全球的健康、贸易、经济、 数据 我们首先分析数据的发展趋势。数据对人工智能,犹如食材对美味菜肴,过去10年,数据的获取无论是数量,还是质量,又或者是数据的种类,均增长显著,支撑着AI技术的发展。未来,数据层面的发展会有哪些趋势呢,我们来看一组分析数据。 首先,世界互联网用户的基数已达到十亿量级,随着物联网、5G技术的进一步发展,会带来更多数据源和传输层面的能力提升,因此可以预见的是,数据的总量将继续快速发展,且增速加快。参考IDC的数据报告(图1),数据总量预计将从2018年的33ZB(1ZB=106GB),增长到2025年的175ZB。 其次,数据的存储位置,业界预测仍将以集中存储为主,且数据利用公有云存储的比例将逐年提高,如图2、图3所示。 以上对于未来数据的趋势,可以总结为:数量持续增长;云端集中存储为主;公有云渗透率持续增长。站在AI技术的角度,可以预期数据量的持续供给是有保证的。 另一个方面,AI技术需要的不仅仅是原始数据,很多还需要标注数据。标注数据可分为自动标注、半自动标注、人工标注3个类别。 那么,标注数据未来的趋势会是怎样的? 我们可从标注数据工具市场的趋势窥探一二,如图4所示。可以看到,人工标注数据在未来的5-10年内,大概率依然是标注数据的主要来源,占比超过75%。 通过以上数据维度的分析与预测,我们可以得到的判断是,数据量本身不会限制AI技术,但是人工标注的成本与规模很可能成为限制AI技术发展的因素,这将倒逼AI技术从算法和技术本身有所突破,有效解决对数据特别是人工标注数据的依赖。 算力 我们再来看看算力。算力对于AI技术,如同厨房灶台对于美味佳肴一样,本质是一种基础设施的支撑。 算力指的是实现AI系统所需要的硬件计算能力。半导体计算类芯片的发展是AI算力的根本源动力,好消息是,虽然半导体行业发展有起有落,并一直伴随着是否可持续性的怀疑,但是半导体行业著名的“摩尔定律”已经经受住了120年考验(图5),相信未来5-10年依然能够平稳发展。 不过,值得注意的是,摩尔定律在计算芯片领域依然维持,很大原因是因为图形处理器(GPU)的迅速发展,弥补了通用处理器(CPU)发展的趋缓,如图6所示,从图中可以看出GPU的晶体管数量增长已超过CPU,CPU晶体管开始落后于摩尔定律。 当然,半导体晶体管数量反映整体趋势可以,但还不够准确地反映算力发展情况。对于AI系统来说,浮点运算和内存是更直接的算力指标,下面具体对比一下GPU和CPU这2方面的性能,如图7所示。可以看出,GPU无论是在计算能力还是在内存访问速度上,近10年发展远超CPU,很好的填补了CPU的性能发展瓶颈问题。 另一方面,依照前瞻产业研究院梳理的数据,就2019年的AI芯片收入规模来看,GPU芯片拥有27%左右的份额,CPU芯片仅占17%的份额。可以看到,GPU已成为由深度学习技术为代表的人工智能领域的硬件计算标准配置,形成的原因也十分简单,现有的AI算法,尤其在模型训练阶段,对算力的需求持续增加,而GPU算力恰好比CPU要强很多,同时是一种与AI算法模型本身耦合度很低的一种通用计算设备。 除了GPU与CPU,其他计算设备如ASIC、FGPA等新兴AI芯片也在发展,值得行业关注。鉴于未来数据大概率仍在云端存储的情况下,这些芯片能否在提高性能效率的同时,保证通用性,且可以被云厂商规模性部署,获得软件生态的支持,有待进一步观察。 算法 现在我们来分析算法。AI算法对于人工智能,就是厨师与美味佳肴的关系。过去10年AI的发展,数据和算力都起到了很好的辅助作用,但是不可否认的是,基于深度学习的算法结合其应用取得的性能突破,是AI技术在2020年取得里程碑式发展阶段的重要原因。 那么,AI算法在未来的发展趋势是什么呢?这个问题是学术界、工业界集中讨论的核心问题之一,一个普遍的共识是,延续过去10年AI技术的发展,得益于深度学习,但是此路径发展带来的算力问题,较难持续。下面我们看一张图,以及一组数据: 1. 根据OpenAI最新的测算,训练一个大型AI模型的算力,从2012年开始计算已经翻了30万倍,即年平均增长11.5倍,而算力的硬件增长速率,即摩尔定律,只达到年平均增速1.4倍;另一方面,算法效率的进步,年平均节省约1.7倍的算力。这意味着,随着我们继续追求算法性能的不断提升,每年平均有约8.5倍的算力赤字,令人担忧。一个实际的例子为今年最新发布的自然语义预训练模型GPT-3,仅训练成本已达到约1300万美元,这种方式是否可持续,值得我们思考。 2. MIT最新研究表明,对于一个过参数化(即参数数量比训练数据样本多)的AI模型,满足一个理论上限公式: 上述公式表明,其算力需求在理想情况下,大于等于性能需求的4次方,从2012年至今的模型表现在ImageNet数据集上分析,现实情况是在9次方的水平上下浮动,意味着现有的算法研究和实现方法,在效率上有很大的优化空间。 3. 按以上数据测算,人工智能算法在图像分类任务(ImageNet)达到1%的错误率预计要花费1亿万亿(10的20次方)美元,成本不可承受。 结合前 (1)先验知识表示与深度学习的结合 纵观70多年的人工智能发展史,符号主义、连接主义、行为主义是人工智能发展初期形成的3个学术流派。如今,以深度学习为典型代表的连接主义事实成为过去10年的发展主流,行为主义则在强化学习领域获得重大突破,围棋大脑AlphaGo的成就已家喻户晓。 值得注意的是,原本独立发展的3个学派,正在开始以深度学习为主线的技术融合,比如在2013年,强化学习领域发明了DQN网络,其中采用了神经网络,开启了一个新的研究领域称作深度强化学习(Deep Reinforcement Learning)。 那么,符号主义类算法是否也会和深度学习进行融合呢?一个热门候选是图网络(Graph Network)技术,这项技术正在与深度学习技术相融合,形成深度图网络研究领域。图网络的数据结构易于表达人类的先验知识,且是一种更加通用、推理能力更强(又称归纳偏置)的信息表达方法,这或许是可同时解决深度学习模型数据饥渴、推理能力不足以及输出结果可解释性不足的一把钥匙。 (2)模型结构借鉴生物科学 深度学习模型的模型结构由前反馈和反向传播构成,与生物神经网络相比,模型的结构过于简单。深度学习模型结构是否可以从生物科学、生物神经科学的进步和发现中吸取灵感,从而发现更加优秀的模型是一个值得关注的领域。另一个方面,如何给深度学习模型加入不确定性的参数建模,使其更好的处理随机不确定性,也是一个可能产生突破的领域。 (3)数据生成 AI模型训练依赖数据,这一点目前来看不是问题,但是AI模型训练依赖人工标注数据,是一个头痛的问题。利用算法有效解决或者大幅降低模型训练对于人工标注数据的依赖,是一个热点研究领域。实际上,在人工智能技术发展过程中一直若隐若现的美国国防部高级研究计划局(DARPA),已经将此领域定为其AI3.0发展计划目标之一,可见其重要程度。 (4)模型自评估 现有的AI算法,无论是机器学习算法,还是深度学习算法,其研发模式本质上是通过训练闭环(closed loop)、推理开环(open loop)的方式进行的。是否可以通过设计模型自评估,在推理环节将开环系统进化成闭环系统也是一个值得研究的领域。在通信领域,控制领域等其他行业领域的大量算法实践表明,采用闭环算法的系统在性能和输出可预测性上,通常均比开环系统优秀,且闭环系统可大幅降低性能断崖式衰减的可能性。闭环系统的这些特性,提供了对AI系统提高鲁棒性和可对抗性的一种思路和方法。 工程化 上 工程化的本质作用是提升效率,即最大化利用资源,最小化减少信息之间的转换损失。打一个简单的比喻,要做出美味佳肴,食材、厨房灶台、厨师都有,但是唯独没有合适的厨具,那么厨师既无法发挥厨艺(算法),又无法处理食材(数据),也无法使用厨房灶台的水电气(算力)。因此,可以预见,工程化未来的发展,是将上 过去10年,AI工程化发展,已形成一个明晰的工具链体系,近期也伴随着一些值得关注的变化,笔者将一些较为明显的趋势,汇总如下: 总结来说,AI工程化正在形成从用户端到云端的,以Python为编程语言的一整套工具链,其3个重要的特点为:远程编程与调试,深度学习与机器学习的GPU加速支持,以及模型训练与推理工具链的解耦。与此同时,产业链上游厂商对开源社区的大量投入,将为中下游企业和个人带来工具链的技术红利,降低其研发门槛和成本,笔者认为微软、脸书、英伟达3家上游厂商主推的开源工具链尤其值得关注。 结语 对于人工智能技术过去10年发展取得的成就,有人归因于数据,也有人归因于算力。未来人工智能技术发展,笔者大胆预测,算法将是核心驱动力。同时,算法研发的实际效率,除了算法结构本身,还取决于设计者对先进工具链的掌握程度。 未来10年,科技界是否能用更少的数据,更经济的算力,获得真正意义上的通用智能呢?我们拭目以待。