“我国5G基站建设进度超预期,7月底累计终端连接数达到8800万。”工信部副部长辛国斌近日接受记者采访时表示,作为新基建的“领头羊”,今年以来,5G发展呈现加速态势。 “路”建好了,“车”就会跑起来。智能制造更加升级、智慧物流应用更广、智慧服务随处可见……5G等数字技术向更多领域渗透,各行各业正在发生改变。 城市之变,智慧二字更加凸显 图像识别、自动核对、智能出货……浙江嘉兴,38摄氏度高温下,依托嘉兴供电公司打造的“智能无人仓库”系统,80套户内冷缩终端、300米布电线自动出库,全流程“无人”操作。 代表着更高速、更大容量、更低时延的5G网络,通过充分连接与融合为城市里的出行、消费、服务等带来变化。智慧仓储是其中之一。 环顾当下,“健康码”为当前人员沟通和经贸往来提供了简单有效的智能服务;智能信号灯在一定程度上缓解了城市的拥堵……5G等新基建加速产业数字化转型,今年以来,随着网络升级与扩容,越来越多的应用铺开,为城市生活增添智慧气息。 “近期,我国平均每周新开通的基站超过1.5万个,有197款5G终端拿到了入网许可。5G在稳投资、促消费、助升级等方面的潜力进一步显现。”工信部信息通信发展司司长闻库说,下一步,工信部将充分发挥5G对智慧城市发展的带动作用,不断完善5G网络建设、安全保障、应用推广等方面的配套政策,让5G催生更多的城市之变。 产业之变,改变的不只是生产线 5G建设包括芯片、器件等硬件以及操作系统、云平台等软件。5G与大数据、人工智能等关联技术结合,又带动诸多行业,为很多领域数字化转型奠定基础。 今年以来,在5G的带动和需求引领下,产业数字化的步伐加快,不少制造企业向高技术服务领域拓展。 近日,联想集团公布20/21财年第一财季业绩,净利润同比增长31%。“这一增长主要是由云服务市场驱动,我们能够把握机会,也得益于更加坚实的网络基础。”联想集团董事长杨元庆认为,随着各类软硬件基础的牢固,新服务正成为制造企业转型重要方向。 企业经营的边界拓宽,产业链关系也在重塑。越来越多的大中小企业探索融通发展,供应链网络更加密实。上半年,产业数字化在数字经济中的主引擎地位进一步巩固。 “5G、人工智能等新技术应用增强了产业链的韧性,提高了质量与效率。”中国信息通信研究院院长刘多说,下一步还将在数字基础、数字生态和数字协同等方面下大力气,为产业数字化筑牢基础。 职业之变,新“角色”打开发展新空间 数字经济时代,网络的点滴变化都会传导到方方面面。5G进一步成熟,同样孵化很多应用,催生不少创新。 34岁的郭梅从传统矿业单位转型为AI数据标注师,用数据采集和标注教会AI感知、思考和决策。疫情期间,郭梅所在的山西数据标注中心通过对图像关键点精准标注,实现戴口罩场景下的人脸识别和精确测温。近日,百度与山西数据标注中心加大合作,预计未来5年培养5万名AI数据标注师。 将各环节的数据集成、设计模型、形成方案,京东数科的智慧城市架构师郭沐用技术推动危化品监测等城市服务的完善;依据大数据辅助智能化、个性化教学,“一起学”网校在线学习服务师苟朝阳用实践标注出在线教育的空间……随着互联网演进升级,新职业、新机会不断涌现。 近期,中国就业培训技术指导中心联合阿里巴巴钉钉发布报告测算,未来5年新职业人才需求规模庞大。中国信息通信研究院《5G产业经济贡献》预计,2020至2025年,5G将直接创造超过300万个就业岗位。 “数字经济既提供了大量就业增量,也提高了就业的质量。这些职业之变,为经济社会发展开拓更广阔空间。”刘多说。
近期,消费股继续乘风而上,涨势不减。 8月19日,A股食品板块延续强势,佳隆股份、有友食品、海欣食品、安记食品等涨停,千禾味业、莲花健康、好想你等纷纷大涨。 数据来源:Wind 其中,消费大牛股海天味业再一次触及高光时刻。 在近日突破5000亿市值之后继续上涨,今日收盘涨至163.83元,续创历史新高,最新总市值超5300亿元,轻而易举超过中国石化(4915亿元)。 数据来源:Wind 今年以来,该股年内累涨超过84%,其中,自今年3月19日的低点(76.16元)上涨至今,已累涨115%。 而在目前,其最新动态市盈率高达96倍,逼近100倍,这一水平通常只有科技股才能达到,不得不说海天味业作为消费股的表现令人惊讶。 同时,根据日前胡润研究院发布的《2020胡润中国十强食品饮料企业》,海天味业以总市值4700亿元(研究数据)排名首位,伊利股份(2060亿元)、双汇发展(1730亿元)以及中国飞鹤(1270亿元)紧随其后,而这三名加起来的总和才不过略高于海天味业的数值。 “疫情爆发这半年,海天味业价值增长1,800亿...这是一个价值创造时代,因此榜单主要看价值,不是销售额。”——胡润研究院 在这一特殊时期,疫情重创了众多企业,使其叫苦不迭,而海天味业却可谓是风头正劲。 从诞生于广东佛山的“佛山古酱园”的“中华老字号”,再到酱油产销量连续23年稳居第一的造富工厂,海天味业的价值所在值得一探,但其估值过高的风险性不容忽视。 入局赛道的龙头优势 都说“民以食为天”,在我国这句话没有半分虚言。 具备刚需属性的餐饮消费是我国消费力量的重要组成部分,在消费升级之下,发展势头继续迅猛且呈现多元化。 而在这一大蛋糕市场中,调味品作为细分赛道,作为一日三餐的必需品,背靠餐饮市场的发展红利,稳健的需求不断得到加固,近年来其发展速度也不容小觑。 “我国调味品行业2016年产值正式突破3000亿元,2012-2016年期间CAGR超10%,2019年则增长到了3345.9亿元...预计未来五年调味品零售额年复合增速大约为7~8%。”——公开数据 调味品行业市场规模情况 数据来源:山西证券 而海天味业凭借核心酿造技术产出的酱油、酱等多个品类精准切入这一赛道,不仅使得业绩表现走势乐观,也在现今牢牢掌握了市场的话语权。 回顾近年业绩表现,可以发现其趋势较为稳健。 公司扣非净利情况 数据来源:Wind 具体来看,酱油业务是其主要业绩贡献点,占总收入的比例近六成,且2019年公司主营产品毛利率合计为47.52%,其中,酱油实现营收116.29亿,同比增长13.60%,毛利率达50.38%。 2019年公司酱油产品占营收、毛利的比例情况 数据来源:开源证券 同时,海天味业采取经销商、分销商(联盟商)两级架构的销售体系,以加强对渠道的掌控来提升效率,其渠道管控能力以及议价能力也在一定程度上凸显了龙头效应。 数据来源:Wind 核心经营指标ROE方面,其延续过往年份的表现,较为趋稳,从2014年以后,均维持在30%以上。 数据来源:Wind 除了上述,令市场感到安全感的大概是在疫情时期,该股作为头部标的所具备的相对稳定性。 我们都知道新冠疫情严重打击了多个行业,其中,餐饮业更是首当其冲,损失惨重,这也间接动了调味品的生存命脉,2020年一季度调味品行业规模以上企业营业收入同比下降7%。 在此之下,海天味业也颇受影响,这也就是为何其一季报对比过往业绩大幅下滑的原因。 “2020年一季度公司实现营收58.84亿元,同比增长7.17%;净利润16.13亿元,同比增长9.17%。”——公开数据 数据来源:官方公告 但相对于中小企业的生存空间被明显挤压,海天味业作为龙头,其业绩的逆势增长还是起了示范作用,在一定程度上显出韧性。 而在疫情时期,除了维护现有产品份额,海天味业也没闲着,开始拓宽成长赛道,卖起了火锅底料,旨在通过其品牌、产品及渠道上的优势发掘新的增量,以加固其持续成长的确定性。 图片来源:官方旗舰店 估值过高遭机构抱团? 正是基于上述,资本市场普遍对包括海天味业在内的这类大消费标的颇为青睐。 尤其是随着险资入市,可以看出其对大消费的偏爱。 “截至2020年6月30日,险资持仓14类申万一级行业,持股市值达116.24亿元,其中,食品饮料(56.25亿元)、汽车(11.06亿元)、农林牧渔(8.18亿元)等3类行业居前,合计持股市值达75.49亿元,占比64.95%。”——公开数据 大消费行业指数变动情况 数据来源:东兴证券 事实上,这一投资逻辑是较为合理的,毕竟区别于重资产企业,消费股受益于人口红利,其业绩确定性较强,且颇具防御性,有着创造更高的ROE的潜力以及持续的回购及分红能力,利于长期持有,那么消费股中的白马股注定也会具备可观的投资吸引力。 而本文的海天味业的估值不断攀升也是基于此,即市场习惯性提前消化上述这一乐观预期。 海天味业历史 PE-Bands以及历史 PB-Bands 数据来源:华泰证券 然而,基于机构对这一标的资金抱团也引发市场吐槽,毕竟除去成长的确定性之外,炒作热度也依旧存有,而这也或反而将其业绩具备的不确定性有所放大。 首先,虽然调味品行业的高增势头不减,但回顾近三年,海天味业营收以及净利润增速整体已有所放缓,其增长天花板也是不能忽视的,尤其是在酱油产量经过高速增长之后,行业总产量开始回落且消费总量见顶的背景下,其增长源动力或将受到挑战。 酱油消费量及价格增长变化(%) 数据来源:上海证券 这也就是为何海天味业不断促进多元化发展、推进中高端化升级的原因。目前其生产的产品涵盖酱油、蚝油、酱、醋、料酒、调味汁、腐乳等品种,但基于我国地区口味差异化明显,易形成区域性竞争壁垒,市场集中度较为分散,存在难以统一化的痛点。 2013-2020Q1海天味业毛利率走势 数据来源:华泰证券 其次,虽说人们寄希望于疫情常态化之后餐饮业复苏来拉动调味品B端需求,进而提振相关企业的业绩,但就目前来看,这一趋势还在缓慢行进之中。 “2020年1-7月,全国餐饮收入17891亿元,同比下降29.6%,远低于社会消费品零售总额增幅(-9.9%)。其中,限额以上单位餐饮收入3831亿元,同比下降27%。”——国家统计局 虽然目前国内疫情整体趋于平稳,但近期新增的确诊病例或还是继续成为制约居民消费需求释放的主要因素,消费品市场规模还没恢复至疫情前的水平。 数据来源:百度数据 而一般来说,餐饮渠道是海天味业的主要销售渠道,占比近一半,这一领域的需求倘若无法完全释放,依旧或对业绩施以不如意的影响,不排除短期内外资等机构投资者减持的可能性,届时其高估值是否存有泡沫也就一目了然,目前可以静候中报业绩的结果了。 数据来源:Wind 结语 整体而言,在现阶段,基于其消费属性以及商业模式,消费板块的明星光环尽显,近年来“牛股辈出”。 海天味业置身于调味品赛道,借助行业发展的潜力,通过规模效应,聚焦于量价齐升策略,驱动业绩增长,进而使得估值受到看好,不断攀升,作为领头羊颇受资本偏爱是很合理的,毕竟那句“有人烟的地方就有海天”不是嘴上说说而已。从中长期看,其业绩增长的稳定预期以及品牌价值是市场长期持有的立足点。 但需要注意的是,目前其股价超过历史高位,稳步迈入5000亿元市值的大关,估值已然不低,或充分透支了未来预期,这便意味着:在短期内,除去获利回吐,例如中报披露若不及预期,这一风险不确定性或将有所落实,那些提前靠预期支撑的估值泡沫或将破灭,存在阶段性的回调概率,届时市场可根据其回落幅度切入配置布局。
“在我的职业生涯里一共有四个比较大的风口,除了移动互联网之外,互联网、大数据、人工智能这三个风口都踩上了,我个人没有什么太大的遗憾了。”在北京百炼智能科技有限公司(以下简称“百炼智能”)的一间会议室里,百炼智能创始人、董事长兼CEO冯是聪对记者感慨道。 三年前,美国B2B营销智能化服务公司ZoomInfo驶入发展快车道,并于今年6月份在纳斯达克上市,如今市值稳定在180亿美元左右;两年前,对标ZoomInfo的百炼智能在国内成立,并在短时间完成了天使轮和Pre-A轮融资,如今也备受资本青睐。 “这对我们来说绝对是一个机遇,百炼智能在做的事情就是以人工智能为核心驱动力量。”冯是聪告诉记者:“随着新基建规划的大规模落地实施,人工智能作为科技发展方向,将会迈入‘黄金时代’。” 技术打通数据孤岛 “我发现过去的销售在进行客户拓展时,往往都是依赖个人的人际关系获取销售线索。”冯是聪对记者表示:“传统的获客方式带来的是低效率和高成本,利用AI技术为企业提供智能获客解决方案正是市场所需要的。而且,能够帮助企业赚钱的生意永远都是好生意,投入产出比可以非常清楚地计算明白,这是真正的刚需。” 时光倒回至2003年,北京大学计算机专业博士毕业的冯是聪曾是中国第一代通用搜索引擎“北大天网”核心研发成员之一。作为连续的创业者,冯是聪作为技术VP参与了秒针系统的创立,他也曾是明略数据的联合创始人兼CTO。抱着对市场的期待,凭借对技术的信赖,如今的百炼智能,是冯是聪首次作为CEO的第三次创业。 “我们要做的就是把互联网上公开的数据通过技术手段进行深度加工。目前公司的三大核心技术——自然语言处理技术、图像处理技术和知识图谱技术,能够打通数据孤岛,让分散的数据进行聚合。”冯是聪解释道,“我们会先将互联网上现有的公开的零散数据进行采集,比如说企业工商信息、招中标信息等;接着会将原本非结构化的数据进行结构化处理,比如说人名、地名、机构名等信息要素提取出来,形成一个互联网的知识图谱。而知识图谱可以提炼出一个企业的多维度信息,帮助企业智能获客和精准获客。” 做企业B2B营销“数字引擎” “百炼智能服务的行业主要涵盖了三个方向,分别是快消行业,包括食品和日化;保险行业;能源化工行业。今后会在这三个行业中进行更深入地探索和研发。”冯是聪谈道。 说罢,冯是聪拿出了电脑,在大屏幕上为记者演示了百炼智能研发的SaaS产品“渠道宝”。“我们做的是满足企业B2B营销获客全流程需求的SaaS产品,客户拿到账号名和密码以后就可以直接登录进行操作。”冯是聪操控着鼠标,在系统中熟练地勾选着自己所需的信息,整个页面如同企业B2B营销版的搜索引擎。 冯是聪向记者解释,“渠道宝是基于全网招中标信息大数据的一款渠道拓客产品,只要有新的数据样本进来,我们的机器就会进行学习,学习以后模型也会实时更新调优。从数据层面说,积累的数据越多,精度就会越准。” 谈及建模和调优,冯是聪分享了他与第一个客户之间一件有意思的事儿。 该客户是食品行业世界500强企业,当年正推出一款“胶囊咖啡机”。“我们讨论了十几个维度,比如商圈、写字楼、企业性质、行业性质、男女比例等,按这些数据建立了模型并据此进行咖啡机布局。”冯是聪说:“从最开始的锁定客户画像,到找到这个客户的名单、联系方式,再到预测成单、预测销量,百炼智能帮助客户打造了整套的潜在客户挖掘系统,并打通了客户的CRM管理系统,每天咖啡销售了多少杯,都能够传回系统中,并不断优化模型,最终形成一个闭环。” 谈及和多家知名头部企业达成合作的经历,冯是聪说:“我们坚持的一个打法就是从上往下打,从头部客户往腰部客户下沉,最后再往长尾客户打,因为头部客户的壁垒是最高的,但是只要坚持做下来,之后在同行业复制就简单了。而且,打头部客户的壁垒非常高,友商进入也就非常困难。” 资本赋能梦照进现实 创业不是一个简单的过程,而想成为中国版的“ZoomInfo”,更要有资本的加持。 “百炼智能从成立第一天起,就严格按上市公司要求的去做,融资拿到的钱都在进行纯市场化运营,组织架构相对简单。”冯是聪透露,“目前来看,比较适合的就是在科创板上市,但因为现在发展时间还比较短,暂时还没有一个比较明确的时间计划表。” 虽然公司发展时间尚短,但冯是聪仍给自己定下了一个三年规划。“今年我们计划实现小规模盈利,希望明年现金流为正,后年则具备了上市的条件,这是我们的一个初步的想法。” 从CTO到CEO,带给冯是聪的不仅是角色的转变,而是要承担了更多的责任。 “坦率来讲,角色转换对我来说确实有一定的挑战。”冯是聪坦言,“原来我更多的是做技术,‘幕后’管理好整个公司的运营,也是有一定的压力。” 不过,技术出身的冯是聪在与客户沟通时,具备了天然的优势。“当客户提出要求时,我能清楚知晓通过技术是否可以实现,而不是回头再去找别人帮忙,能做就做,不能做不勉强,更不会夸大其词。”冯是聪对记者进一步表示。 冯是聪回顾创业所走过的路,脸上扬起一股自豪的神气。“一个公司的问题,无论是技术、产品、市场、商务、人事、财务,都应该是公司创始人的问题。所以,我一直在突破自己的边界,努力向顶级CEO靠拢。”冯是聪最后强调。
数据来源 | 勾股大数据(www.gogudata.com) 从国内爆发新型冠状病毒到现在,我们勾股大数据团队一直在持续关注机场营收背后的相关数据指标。今天就聊聊机场起降数来预测的数据。 根据勾股大数据团队收集、整理、分析上海、白云、深圳、厦门机场航班起降数与机场营收高度正相关,相关系数达到0.83以上,过去的航空业务,利润增长主要取决于航班数量的增长。 从勾股大数据过去一年航班次数统计对比可以得出,疫情以来,截止到本月初,上海机场的航班总数最高,但疫情影响下,上海机场航班较疫情前的日平均航班数还是有极大差距,因国外疫情还没稳定,而上海机场国际航班业务在国内排行第二,受到不小的影响。 与此同时,对比下图,深圳机场在疫情后,航班数量是最先恢复到接近疫情前水平的,恢复程度达到了90%以上,受到国际业务影响较小,也取决于国内疫情的稳定。 勾股统计和监测航班恢复程度,我们追溯历史数据,依据航班起降量系数,预测Q2营收环比增速方面分别为跌幅最低的深圳机场-11.80%、厦门空港-11.2%、白云机场-28%、亏损最大上海机场-26.5%;随着国内外疫情的稳定,政策的开放,业绩动力会更加强劲。 另外来看这四家1月2号至8月13号,机场股价涨跌幅与航班恢复数对比数据图, 深圳航线恢复90.16%、股价跌幅最小-0.31%几乎可以忽略不计 依次是上海机场恢复80%-跌幅5.8%、厦门空港恢复83%-跌幅16%,白云机场恢复77%-股价跌幅16%;涨跌对比也符合我们之前预期,从恢复机场起降数据来判断营收角度来看,深圳机场股票短期最具有投资价值,当然不能简简单单的看数据分析维度,也需要考虑宏观经济、产业和业务结构。 以上勾股大数据近百名数据工程师,智能抓取分析数据,进行每日高频的更新、上海、白云、深圳、厦门、美兰机场起降数,多维数据模型进一步呈现预测营业收入,领先于上市公司财报公布时间,可进一步验证营收状况的真实性、企业判断营收盈利亏损情况,提前做好战略规划和投资相关决策,想看更多公司另类数据请上勾股大数据官网。
8月18日晚间,万国数据公布上半年业绩。截至2020年6月30日,万国数据净收入13.422亿元人民币(1.900亿美元),同比增长36.2%;服务收入13.345亿元人民币(1.889亿美元),同比增长35.5%;(调整后)息税折旧摊销前利润(EBITDA)增长至6.334亿元人民币(8970万美元),同比增长47.8%。 此外,万国数据在全国已拥有近60座自建数据中心。上半年,在建数据中心增至17座,新增(非收购)数据中心签约面积达26544平方米,均创历史新高。目前,万国数据服务超670家客户,在保持超大规模客户与日俱增的同时进一步拓展战略新客户,并赢得两家国内知名互联网企业的超大规模订单。 在2020年7月底IDC最新发布的《2019年中国第三方云管理服务市场份额报告》中,中国第三方云管理服务市场规模达到5.6亿美元,同比增长82.6%。万国数据作为唯一一家数据中心服务商跻身十强。依托其独特的云网融合解决方案,同时利用全国数据中心网络,万国数据已形成承载国内外主流公有云服务提供商的“云之家”,这也为公司持续赢得企业级客户与市场的青睐。 强化三大区域布局 在资源储备方面,万国数据进一步推进全国区域化资源布局,有效支撑长三角、京津冀以及大湾区的各区经济一体化建设。 在长三角地区,万国数据于本季度启动了位于上海闵行区浦江镇的大型数据中心园区内一期项目,及常熟一号数据中心的建设,机房面积分别为9188平方米和11088平方米。目前,常熟一号数据中心已被一家超大规模客户预签约,预签约率达54.7%。 在京津冀地区,万国数据以创新的方式与中信产业基金成功合作,收购了位于首都副中心北京市通州区的一个数据中心项目,命名为北京十三号,规划总机房面积为21000平方米。2019年至今,万国数据已在廊坊部署了八座数据中心,并于本季度推进廊坊五号、廊坊八号数据中心的建设,由此更好地承接首都外溢需求,促进京津冀协同发展。 在粤港澳大湾区,万国数据在广州、深圳、香港已部署12座数据中心,其中包括位于香港的一座在建中的超大规模数据中心,将于2022年投入运营。未来,万国数据将进一步规划在该区域的数据中心资源,充分满足该区域客户的高标准需求。 充足资金保障业务发展 万国数据凭借其行业综合领先优势,受到众多资本的青睐,为业务发展提供了更稳定的资金保障。 今年6月,高瓴资本和STTGDC通过定向增发的方式对万国数据进行共计5.05亿美元的股权投资。此外,公司还在本季度先后获得中信银行总行100亿元战略客户意向授信、上海农商银行未来5年内提供的50亿元授信额度,以及中国工商银行60亿元意向授信。这些资金将用于未来公司的数据中心建设和收购,进一步完善在全国核心经济区域的布局。 万国数据董事长兼首席执行官黄伟表示:“2020年第二季度,万国数据再次获得优异的成绩,在多个业务领域取得突破。本季度新增数据中心签约面积超过46000平方米,其中非收购数据中心签约面积近27000平方米,创历史新高。同时,我们成功地赢得了两个超大规模战略客户,均为国内知名头部互联网企业,客户群体进一步多元化。我们延续了布局核心城市及其周边地区的策略,在常熟(上海)地区的新数据中心园区获得了一笔超大规模订单。此外,与中信产业基金在北京通州区的创新合作,为公司未来更灵活地获取资源提供更多可能。未来,我们有信心把握‘新基建’带来的更多机遇,始终以客户需求为中心,继续以稳健、安全、可靠的完备解决方案与数据中心服务,挖掘数字时代的更大发展潜力。” 万国数据首席财务官DanNewman表示:“万国数据在2020年第二季度继续保持业绩的强劲增长,营收和调整后EBITDA分别同比增长36.2%和47.8%,调整后EBITDA利润率以47.2%创下历史新高。同时,我们在六月获得新的长期股东高瓴资本及现有长期股东STTGDC共计5.05亿美元的股权投资,并取得包括中信银行总行100亿元意向授信在内的多家银行支持。这将进一步完善公司充足的资金保障,为未来的业务发展提供有力支撑。”
2020年是不寻常的一年,全球的健康、贸易、经济、 数据 我们首先分析数据的发展趋势。数据对人工智能,犹如食材对美味菜肴,过去10年,数据的获取无论是数量,还是质量,又或者是数据的种类,均增长显著,支撑着AI技术的发展。未来,数据层面的发展会有哪些趋势呢,我们来看一组分析数据。 首先,世界互联网用户的基数已达到十亿量级,随着物联网、5G技术的进一步发展,会带来更多数据源和传输层面的能力提升,因此可以预见的是,数据的总量将继续快速发展,且增速加快。参考IDC的数据报告(图1),数据总量预计将从2018年的33ZB(1ZB=106GB),增长到2025年的175ZB。 其次,数据的存储位置,业界预测仍将以集中存储为主,且数据利用公有云存储的比例将逐年提高,如图2、图3所示。 以上对于未来数据的趋势,可以总结为:数量持续增长;云端集中存储为主;公有云渗透率持续增长。站在AI技术的角度,可以预期数据量的持续供给是有保证的。 另一个方面,AI技术需要的不仅仅是原始数据,很多还需要标注数据。标注数据可分为自动标注、半自动标注、人工标注3个类别。 那么,标注数据未来的趋势会是怎样的? 我们可从标注数据工具市场的趋势窥探一二,如图4所示。可以看到,人工标注数据在未来的5-10年内,大概率依然是标注数据的主要来源,占比超过75%。 通过以上数据维度的分析与预测,我们可以得到的判断是,数据量本身不会限制AI技术,但是人工标注的成本与规模很可能成为限制AI技术发展的因素,这将倒逼AI技术从算法和技术本身有所突破,有效解决对数据特别是人工标注数据的依赖。 算力 我们再来看看算力。算力对于AI技术,如同厨房灶台对于美味佳肴一样,本质是一种基础设施的支撑。 算力指的是实现AI系统所需要的硬件计算能力。半导体计算类芯片的发展是AI算力的根本源动力,好消息是,虽然半导体行业发展有起有落,并一直伴随着是否可持续性的怀疑,但是半导体行业著名的“摩尔定律”已经经受住了120年考验(图5),相信未来5-10年依然能够平稳发展。 不过,值得注意的是,摩尔定律在计算芯片领域依然维持,很大原因是因为图形处理器(GPU)的迅速发展,弥补了通用处理器(CPU)发展的趋缓,如图6所示,从图中可以看出GPU的晶体管数量增长已超过CPU,CPU晶体管开始落后于摩尔定律。 当然,半导体晶体管数量反映整体趋势可以,但还不够准确地反映算力发展情况。对于AI系统来说,浮点运算和内存是更直接的算力指标,下面具体对比一下GPU和CPU这2方面的性能,如图7所示。可以看出,GPU无论是在计算能力还是在内存访问速度上,近10年发展远超CPU,很好的填补了CPU的性能发展瓶颈问题。 另一方面,依照前瞻产业研究院梳理的数据,就2019年的AI芯片收入规模来看,GPU芯片拥有27%左右的份额,CPU芯片仅占17%的份额。可以看到,GPU已成为由深度学习技术为代表的人工智能领域的硬件计算标准配置,形成的原因也十分简单,现有的AI算法,尤其在模型训练阶段,对算力的需求持续增加,而GPU算力恰好比CPU要强很多,同时是一种与AI算法模型本身耦合度很低的一种通用计算设备。 除了GPU与CPU,其他计算设备如ASIC、FGPA等新兴AI芯片也在发展,值得行业关注。鉴于未来数据大概率仍在云端存储的情况下,这些芯片能否在提高性能效率的同时,保证通用性,且可以被云厂商规模性部署,获得软件生态的支持,有待进一步观察。 算法 现在我们来分析算法。AI算法对于人工智能,就是厨师与美味佳肴的关系。过去10年AI的发展,数据和算力都起到了很好的辅助作用,但是不可否认的是,基于深度学习的算法结合其应用取得的性能突破,是AI技术在2020年取得里程碑式发展阶段的重要原因。 那么,AI算法在未来的发展趋势是什么呢?这个问题是学术界、工业界集中讨论的核心问题之一,一个普遍的共识是,延续过去10年AI技术的发展,得益于深度学习,但是此路径发展带来的算力问题,较难持续。下面我们看一张图,以及一组数据: 1. 根据OpenAI最新的测算,训练一个大型AI模型的算力,从2012年开始计算已经翻了30万倍,即年平均增长11.5倍,而算力的硬件增长速率,即摩尔定律,只达到年平均增速1.4倍;另一方面,算法效率的进步,年平均节省约1.7倍的算力。这意味着,随着我们继续追求算法性能的不断提升,每年平均有约8.5倍的算力赤字,令人担忧。一个实际的例子为今年最新发布的自然语义预训练模型GPT-3,仅训练成本已达到约1300万美元,这种方式是否可持续,值得我们思考。 2. MIT最新研究表明,对于一个过参数化(即参数数量比训练数据样本多)的AI模型,满足一个理论上限公式: 上述公式表明,其算力需求在理想情况下,大于等于性能需求的4次方,从2012年至今的模型表现在ImageNet数据集上分析,现实情况是在9次方的水平上下浮动,意味着现有的算法研究和实现方法,在效率上有很大的优化空间。 3. 按以上数据测算,人工智能算法在图像分类任务(ImageNet)达到1%的错误率预计要花费1亿万亿(10的20次方)美元,成本不可承受。 结合前 (1)先验知识表示与深度学习的结合 纵观70多年的人工智能发展史,符号主义、连接主义、行为主义是人工智能发展初期形成的3个学术流派。如今,以深度学习为典型代表的连接主义事实成为过去10年的发展主流,行为主义则在强化学习领域获得重大突破,围棋大脑AlphaGo的成就已家喻户晓。 值得注意的是,原本独立发展的3个学派,正在开始以深度学习为主线的技术融合,比如在2013年,强化学习领域发明了DQN网络,其中采用了神经网络,开启了一个新的研究领域称作深度强化学习(Deep Reinforcement Learning)。 那么,符号主义类算法是否也会和深度学习进行融合呢?一个热门候选是图网络(Graph Network)技术,这项技术正在与深度学习技术相融合,形成深度图网络研究领域。图网络的数据结构易于表达人类的先验知识,且是一种更加通用、推理能力更强(又称归纳偏置)的信息表达方法,这或许是可同时解决深度学习模型数据饥渴、推理能力不足以及输出结果可解释性不足的一把钥匙。 (2)模型结构借鉴生物科学 深度学习模型的模型结构由前反馈和反向传播构成,与生物神经网络相比,模型的结构过于简单。深度学习模型结构是否可以从生物科学、生物神经科学的进步和发现中吸取灵感,从而发现更加优秀的模型是一个值得关注的领域。另一个方面,如何给深度学习模型加入不确定性的参数建模,使其更好的处理随机不确定性,也是一个可能产生突破的领域。 (3)数据生成 AI模型训练依赖数据,这一点目前来看不是问题,但是AI模型训练依赖人工标注数据,是一个头痛的问题。利用算法有效解决或者大幅降低模型训练对于人工标注数据的依赖,是一个热点研究领域。实际上,在人工智能技术发展过程中一直若隐若现的美国国防部高级研究计划局(DARPA),已经将此领域定为其AI3.0发展计划目标之一,可见其重要程度。 (4)模型自评估 现有的AI算法,无论是机器学习算法,还是深度学习算法,其研发模式本质上是通过训练闭环(closed loop)、推理开环(open loop)的方式进行的。是否可以通过设计模型自评估,在推理环节将开环系统进化成闭环系统也是一个值得研究的领域。在通信领域,控制领域等其他行业领域的大量算法实践表明,采用闭环算法的系统在性能和输出可预测性上,通常均比开环系统优秀,且闭环系统可大幅降低性能断崖式衰减的可能性。闭环系统的这些特性,提供了对AI系统提高鲁棒性和可对抗性的一种思路和方法。 工程化 上 工程化的本质作用是提升效率,即最大化利用资源,最小化减少信息之间的转换损失。打一个简单的比喻,要做出美味佳肴,食材、厨房灶台、厨师都有,但是唯独没有合适的厨具,那么厨师既无法发挥厨艺(算法),又无法处理食材(数据),也无法使用厨房灶台的水电气(算力)。因此,可以预见,工程化未来的发展,是将上 过去10年,AI工程化发展,已形成一个明晰的工具链体系,近期也伴随着一些值得关注的变化,笔者将一些较为明显的趋势,汇总如下: 总结来说,AI工程化正在形成从用户端到云端的,以Python为编程语言的一整套工具链,其3个重要的特点为:远程编程与调试,深度学习与机器学习的GPU加速支持,以及模型训练与推理工具链的解耦。与此同时,产业链上游厂商对开源社区的大量投入,将为中下游企业和个人带来工具链的技术红利,降低其研发门槛和成本,笔者认为微软、脸书、英伟达3家上游厂商主推的开源工具链尤其值得关注。 结语 对于人工智能技术过去10年发展取得的成就,有人归因于数据,也有人归因于算力。未来人工智能技术发展,笔者大胆预测,算法将是核心驱动力。同时,算法研发的实际效率,除了算法结构本身,还取决于设计者对先进工具链的掌握程度。 未来10年,科技界是否能用更少的数据,更经济的算力,获得真正意义上的通用智能呢?我们拭目以待。
据报道,科杰大数据近期完成数千万元Pre-A轮融资,投资方为考拉基金。本轮融资主要用于加大产品研发投入、人才引进及商业拓展,促进新基建下的数字基础设施构建与数字化服务。 据了解,科杰大数据成立于2019年,是一家数据中台综合服务商。公司通过构建数据资产,帮客户加速实现全线业务智能化,科杰的目标即为企业客户构建新型基础设施与服务,以软件定义大数据能力,通过基础设施的构建与服务助力数字化转型与数字经济建设。其产品主要服务于企业的IT研发部门,目前客户来自金融、通信、新零售、教育、互联网等多个领域。 本轮投资方考拉基金管理合伙人魏凯表示:数据中台经过3年左右的摸索,行业理解、行业准备、数据基础上都到了一定的成熟度。2020年更是从概念进入到了商业快速发展的元年,明显感觉到需求的爆炸性的增长,在金融、消费品、零售、消费服务、物流等领域都有了巨大的需求。各个行业应用都需要数据中台的支持,科杰的产品不仅做到了功能丰富、高稳定性、高性能、还实现了高易用性和高度产品化,是面向未来10年的地基性的产品,希望其能加速更多领域的转型发展。