AI视觉识别:梦想被280亿估值照进现实 9月初,朋友圈被Zao以迅雷不及掩耳盗铃之势占领。 一条条顶着自己头像和明星尬戏的视频,其背后的驱动技术是一项AI视觉技术:DeepFake。 Zao并非第一款因为AI视觉而火爆的APP,在Zao之前,FaceApp就已经爆红过,它能根据头像生成跨时间、跨性别的照片,且效果清晰,几可乱真。 与此同时,8月26日晚间,AI视觉企业旷视科技(D轮估值280亿)正式向港交所提交IPO招股说明书,开启了AI视觉独角兽冲向资本市场的新篇章。 安防,竞争并非来自内部 人类对虚拟现实的想象由来已久。 1973年,哲学家希拉里·普特南提出“缸中之脑”实验:假设一个狂人科学家将大脑从人体取出,放入一个装有营养液的缸里维持着生理活性,超级计算机通过神经末梢向大脑传递和原来一样的神经电信号,并对大脑发出的信号给予和平时一样的反馈,此大脑能否意识到自己活在虚幻之中? 如果说这个问题还离我们比较远的话,以人脸识别、虚拟成像为代表的AI视觉技术却已经很成熟。 2015年以来,国家持续出台利好政策,推动了AI视觉技术在金融、安防、医疗、智慧城市、公共安全、轨道交通、政府治理及交通等行业的应用,资本扎堆布局。这其中,依图科技、商汤科技、旷视科技、云从科技四家是代表性的企业,又被称为“AI视觉四小龙”。 目前AI视觉公认成熟的商业场景有三个:安防、金融和手机,这其中安防是传统的主战场,涉及万亿级别产业蛋糕,且靠近政府、银行等企业客户。 说得安防者得天下并不过分。 2014年,当时一家叫格灵深瞳的公司被投资人徐小平赞赏,原因是其研发出能够识别危险手势的智能设备,安装在ATM机旁,一旦发现危险就可以自动报警。新技术加上传统巨量市场,再伴随政府机构和银行客户安全的硬需求,看起来是一份可以快速商业化的巨大收入。 不过,这个产品最终没能规模化,因为格灵深瞳的产品是做智能摄像机,带3D景深,类似于AR、VR技术,但技术成熟度不够,并没到适合商用的阶段。一批AI视觉企业捕捉到了这个商机,用人脸识别实现相同的功能,而图像识别技术的成熟度是足够的。 即便如此,以算法见长的AI视觉公司要切入安防依然举步维艰,智能安防摄像头要依托于整套安防体系内才能发挥作用,但行业内已经有传统安防设备巨头,控制着大多数市场和供应商。 早先,这些安防传统巨头选择和AI视觉企业合作,按照所卖摄像机台数支付技术授权费。但后来,这些巨头决定转变模式,自己搞算法,独立开发图像识别技术。 他们迅速成立了自己的人工智能研发团队,为弥补智能算法上的人才短板,充实自身实力,同时给竞争对手釜底抽薪,甚至找猎头专门挖AI视觉企业的核心人员。 面对安防这个绝大的蛋糕,四小龙们已经不能再单单满足做背后的技术提供者了,如果想在这个领域长期扎根下去,无论正面硬刚传统安防企业的竞争,还是谋求建立更加稳固的合作关系,是短期内必须要做出的选择。 手机,等待打破固有格局者 众所周知,AI始终是创业的热门领域,但最后一环的商业化也一直是个难题,直到AI识别和手机产业相结合后,原有的天花板一下子被打开了,除了传统的安防、金融场景,AI视觉又多出一个可变现的应用。 目前世界上60%的摄像头被用在手机上,像苹果公司在AI识别上的专利收购和研发成本,已经达到近10亿美元,有分析称这个市场的收益未来不会少于金融领域。 旷视科技之前在做金融业务时,在FaceID和云上Face ID等实际应用场景上积累了很多经验和知识,于是很顺利地迁移到了手机上的人脸识别上。 二者之间又有细节上的不同,金融领域的刷脸应用,需要按银行要求摆动头、眨眼睛,但在手机端,用户不需要做这么多动作,绝大多数是正面识别;同时,手机对用户的体验要求非常高,如苹果手机人脸识别的误失率要求为百万分之一,这是AI视觉供应商必须达到的。再比如在金融应用上,人脸算法做到三、四百毫秒的延迟就很不错了,但手机的要求是延迟时间在100毫秒以内。 实际上,目前国产手机的人脸解锁功能,与最先进感知技术依然有差距,是一种折衷方案。当前国产手机主要还是用可见光和红外光感知人脸面部特征,可以理解为2D技术,这种方案不能达到区分活动的人脸与打印出来的照片的区别,因此不能应用于安全需求高的支付领域。 因此,竞争焦点在于谁能实现用户体验最优的3D结构光或者TOF测距技术。3D结构光,可以感知到人脸面部相互之间的距离,不再仅仅是二维平面图,这是目前四小龙们每天着力突破的难点。 目前的竞争格局,是不同厂商获得不同区域、品牌的人脸解锁业务,手机厂商也希望通过这种技术提供商的分摊,避免过度集中的风险,提高谈判筹码。未来随着某家企业掌握了3D结构光等升级技术,并获得技术积淀后的优势,不排除打破现有的格局,独占整个智能手机人脸识别市场。 求变,技术唯一,商用无限 在安防、手机领域之外,四小龙们也没有放松拓展其他领域商业化落地的机会。 在人脸识别上,由宜信财富私募股权母基金投资的依图科技多次在世界顶级人脸识别比赛中获得第一名,其人像识别比对系统可在0.5秒级内完成单张人像查询,并检索亿级数据库后返回精准结果,超越了人眼识别平均水平,在青奥会、珠海航展、G20峰会等活动上实际应用。 此外,其车辆识别系统能通过对车辆品牌、型号等精准识别,实现品牌识别、假套牌库分析、基于视觉特征的“以图搜车”,已经在多个省公安厅应用,并获公安部科学技术进步奖。 甚至在2018年12月,依图科技发布了一个“听写大赛”微信小程序,内嵌各语音识别引擎,由网友自行对比识别率。最终在所有场景下的语音识别,依图科技都遥遥领先。 值得一提的是,依图科技进军语音识别领域才刚刚一年的时间。 2019年5月9日,依图科技在上海召开发布会,宣布推出其首款视觉推理AI芯片产品QuestCore(求索),以及基于该芯片构建的软硬件一体化系列产品和行业解决方案。 依图的产品距离民生是非常近的,现在去出入境管理中心办手续的时候,会发现使用的人脸识别设备和指纹采集设备就是依图科技的产品。 再比如:商汤科技。这是中国第一个可考朝代——商朝的开国帝王,也体现了商汤科技的霸气和野心。 2017年8月底,商汤的技术应用在了苏宁在南京出的全国首家真实投入运营的无人店——苏宁体育 Biu。其产品帮助苏宁探索自助化售货,智能追踪用户在不同货品前的停留时间等。 旷视也在做这类探索,只不过地点选在北京联想桥附近的物美超市,据旷视供应商透露,这类产品配件出货量一年在一两千套,还处于萌牙状态。 旷视也在别的领域攻城拔寨。9月2日下午,旷视的一张路演照片在微博上流出,图片上展示着旷视的人脸识别技术可用于追踪学生的课堂行为,辨别学生的“听讲”、“走神”、“睡觉”等行为。 云从的策略则和依图、商汤、旷视不同,依据中科院背景,云从希望成为国家四个人工智能平台之一。通过国家层面,做成人工智能基础资源公共服务平台后,有些事情做起来就会方便很多,比如与公安部、银行成立联合AI实验室。 这种架构益处颇多,既能拿到机构稳定订单,也可以规避数据安全性质疑。在没找到独特优势前,云从想先独辟蹊径,保障自己立于不败之地。 AI大浪拍向岸边以前,各村都在想着各村的高招。 ZAO的疯狂用户裂变,旷世排队IPO,让本已平静的四小龙格局再次起了波澜。 从整个人类社会看,AI视觉扩展了生活空间的维度,也让更多的人享受到便捷、舒适和快乐,是目前最具想象力空间的技术之一,在这个领域,诞生出一家乃至几家伟大的公司并不稀奇,280亿估值能否进一步激发这些已经领先一步的创新企业,用成熟的产品把梦想照进现实?最终的AI商业帝国究竟由谁缔造? 一切只有AI能够预知。