金融机构挑选AI产品,正如大将出征前要挑两件趁手兵器:不谈实战需求,一味求重求新,断不是上策;必须借匠人一双慧眼,摸清脾性,知其弱点,才能改良打磨出一件称心之选。近期,雷锋网《AI金融评论》策划了「AI能否解决金融刚需问题」系列选题,借同一个话题,对不同背景的受访者、产品和客群各异的企业们进行了多次专访。本文则从四大重点赛道出发,结合场景痛点,试图从现下常用的解决方案中,找出当前AI能力在哪些问题上「鞭长莫及」,以觅得未来技术趋势之所在。智能信贷风控:样本决定未来?AI在金融的商业化、规模化落地,信贷风控是最典型也最为人熟知的场景之一。如今的人工智能,可以根据海量数据开发和训练信贷风控模型,利用算法在贷前评估预测用户的还款能力和还款意愿,在贷中实时监控借款人,对可能出现的违约进行事前干预。在这样的技术水平下,金融科技公司已经为信贷业务提供全流程智能解决方案。机器能够辅助金融机构决策,提高审批、监督和催收效率,甚至在特定条件下直接替代人工,实现秒批秒贷、智能催收等等。AI风控的供需双方,也逐渐形成共识,摸索出一套相对通用的技术指标,例如K-S值、AUC和F-score等,为智能风控模型水平画出“水位线”。K-S值是风控中的一大关键衡量标准,它用于评估模型的风险区分能力,计算好坏样本累计分部之间的差值(计算每个评分区间累计坏账户占比与累计好账户占比差的绝对值)。好坏样本累计差异越大,K-S指标越大,则模型的风险区分能力越强。拆解市面上常见的解决方案之后,我们不难发现,个人信贷风控这场重头戏,主角经常是评分卡模型。这一模型的良好可解释性和高稳定性,使得它为广大银行所接受和采用。但随着有组织的团伙欺诈行为频发,原有模型未见得能查出这种更隐蔽的风险,越来越多的金融机构开始接受机器学习模型,金融科技公司也将知识图谱、特征工程等更多技术方式融入到信贷解决方案中。多位金融科技公司高层向AI金融评论强调,AI风控效果的好坏,与样本息息相关。因此,在缺乏专家经验、样本质量参差不齐、数量有限的情况下,半监督或无监督学习的技术方法受到业内青睐,即训练数据部分带有标签或全无标签,团队进行特征提取,训练自身模型,进而将标签迁移、扩散至其他没有标签的用户。隐私监管和数据孤岛的双重挑战下,各种AI技术流派也逐渐兴起并在信贷风控场景展开应用,例如联邦学习、安全多方计算、隐私计算等。高层们也指出,AI风控还存在如下疑问:模型具有一定时效性,其性能会否随着时间推移而大幅下降?模型更新所需的时间和人力成本如何?模型能够实现多高的标准化程度?解决方案与银行核心系统在对接的过程当中是否简易?……金融生物识别:多模态融合已成应用趋势问起什么才是金融领域最为关键的问题,答案多半是KYC。不止一位资深业界人士向AI金融评论强调,KYC最难的地方在于怎样识别自己的客户,这在金融场景获客、反欺诈、风控和贷后环节非常关键。几乎所有金融机构都有强身份认证需求,指纹、人脸、虹膜等生物特征识别手段也顺理成章进入到金融业务的多个重要环节。眼神科技市场体系高级总监王姝琦告诉AI金融评论,生物识别在金融业的发展,可大致分为三个阶段:在传统金融时代,生物识别初步被引入银行,优先解决的是银行内部风险控制问题;随着互联网的发展,眼神科技率先提出了人脸联网核查,之后被广泛应用,帮助银行降本增效;在如今的移动互联网浪潮下,生物识别进一步升级,不再停留在单纯的身份认证,而是充分发挥人机交互特点,与金融客户共同打造智能柜员、智慧网点、手机银行、泛金融拓展等方案,优化客户体验,实现远程获客、创新营销。尽管生物识别方案当前普及率颇高,但仍存在着一定发展桎梏。“不论是机器视觉,图像识别,还是生物识别,其实都属于模糊识别,也就是只能告诉你‘有多像’,而无法告诉你‘一定是’——每一种识别技术都会有或多或少的局限性和识别极限,或者不适合的应用场景。”王姝琦这样总结。随着AI发展和海量数据的增加,不同信息从不同方位、不同传感器一拥而入,指纹识别、人脸识别、虹膜识别、指静脉识别等单模态识别已经很难满足强安全、多场景、大数据库下的应用发展。她表示,要实现超大底库下的强身份认证,生物识别作为智能化趋势下重要的AI入口,多模态融合已成AI发展的必然趋势。只有通过多模态生物识别的统一融合,才有可能覆盖尽量多的应用场景和应用人群,进而创建完整的场景生态,让单一的行业技术,向大数据的智能化服务发展成为可能。生物识别在金融领域的落地,也逐渐由单模态识别和技术应用,过渡到多模态融合。把握住“多模态融合”技术趋势的生物识别企业,才有希望“百尺竿头更进一步”。以眼神科技的解决方案为例,新阶段的金融生物识别产品体系需要多种自主知识产权核心算法及多模态融合算法(如人脸和虹膜识别融合、指纹和指静脉识别融合等),统一平台,面向各个场景的场景云和应用软件,适用于不同场景的智能硬件终端,以及面向公众的AI能力平台。除此以外,如何兼顾安全和便捷,满足识别安全性的高度、覆盖人群和场景的广度以及使用体验的优化度,也是技术厂商们长期以来思考的问题,多模态融合发展或将成为解决之道。智能营销和运营:绕不开的风控障碍AI金融,不止与主要金融产品和业务环节相关,营销和客户运营的数字化、智能化也日渐受到重视,技术也从用户生命周期切入,正渗透到金融业务全链条当中。纵观行业应用方案,不少银行基本形成基于AI和大数据的智能化营销和运营策略,即建立和研发个人客户画像体系,不断丰富客户立体维度标签,加强对客户需求的挖掘和分析,从而实现精准营销和定制化服务。个别智能营销方案更强调了对线上线下、存量增量等全维度营销场景与渠道的覆盖。但也有金融科技公司的CEO认为,在金融产品智能营销领域,即使推荐模型效果再好,还是很难通过少量的产品满足消费级用户的全部需要。营销的另一大主要痛点,其实来自于风控。风控与获客通常以“相爱相杀”的关系出现,如果一味降低风险水平,容易造成营销端的流量浪费,转化率低下。因此,一些大型互金公司选择将风控前置到营销端,即借助AI算法、大数据关系图谱等技术,在营销广告投放之前,系统就预判出潜在客户的信用品质,再进行千人千面的广告投放,从而平衡了营销获客与风险控制的关系,以达到公司利润最优化。同时,金融机构还面临着技术能力有限和标签信息不足的问题,担心在营销过程中泄露用户信息。例如机构试图激活存量客户,但客户处在睡眠状态时他们很难得到更丰富的信息去判断;用外部标签判断客户,相当于把自己的客户信息泄露出去;没有联合建模的情况下,营销匹配度也有限。一位隐私计算技术服务商向AI金融评论表示,这类情况目前已经可以通过纵向联邦学习模型解决;存量客户对外进行画像匹配时,也可通过安全方式查询。在此过程中,存量客户也并不会有更多信息被外部获取。智能投顾:在标准化资产崛起之时把握机会智能投顾,被认为是AI落地的重要方向之一,入局的金融机构和创业公司众多,却在近两年进入到调整沉淀期。在理财魔方CEO袁雨来看来,这是智能投顾领域必经的去伪存真时期:“很多公司和项目,不理解智能投顾,不知道智能投顾属于财富管理,当成资产管理来做,他们最终都停滞了或者关停了。不能解决客户过去在标准化资产的投资理财上盈利比例太低这一核心痛点的公司和项目也都失败了。”市面上的智能投顾产品,基本是根据个人投资者提供的风险承受水平、收益目标以及风格偏好等要求,运用一系列智能算法及投资组合优化等理论模型,帮助用户实现主、被动投资策略相结合的定制化投顾服务。但有业界观点认为,AI的优势在于解决信息过载和长尾信息问题,但智能投顾是先通过问卷调查进行画像,然后在有限且有序的资产配置产品中推荐合适的投资组合,这一业务架构下的物理变量都较为清晰,AI的发展余地似乎并不大。对此,袁雨来告诉AI金融评论,在投资领域,标准化资产的财富管理是对于未来的不确定性交付,人类无法在越来越多样化的世界里,在体现无数商业活动的金融市场价格数据中,把握住其中规律的部分和不确定的部分的——在数据信息越来越多的情况下,这正是机器最主要优势。他告诉AI金融评论,机器能提升对全市场数据和决策的准确性,更好地量化客户风险承受能力和投资情绪波动。针对这一特点,智能投顾产品也逐渐完善,以理财魔方为例,其解决方案采用AI+主动全天候策略+三级风控体系,为每位用户定制匹配其风险的理财投资组合;并且能够一键实现全球配置,系统24小时监控全球金融市场的各类资产,动态调仓,尽量减少对用户注意力的占用。同时,智能投顾公司们也正试图向金融机构打包输出自己的技术能力,提供公募基金智能组合策略、基金投顾客户基础服务等,为机构打造个性化基金推荐、客户风险特征画像等产品体系。
5月25日,全国政协委员,恒银金融(行情603106,诊股)科技股份有限公司党委书记、董事长江浩然接受中国证券报记者专访时表示,今年他提交了多份提案,其中最迫切的一项提案内容是完善智能风控创新体系、保障金融数据及个人隐私数据安全。 采访中,江浩然对数字货币时代的到来表示期待,“我相信不久的将来,我们就会在日常生活中逐渐使用数字货币”,同时,恒银金融也正在为数字货币时代的业务转型做准备。 出台金融业个人数据保护指南 中国证券报:您今年的提案主要关注什么问题? 江浩然:今年我提交了多份提案,从京津冀医疗一体化,到推进智慧停车统一规划;从以互联网租赁电动自行车为突破口,推动新国标落实,到完善智能风控创新体系,更好地服务数字经济等,涉及医疗、交通、金融科技等社会关注的问题。 中国证券报:请您具体阐释一下完善智能风控创新体系这一提案,要怎样取得智能风控行业发展和用户个人数据保护的平衡呢? 江浩然:当下,个人数据的网络化和透明化已经成为不可阻挡的大趋势。与之相伴的是数据泄露事件时有发生,让大数据技术与个人隐私之间的矛盾变得仿佛不可调和,人们一提到大数据似乎就是要窃取个人隐私,不自觉地将个人信息与大数据风控严重对立。 此外,随着新消费金融、移动支付、电子商务等行业的快速崛起,也裹挟着一些风险和欺诈现象的发生。对此,我提出的建议包括:一是要完善金融风控行业相关法律法规和规制框架;二是建立包容审慎监管和柔性监管机制。因智能风控行业属于创新型领域,针对新生事物,要大胆容错纠错,为改革创新保驾护航;三是促进智能风控行业自律,随着金融机构对于智能风控行业产品和服务需求的不断增加,智能风控行业逐渐成为金融业重要的利益相关方,金融监管部门应将智能风控行业纳入监管范围;四是出台金融业个人数据保护合规操作指南。在这一指南的指导下,金融机构应制定相应的内外部个人数据使用合规流程,规范日常金融活动中的个人数据使用行为,减少法律合规性风险。 数字货币助力普惠金融 中国证券报:今年央行数字货币的推进有提速之势,您对数字货币的应用趋势怎么看? 江浩然:货币从来都是伴随着技术进步、技术革命、经济活动发展而演变。现在互联网发展非常快,全球范围内支付方式都发生了巨大变革,特别是在中国。发行数字货币,可以降低传统纸币在发行和流通领域的高昂成本,提高经济交易活动的便利性和透明性,减少洗钱、逃漏税等违法犯罪行为,提升央行对货币供给和货币流通的控制力,支持经济和社会的发展,助力普惠金融的全面实现。 中国证券报:数字货币的推广及对现金的替代对公司金融机具方面的业务是否有影响?对公司推进智慧银行业务会带来哪些机遇? 江浩然:对于数字货币的应用,公司也做了相关准备,包括研究数字钱包、数字货币无缝支取和收纳等具体功能等。数字货币时代的到来会在一定程度上改变现有社会结构和机构功能,对于金融机构的网点规划将带来很大影响,未来单纯的现金功能设备会逐步减少,但数字货币将加速银行的智慧转型,在现金类设备增速放缓的情况下,非现金类自助设备或者综合型智能设备保持较快增长,“机器解放人”将使未来银行有望实现完全的机具替代。 对此,我们公司提出了四个方面转型:一是由传统的现金设备向非现金设备转型;二是由传统的银行网点外设备向银行网点内设备转型,推动银行网点智能化改造;三是由硬件供应商向软件和服务供应商转型,逐渐以一个软件集成商、服务商的崭新面貌呈现在客户面前;四是由为金融场景服务向数字经济赋能的千行百业服务,包括政务、医疗、交通、零售等。我相信,通过全面的转型,公司发展会上一个新台阶。 相关专题:聚焦2020年全国两会财经报道
爬虫原罪:你的数据在被谁消费 11月15日,同盾科技有限公司(下称“同盾科技”)发布声明称,其子公司杭州信川科技“未能完全防范极个别‘套路贷’等不法分子利用信川产品和服务的情况”,并向公众道歉。 值得注意的是,前一天公安部曾通报“净网2019”专项行动典型案例,提到“套路贷”的犯罪链条涉及非法获取公民个人信息的数据支撑服务商、负责研发的技术服务商等。据《财新》报道,上述数据服务商为同盾科技、杭州魔蝎数据科技有限公司(下称“魔蝎科技”)、聚信立和新颜科技。 虽然监管意在治理“套路贷”“超利贷”等违规贷款产品,但是大部分爬虫服务暂停的影响却波及到全行业。事实上,此次专项调查风波目前已经波及到银行。据业内人士向《商学院》记者透露,10月24日左右,央行发文紧急调研银行与第三方数据公司合作情况。 整个消费金融行业猝不及防地迎来了“去爬虫”时代,尤其是现金贷受影响最大。数据缺失,迫使整个消费金融行业进行风控策略的大调整。 此次爬虫风波发生后,行业内讨论时普遍认为“技术无罪”,但是实际上在法律中和现实操作中,这句话应该重新理解。爬虫合规与违规的边界到底应该怎么设置?今后数据爬虫到底能不能用? 数据信用行业正在走向规范化,此番数据爬虫整治行动也只是开端,未来行业监管趋于常态化。依靠数据得以安身立命的数据服务商们未来的路又将何去何从? 针对被查原因、发展现状、业务影响、转型方向等,商学院记者分别向同盾科技、魔蝎科技、聚信立、新颜科技等方面发去采访函,截至发稿,尚未获得回复。 同盾科技子公司曾参与“套路贷” 11月15日下午,同盾科技发表公开声明称,其旗下独立运营的子公司杭州信川科技及有关人员正在积极配合警方调查曾经服务的某第三方单位。此前同盾科技曾公开表示,信川科技自2018年开始已经逐步调整业务,目前已全部停止相关服务。 事实上,今年9月中旬以来,杭州、上海多家数据公司接连被查,包括魔蝎科技、聚信立、同盾科技等,引起行业震荡。当时,多位业内人士曾告诉记者,被查原因很可能与违规使用爬虫数据以及暴力催收有关。 11月14日,公安部在发布会上通报,此次“净网2019”专项行动对“套路贷”犯罪开展了全链条式打击,系列行动的起点是今年在黑龙江省七台河市侦破的“7·30”套路贷专案。 以此案为线索,9月1日以来,公安部网络安全保卫局在全国铲除了一批帮助犯罪的技术服务商、数据支撑服务商、支付服务商,共打掉团伙147个,抓获嫌疑人1531名。 大数据风控釜底抽薪,“数据荒”时代如何破? 在数据市场,由于爬虫停止运转,数据的价格正在被急剧抬升。这使得风控成本迅速上升,众多放贷机构对此并没有充分的准备,由于替代方案的不成熟以及对新风控措施的观望,部分贷款产品的坏账率飙升。 “爬虫,是整个大数据风控行业的灵魂,是大数据风控的底层基石。要做大数据风控,先要有丰富的数据,然后才能运用这些数据建立模型,进行信用评价。”某第三方银行资深风控人士向记者指出,大多数大数据风控公司本身并没有那么多数据。因为数据是从业务当中来的,但是有大量数据源的机构实际上并不多,多数大数据风控公司的数据是靠爬虫爬取。爬虫服务暂停,消费金融行业的公司都多少受到影响,其中现金贷是重灾区,受影响最大的是运营商数据和电商数据两种数据。该资深风控人士告诉记者,市场上除了极少数非常头部的公司的产品之外,大部分现金贷类的产品都受到了影响,同时也包括部分非现金贷场景。据他估计,无场景现金贷大约占网贷平台资产的60%~70%。据他介绍,网贷平台没有了爬虫所提供的数据,能找到的替代数据有限,联合建模获取的数据作用并不太理想。因此,许多产品的坏账率飙升。 运营商数据和电商数据的缺失,使得大多数消费金融类公司都不得不调整风控方案。 首先被想到的替代方案是自建爬虫团队。 不过,据上述资深风控人士介绍,这样做的公司目前并不多。原因是从无到有自建爬虫团队的成本比较高,而且要自建爬虫团队,关键是要挖到合适的人,这方面的人才尚有缺口。更麻烦的是,自建爬虫团队恐非长久之计。他说,如果自建爬虫团队,还是涉及到爬取数据违规、侵犯个人隐私的问题,问题主要是在“强制授权”上,而不在“雇佣第三方爬”还是“自建团队爬”上。 自建爬虫团队的想法被放弃之后,能否接入别的数据源,成为首先被考虑的方向。 据了解,国庆节前后,许多有现金贷产品的公司在密切接触这次受影响不大的机构,如银行、大互联网旗下金融科技公司、头部P2P平台、消费金融公司等。据上述风控人士介绍,机构之间的相互对接,都开始“看身份”。他说:“一方面,一些有数据源的机构只愿意与持牌金融机构合作;一方面,持牌金融机构,也要看合作方是否获得了合法的数据源授权。” 事实上,此次受爬虫暂停影响的并非只有放贷机构,目前还在正常运营的大数据风控公司也受到了不小的影响。他说,大数据风控平台之间的数据是“你中有我,我中有你”的,大数据风控公司的数据不仅接给很多贷款公司,也有很多其他的大数据风控公司接。爬虫停止之后,这些公司所应用的数据少了一大块,所以各种评分产品的效力大大下降。 爬虫风波之后,数据的价值迅速凸显出来,有些握有数据的公司坐地起价。据悉,原先一份运营商报告3毛钱,字段覆盖很全,也非常有利于做反欺诈和催收。现在运营商报告无法获取,只能用与数据公司联合建模方式来获取运营商信息,比如月流量、通话地区分布等,这样使得成本大大提高,价格翻了好几倍。不少公司看准了数据荒所形成的市场空白,趁势而上。 爬虫整治风波之下,行业在等待监管下一步动态的同时,也在寻找目力范围内的可替代方式,联合建模被认为是大数据风控未来最为合规的替代方案,行业对“联合建模”关注度在提升。 不过,最耐人寻味的是,虽然目前联合建模的市场热度有所上升,但是身处其中的公司,差异却很大:有的公司销售电话被打爆,有的公司只是业务的询问量有一定程度的上升、签单量也有上升,但是实际成交量并没有“暴涨”。 据悉,大数据风控行业最为合规的业务——联合建模,早在2015年前后就已经在市场上出现。联合建模的最终目的,就是既保护用户隐私、又控制好金融风险,因为这项技术可以在双方数据不出本地的情况下,运用数据建立风控模型。但是,在此次大部分主流厂商的爬虫服务暂停之前,联合建模市场并不大。 据上述资深风控人士估计,业内用联合建模这种方案进行风险控制的公司大概只占四成,六成的公司都是通过爬虫获取数据。在他看来,原因主要有两个:一个是成本,联合建模的成本比较高,比如联合建模一个模型就需要至少10万元,质量好一些的联合建模,加上商务洽谈产生的费用至少30万,有的则可能高达50万,对规模较小的公司来说并不划算;另一个原因是数据,不少金融公司主要是看重外部的一些重要数据源,而不是建模能力。而在实际业务中,缺乏数据源的联合建模,其效果也不是特别好,在市场上缺乏竞争力。他坦言:“虽然说是在找联合建模,但其实如果你有独特的数据源,别人才会和你联合建模。如果你没有,只有技术,那就不行。” 据业内人士向记者透露,联合建模这个领域,做得好的公司“闷声发大财”,市场上几乎看不到他们的宣传。而在到处做市场推广的公司,实际上业务做的并不多。“因为那些做得好的公司不需要宣传,全行业都知道他们。”他表示。不过,随着监管的加强,联合建模被业内认为确实是未来的方向。因为随着对数据合规的监管日益严格,联合建模将成为不得不选择的方案。 技术无罪?观望爬虫边界 目前的“数据荒”如何应对?一位业内人士坦言:“现在不是应对,而是观望。在确定监管层对爬虫的明确态度之前,还没法确定如何应对。” 众所周知,金融的核心环节是风控,而作为大数据行业不仅连接着用户,还面向现金贷公司,是现金贷机构的重要合作伙伴。通过第三方数据的服务,一方面能够为现金贷风控提供安全参考,但另一方面一旦数据被贩卖、泄露,就会对用户的隐私造成侵犯,也容易将大数据风控行业推向深渊。 这一切的罪魁祸首就是爬虫技术。 爬虫技术本无罪。多位大数据风控行业资深人士向记者表示,不能把爬虫“妖魔化”。据百度百科显示,所谓“爬虫”其实是一个自动提取网页的程序,其按照一定的规则,自动抓取互联网信息并存储到自身数据库的程序或者脚本。在用户授权后,风控数据提供商可通过后台爬虫搜集信息,将通话信息、消费数据等互联网信息整合标准化,最终形成对借款人的综合评估,供金融机构做相应的后续决策。 据业内人士表示:“用爬虫爬取信息,除了自动化对用户来说比较省事之外,对放贷机构来讲,获取的数据也更真实。很多需要人手填的数据,都会有造假的成分,因为可以随意填写。但是如果用自动化的程序去抓取的话,很多数据是无法修改的,部分能修改的用户临时修改数据也是很难的,因此数据真实性更高,有保证。” 据上述资深风控人士表示:“其实,爬虫服务本身如果在客户充分授权的前提下是可以用的,但是因为像一些第三方数据平台使用爬虫时,他们的数据来源往往说不清。更加严重的是,这些由爬虫获取的数据,会被一些比较下沉的金融平台拿去做一些涉及暴力催收的事情。” 他认为,大数据风控服务在实际应用中出现问题的核心在于,爬虫爬取的数据被“二次贩卖”,而不是“爬取”这个动作本身。同时,需要特别强调的是,并不是所有应用爬虫技术的公司都会将数据“二次贩卖”。 据他介绍,在实际应用中,搜索引擎就是爬虫技术的一个较大应用。但是,这个“爬虫”和这次整治风波中的爬虫有所不同。搜索引擎的爬虫,爬取的是公开的网页信息,并不涉及个人隐私,因此不在这次整治当中。 上述资深风控人士说,在实际的金融领域应用中,爬虫被用在两类公司:一类是第三方大数据风控公司,一类是头部网贷平台。 对于许多小型的网贷公司来说,因为自己养不起爬虫团队,一般都会采用第三方大数据风控公司提供的服务。第三方风控公司的爬虫业务利润并不丰厚,一般来说爬取一条信息所收取的费用甚至可以低至1毛钱,一个公司单靠这项业务无法盈利。于是,很多第三方风控公司将爬取的用户信息存储、出售给其他公司,从而获取更多收益。 而头部放贷机构一般都选择自建爬虫团队。这其中的原因有几个方面:首先,头部机构技术力量足够同时能有客户授权,比较安全;其次,自建爬虫团队,爬取的数据更加个性化、更符合业务需要,因为爬虫爬来数据的广度和深度直接决定着公司后续风控的质量,是风控的基础,头部放贷机构不愿将业务的核心放在别人手里;再次,第三方风控公司爬取数据之后会进行出售,头部放贷机构不愿自家的客户被别的公司抢走,因此倾向于保护数据不外泄;此外,如果用户数据被转卖,会造成多头借贷,因为别的公司拿到这些用户的数据就会给这些用户放款,一个用户在多家借款,会影响这个用户的最终还款。因此,转卖用户数据和头部放贷机构的商业利益是根本违背的。 对于爬虫的应用边界,多位大数据风控业内人士表示,业内形成的共识是:只要数据使用有个人明确授权,把授权给谁、用途说清楚,爬虫并非不能使用。 上海交通大学数据法律研究中心执行主任何渊表示,官方的态度实际上是很明确的,数据并不是不能爬,“说得很清楚,收集的时候不能采取妨碍网站的正常运行,甚至有一个尺度,流量不能超过别人网站的1/3。”何渊认为,金融数据爬虫到底能不能爬?关键看三个点:爬的什么东西?怎么爬?爬的合法数据用来干什么?“这三点决定你是不是犯罪,是不是违法。” 此前,10月8日,中国人民大学国家发展与战略研究院金融科技与互联网安全研究中心主任杨东在人民政协报上撰文《依法保护金融数据》,其中提到尽管纷扰不断,但传统金融机构线上化进程不可逆转。当前的紧要任务,是推动形成金融监管机构、行业头部企业与法律界等共同研究探讨的善治局面,鼓励科技向善。同时,针对当前数据分析行业的弊端,他提出了几点应对措施,其中包括:第一,金融监管机构出台金融业个人数据保护合规操作指南;第二,建立个人数据保护的行业自律组织;第三,以合规供应商清单的方式促进数据分析行业的发展。 目前,对个人金融数据监管最具针对性的一部法律是《个人金融信息(数据)保护试行办法》。此前据媒体报道,《个人金融信息(数据)保护试行办法(初稿)》已经出炉,央行已经下发到各家银行,目前正在征求意见中。
【深度】祸起“套路贷”:违规爬虫被查,大数据风控公司遭遇生死劫 最近,金融数据圈风声不断。 9月6日,位于杭州的大数据风控平台杭州魔蝎数据科技有限公司被警方控制,高管被带走,相关服务瘫痪。 同日,有信息称另一家提供大数据风控服务的新颜科技人工智能科技有限公司高管被带走协助调查。 9月11日,位于杭州的公信宝运营方杭州存信数据科技有限公司被警方查封。 据财新报道,中秋节期间,头部大数据风控公司同盾科技子公司也有相关人员被警方带走协助调查。 “行业里几乎每天一条消息,9月,葫芦数据、白骑士、立木征信这些比较大的数据风控商都暂停了爬虫服务,现金贷平台也都停止放贷。”多位网贷数据行业从业者表示,他们现在基本都已处于停工状态 。 最新消息是,10月21日,杭州警方对51信用卡委托外包催收公司涉嫌寻衅滋事等犯罪开展调查。 据记者了解,外包催收公司通过恐吓、滋扰等软暴力催收的过程中,数据爬虫公司违规获取的通讯录、地址定位等个人敏感信息也是主要帮凶。 祸起“套路贷” 网络爬虫是指按照一定规则,自动抓取互联网信息的程序。 这项技术并无原罪。一位互金公司的大数据风控从业人员告诉界面新闻,业内稍具规模的公司为了业务发展,比如更加精确的用户定位和风险控制,都会做爬虫。通过爬虫将目标用户在互联网上的分散数据收集起来,再作为参数输入到模型代码中,从而实现更为精准的风控。 但问题在于,在隐私保护薄弱、数据安全存在漏洞的国内互联网环境中,爬虫技术往往与信息来源违法、滥用等问题交织在一起。尤其在互联网金融行业,这项技术滥用会造成严重的社会危害,甚至扰乱金融行业秩序。 “公开的数据,你去爬那就是捡,但是私密的数据,你去爬那就是偷。”前述风控人员告诉界面新闻记者,很多公司都在利用爬虫技术去抓个人隐私数据或者政府机关、银行机构的数据,“有些网站的反爬虫策略做得不够到位,但是又有着比较敏感的数据,被爬取数据的风险很大。” 一家杭州地区上市公司互金业务负责人则向界面新闻记者透露,政府机构的网站是爬虫技术攻击的主要对象,很多互金公司都会到社保、公积金和法院网站上去爬虫。且业内人士普遍认为这种行为并不违法,“以前这是法律的灰色地带,行业默认只要不将爬虫得来的数据用于交易,一般就没有问题。” 不过该人士补充说,经过一轮重拳整治后,现在已经很少有公司敢再爬未经授权的数据了。“现在大家都在等看法院到底如何判决,这将对今后数据的开发和使用划定红线,到底是爬取(违法)还是交易(违法)。” 业内人士透露,有能力自建爬虫队伍的公司往往已经是初具规模和实力的正规公司,而在这个行业中还大量存在着草草搭建的各类互联网贷款平台,既无实力也无人员去自己做爬虫,这些公司一般是购买同盾科技、百融云创等第三方大数据风控公司的服务。在这轮公安机关的整治中,主要目标也集中在这类第三方大数据风控公司身上。 实际上,目前爬虫技术造成更严重的社会危害在于,被应用在“套路贷”的暴力催收上。 套路贷,即小额、短期、含有极高砍头息的高利贷款。今年的315晚会,披露了一种名为“714高炮”的违法高利贷模式。一个典型的714是,贷款人借1000元只能到手700元,其中300元会以服务费的条目被扣除,且7天后就会接到催收电话。凭借着短周期和砍头息,这种高炮的年利率甚至高达1500%。 据财新报道,这轮针对大数据风控公司的强监管主要是由于公安机关在打击“套路贷”时,发现爬虫为套路贷爬取通讯录、地址定位等个人敏感信息,引发命案及相关刑事调查。有接近公安部的人士认为,在此类案件中,“套路贷是主犯,而爬虫公司是从犯”。 苏宁金融研究院院长助理薛洪言认为,用户信息是金融业务的源头,长期以来个人信息获取及保护层面缺乏明确监管要求,为中下游的不少乱象提供了土壤,既包括数据采集和交易过程中的隐私保护乱象,也包括数据应用阶段的骚扰式营销甚至暴力催收乱象。 大数据风控行业之兴 回顾国内第三方数据产业的发展历史,你会发现,这几乎就是一个和国内网贷行业共生共荣的产业。而在不少业内人士看来,本次警方对数据行业的高压调查,与近半年各省市集中打击“套路贷”也有很大关系。 尽管今年3·15晚会之后套路贷有了短暂熄火,但据一位助贷公司员工介绍,从5月开始,行业里的三方数据调取量和短信渠道发送量又回到了3·15之前的水平。 上述助贷公司员工表示,在现金贷行业,很少有老板会花心思自建风控模型。大多数老板在项目上线前会直接从系统商那里买风控系统,价值在2万元到8万元之间。 而这种系统所谓的风控,其实就是自动从同盾、白骑士等三方数据公司借调用户数据。可以说,这些第三方数据平台所提供的服务就代表了这些现金贷平台的全部风控。 前述上市公司互金业务负责人告诉界面新闻记者,在现金贷业务最为火热的时候,据其了解,仅2017年上半年杭州地区就新出现了四五百家现金贷公司,而这些公司基本都会接入同盾等平台,数据来源和风控模型都大同小异。 客观上,同盾等第三方大数据风控公司的出现,降低了线上放贷的门槛,令现金贷公司如流水线上批量复制的产品,被迅速制造出来。 薛洪言认为,数据获取与使用的低门槛,大幅降低了金融领域无证经营门槛,大量不具备基本从业素质、缺乏风险意识的机构掺和进来,无序竞争,劣币驱逐良币,给互金行业的治理整顿和可持续发展均带来很大难度。 下面是一位系统商提供给界面新闻记者的可借调信息名单,表格里打钩的是建议勾选的项目。可以看到,里面除了有常规的多头名单风险名单。还包括支付宝及淘宝数据,内容详尽到甚至能包括收货地址和订单详情。而这些信息其实已经涉及到侵犯个人隐私。 然而,由于国内数据收集法律不健全,爬虫技术又很成熟,这也让第三方数据公司在监管真空的环境里迎来了自己的甜蜜时光。 根据亿欧智库2018年11月发布的《2018中国智能风控研究报告》,截至去年年底,573家金融风控企业获得投资金额超过1000亿元,其中3成企业获得三次及以上的投资。 除了融资,头部公司的自造血能力也很可观。据新流财经此前报道,行业头部公司同盾科技2016年至2018年的营业收入分别为6066万元、2.61亿元、5.42亿元。 上述系统商也对界面新闻记者表示,目前行业里大多数现金贷甲方都会选择以同盾数据为主,辅以白骑士、摩羯科技、新颜科技等其他公司的产品。到今年同盾科技在现金贷行业的覆盖率也已经高达90%。 但随着监管的重锤落下,这样的高速发展也终于画上了句号。 前述互金业务负责人透露,对大数据风控行业进行整治,现金贷行业受波及最大,“因为这类公司离不开(第三方)的数据支持。” 监管带来行业变局 10月初,有媒体透露,行业正在筹划《个人金融信息保护试行办法》,并开始征求各方意见。10月10日,该办法草稿甚至已经通过央行下发到各家银行,持续征求意见。 据悉,该办法要求金融机构不得从非法从事个人征信业务活动第三方获取个人金融信息,也不得以“概括授权”方式取得信息主体对收集、处理、使用和对外提供其个人金融信息的同意。 如果该办法正式出台,银行需要根据要求对提供业务数据第三方机构进行摸排,对于不能保证数据来源合法数据供应商,则要停止合作。 对于这一堪称严厉的法规,数据评测机构知微科技CEO于霄告诉界面新闻记者:“个人数据用于商业广告或者金融,问题一直很多,在法规不健全的情况下,大家普遍都在越界使用。所以对于这个新规,虽然有些一刀切,但也都在意料之中。数据在当今社会属于超能武器,理应被严格管理。” 薛洪言对界面新闻记者分析认为,这轮整治后,短期来看,违规获取数据的公司将逐步退出行业,以银行、巨头为代表的数据应用方也会提高合作机构准入门槛,倒逼大数据行业优胜劣汰,净化行业环境。数据公司的分化会加速中下游数据使用方的分化,那些缺乏核心资源、以粗放激进为竞争力的金融创业机构,也将相继退出行业。 中长期来看,由于数据隐私保护意识的提升是不可逆的,数据获取难度和门槛的提升,会逐步提升数据方在金融产业链中的话语权,继而重塑金融产业链各方的利润分配机制和业务合作模式。