近年来,编程似乎成为了一种潮流,越来越多人开始借助程序实现信息收集等原本需要大量人力完成的工作。 商界大佬潘石屹,也身体力行开始推广python语言 作为互联网信息收集的主要手段,网络爬虫自然而然成为许多新入门者最重要的学习内容。然而,人们的热情还未高涨就被打入谷底。从去年开始,不断爆出数据风控公司出事的新闻:魔蝎、新颜科技、51信用卡等一大批数据风控公司因利用爬虫收集信息被刑事调查。由此,也出现了“爬虫爬的好,牢饭吃到饱”的说法。一夜之间,爬虫似乎成为万恶的根源,许多互联网公司也开始避免使用此类技术。其实,爬虫就像是参观风景的游客,进入之前先弄清楚主人的态度。如果被允许,进门后没有干扰他人的正常生活秩序,就是受欢迎的客人。 一、爬虫的法律风险 作为专门收集网络信息的技术,几乎所有与计算机领域相关的犯罪,都可能直接或间接地与爬虫关联。根据相关风险是否与数据相关,可以划分为与数据相关的风险及与一般性的计算机技术相关的风险。 二、与数据相关的风险 作为爬取数据的技术手段,爬虫最本质的特征就在于其对数据的高效收集。其最典型的法律风险,也与数据的采集和使用相关。 通常而言,如果爬虫收集的数据是保密数据或如局域网内等非公开数据,则相关行为既可能构成侵权、行政违法,也可能构成诸如非法侵入计算机信息系统罪、非法控制计算机信息系统罪等刑事犯罪。 需要注意的是,并不是只有爬取加密或不公开信息才有风险,即使爬取的是公开信息、甚至是大型网络平台的信息,也有可能构成犯罪。为了应对爬虫,许多网站通过Robot爬虫协议禁止爬虫收集其数据,也有一些网站采取反爬虫措施,限制爬虫的运行。违反Robot爬虫协议或采取技术手段绕开反爬虫措施,可能构成不正当竞争,也可能涉嫌非法获取计算机系统数据罪。 即使数据来源方没有禁止使用爬虫,也不代表可以不受限制地收集并利用数据。我国法律对特定类型的数据——如个人数据、著作权数据——规定了特殊的保护措施,爬虫收集对该类数据的收集及利用应当遵循相关的法律法规。当收集的是个人数据时,应当注意首先获取权利人的同意。未经允许收集他人的个人数据,即使该数据被合法地公开到了互联网上,也违反网络安全法等法律法规。若非法收集的情形严重或将非法获取的个人信息用于非法用途或出售,或超出授权范围使用个人数据,还有可能构成侵犯公民个人信息罪。去年开始的数据行业风暴,即多源于相关公司对个人数据的非法获取或利用。若未经他人许可而爬取他人著作或视频、音像等,可能违反《著作权法》的相关规定,情节严重的还可能构成侵犯著作权罪。 此外,数据的收集过程合法,并不代表相关数据可以被无限制的使用,还应注意不侵害他人正当的商业利益。例如,采集竞品公司的数据,用于自己的商业目的,可能构成不正当竞争。在大众点评与百度的纠纷中,百度未经大众点评允许收集其平台中的数据,并将其展示在百度地图或百度知道的搜索页面中,实质性地替代了大众点评的网站,直接影响了用户通过进入大众点评网站浏览相关数据的需求,最终被认定为构成不正当竞争。 三、与计算机技术相关的风险 作为计算机技术的应用场景,计算机行业的一般性风险,如破坏计算机信息系统罪、非法控制计算机信息系统罪等典型的计算机犯罪,也可能出现在爬虫应用中。例如,设计爬虫时,不合理地高频收集数据,导致数据来源方系统的正常运行受到影响,除可能承担侵权责任,还可能构成破坏计算机信息系统罪。又如,将开发的爬虫提供给他人用于实施犯罪,可能构成帮助信息网络犯罪活动罪、提供侵入、非法控制计算机信息系统程序、工具罪。此外,若明知他人以计算机技术作为手段实施犯罪,还为他人提供技术帮助,则可能成为他人所实施犯罪的共犯。 四、使用爬虫的原则:善意、注意 单看爬虫可能涉及的法律风险或罪名,难免给人一种印象:无论是收集数据还是技术应用,无论是收集保密数据还是公开数据,都可能构成犯罪,因此使用爬虫技术一定要万分小心,许多人因此将爬虫技术视为禁忌。其实,只要谨守两条原则:善意与注意,便可以在最大程度上避免风险。 所谓善意,与恶意相对,要求在使用爬虫时注意不要故意地侵扰数据来源方、相关第三方或社会公众的利益。在故意侵害他人利益应用爬虫的行为中,恶意表现的较为明显。例如,违反Robot爬虫协议或采取技术手段绕开反爬虫措施,爬虫使用者明确知道数据来源方拒绝其收集信息。同理,通过爬虫收集竞品信息用于自身商业目的的行为中,相关行为人也明确知道其行为可能对竞争对手造成的影响。在使用爬虫作为手段侵入他人系统或恶意改变搜索引擎排名等的情况中,使用者的恶意则更加明显。 当然,在很多情况下,只有善意并不足够,囿于知识、认识水平等原因,我们常常不会意识到自己的行为可能对他人造成影响或可能违反法律。因此,善意之外,还要求我们保持合理的注意。所谓注意,是指在应用技术时,爬虫使用者应对自己的行为可能侵害他人的利益保持高度的警觉。与注意原则相关的风险,通常出现在爬虫使用者不熟悉相关法律法规,或因个人设计失误而造成他人利益受损的情形。例如,开发者在程序设计时为了更高效地收集信息,未合理了解被爬网站的运行能力,设定了高频率批量收集信息的模式,结果对被爬网站造成干扰,影响被爬网站的正常运行。 善意与注意,实际上是同一概念下的两个方面,二者都强调爬虫应用时不应不合理地侵害他人权益,前者禁止的是积极地侵犯他人权益,后者禁止的是因自身的放任或忽视导致他人的权益受损。整体来看,绝大多数与爬虫相关的风险中,爬虫使用者都有较为明显的恶意,例如,无论是在病毒、木马式应用,还是绕过系统防控收集他人数据等行为中,爬虫使用者都能够清晰地认识到自己的行为不当。 因缺乏注意而导致的风险,则往往出现在爬虫使用者没有认识到或容易忽略信息所有者权利的场景中,典型的是对公开的个人数据的收集与利用。虽然近两年有关个人数据的收集规则被大力推广,但普通人对规则的了解还不全面,甚至完全没有个人信息保护的意识。许多爬虫开发者在应用爬虫时可能完全没有意识到自己收集个人数据需要获得用户的授权,所以建立基本的权利保护意识是完全必要的。 五、非商业化使用的例外:个人的非恶意使用通常不会导致刑事风险 如果说善意原则能通过个人的道德感、日常生活的学习感知等进行判断,相对容易遵守,注意原则对于许多个人开发者而言,则存在相当大的难度:与商业组织不同,个人开发者往往没有完整的运营团队,也很少系统地学习了除了专业知识之外的内容,所以,没有能力把控各类问题的法律界限。 同时,对于许多个人开发者而言,无论是日常对相关技术的学习、实验,还是为了家庭或工作方便,都会经常自行开发一些只供自己或少数特定人使用、没有商业目的的小程序,其中,就经常存在利用爬虫技术爬取他人数据的情形。由于只限于小范围内传播,且仅供自身日常使用,所爬取的数据一般都不会对第三方造成影响。 对于这些个人开发者而言,如果这些仅供个人使用或实验的程序,还需要通过严谨的商业开发流程去谈合作、做合规,无疑是不现实的。这些行为如果被认定为违法甚至构成犯罪,无疑将极大地挫败个人开发者的开发热情,也会对其学习应用相关技术造成阻碍。 其实,在与爬虫相关的法律规定中,行为人的商业或不法目的通常都是入罪时的重要考量因素,只有有严重危害后果的,才可能构成刑事犯罪。非商业化的应用,一般并不会导致刑事风险。例如,在与爬虫收集最直接相关的侵犯公民个人信息罪中,信息是否被非法提供、出售或被用于非法用途,以及所谓的“赃款”,都是重要的定罪因素。 从实践中的案例来看,最终被定罪处罚的,都存在诸如将收集的个人信息用于实施诈骗、出卖给第三方用于非法用途或其他的现实危害后果的情形,这在个人因日常需要而使用爬虫的情况中都不会存在。因此,仅仅是爬取网站的信息用于个人使用,通常不会被认定为犯罪。 因此,对于个人开发者而言,个人因日常需要而非商业化的使用爬虫技术,只要保持最基本的注意,不恶意使用相关技术,没有出现因个人程序影响他人网站正常运行的情形,都没有犯罪的风险。
网宿科技近日发布《2019年中国互联网安全报告》(简称“《报告》”)显示,2019年,网宿云安全平台共监测拦截了12178.96亿次攻击。平均每天为全球网站抵御与防护约33.37亿次攻击。 《报告》称,随着企业的数字化转型,越来越多的敏感数据、关键业务被暴露在互联网中,被黑产团队以恶意爬虫、API攻击等方式获取,因信息泄露导致的诈骗案件数量呈爆发式增长。2019年恶意爬虫攻击同比增长58.33%, DDoS攻击和Web应用攻击稳步增长,涨幅分别为25.76%和34.94%。 2019年,网宿云安全平台监测并拦截了119.46多亿次爬虫攻击、12046.64多亿次DDoS攻击事件和12.86亿次Web应用攻击;相当于平均每秒拦截380起爬虫攻击请求、3.82万次DDoS攻击。 从攻击手法来看,爬虫攻击海外“作战”趋势明显;DDoS从原来的“长时间压制”转向大流量的“瞬时击穿”,打击更加精准;Web应用攻击方面,暴力破解首次代替SQL注入成为主要攻击手段,且手法趋于复杂,利用新型漏洞攻击更受黑客青睐。 《报告》还指出,随着5G、IPv6、人工智能和物联网等新技术的发展与普及,业务安全问题更难识别与防御,为网络安全防护带来全新的挑战。2019年,全网IPv6攻击6641万次。 网宿云安全团队人士接受采访表示,针对当前的安全形势,网宿已经着手将CDN、SD-WAN、边缘计算、安全web网关、零信任网络访问等技术能力进行升级和整合,以实现“云、网、边”安全能力的立体式全面覆盖。
爬虫原罪:你的数据在被谁消费 11月15日,同盾科技有限公司(下称“同盾科技”)发布声明称,其子公司杭州信川科技“未能完全防范极个别‘套路贷’等不法分子利用信川产品和服务的情况”,并向公众道歉。 值得注意的是,前一天公安部曾通报“净网2019”专项行动典型案例,提到“套路贷”的犯罪链条涉及非法获取公民个人信息的数据支撑服务商、负责研发的技术服务商等。据《财新》报道,上述数据服务商为同盾科技、杭州魔蝎数据科技有限公司(下称“魔蝎科技”)、聚信立和新颜科技。 虽然监管意在治理“套路贷”“超利贷”等违规贷款产品,但是大部分爬虫服务暂停的影响却波及到全行业。事实上,此次专项调查风波目前已经波及到银行。据业内人士向《商学院》记者透露,10月24日左右,央行发文紧急调研银行与第三方数据公司合作情况。 整个消费金融行业猝不及防地迎来了“去爬虫”时代,尤其是现金贷受影响最大。数据缺失,迫使整个消费金融行业进行风控策略的大调整。 此次爬虫风波发生后,行业内讨论时普遍认为“技术无罪”,但是实际上在法律中和现实操作中,这句话应该重新理解。爬虫合规与违规的边界到底应该怎么设置?今后数据爬虫到底能不能用? 数据信用行业正在走向规范化,此番数据爬虫整治行动也只是开端,未来行业监管趋于常态化。依靠数据得以安身立命的数据服务商们未来的路又将何去何从? 针对被查原因、发展现状、业务影响、转型方向等,商学院记者分别向同盾科技、魔蝎科技、聚信立、新颜科技等方面发去采访函,截至发稿,尚未获得回复。 同盾科技子公司曾参与“套路贷” 11月15日下午,同盾科技发表公开声明称,其旗下独立运营的子公司杭州信川科技及有关人员正在积极配合警方调查曾经服务的某第三方单位。此前同盾科技曾公开表示,信川科技自2018年开始已经逐步调整业务,目前已全部停止相关服务。 事实上,今年9月中旬以来,杭州、上海多家数据公司接连被查,包括魔蝎科技、聚信立、同盾科技等,引起行业震荡。当时,多位业内人士曾告诉记者,被查原因很可能与违规使用爬虫数据以及暴力催收有关。 11月14日,公安部在发布会上通报,此次“净网2019”专项行动对“套路贷”犯罪开展了全链条式打击,系列行动的起点是今年在黑龙江省七台河市侦破的“7·30”套路贷专案。 以此案为线索,9月1日以来,公安部网络安全保卫局在全国铲除了一批帮助犯罪的技术服务商、数据支撑服务商、支付服务商,共打掉团伙147个,抓获嫌疑人1531名。 大数据风控釜底抽薪,“数据荒”时代如何破? 在数据市场,由于爬虫停止运转,数据的价格正在被急剧抬升。这使得风控成本迅速上升,众多放贷机构对此并没有充分的准备,由于替代方案的不成熟以及对新风控措施的观望,部分贷款产品的坏账率飙升。 “爬虫,是整个大数据风控行业的灵魂,是大数据风控的底层基石。要做大数据风控,先要有丰富的数据,然后才能运用这些数据建立模型,进行信用评价。”某第三方银行资深风控人士向记者指出,大多数大数据风控公司本身并没有那么多数据。因为数据是从业务当中来的,但是有大量数据源的机构实际上并不多,多数大数据风控公司的数据是靠爬虫爬取。爬虫服务暂停,消费金融行业的公司都多少受到影响,其中现金贷是重灾区,受影响最大的是运营商数据和电商数据两种数据。该资深风控人士告诉记者,市场上除了极少数非常头部的公司的产品之外,大部分现金贷类的产品都受到了影响,同时也包括部分非现金贷场景。据他估计,无场景现金贷大约占网贷平台资产的60%~70%。据他介绍,网贷平台没有了爬虫所提供的数据,能找到的替代数据有限,联合建模获取的数据作用并不太理想。因此,许多产品的坏账率飙升。 运营商数据和电商数据的缺失,使得大多数消费金融类公司都不得不调整风控方案。 首先被想到的替代方案是自建爬虫团队。 不过,据上述资深风控人士介绍,这样做的公司目前并不多。原因是从无到有自建爬虫团队的成本比较高,而且要自建爬虫团队,关键是要挖到合适的人,这方面的人才尚有缺口。更麻烦的是,自建爬虫团队恐非长久之计。他说,如果自建爬虫团队,还是涉及到爬取数据违规、侵犯个人隐私的问题,问题主要是在“强制授权”上,而不在“雇佣第三方爬”还是“自建团队爬”上。 自建爬虫团队的想法被放弃之后,能否接入别的数据源,成为首先被考虑的方向。 据了解,国庆节前后,许多有现金贷产品的公司在密切接触这次受影响不大的机构,如银行、大互联网旗下金融科技公司、头部P2P平台、消费金融公司等。据上述风控人士介绍,机构之间的相互对接,都开始“看身份”。他说:“一方面,一些有数据源的机构只愿意与持牌金融机构合作;一方面,持牌金融机构,也要看合作方是否获得了合法的数据源授权。” 事实上,此次受爬虫暂停影响的并非只有放贷机构,目前还在正常运营的大数据风控公司也受到了不小的影响。他说,大数据风控平台之间的数据是“你中有我,我中有你”的,大数据风控公司的数据不仅接给很多贷款公司,也有很多其他的大数据风控公司接。爬虫停止之后,这些公司所应用的数据少了一大块,所以各种评分产品的效力大大下降。 爬虫风波之后,数据的价值迅速凸显出来,有些握有数据的公司坐地起价。据悉,原先一份运营商报告3毛钱,字段覆盖很全,也非常有利于做反欺诈和催收。现在运营商报告无法获取,只能用与数据公司联合建模方式来获取运营商信息,比如月流量、通话地区分布等,这样使得成本大大提高,价格翻了好几倍。不少公司看准了数据荒所形成的市场空白,趁势而上。 爬虫整治风波之下,行业在等待监管下一步动态的同时,也在寻找目力范围内的可替代方式,联合建模被认为是大数据风控未来最为合规的替代方案,行业对“联合建模”关注度在提升。 不过,最耐人寻味的是,虽然目前联合建模的市场热度有所上升,但是身处其中的公司,差异却很大:有的公司销售电话被打爆,有的公司只是业务的询问量有一定程度的上升、签单量也有上升,但是实际成交量并没有“暴涨”。 据悉,大数据风控行业最为合规的业务——联合建模,早在2015年前后就已经在市场上出现。联合建模的最终目的,就是既保护用户隐私、又控制好金融风险,因为这项技术可以在双方数据不出本地的情况下,运用数据建立风控模型。但是,在此次大部分主流厂商的爬虫服务暂停之前,联合建模市场并不大。 据上述资深风控人士估计,业内用联合建模这种方案进行风险控制的公司大概只占四成,六成的公司都是通过爬虫获取数据。在他看来,原因主要有两个:一个是成本,联合建模的成本比较高,比如联合建模一个模型就需要至少10万元,质量好一些的联合建模,加上商务洽谈产生的费用至少30万,有的则可能高达50万,对规模较小的公司来说并不划算;另一个原因是数据,不少金融公司主要是看重外部的一些重要数据源,而不是建模能力。而在实际业务中,缺乏数据源的联合建模,其效果也不是特别好,在市场上缺乏竞争力。他坦言:“虽然说是在找联合建模,但其实如果你有独特的数据源,别人才会和你联合建模。如果你没有,只有技术,那就不行。” 据业内人士向记者透露,联合建模这个领域,做得好的公司“闷声发大财”,市场上几乎看不到他们的宣传。而在到处做市场推广的公司,实际上业务做的并不多。“因为那些做得好的公司不需要宣传,全行业都知道他们。”他表示。不过,随着监管的加强,联合建模被业内认为确实是未来的方向。因为随着对数据合规的监管日益严格,联合建模将成为不得不选择的方案。 技术无罪?观望爬虫边界 目前的“数据荒”如何应对?一位业内人士坦言:“现在不是应对,而是观望。在确定监管层对爬虫的明确态度之前,还没法确定如何应对。” 众所周知,金融的核心环节是风控,而作为大数据行业不仅连接着用户,还面向现金贷公司,是现金贷机构的重要合作伙伴。通过第三方数据的服务,一方面能够为现金贷风控提供安全参考,但另一方面一旦数据被贩卖、泄露,就会对用户的隐私造成侵犯,也容易将大数据风控行业推向深渊。 这一切的罪魁祸首就是爬虫技术。 爬虫技术本无罪。多位大数据风控行业资深人士向记者表示,不能把爬虫“妖魔化”。据百度百科显示,所谓“爬虫”其实是一个自动提取网页的程序,其按照一定的规则,自动抓取互联网信息并存储到自身数据库的程序或者脚本。在用户授权后,风控数据提供商可通过后台爬虫搜集信息,将通话信息、消费数据等互联网信息整合标准化,最终形成对借款人的综合评估,供金融机构做相应的后续决策。 据业内人士表示:“用爬虫爬取信息,除了自动化对用户来说比较省事之外,对放贷机构来讲,获取的数据也更真实。很多需要人手填的数据,都会有造假的成分,因为可以随意填写。但是如果用自动化的程序去抓取的话,很多数据是无法修改的,部分能修改的用户临时修改数据也是很难的,因此数据真实性更高,有保证。” 据上述资深风控人士表示:“其实,爬虫服务本身如果在客户充分授权的前提下是可以用的,但是因为像一些第三方数据平台使用爬虫时,他们的数据来源往往说不清。更加严重的是,这些由爬虫获取的数据,会被一些比较下沉的金融平台拿去做一些涉及暴力催收的事情。” 他认为,大数据风控服务在实际应用中出现问题的核心在于,爬虫爬取的数据被“二次贩卖”,而不是“爬取”这个动作本身。同时,需要特别强调的是,并不是所有应用爬虫技术的公司都会将数据“二次贩卖”。 据他介绍,在实际应用中,搜索引擎就是爬虫技术的一个较大应用。但是,这个“爬虫”和这次整治风波中的爬虫有所不同。搜索引擎的爬虫,爬取的是公开的网页信息,并不涉及个人隐私,因此不在这次整治当中。 上述资深风控人士说,在实际的金融领域应用中,爬虫被用在两类公司:一类是第三方大数据风控公司,一类是头部网贷平台。 对于许多小型的网贷公司来说,因为自己养不起爬虫团队,一般都会采用第三方大数据风控公司提供的服务。第三方风控公司的爬虫业务利润并不丰厚,一般来说爬取一条信息所收取的费用甚至可以低至1毛钱,一个公司单靠这项业务无法盈利。于是,很多第三方风控公司将爬取的用户信息存储、出售给其他公司,从而获取更多收益。 而头部放贷机构一般都选择自建爬虫团队。这其中的原因有几个方面:首先,头部机构技术力量足够同时能有客户授权,比较安全;其次,自建爬虫团队,爬取的数据更加个性化、更符合业务需要,因为爬虫爬来数据的广度和深度直接决定着公司后续风控的质量,是风控的基础,头部放贷机构不愿将业务的核心放在别人手里;再次,第三方风控公司爬取数据之后会进行出售,头部放贷机构不愿自家的客户被别的公司抢走,因此倾向于保护数据不外泄;此外,如果用户数据被转卖,会造成多头借贷,因为别的公司拿到这些用户的数据就会给这些用户放款,一个用户在多家借款,会影响这个用户的最终还款。因此,转卖用户数据和头部放贷机构的商业利益是根本违背的。 对于爬虫的应用边界,多位大数据风控业内人士表示,业内形成的共识是:只要数据使用有个人明确授权,把授权给谁、用途说清楚,爬虫并非不能使用。 上海交通大学数据法律研究中心执行主任何渊表示,官方的态度实际上是很明确的,数据并不是不能爬,“说得很清楚,收集的时候不能采取妨碍网站的正常运行,甚至有一个尺度,流量不能超过别人网站的1/3。”何渊认为,金融数据爬虫到底能不能爬?关键看三个点:爬的什么东西?怎么爬?爬的合法数据用来干什么?“这三点决定你是不是犯罪,是不是违法。” 此前,10月8日,中国人民大学国家发展与战略研究院金融科技与互联网安全研究中心主任杨东在人民政协报上撰文《依法保护金融数据》,其中提到尽管纷扰不断,但传统金融机构线上化进程不可逆转。当前的紧要任务,是推动形成金融监管机构、行业头部企业与法律界等共同研究探讨的善治局面,鼓励科技向善。同时,针对当前数据分析行业的弊端,他提出了几点应对措施,其中包括:第一,金融监管机构出台金融业个人数据保护合规操作指南;第二,建立个人数据保护的行业自律组织;第三,以合规供应商清单的方式促进数据分析行业的发展。 目前,对个人金融数据监管最具针对性的一部法律是《个人金融信息(数据)保护试行办法》。此前据媒体报道,《个人金融信息(数据)保护试行办法(初稿)》已经出炉,央行已经下发到各家银行,目前正在征求意见中。
【深度】祸起“套路贷”:违规爬虫被查,大数据风控公司遭遇生死劫 最近,金融数据圈风声不断。 9月6日,位于杭州的大数据风控平台杭州魔蝎数据科技有限公司被警方控制,高管被带走,相关服务瘫痪。 同日,有信息称另一家提供大数据风控服务的新颜科技人工智能科技有限公司高管被带走协助调查。 9月11日,位于杭州的公信宝运营方杭州存信数据科技有限公司被警方查封。 据财新报道,中秋节期间,头部大数据风控公司同盾科技子公司也有相关人员被警方带走协助调查。 “行业里几乎每天一条消息,9月,葫芦数据、白骑士、立木征信这些比较大的数据风控商都暂停了爬虫服务,现金贷平台也都停止放贷。”多位网贷数据行业从业者表示,他们现在基本都已处于停工状态 。 最新消息是,10月21日,杭州警方对51信用卡委托外包催收公司涉嫌寻衅滋事等犯罪开展调查。 据记者了解,外包催收公司通过恐吓、滋扰等软暴力催收的过程中,数据爬虫公司违规获取的通讯录、地址定位等个人敏感信息也是主要帮凶。 祸起“套路贷” 网络爬虫是指按照一定规则,自动抓取互联网信息的程序。 这项技术并无原罪。一位互金公司的大数据风控从业人员告诉界面新闻,业内稍具规模的公司为了业务发展,比如更加精确的用户定位和风险控制,都会做爬虫。通过爬虫将目标用户在互联网上的分散数据收集起来,再作为参数输入到模型代码中,从而实现更为精准的风控。 但问题在于,在隐私保护薄弱、数据安全存在漏洞的国内互联网环境中,爬虫技术往往与信息来源违法、滥用等问题交织在一起。尤其在互联网金融行业,这项技术滥用会造成严重的社会危害,甚至扰乱金融行业秩序。 “公开的数据,你去爬那就是捡,但是私密的数据,你去爬那就是偷。”前述风控人员告诉界面新闻记者,很多公司都在利用爬虫技术去抓个人隐私数据或者政府机关、银行机构的数据,“有些网站的反爬虫策略做得不够到位,但是又有着比较敏感的数据,被爬取数据的风险很大。” 一家杭州地区上市公司互金业务负责人则向界面新闻记者透露,政府机构的网站是爬虫技术攻击的主要对象,很多互金公司都会到社保、公积金和法院网站上去爬虫。且业内人士普遍认为这种行为并不违法,“以前这是法律的灰色地带,行业默认只要不将爬虫得来的数据用于交易,一般就没有问题。” 不过该人士补充说,经过一轮重拳整治后,现在已经很少有公司敢再爬未经授权的数据了。“现在大家都在等看法院到底如何判决,这将对今后数据的开发和使用划定红线,到底是爬取(违法)还是交易(违法)。” 业内人士透露,有能力自建爬虫队伍的公司往往已经是初具规模和实力的正规公司,而在这个行业中还大量存在着草草搭建的各类互联网贷款平台,既无实力也无人员去自己做爬虫,这些公司一般是购买同盾科技、百融云创等第三方大数据风控公司的服务。在这轮公安机关的整治中,主要目标也集中在这类第三方大数据风控公司身上。 实际上,目前爬虫技术造成更严重的社会危害在于,被应用在“套路贷”的暴力催收上。 套路贷,即小额、短期、含有极高砍头息的高利贷款。今年的315晚会,披露了一种名为“714高炮”的违法高利贷模式。一个典型的714是,贷款人借1000元只能到手700元,其中300元会以服务费的条目被扣除,且7天后就会接到催收电话。凭借着短周期和砍头息,这种高炮的年利率甚至高达1500%。 据财新报道,这轮针对大数据风控公司的强监管主要是由于公安机关在打击“套路贷”时,发现爬虫为套路贷爬取通讯录、地址定位等个人敏感信息,引发命案及相关刑事调查。有接近公安部的人士认为,在此类案件中,“套路贷是主犯,而爬虫公司是从犯”。 苏宁金融研究院院长助理薛洪言认为,用户信息是金融业务的源头,长期以来个人信息获取及保护层面缺乏明确监管要求,为中下游的不少乱象提供了土壤,既包括数据采集和交易过程中的隐私保护乱象,也包括数据应用阶段的骚扰式营销甚至暴力催收乱象。 大数据风控行业之兴 回顾国内第三方数据产业的发展历史,你会发现,这几乎就是一个和国内网贷行业共生共荣的产业。而在不少业内人士看来,本次警方对数据行业的高压调查,与近半年各省市集中打击“套路贷”也有很大关系。 尽管今年3·15晚会之后套路贷有了短暂熄火,但据一位助贷公司员工介绍,从5月开始,行业里的三方数据调取量和短信渠道发送量又回到了3·15之前的水平。 上述助贷公司员工表示,在现金贷行业,很少有老板会花心思自建风控模型。大多数老板在项目上线前会直接从系统商那里买风控系统,价值在2万元到8万元之间。 而这种系统所谓的风控,其实就是自动从同盾、白骑士等三方数据公司借调用户数据。可以说,这些第三方数据平台所提供的服务就代表了这些现金贷平台的全部风控。 前述上市公司互金业务负责人告诉界面新闻记者,在现金贷业务最为火热的时候,据其了解,仅2017年上半年杭州地区就新出现了四五百家现金贷公司,而这些公司基本都会接入同盾等平台,数据来源和风控模型都大同小异。 客观上,同盾等第三方大数据风控公司的出现,降低了线上放贷的门槛,令现金贷公司如流水线上批量复制的产品,被迅速制造出来。 薛洪言认为,数据获取与使用的低门槛,大幅降低了金融领域无证经营门槛,大量不具备基本从业素质、缺乏风险意识的机构掺和进来,无序竞争,劣币驱逐良币,给互金行业的治理整顿和可持续发展均带来很大难度。 下面是一位系统商提供给界面新闻记者的可借调信息名单,表格里打钩的是建议勾选的项目。可以看到,里面除了有常规的多头名单风险名单。还包括支付宝及淘宝数据,内容详尽到甚至能包括收货地址和订单详情。而这些信息其实已经涉及到侵犯个人隐私。 然而,由于国内数据收集法律不健全,爬虫技术又很成熟,这也让第三方数据公司在监管真空的环境里迎来了自己的甜蜜时光。 根据亿欧智库2018年11月发布的《2018中国智能风控研究报告》,截至去年年底,573家金融风控企业获得投资金额超过1000亿元,其中3成企业获得三次及以上的投资。 除了融资,头部公司的自造血能力也很可观。据新流财经此前报道,行业头部公司同盾科技2016年至2018年的营业收入分别为6066万元、2.61亿元、5.42亿元。 上述系统商也对界面新闻记者表示,目前行业里大多数现金贷甲方都会选择以同盾数据为主,辅以白骑士、摩羯科技、新颜科技等其他公司的产品。到今年同盾科技在现金贷行业的覆盖率也已经高达90%。 但随着监管的重锤落下,这样的高速发展也终于画上了句号。 前述互金业务负责人透露,对大数据风控行业进行整治,现金贷行业受波及最大,“因为这类公司离不开(第三方)的数据支持。” 监管带来行业变局 10月初,有媒体透露,行业正在筹划《个人金融信息保护试行办法》,并开始征求各方意见。10月10日,该办法草稿甚至已经通过央行下发到各家银行,持续征求意见。 据悉,该办法要求金融机构不得从非法从事个人征信业务活动第三方获取个人金融信息,也不得以“概括授权”方式取得信息主体对收集、处理、使用和对外提供其个人金融信息的同意。 如果该办法正式出台,银行需要根据要求对提供业务数据第三方机构进行摸排,对于不能保证数据来源合法数据供应商,则要停止合作。 对于这一堪称严厉的法规,数据评测机构知微科技CEO于霄告诉界面新闻记者:“个人数据用于商业广告或者金融,问题一直很多,在法规不健全的情况下,大家普遍都在越界使用。所以对于这个新规,虽然有些一刀切,但也都在意料之中。数据在当今社会属于超能武器,理应被严格管理。” 薛洪言对界面新闻记者分析认为,这轮整治后,短期来看,违规获取数据的公司将逐步退出行业,以银行、巨头为代表的数据应用方也会提高合作机构准入门槛,倒逼大数据行业优胜劣汰,净化行业环境。数据公司的分化会加速中下游数据使用方的分化,那些缺乏核心资源、以粗放激进为竞争力的金融创业机构,也将相继退出行业。 中长期来看,由于数据隐私保护意识的提升是不可逆的,数据获取难度和门槛的提升,会逐步提升数据方在金融产业链中的话语权,继而重塑金融产业链各方的利润分配机制和业务合作模式。