风暴眼里的大数据,违规爬虫被查

越是强调科技中立,就越要强化对科技公司及使用者的监管与规范。

图片 1

信息爆炸时代,热点总是瞬息而变。

来源:界面新闻

这不前段时间热火朝天的大数据违规爬虫的事件还没有定论,忽然全部的目光都转向了区块链,但因套路贷引起的行业调整阵痛仍在继续。

一场席卷大数据风控行业的风暴。

近年来国内互联网发展迅速,但是各类APP违法违规收集个人信息的举报不绝于耳,中央网信办到9月份就收到到了8000条举报信息,1/3都是实名举报。

最近,金融数据圈风声不断。

面对愈演愈烈的行业风气,监管层掀起了一场监管风暴。9月6日,杭州的魔蝎数据科技有限公司监管部门查处。数日后,公信宝的运营公司杭州存信数据科技有限公司被公安机关查封,聚信立的运营公司上海诚数信息科技有限公司下发暂停爬虫业务的通知。

9月6日,位于杭州的大数据风控平台杭州魔蝎数据科技有限公司被警方控制,高管被带走,相关服务瘫痪。

9月12日,集奥聚合深圳分公司有10多人被带走。而且集奥聚合北京办公室也被深圳警方带走多人,包括爬虫数据接入负责人和合同负责人。

同日,有信息称另一家提供大数据风控服务的新颜科技人工智能科技有限公司高管被带走协助调查。

10月9日,又曝出立木征信于7月18日被查,法人刘勤枫及大部分员工被警方带走。

9月11日,位于杭州的公信宝运营方杭州存信数据科技有限公司被警方查封。

10月21日,杭州警方对51信用卡委托外包催收公司涉嫌寻衅滋事等犯罪开展调查,更是将这场风暴的热度从行业传向普通大众。

据财新报道,中秋节期间,头部大数据风控公司同盾科技子公司也有相关人员被警方带走协助调查。

此后北京金融局窗口指导所有大数据企业是否存在违规爬虫业务,央行则是发文调查旗下银行与白骑士等几家第三方数据公司合作情况。

“行业里几乎每天一条消息,9月,葫芦数据、白骑士、立木征信这些比较大的数据风控商都暂停了爬虫服务,现金贷平台也都停止放贷。”多位网贷数据行业从业者表示,他们现在基本都已处于停工状态 。

随着整肃的深入,部分中小银行暂停了大数据风控合作业务,甚至传出《个人金融信息保护试行办法》正在征集各方意见,一时间全行业陷入人心惶惶、草木皆兵的境地。

最新消息是,10月21日,杭州警方对51信用卡委托外包催收公司涉嫌寻衅滋事等犯罪开展调查。

1

据记者了解,外包催收公司通过恐吓、滋扰等软暴力催收的过程中,数据爬虫公司违规获取的通讯录、地址定位等个人敏感信息也是主要帮凶。

技术本无罪 滥用无底线需要严管

祸起“套路贷”

爬虫又称网页蜘蛛、是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本,是种自动获取网页内容的程序。业内稍具规模的公司为了业务发展,比如更加精确的用户定位和风险控制,都会做爬虫。通过爬虫将目标用户在互联网上的分散数据收集起来,再作为参数输入到模型代码中,从而实现更为精准的风控。

网络爬虫是指按照一定规则,自动抓取互联网信息的程序。

但问题是国内互联网环境缺少隐私保护、数据安全存在漏洞。国内一些大数据公司依靠爬虫技术窃取客户上网地址、收货地址、聊天记录、搜索记录、得知客户是否具备按时还款的条件,进而为金融公司提供价格高昂的定位、告密等服务,这涉及了严重的用户的隐私泄露,行业乱象愈演愈烈。由此也逐渐引起了官方的严肃问候,大数据一词也更具备了多种的色彩。

这项技术并无原罪。一位互金公司的大数据风控从业人员告诉界面新闻,业内稍具规模的公司为了业务发展,比如更加精确的用户定位和风险控制,都会做爬虫。通过爬虫将目标用户在互联网上的分散数据收集起来,再作为参数输入到模型代码中,从而实现更为精准的风控。

众所周知,金融的核心环节是风控,而作为大数据行业不仅连接着用户,还面向现金贷公司,是现金贷机构的重要合作伙伴。通过第三方数据的服务,一方面能够为现金贷风控提供安全参考,但另一方面一旦数据被贩卖、泄露,就会对用户的隐私造成侵犯,也容易将大数据风控行业推向深渊。

但问题在于,在隐私保护薄弱、数据安全存在漏洞的国内互联网环境中,爬虫技术往往与信息来源违法、滥用等问题交织在一起。尤其在互联网金融行业,这项技术滥用会造成严重的社会危害,甚至扰乱金融行业秩序。

有媒体称,在现金贷行业,很少有老板会花心思自建风控模型。大多数老板在项目上线前会直接从系统商那里买风控系统,价值在2万元到8万元之间,而第三方数据公司经常会借调用户数据,而这自然违规。

“公开的数据,你去爬那就是捡,但是私密的数据,你去爬那就是偷。”前述风控人员告诉界面新闻记者,很多公司都在利用爬虫技术去抓个人隐私数据或者政府机关、银行机构的数据,“有些网站的反爬虫策略做得不够到位,但是又有着比较敏感的数据,被爬取数据的风险很大。”

《每日财报》注意到,目前很多涉及爬虫业务的数据公司都已经暂停或调整服务。

一家杭州地区上市公司互金业务负责人则向界面新闻记者透露,政府机构的网站是爬虫技术攻击的主要对象,很多互金公司都会到社保、公积金和法院网站上去爬虫。且业内人士普遍认为这种行为并不违法,“以前这是法律的灰色地带,行业默认只要不将爬虫得来的数据用于交易,一般就没有问题。”

大数据震荡事件不仅在国内,在国外同样引起轩然大波。比如去年Facebook被曝超5,000万用户信息被政治数据公司剑桥分析获取并利用,帮助2016年特朗普团队参选美国总统,这一事件引起了国际社会的广泛关注,也让人们意识到隐私保护在大数据面前是多么脆弱。

不过该人士补充说,经过一轮重拳整治后,现在已经很少有公司敢再爬未经授权的数据了。“现在大家都在等看法院到底如何判决,这将对今后数据的开发和使用划定红线,到底是爬取还是交易。”

2

业内人士透露,有能力自建爬虫队伍的公司往往已经是初具规模和实力的正规公司,而在这个行业中还大量存在着草草搭建的各类互联网贷款平台,既无实力也无人员去自己做爬虫,这些公司一般是购买同盾科技、百融云创等第三方大数据风控公司的服务。在这轮公安机关的整治中,主要目标也集中在这类第三方大数据风控公司身上。

大数据行业何去何从

实际上,目前爬虫技术造成更严重的社会危害在于,被应用在“套路贷”的暴力催收上。

但在当下过度解读政策、唱衰行业或是一味呼吁监管松绑都难免有失偏颇,对长远发展无益。换个角度看,如能借此次整顿重新审视大数据价值,理清不同市场主体的权责,明确数据采集、应用的规范,或许整个行业将迎来换挡出发的窗口期。

套路贷,即小额、短期、含有极高砍头息的高利贷款。今年的315晚会,披露了一种名为“714高炮”的违法高利贷模式。一个典型的714是,贷款人借1000元只能到手700元,其中300元会以服务费的条目被扣除,且7天后就会接到催收电话。凭借着短周期和砍头息,这种高炮的年利率甚至高达1500%。

我们需要看到的是技术的发展不能因噎废食,面对数据应用,企业要寻找发展与安全的动态平衡点,并结合具体场景去深度理解数据的必要性和安全性,让大数据风控有健康发展的空间。

据财新报道,这轮针对大数据风控公司的强监管主要是由于公安机关在打击“套路贷”时,发现爬虫为套路贷爬取通讯录、地址定位等个人敏感信息,引发命案及相关刑事调查。有接近公安部的人士认为,在此类案件中,“套路贷是主犯,而爬虫公司是从犯”。

消费金融突飞猛进的近十年发展历程中,大数据的应用革新了传统金融机构的风控水平和效率,其应用价值已被充分验证。另外传统金融服务解决不了信息不对称的问题,所以必须引入替代数据。

苏宁金融研究院院长助理薛洪言认为,用户信息是金融业务的源头,长期以来个人信息获取及保护层面缺乏明确监管要求,为中下游的不少乱象提供了土壤,既包括数据采集和交易过程中的隐私保护乱象,也包括数据应用阶段的骚扰式营销甚至暴力催收乱象。

根据亿欧智库2018年11月发布的《2018中国智能风控研究报告》,截至去年年底,573家金融风控企业获得投资金额超过1000亿元,其中3成企业获得三次及以上的投资,可见市场潜力巨大。

大数据风控行业之兴

据新流财经此前报道,大数据头部公司的盈利能力还是很强,行业某头部公司2016年至2018年的营业收入分别为6066万元、2.61亿元、5.42亿元。

回顾国内第三方数据产业的发展历史,你会发现,这几乎就是一个和国内网贷行业共生共荣的产业。而在不少业内人士看来,本次警方对数据行业的高压调查,与近半年各省市集中打击“套路贷”也有很大关系。

但是这一切要在合法、安全使用数据的底线上。

尽管今年3·15晚会之后套路贷有了短暂熄火,但据一位助贷公司员工介绍,从5月开始,行业里的三方数据调取量和短信渠道发送量又回到了3·15之前的水平。

其实大数据技术在法律、政策上从未被明令禁止,本身是中立的,但是需要理清,大数据技术是中立的,而大数据企业不是中立的。大数据可以用来实现精准推荐,也可以实现精准骚扰;可以实现网络诈骗,也可以实现风控反欺诈。越是强调科技中立,就越要强化对科技公司及使用者的监管与规范,唯有如此,才是捍卫科技的中立性。

上述助贷公司员工表示,在现金贷行业,很少有老板会花心思自建风控模型。大多数老板在项目上线前会直接从系统商那里买风控系统,价值在2万元到8万元之间。

如今,每个人的生活都被数据定义,从用户信息授权第一道关口的失守开始,再到数据的泄露、滥用、买卖,那些缺乏底线、对数据的收集和使用毫无约束,更甚者游走于法律灰色地带的问题企业,都是在用整个行业的长远发展来为它们的短期利益买单。

而这种系统所谓的风控,其实就是自动从同盾、白骑士等三方数据公司借调用户数据。可以说,这些第三方数据平台所提供的服务就代表了这些现金贷平台的全部风控。

事实上,在合理的数据应用范围内,解决用户隐私保护问题的技术手段有很多,比如说数据脱敏、权限管控、加密存储等。只有做到数据应用的规范化,才能区分开真正的大数据风控企业与贩卖流量、倒卖数据的大数据公司,使数据价值聚焦于数据的整合、挖掘、分析和运用,并延伸至数据分析、人工智能、大数据平台能力、与5G结合等方面,更好地发挥大数据风控在金融领域的价值。

前述上市公司互金业务负责人告诉界面新闻记者,在现金贷业务最为火热的时候,据其了解,仅2017年上半年杭州地区就新出现了四五百家现金贷公司,而这些公司基本都会接入同盾等平台,数据来源和风控模型都大同小异。

责任编辑:周星如

客观上,同盾等第三方大数据风控公司的出现,降低了线上放贷的门槛,令现金贷公司如流水线上批量复制的产品,被迅速制造出来。

薛洪言认为,数据获取与使用的低门槛,大幅降低了金融领域无证经营门槛,大量不具备基本从业素质、缺乏风险意识的机构掺和进来,无序竞争,劣币驱逐良币,给互金行业的治理整顿和可持续发展均带来很大难度。

下面是一位系统商提供给界面新闻记者的可借调信息名单,表格里打钩的是建议勾选的项目。可以看到,里面除了有常规的多头名单风险名单。还包括支付宝及淘宝数据,内容详尽到甚至能包括收货地址和订单详情。而这些信息其实已经涉及到侵犯个人隐私。

然而,由于国内数据收集法律不健全,爬虫技术又很成熟,这也让第三方数据公司在监管真空的环境里迎来了自己的甜蜜时光。

根据亿欧智库2018年11月发布的《2018中国智能风控研究报告》,截至去年年底,573家金融风控企业获得投资金额超过1000亿元,其中3成企业获得三次及以上的投资。

除了融资,头部公司的自造血能力也很可观。据新流财经此前报道,行业头部公司同盾科技2016年至2018年的营业收入分别为6066万元、2.61亿元、5.42亿元。

上述系统商也对界面新闻记者表示,目前行业里大多数现金贷甲方都会选择以同盾数据为主,辅以白骑士、摩羯科技、新颜科技等其他公司的产品。到今年同盾科技在现金贷行业的覆盖率也已经高达90%。

但随着监管的重锤落下,这样的高速发展也终于画上了句号。

前述互金业务负责人透露,对大数据风控行业进行整治,现金贷行业受波及最大,“因为这类公司离不开的数据支持。”

监管带来行业变局

10月初,有媒体透露,行业正在筹划《个人金融信息保护试行办法》,并开始征求各方意见。10月10日,该办法草稿甚至已经通过央行下发到各家银行,持续征求意见。

据悉,该办法要求金融机构不得从非法从事个人征信业务活动第三方获取个人金融信息,也不得以“概括授权”方式取得信息主体对收集、处理、使用和对外提供其个人金融信息的同意。

如果该办法正式出台,银行需要根据要求对提供业务数据第三方机构进行摸排,对于不能保证数据来源合法数据供应商,则要停止合作。

对于这一堪称严厉的法规,数据评测机构知微科技CEO于霄告诉界面新闻记者:“个人数据用于商业广告或者金融,问题一直很多,在法规不健全的情况下,大家普遍都在越界使用。所以对于这个新规,虽然有些一刀切,但也都在意料之中。数据在当今社会属于超能武器,理应被严格管理。”

薛洪言对界面新闻记者分析认为,这轮整治后,短期来看,违规获取数据的公司将逐步退出行业,以银行、巨头为代表的数据应用方也会提高合作机构准入门槛,倒逼大数据行业优胜劣汰,净化行业环境。数据公司的分化会加速中下游数据使用方的分化,那些缺乏核心资源、以粗放激进为竞争力的金融创业机构,也将相继退出行业。

中长期来看,由于数据隐私保护意识的提升是不可逆的,数据获取难度和门槛的提升,会逐步提升数据方在金融产业链中的话语权,继而重塑金融产业链各方的利润分配机制和业务合作模式。

本文由澳门威斯尼人平台登录发布于澳门威斯尼人平台登录,转载请注明出处:风暴眼里的大数据,违规爬虫被查

相关阅读