(本文刊发于《中国经济周刊》2019年第20期)
随着近期一系列事件爆发,一个庞大而隐秘的生意浮出水面,让我们看到了大数据并不美妙的另一面。
10月21日,杭州警方发布公告确认了51信用卡(02051.HK)委托外包催收公司涉嫌寻衅滋事等犯罪行为。该公司利用爬虫不正当窃取用户数据、滥用用户信息进行暴利催收等一系列问题也浮出水面。此前,51信用卡旗下的51人品贷等APP就曾因未经用户同意收集个人信息而被工信部点名批评。
但更为可怕的是,51信用卡并非孤例,今年以来,特别是最近两个月,已经有多家大数据公司、征信公司和拥有此类业务的互联网金融公司被查。监管风暴来临,“玩火现形”的51信用卡不是第一家,显然也不会是最后一家。
而在刚刚结束的乌镇第六届世界互联网大会上,“网络空间数据法律保护”也成为一个重要议题,来自全球的政府官员、学界专家和领军企业代表,就“数据安全、个人信息保护与网络法治”和“数据治理的法治化”等议题,充分发表交流了各自的意见看法,以加强数据风险防范,构建安全可信的数字世界。
汽车刚刚诞生之时,曾经有人起诉到法院,要求取缔汽车的上路权,因为它速度太快,若撞上行人后果不堪设想,而且有马车就够用了。当然,这并没有改变“汽车时代”的到来。但人们确实制定了一系列的法律和规则,并教育每一个驾驶和乘坐汽车的人,这样才能既享受汽车带来的新世界,又尽量避免它可能造成的伤害。
大数据或许就是我们这个时代刚刚上路的“汽车”,我们在憧憬着其美好未来和无限魅力的同时,也到了要为其制定规则的时刻。否则,它真的会“伤人”,而且危害可能要远大于我们的想象。全社会需要共同制定一套完善规则,而每个人可能都需要一本大数据“驾照”。
“大数据行业都快没了”
“大数据行业都快没了。”一位大数据行业的业内人士在朋友圈调侃。这虽然是句玩笑,但一方面反映了近期政策的收紧和监管的加强;另一方面也透露出,过去这个行业的问题到底有多么的严重。
今年9月,天翼征信、杭州存信数据、新颜科技、魔蝎科技等多家大数据公司被查,还有几十家公司已经被列入调查名单,其中不乏估值高达几十亿元的明星独角兽企业。这些公司被调查的重要原因就是利用爬虫技术过度收集、非法窃取和贩卖个人数据信息。记者还发现,已经有不少大数据公司干脆停止了爬虫业务,有些甚至连团队都解散了。
此前,“大数据行业第一股”数据堂(831428.OC)员工贩卖公民信息案轰动全国,这家公司在过去8个月内,日均传输公民个人信息超过1.3亿条,累计传输数据压缩后达4000GB左右。之后,又有巧达科技被爆出贩卖8亿份个人简历……
“这是国内大数据行业诞生以来,从未有过的行业地震。行业消失倒不可能,但大洗牌是肯定的了。”上述业内人士告诉《中国经济周刊》。但这并不仅仅是一次大数据行业的地震,作为产业链中的“能源行业”,大数据行业发生的变化可能带来影响,或许要比我们想象中要深远得多。
这位业内人士甚至对记者立誓断言:“真要查,没有一家的数据是百分百‘白’的。”
实际上,大数据行业从诞生以来就一直处在“野蛮生长”的状态,作为一个新兴行业,制度的健全和监管的完善尚需时日,但行业发展已经远远跑在了前面,夹杂着灰色的“创新”层出不穷,尤其是在离钱最近、诱惑最多的互金领域。
有人认为,中国互联网行业,尤其是中国金融科技和人工智能的发展速度之所以能够弯道超车欧美,正是得益于丰富大数据的“供养”。业内一直有个比喻:大数据是“石油”,算法算力是“发动机”。欧美造“发动机”的水平很高,但无奈作为燃料的“石油”不太够,因此只能跑跑停停;而中国虽然算法算力上还有差距,但丰富的大数据资源能够在“发动机”性能落后的情况下,也能够持续跑、跑得远。
然而,这丰富的数据资源,一方面来自中国拥有全球最为庞大的“数字化”人群,但另一方面则是因为大量灰色地带数据的存在,这些是在国内的隐私保护、数据安全体系等尚不完善的情况下,用牺牲个人隐私换来的。
用户适度分享自己的数据,确实可以获得更便捷、更低成本、体验更好的服务,而互联网公司也会因此不断迭代算法,创新产品,获得更快的发展。但是,这个“适度”的边界如何界定?红线应该划在哪里?如何平衡保护隐私、控制风险和产业发展、鼓励创新的关系?……太多的重要疑问待解。
毕竟,没有一个行业能够在乱局中获得真正的成长。
灰色的“爬虫” 裸奔的数据
数据的源头是爬虫。网络爬虫(Spider),简单来说就是一个自动抓取网络数据的程序,比如搜索引擎大量使用的就是这种技术。爬虫技术的难度并不高,技术本身也没有好坏善恶的分别,而是要看技术使用者是如何去使用:什么数据可以“爬”,什么数据不该“爬”,并且是不是在用户知情和同意的情况下去“爬”,“爬”到的数据有没有很好地加密以防止被窃取……
很多互联网公司会设置反爬虫机制,防止外部爬虫窃取到重要信息,但终究道高一尺、魔高一丈,近期就有美国第七大商业银行“第一资本”、英国航空公司、万豪酒店集团、华住集团等不少国内外大型公司出现客户信息泄露事件,就连Facebook都没能逃过。
而用户也确实可以通过安装使用各类安全产品和应用,防止个人信息泄露,但常常防不胜防。现实的情况是,对于很多用户来说,他们既没有个人数据隐私的保护意识,也没有相应的安全能力,个人数据简直就是在“裸奔”,甚至还会因为一些公司的“小恩小惠”,而主动分享数据。
大数据行业长期游走在灰色地带,很多数据的来源并不“清白”,这早已不是秘密。只是大多数人并无意识,或者为了利益选择了无视,这也使得越过红线者越来越多。
中消协的两份报告很能说明问题。去年8月,中消协发布的《APP个人信息泄露情况调查报告》显示,超八成受访者曾遭遇个人信息泄露,主要原因就是APP经营者未经授权收集个人信息和故意泄露信息。
而另外一份去年11月发布的《100款APP个人信息收集与隐私政策测评报告》更加触目惊心,被评测的100款APP中,竟然有多达91款的APP存在过度收集用户个人信息的问题,典型方式包括隐蔽收集用户信息、误导用户同意,强制授权、过度索权,超出用户心理预期获取个人信息,账号注销困难等。
APP违规收集个人信息已经引起监管方的重视。今年1月,中央网信办、工信部、公安部、市场监管总局四部门联合发布公告,宣布开展为期一年的APP违法违规收集使用个人信息专项治理,并委托成立了APP专项治理工作组。目前APP专项治理工作组已经收到近9000条举报信息(经过工作组核实和初步验证的有效举报量),涉及2000多款APP,整改问题多达800余个。
今年7月,工信部启动了针对电信和互联网行业提升网络数据安全保护能力的专项行动,要求在2019年10月底前完成全部基础电信企业(含专业公司)、50家重点互联网企业以及200款主流APP数据安全检查。
在制度层面,中央网信办也已陆续起草《数据安全管理办法》《个人信息出境安全评估办法》《移动互联网应用(APP)收集个人信息基本规范》等系列制度文件,目前已经在公开征求意见。
此番违规大数据公司的频频被查,只是一个开始。
从推广告到放贷款 诱人的大数据生意
大数据行业的形成,最初主要的行业需求是广告的精准投放,通过对用户进行大数据分析,对用户进行“画像”,找出用户的行为特征和需求偏好,信息资讯平台、电商平台等都是基于大数据进行个性化推荐,不仅提升用户的使用体验,也能够帮助商家提高广告的触达效果和转化率。
而随着互联网金融的兴起,用户数据分析开始作为征信使用,帮助金融机构找到适合的有需求的贷款人,也能降低贷款的坏账率。从推广告到放贷款,这个应用场景显然比过去需要的数据颗粒度更细,信息更全面,也更接近用户的隐私。
以已经被查的几家公司为例,魔蝎科技的数据调用达到数亿级别,服务了超过2000家银行、保险机构、消费金融、互联网金融客户。而数据堂在8个月时间内,日均传输公民个人信息1.3亿余条,数据量特别巨大。
巧达科技被查封后,警方发现,该公司非法获取了2.2亿自然人的简历信息,还有超过10亿份通讯录,并且掌握着与此相关的社会关系、组织关系、家庭关系数据。巧达科技曾自称拥有超过8亿自然人的认知数据,也就是说有超过一半的中国人,信息都在巧达科技的数据库里。
这些数据都是正当获得并被正当使用?理论上和现实中都很难。而且更为可怕的是,细颗粒度的隐私信息一旦泄露,造成的危害,可不仅仅是多了骚扰电话、推销短信和诈骗电话那么简单。近期频发的暴力催收、套路贷、砍头息等也大多与数据隐私泄露有关。因此,个人信息的泄露不仅仅会危害个人人身财产安全,甚至会危害公共安全。
比如,一些网贷公司通过爬虫窃取或者购买用户的个人信息,并分析其消费能力、家庭准确住址和社会关系,然后披着现金贷的外衣实施诈骗,让受害者掉入高额利息的圈套,不还款就进行暴力催收。
一些大数据公司会为网贷公司提供“定位”服务,贷款人就算跑到天涯海角、更名改姓都会被找到。找不到你,也能找到你的家人亲属朋友,进行恐吓威胁,逼迫你偿还高额的贷款利息。此前已经出现过数起大学生深陷“套路贷”,几千元贷款滚成了百万元,最后因不堪承受催收公司的骚扰侮辱和恐吓威胁而自杀的案件。
即使数据来源合理合规,近年来,在大数据画像的使用过程中,也出现了一些“伦理问题”,比如“大数据杀熟”“同房不同价”“看人发红包”等等,都备受争议。本是用来精准服务你的方法,被用来精准地“欺负”你,最懂你的人,伤你也是最深。
由于金融机构和互金平台获得的收益远高于广告行业,因此,为其服务的大数据公司也收入更高,这使得这类数据越来越贵。在利益面前,就有人开始动了歪主意,甚至黑灰产也盯上了这诱人的数据生意。
据记者了解,一些中小型银行和金融机构,特别是一些互联网金融公司,自身并没有积累足够的用户数据,因此只能通过魔蝎科技这样的第三方数据公司提供征信和风控服务,而这些数据公司的数据来源是黑是白,他们并不清楚,或者也不想清楚。
一些大数据公司不仅会开发支付宝爬虫、微信爬虫、运营商爬虫等,从拥有丰富用户数据的大平台“扒数据”,也会通过恶意SDK向用户手机植入爬虫,窃取用户数据。尤其是生物信息一旦泄露,危害极大。因为姓名、手机号、银行卡、密码等信息一旦泄露,都可以即时更改,但指纹、虹膜、人脸数据等都是无法更改的,被窃取后隐患无穷。
欧盟为何要推出“阻碍”科技创新的GDPR?
不仅中国,数据隐私的问题已经是一个全球性问题,反应比较激烈的是文化上更重视个人隐私的欧洲。
去年5月26日,欧盟《通用数据保护条例》(GDPR)正式开始实施。这部被称为“史上最严格数据隐私保护条例”实施一年多以来,开出了数张天价罚单,引起全球震动。最为重要的是GDPR还设置了“长臂管辖”机制,即GDPR不仅与欧盟的公司有关,只要你的客户或用户中有欧盟国家公民,并且处理他们的数据,GDPR就有权对你的数据行为进行处罚,而且罚金非常高。
GDPR对于没有保护好数据而导致数据泄露等的,处以1000 万欧元或者上一年度全球营业收入的2%,两者取其高;自主泄露侵犯用户数据的,处以最高2000万欧元或者企业上一年度全球营业收入的4%,两者取其高。
“GDPR带来了全球隐私保护立法的热潮,并成功提升了社会各领域对于数据保护的重视。但对于企业来说,合规成本的增加是最为直接的影响。”一直关注GDPR的中国互联网协会研究中心秘书长、北京师范大学刑事法律科学研究院吴沈括教授告诉《中国经济周刊》。
但自推出起,外界对于GDPR就争议不断,很多人斥责它“阻碍”科技创新。吴沈括也表示,GDPR可能损及互联网成熟业态、新兴产业和经济创新。“GPDR实施后,这一预测逐渐得以证实。”他说。
吴沈括认为,GDPR推出的原因复杂,并不仅仅只是出于数据隐私保护的目的。“实际上,GDPR的出台,欧盟内部经历了前所未见的游说博弈过程,这也反映了GDPR本身并非纯粹的个人数据规范,而是深层次融合了国际政治博弈、产业经济竞争以及社会文化扩张等诸多元素的复杂综合体。”他说。
“GDPR实施以后,对从事全球业务的公司,尤其是互联网公司带来了很大震动,因为互联网本身是全球互通的,你很难避免有欧洲的用户使用你的产品。”麒麟合盛网络技术有限公司(APUS)法务总监吴映京告诉《中国经济周刊》。
APUS创建于2014年,国内用户可能并不熟知。但其实这家主要为安卓智能手机用户提供一个轻量级操作系统和桌面入口服务的公司,是中国移动互联网公司“出海”最具代表性的公司之一。目前,APUS全球已经有用户超过14亿,覆盖全球200余个国家和地区。
欧洲市场是APUS的重要市场,对于APUS这样将AI和大数据作为核心战略的互联网公司,欧洲GDPR的实施对于公司发展的影响非常大。APUS因此专门成立了针对GDPR的研究团队。
吴映京没有透露APUS为GDPR合规所投入的具体成本数字。但据美国专业机构的调查数据,68%的美国企业预计将花费100万到1000万美元来满足GDPR的要求,另有9%的企业预计花费超过1000万美元。
“GDPR合规工作需要投入额外的资源与成本,这无形中为全球初创公司进入欧洲市场设置了一个合规门槛。Google、Facebook这样的巨头都觉得非常棘手,并且需要投入大量资源去改造数据结构,更不要说缺乏相应技术能力和资源的中小公司。”吴映京表示。
“GDPR落地一年多以来,其实可以满足大家对巨额处罚幻想的大罚单只有3笔,可见对巨额罚单还是比较审慎的。”吴映京说,“目前来看,欧盟在GDPR的执行上并没有预想的那么严格,而且主要针对大型企业和发生数据泄露事件的企业,应该说于实践层面在安全与创新之间进行了某种平衡。”
中国需不需要自己的“GDPR”? 红线划在哪里?
实际上,针对数据隐私的立法在全球已经形成潮流,日本、韩国、印度、巴西、俄罗斯等国都设立了类GDPR的隐私保护法,美国各州也已经陆续在落地隐私保护的法规,比如加利福尼亚州就在去年通过了《加州消费者隐私保护法案》。而且美国各界都在呼吁希望能在联邦层面设立数据保护法案。不过,联邦隐私法目前还处在讨论和平衡各方利益的阶段,短期内出台的可能性不大。
欧洲激进,美国警惕,中国呢?中国需不需要给企业也套上一道“紧箍咒”?隐私安全的红线应该划在哪里?
实际上,除了已经自2017年6月1日起施行的《网络安全法》,今年以来,已经有《信息安全技术个人信息安全规范(草案)》《数据安全管理办法(征求意见稿)》《网络安全审查办法(征求意见稿)》《个人信息出境安全评估办法(征求意见稿)》《儿童个人信息网络保护规定(征求意见稿)》《App违法违规收集使用个人信息行为认定方法(征求意见稿)》《网络安全漏洞管理规定(征求意见稿)》《个人金融信息(数据)保护试行办法(初稿)》等一系列与数据隐私安全有关的法律法规推出并在广泛征求意见。
吴映京表示,从我国已经出台和酝酿推出的政策法规来看,国内的法律法规对个人数据的保护程度和力度并不比GDPR要弱,虽然国内并不像欧盟那样设置了高额的处罚,但侵权者同样会面临基于我们立法和国情的处罚,严重者甚至是刑事处罚。
吴沈括认为,数据是未来时代的“石油”,数据的收集和使用在给大家带来便利的同时,也给大家的隐私保护造成安全隐患。为切实保障数据的隐私安全,收集使用相关数据时需要遵循合法、正当、必要的原则。
“一是收集的数据必须是合法的,要公示收集规则,经用户同意;二是收集数据应遵守道德伦理底线,确保使用数据行为的正当性,不应强迫用户授权,或者以默认授权、捆绑服务、强制停止使用等不正当手段变相诱导、胁迫用户提供相关数据;三是收集必要的、最小化的数据。”吴沈括说。
吴映京则表示,数据利用的“度”一定是需要政府、企业和民众共同去摸索实践的,因为目前并不能说哪个制度就一定是最优的,关键在于明确好社会、企业和用户在隐私保护中的责任,平衡好三者之间的利益。对于数据“发掘”过程中可能带来的问题保持动态的态度和审慎的精神,但是不要制造非此即彼的对立情绪,而是应该以制度、教育甚至进一步的科技发展积极地解决这些问题。
其实,种种迹象表明,监管层对大数据行业的整顿和加强监管是酝酿已久的,并非刚刚发现问题。但相关法律法规的出台也确实非常谨慎。毕竟要兼顾防范风险和鼓励创新,需要勇气,更需要智慧。
中国社科院副院长、学部委员高培勇就在乌镇第六届世界互联网大会期间表示,在立法方面,需要加快推进数据相关立法,贯彻科学立法、民主立法、依法立法原则,以良法促进发展、保障善治。在执法方面,要进一步优化执法体制,加强执法能力,创新执法方式,避免简单将线下执法方式搬到线上,解决信息内容应急式管理与常规执法双轨运行现象。
司法部副部长赵大程则指出,随着互联网普及应用,网络数据海量聚集,数据价值日益凸显,大数据已经成为推动经济社会发展的“血液”、经济发展的“引擎”。要顺应大数据发展带来的历史机遇,广泛凝聚依法治理的共识,共同推进全球数据治理朝着更加平衡有效的方向发展。
赵大程认为,数据治理法治化是推进法治建设的应有之义,也是建设网络强国的坚实保障和必然要求。要完善数据产权保护制度,为数据产业创新和数字经济发展提供制度基础。要完善数据保护法律规则,加大保护力度,规范个人信息的收集处理等活动,为维护网络数据安全提供更有力的法治保障。
技术问题仍需用技术来解决
欧洲实施了“史上最严格”的数据保护条例,还冒着阻碍创新的风险,但用户的数据安全真的就能高枕无忧了吗?可能答案并不是肯定的。在工业时代,作为核心能源的石油因其背后的巨大利益,甚至引发了战争。如果大数据真的是“未来的石油”,巨大的利益面前,仅仅靠法律和规则的禁止,恐怕很难解决全部问题。
“只要市场对此的需求存在,即使监管再严格,也总会有人因为利益去铤而走险。”北京大学市场与网络经济研究中心的陈永伟研究员告诉《中国经济周刊》,他认为,数据隐私归根到底要从技术上入手,技术带来的新问题最终还是需要用技术来解决。
“比如获得图灵奖的、清华大学姚期智教授的‘多方安全计算(MPC)’,才可能是彻底解决这个问题的路径。通过技术手段实现既保护用户的数据隐私,又能够获得有价值的数据挖掘。”陈永伟说。
姚期智是第一位也是唯一一位获得图灵奖(计算机领域最高荣誉)的华人计算机科学家,他提出的MPC (Secure Multi-Party Computation),是一个名为“多方安全计算”的理论框架,基于此,可以实现数据使用权、所有权的分离,数据所有方可以保有数据,但是又不影响数据需求方提供服务。简单地说,就是基于加密的数据进行计算。
姚期智在上个世纪80年代就提出了这个想法。因为人工智能、产业互联网的发展都离不开数据挖掘,这就意味着如果数据隐私问题解决不了,那产业将无从发展。但是,当时的计算机算力根本无法实现MPC的相应计算,因此MPC一直停留在理论层面。
但30年后的今天,算力问题已经不再是问题,姚期智认为,多方安全计算将会在金融科技、人工智能、医药保护共享数据等方面发挥重要作用。这对于需要以海量数据作为训练根基、但又面临数据隐私保护合规难题的技术来说,将是一个好消息。
MPC的行业应用已经在探索。比如今年5月,蚂蚁金服推出其基于MPC的安全计算平台“摩斯”,能够提供一种全新的安全和保护隐私的数据合作方式,能够在本地数据不泄露、原始数据不出域的前提下,通过密码学算法,分布式执行既定逻辑的运算并获得预期结果,从而实现安全高效的数据合作。
吴沈括也认为,欧盟的GDPR这种试图通过“用户赋权—企业担责”的单向路径实现用户与企业间的信任,忽略了在激烈市场竞争下用户和企业共赢的可能性。获得客户的信任同样是企业的目标。因此,法律如何从正面激励企业尊重用户对个人信息的权益,还需要更深入的研究和更多的制度想象力。
“事实上,无论是商业模式还是科技进步,既是个人信息的加害者,也是个人信息的保护者。因此,我们可以通过鼓励企业创新,积极开拓区块链、多方安全计算等新的技术架构,达成个人信息保护与数据利用的动态平衡。”吴沈括说。