震惊!淘宝近12亿条用户信息遭泄露
发布时间: 2021-07-07 浏览次数:

近日,河南商丘的一份法院裁判文书披露了一起惊天大案:两名犯罪分子在淘宝网爬取并盗走大量数据。经过核实,此次泄露的个人信息竟然高达近 12 亿条。淘宝作为被大家熟知和经常使用的一个电子商务平台,竟然出现如此大规模的信息泄露,令人震惊!我国一共有14亿多人口,而此次泄露的个人信息竟高达近12亿条,谁的个人信息又能免遭泄露呢?真让人匪夷所思,让人细思极恐。

淘宝.jpg
      一、事件经过

一名住在河南商丘市的本科毕业的大学生逯某,自2019年11月起,对淘宝实施了长达8个月的数据爬取,并盗走大量用户数据。在阿里巴巴注意到这一问题前,已经有超过11亿8千多万条用户信息泄露。

而被盗取的11.8亿条数据,被本案的另一名嫌疑人——家住湖南省浏阳市的黎某所利用。黎某创建了1100个微信群,每个群90至200人不等,每天用机器人在群里发放淘宝优惠券,赚取返利,在短短的8个月内就非法获利34万余元。

直到2020年8月14日淘宝(中国)软件有限公司才报警称,在2020年7月6日到2020年7月13日期间,有黑产人员通过订单评价接口,绕过平台风控,批量爬取加密数据,平均每天爬取数据信息500万条,爬取的内容包括买家用户昵称、用户评价内容、昵称等敏感信息。

最终,逯某和黎某被河南警方逮捕。经过公检方面核查,逯某电脑里存有通过其开发的软件爬取的淘宝客户数字ID、淘宝昵称、手机号码等淘宝客户信息共计1180738048条。

网络爬虫.jpg

      二、何谓爬虫

爬虫是一个技术概念,简单来说是一种按照一定规则自动提取信息和网页的程序或脚本,由一系列的代码构成。作为一种信息获取手段,爬虫被广泛应用到各个领域,在大数据分析、舆情监测和知识信息储备等行业中都起到举足轻重的作用。最常见的爬虫便是我们经常使用的搜索引擎,如百度、360搜索等。单从技术角度来说,爬虫技术并无原罪,在法律上也从未被明令禁止。它不像计算机病毒,计算机病毒本身就是负面的、破坏性的,而爬虫是中立的,那为什么会违法呢?

数据来源合法是网络爬虫活动合法的前提。如果未根据《网络安全法》第四十一条之规定,在取得被收集者同意前即自动获取个人信息,技术使用者即涉嫌构成侵犯公民个人信息罪、非法侵入计算机信息系统罪或非法获取计算机信息系统数据罪等相关罪名。

黑客之手2.jpg
      三、反爬虫策略

爬虫对电商平台的威胁由来已久。一般网站从三个方面反爬虫:基于请求网站访问时的请求Headers、基于用户操作网站行为、基于目标网站的目录和数据加载方式。但是仅仅检验一下请求Headers或者做几个Ip限制显然无法达到网站运营者对anti-spam(反垃圾信息)的要求,所以更进一步的反制措施也不少,如基于校验Cookie、基于验证码识别等方式。

      (一)基于用户请求的Headers

通过用户请求的Headers反爬虫是最常见的反爬虫策略。由于正常用户访问网站时是通过浏览器访问的,所以目标网站通常会在收到请求时校验Headers中的User-Agent字段,如果没有携带正常的User-Agent信息便无法通过请求。还有部分网站为了防盗链,还会校验请求Headers中的Referer字段。

     (二)基于用户操作网站行为

一些网站会通过用户的行为来检测网站的访问者是否是爬虫,例如同一IP短时间内多次访问同一页面,或者同一账户短时间内多次进行相同操作等。

      (三)基于网站目录数据加载方式

上述两种方法大多用于静态页面,也是反爬虫策略中最为常见的。而对于动态网页,则是应用ajax(异步加载)的方式加载页面目录或者内容,爬取数据需要通过ajax请求得到,或者通过JavaScript生成。这样可以通过对ajax请求的所有参数加密和加密接口参数的方式,来增大爬虫在对目标网站形成访问之后获取数据的难度。

      (四)基于校验Cookie

和校验Headers的反爬虫机制类似,当用户向目标网站发送请求时,会在请求数据中携带Cookie,网站可通过校验请求信息是否存在Cookie,以及校验Cookie值,来判定发起访问请求的到底是真实的用户还是爬虫。

      (五)基于验证码识别

这是一个相当古老但却不失有效性的反爬虫策略。最早的时候,这种验证码可以通过OCR(Optical Character Recognition,光学字符识别)技术进行简单的图像识别破解,但是现在验证码的干扰线、噪点已经多到肉眼都无法轻易识别的地步。所以对于目前而言,验证码识别反而成为了许多网站最有效的手段之一。

用户信息.jpg
      四、结语

近年来,个人信息泄露的事件频频出现。据《中国网民权益保护调查报告(2021)》显示,78.2%的网民个人身份信息(如姓名、学历、家庭住址、身份证号及工作单位等)被泄露;63.4%的网民个人网上活动信息(如通话记录、网购记录、网站浏览痕迹、Ip地址、软件使用痕迹及地理位置等)被泄露;近半数的网民个人通讯信息(如即时通讯记录、手机短信等)被泄露。82.3%的网民亲身感受到了由于个人信息泄露对日常生活造成的影响,49.7%的网民认为个人信息泄露情况严重或非常严重。

面对如此恶劣的网络安全环境,我们的各大企业、商家、网络运营商作为“网络服务提供者”是如何保护客户和消费者个人信息的呢?本次事件中,逯某、黎某因咎由自取受到了法律的制裁,但作为发生数据泄漏的企业和商家,难道就不应该因保护用户数据不力、未能及时发现并制止数据被盗,而承担相应的责任,受到相应的惩罚吗?我们消费者的利益和个人隐私将如何得到保障?这是个值得深思的问题。


      (资料来源:腾讯网、中国基金报、21世纪经济报道、雷达财经等相关文章)