法治号 手机版| 站内搜索

网上有害信息举报

网络爬虫正在“入侵”你的生活......

2024-01-22 15:44:22 来源: -标准+

刷个短视频

看看直播

结果其他同类产品推销却找上门来……

注意!

你的个人信息可能已经被网络爬虫爬取

2022年5月10日,经江苏省无锡市梁溪区人民检察院提起公诉,梁溪区人民法院以提供侵入计算机信息系统程序罪判处被告人丁某有期徒刑一年六个月,缓刑两年,并处罚金三万元。据悉,该案为全国首例短视频平台“爬虫”案。

在互联网大数据时代背景下,网络爬虫作为一项获取网络中数据和信息的技术,在使用方面一直存在争议。

一、什么是网络爬虫

网络爬虫,又被称为网络机器人、网页蜘蛛。网络爬虫通过模仿人类浏览互联网的行为,将网页、应用软件等数据信息爬取,是一种按照一定规则对互联网信息或者数据进行抓取的程序或脚本。 

网络爬虫又分为善意爬虫和恶意爬虫。善意爬虫具有促进数据共享的正面影响,而恶意爬虫极有可能造成数据泄露、侵权、不当竞争等危害。

二、近十年网络爬虫发展过程

网络爬虫的起源可以追溯到互联网诞生之初。随着互联网的不断发展以及数字经济的出现,数据和信息的重要性日益显现。无论是公开的信息,还是私密的数据,其背后隐藏的价值都不言而喻。

1.2013年—2015年:北美地区调查显示网络爬虫流量占比约五成

海外著名调查机构Aberdeen Group在2013年至2015年以北美地区几百家公司为调查对象,探究网络爬虫访问流量发现,网络爬虫访问这些公司网站的流量占比竟高达约五成。其中,2014年真人访问流量只占40.9%。

除了2013年,善意爬虫访问流量(24.22%)高于恶意爬虫(20.98%)约三个百分点之外,2014、2015年恶意爬虫访问流量占比分别为36.32%、27.04%,均高于同年的善意爬虫访问流量占比(22.78%、18.16%)。

2.2018年:云鼎实验室追踪恶意爬虫流量最大行业,“出行”行业居首

近些年来,随着我国互联网不断发展,“大数据”的概念深入人心,数据价值更被喻为“无价之宝”。但是在利益的驱使下,许多公司或者个体开始引入“恶意爬虫”肆意爬取其他公司或者个人的重要数据、信息。

云鼎实验室在2018年对海量恶意爬虫流量进行追踪,并统计出了恶意爬虫流量最大的十大行业。其中,占比最多的是出行行业(20.87%)。分析认为,购票平台数据量庞大,尤其在节假日期间,车票、机票、住宿更是供不应求,致使代购票和第三方抢票服务层出不穷,而要做到数据实时刷新,需要大量网络爬虫。

3.2019年:Aberdeen Group数据显示网络爬虫流量高达37.2%

根据Aberdeen Group在2019年的调查显示,纵观整个互联网,网络爬虫的流量高达37.2%。这些网络爬虫在网络中肆意游走,爬取数据、查看信息,如此循环往复。

按照网络爬虫的功能进行分类,可以分为网页爬虫和接口爬虫(也称API爬虫)。

4.2020年—2021年:典型案例显示API爬虫成为数据泄露主要威胁

2021年6月,根据中国裁判文书网的公开判决案例显示,河南省商丘市睢阳区人民法院依法对逯某、黎某侵犯公民个人信息进行判决。原因是逯某从淘宝中非法爬取了11亿余条客户信息,并将非法获得的用户信息提供给了黎某用于商业经营,非法获利34万元。

此案一经判决便在网络中引发了不小的议论,部分网友对自己的个人隐私表示担忧。该案中,逯某就是运用了API爬虫技术对用户信息进行了非法爬取。根据永安在线的统计,API爬虫已经成为了数据泄露的主要威胁。

三、分析师点评

舆论认为,新技术的出现标志着时代革新,技术不分好坏,用途却有善恶。恶意爬虫横行网络,且涉足领域广泛,从个人信息到开源数据,从政府网站到商业网站,相关危害不容小觑。

《检察日报》等文章认为,首先应明确合法使用爬虫技术的边界。相关判定标准至少需包括三项原则,一是合法的网络数据爬取应限于对开放数据的获取;二是合法使用的数据爬虫技术不应具有侵入性;三是数据爬取应当基于正当目的。同时,明确各部门和不同行业主管部门的监管职责,提升执法能力、强化监管体系,在整治恶意爬虫这一目标上形成合力,促进网络爬虫技术在法律规制下健康发展。


参考资料

1.【报告】2018上半年互联网恶意爬虫分析

https://cloud.tencent.com/developer/article/1336209

2.API安全已是数据泄露头号风险,92%的数据泄露来自爬虫

https://mp.weixin.qq.com/s/j3SUEYKY6AErtwKgu44Pvw

3. 法律规制:数据爬虫的悬顶之剑

https://kns.cnki.net/kns8/defaultresult/index

4. 论网络爬虫生态系统的立法保障——以构建行、民、刑三位一规制模式为进路

https://kns.cnki.net/kns8/defaultresult/index

5. 爬取数据需遵规

https://www.spp.gov.cn/spp/llyj/202202/t20220210_543998.shtml


来源:法治网舆情中心(ID:fzwyqzx)

分析师:刘思源

新媒体编辑:李思彤


编辑:刘思源