法制网首页>>
互联网法治频道>>聚焦>>
聚焦恶意爬虫的民事责任和刑事合规等话题
专家:保障数据安全需规制非法爬取数据的行为
发布时间:2021-11-01 17:07 星期一
来源:法制网

法制网见习记者 邢国涵

随着社会经济发展,数据价值日益凸显。如今,数据已成为企业科技创新的必备要素,但企业通过技术手段获取数据时,数据抓取技术的应用行为是否合理合法值得深思。

近年来,网络爬虫“爬取数据”成为热词,相关司法案例不断出现。据不完全统计,近些年涉及网络爬虫的司法案件达十余起,其中既包括民事案件,还包括刑事案件。这些案例并非个例,甚至还有愈演愈烈趋势。

10月23日,长三角数据合规论坛(第三期)暨数据爬虫的法律规制研讨会在上海举行,研讨会聚焦爬虫技术与数字产业影响,以及恶意爬虫的民事责任和刑事合规等话题。

上海市人民检察院研究室副主任陈超然表示,检察机关正在积极推动企业合规改革试点工作,数据合规是关注热点。现在爬虫爬取数据案件非常普遍,包括新浪诉脉脉案、大众点评诉百度等很多类似案件,当一个网络平台或者个人通过技术手段抓取别的平台数据的时候,这种行为是否合法,平台数据主体是谁,归谁使用,值得深入研讨。

杭州长三角大数据研究院副院长郭兵表示,数据爬虫作为一个中立性的技术,已经在互联网产业领域广泛应用,但是如果爬虫技术不当应用,对于其他竞争者的合法权益造成损害,甚至涉嫌违法或者犯罪,对于产业的健康发展也会产生非常大的负面影响。

非正规爬虫令网站苦不堪言

从技术角度看,爬虫是通过程序去模拟人类上网或者浏览网页、APP行为,让其高效的在网上抓取爬虫制造者所需要的信息。

欧莱雅中国数字化负责人刘煜晨表示,大多数网站拒绝爬虫访问,其中的原因既包括商业利益考量,也包括自身网站运营安全的考量。除了可能爬到网站的不愿被爬取的数据以外,网站经营者往往还会担心爬虫干扰网站正常运营。

而非正规爬虫自动持续且高频地对被爬取方进行访问,服务器负载飙升,这会给服务器带来“难以承受”之重,应对经验不足的网站,尤其是中小网站可能会面临网站打不开,网页加载极其缓慢,有时甚至直接瘫痪。网站经营者面对“凶猛”的网络爬虫时往往苦不堪言。

新浪集团诉讼总监张喆表示,无论是爬虫还是实现其他目的的技术本身都是中立的,但爬虫技术的应用不是中立,技术应用都带有应用者的目的。这个时候不应该评价技术原理,而是需要评价技术用来干什么,这个行为手段到底是不是具有正当性。

提及网络爬虫,robots协议是绕不开的话题。robots协议(也称爬虫协议)的全称是“网络爬虫排除标准”,网站通过robots协议明确警示搜索引擎哪些页面可以爬取,哪些页面不能爬取。该协议也被行业称为搜索领域的“君子协定”。

刘煜晨表示,当网络爬虫访问一个网站,robots协议像一个牌子立在自己房间门口,告诉外来人谁可以过来,谁不可以过来。但是,这只是一个君子协议,只能起到告示作用,起不到技术防范作用。

实践中,恶意爬虫爬取时不遵守网站的robots协议,并可能爬取到不该爬的数据,这种情形并非孤例。

小红书法务负责人曾翔表示,恶意爬虫案例经常发生在内容平台和电商平台。在内容上更多被爬取视频图片文字网红互动数据用户行为数据,在电商领域更多被爬取商家信息和商品信息。

“内容平台一般而言会约定相关内容知识产权应当是归发布者或者发布者和平台共同所有,这些爬虫没有签订协议获得用户授权,涉嫌对知识产权的破坏。平台通过投入激发很多创作者的创造力,如果爬虫很轻易获得再去抄袭、改编,损害很大。”曾翔说。

恶意爬取行为损害竞争机制

上海浦东法院知识产权庭法官徐弘韬表示:“数据是内容产业的核心竞争资源,内容平台经过汇总分析处理后的数据往往具有极高的经济价值。

“如果要求内容平台经营者将其核心竞争资源向竞争对手无限开放,不仅有违‘互联互通’的精神实质,也不利于优质内容的不断更迭和互联网产业的持续发展。”徐弘韬说。

恶意爬虫爬取数据案件频发的背后,与数据的价值增加并成为市场竞争重要的资源,以数据为核心的市场竞争愈发激烈密不可分。

华东政法大学教授高富平表示,进入大数据时代,数据价值再次凸显,现在的爬虫技术已经从原来的网页爬虫进入到底层数据的爬取。随着数据价值凸显,数据爬虫问题就变得越来越严重。

在大数据时代的背景下,愈来愈多的市场主体投入巨资收集、整理和挖掘信息,业内人士担忧,如果任由网络爬虫任意地使用或利用他人通过巨大投入所获取的数据资源,将不利于鼓励商业投入、产业创新和诚实经营,甚至可能直接违背了数据来源用户的意愿和知情权,最终势必损害健康的竞争机制。

司法实践中,在相关非法获取该软件的后台数据并用于经营行为的案件中,审理法院认定此侵权行为破坏他人市场竞争优势,违反了诚实信用原则,扰乱了竞争秩序,构成不正当竞争行为。

高富平认为,如果网站合法积累数据资源,都应该属于网站生产端可以控制的数据资源,是它的资产,可以控制他的使用。

“承认数据的生产者控制者可以基于他的商业目的来开放数据,让他积极通过许可使用、交换交易等方式,让更多人享用数据服务。期待能够在未来确认数据所有合法生产者有控制权、使用权。”高富平说。

保障数据安全需法律规制

目前,虽然网站可以去指定相应策略或技术手段,防止爬虫抓取数据,但爬虫也有更多技术手段,来反制这种反爬策略。

刘煜晨表示,反爬和爬取的技术一直在迭代,在技术领域,没有爬不了的网站,所有对外公开的网站、APP,只有他愿不愿意爬和多难爬的问题。越大厂的APP或者网站越难爬,反爬机制多。

在现实中,恶意网络爬虫制造者抗辩时,往往将robots协议限制爬取与数据流转联系起来。

徐弘韬认为,在“互联互通”的语境下,“有序”和“流转”同等重要、缺一不可,需排除假借“互联互通”妨碍公平竞争、危害用户数据安全的行为。

“对于非搜索引擎爬虫的正当性判别,要考虑是否足以保障用户数据的安全性。包括身份数据、行为数据等在内的用户数据,从属性来讲不仅仅是经营者的竞争资源,同样具有用户的个人隐私属性,而此类数据的集合更涉及社会公共利益。”徐弘韬说。

在立法方面,数据安全法作为数据安全的基本法,承载着解决我国数据安全核心制度框架的重要任务。同时还有2019年通过的密码法,对密码的管理进行规制,工信部出台《工业和信息领域数据安全管理办法(试行)(征求意见稿)》、深圳、上海地方政府正在颁布或者制定《数据管理条例地方性法规》等等。

华东政法大学教授张勇表示,面对商业密码应用当中涉及到的危及数据安全的犯罪,总体上以数据安全为核心,同时要参照民事行政法和相关行政法规前置法规,将某种违法犯罪行为放在整个体系当中考量,这样的话,来适用相关罪名,形成数据安全保障这样一个法律体系,实现数据安全和保障的统一。

责任编辑:邢国涵