目前,我国并未出台专门针对网络爬虫技术的法律规范,但在司法实践中,相关判决已屡见不鲜。
以“爬虫”为关键字在中国裁判文书网进行检索,其中四分之三的案件集中在民事领域,刑事案件和行政案件占比四分之一。民事案由主要为“知识产权与竞争纠纷”,而刑事案由主要为刑法第二百五十三条之一规定的“侵犯公民个人信息罪”和第二百八十五条、二百八十六条规定的计算机网络犯罪。
从技术中立的角度来看,爬虫技术本身并无违法违规之处,使用爬虫技术是否触犯法律底线,取决于主体如何使用、为何使用。
因此本文将从以下几个方面对有关法律规范和司法案例进行梳理。
一、从爬取的数据内容看
从爬取对象看,个人信息、商业秘密和作品,都是为法律所保护的对象。
(一)爬取个人信息
《民法典》第一百一十一条规定,自然人的个人信息受法律保护。任何组织或者个人需要获取他人个人信息的,应当依法取得并确保信息安全,不得非法收集、使用、加工、传输他人个人信息,不得非法买卖、提供或者公开他人个人信息。而《网络安全法》第四十四条也规定了任何个人和组织不得窃取或者以其他非法方式获取个人信息,不得非法出售或者非法向他人提供个人信息。
同时,惩罚最为严厉的《刑法》也对抓取个人信息的行为进行了规制。《刑法》第二百五十三条之一规定了侵犯公民个人信息罪,违反国家有关规定,向他人出售或者提供公民个人信息,情节严重的,处三年以下有期徒刑或者拘役,并处或者单处罚金;情节特别严重的,处三年以上七年以下有期徒刑,并处罚金。单位犯此罪的,对单位判处罚金,并对其直接负责的主管人员和其他直接责任人员,依照各该款的规定处罚。此外,未经被收集者同意,即使是将合法收集的公民个人信息向他人提供的,也属于刑法第二百五十三条之一规定的“提供公民个人信息”,可能构成犯罪。
此前宣判的“魔蝎科技案”【案号:(2020)浙0106刑初437号】,涉案单位杭州魔蝎数据科技有限公司犯侵犯公民个人信息罪,判处罚金三千万元。公司法人周某某被判有期徒刑三年,缓刑四年;技术总监袁某被判有期徒刑三年,缓刑三年。
魔蝎公司主要与各网络贷款公司、小型银行进行合作,为网络贷款公司、银行提供需要贷款的用户的个人信息及多维度信用数据,魔蝎公司将其开发的前端插件嵌入上述网贷平台APP中,当网贷平台用户使用网贷平台的APP借款时,贷款用户需要在魔蝎公司提供的前端插件上,输入其通讯运营商、社保、公积金、淘宝、京东、学信网、征信中心等网站的账号、密码,经过贷款用户授权后,魔蝎公司的爬虫程序代替贷款用户登录上述网站,进入其个人账户,利用各类爬虫技术,爬取(复制)上述企、事业单位网站上贷款用户本人账户内的通话记录、社保、公积金等各类数据,并按与用户的约定提供给网贷平台用于判断用户的资信情况,并从网贷平台获取每笔0.1元至0.3元不等的费用。
期间,魔蝎公司在和个人贷款用户签订的《数据采集服务协议》中明确告知贷款用户“不会保存用户账号密码,仅在用户每次单独授权的情况下采集信息”,但未经用户许可仍采用技术手段长期保存用户各类账号和密码在自己租用的阿里云服务器上。
杭州西湖区人民法院认为,魔蝎科技明确告知不会保存用户各类账号密码,还是未经许可非法留存用户信息,是以其他方法非法获取公民个人信息,构成侵犯公民个人信息罪。
(二)爬取作品和商业秘密
如果爬取的对象是著作权法意义上的作品,此行为可能落入著作权法的规制范畴。
首先,如果访问对象设置了保证只有获得授权的用户才可访问的技术措施,而爬虫为获得数据(作品)突破了此技术措施,此行为可能被认定为《著作权法》第四十九条规定的破坏技术措施行为。其次,存储被爬数据(作品)的行为,其实质上是著作权法所规定的对作品进行“复制”的行为,因而落入著作权人“复制权”的控制范围。
最后,如果行为人将被爬取的作品在互联网上公开传播,则可能会侵犯著作权人的“信息网络传播权”,情节严重则有可能构成“侵犯著作权罪”。如金某某、潘某侵犯著作权罪案中【(2018)沪0110刑初150号】,被告人以冰豆公司的名义雇佣员工开发“免费小说书城”手机APP软件(安卓端),并编写爬虫软件从互联网上抓取小说数据储存至租用的阿里云服务器za软件即从互联网上抓取用户所需的小说内容,发送并缓存至上述服务器内,供用户免费阅读。因此,上海市杨浦区人民法院认为金某某、潘某构成侵犯著作权罪。
此外,如果行为人在突破技术措施后接触、存储访问对象存储的“商业秘密”,此后又将该数据进一步利用,甚至公开披露、使用,则可能触犯《反不正当竞争法》第九条,构成对权利人商业秘密的侵犯。在前锦公司诉逸橙公司其他不正当竞争纠纷案中【(2019)沪73民终263号】,前程无忧网站(www.51job.com)是由前锦公司主办的。www.ifchange.com网站是由逸橙公司主办,该网站名称为“e成”。该网站“功能设置”内有“关联外网账号”的服务,用户关联完成后可以在e成轻松完成一键发布、刷新等职位管理工作,可以自行设置是否将外网主投简历统一存储到自有云人才库。前锦公司主张逸橙公司通过关联账号功能获取并使用了用户在前程无忧网站的账号和密码,登录前程无忧网站后使用爬虫技术查阅了网站中的简历,并将该些简历缓存在其服务器上。同时,前锦主张保存于前程无忧网站以及上诉人企业账户内的整体简历信息为商业秘密,逸橙公司侵害其商业秘密的行为包括未经前锦公司及其用户的许可,实施了向逸橙公司员工及其他企业用户披露含有个人联系方式的保密信息的行为。浦东法院在一审判决书中【(2017)沪0115民初89112号】确认前锦公司主张的信息构成商业秘密。虽然上海知识产权法院在二审时并未认可逸橙公司的经营模式构成对前锦公司的不正当竞争,此案仍可以作为企业的合规参考。
二、从爬虫绕开技术措施看
“如何使用”爬虫技术,是判断爬虫行为是否正当的标准之一。
(一)Robots协议
目前,Robots协议在法律上尚未被认可为具有法律约束力的 “协议”或是一种强有力的技术措施,我国司法实践多认为Robots协议是一种“声明”。
国内判决中对Robots协议的法律性质作为较为完整论述的见于百度诉奇虎360案 【案号:(2013)一中民初字第 2668 号、(2013)高民初字第3755号】。百度公司的Robots协议不允许360爬虫抓取百度网页内容,但奇虎公司未遵守其Robots协议,抓取了百度网站内容并作为搜索结果提供给用户。此后,在互联网协会牵头下,百度公司和奇虎公司作为共同发起人之一,签署《互联网搜索引擎服务自律公约》。
在该案件审理中,北京市一中院对于对Robots协议的相关法律问题进行了评述:Robots 协议是技术规范,并非法律意义上的协议;Robots协议系网站服务商或所有者自行编写,属于单方宣示,无论他人爬虫是否遵守,Robots 协议不是强制禁止访问的技术措施;Robots协议已经成为了一种国内外互联网行业内普遍通行、普遍遵守的技术规范;《自律公约》并非法院可以直接参照适用的法律法规或规章,但其反映和体现了行业内的公认商业道德和行为标准,法院对于《自律公约》所体现出的精神予以充分考虑。即,北京市一中院并不认为Robots协议是具有法律约束力的合同,而是将其作为业内普遍遵守的“公认的商业道德”。
(二)技术措施
如果行为人通过爬虫技术侵入国家事务、国防建设、尖端科学技术领域的计算机信息系统,可能构成《刑法》第285条第1款规定的非法侵入计算机信息系统罪,处三年以下有期徒刑或者拘役。其中,为了获取行政信息而爬取国家机关政务网站的,属于“侵入国家事务领域的计算机信息系统”。
案例参考:(2018)川3424刑初169号
如果行为人通过爬虫技术绕开网站设置的身份验证、访问频率限制等反爬技术措施,侵入国家事务、国防建设、尖端科学技术领域以外的计算机信息系统,抓取其服务器中存储、处理或者传输的数据,情节严重的[1],则可能构成《刑法》第285条第2款规定的非法获取计算机信息系统数据罪,处三年以下有期徒刑或者拘役,并处或者单处罚金;情节特别严重的,处三年以上七年以下有期徒刑,并处罚金。
[1] 《最高法最高检关于办理危害计算机系统安全刑事案件应用法律若干问题的解释》第1条对于“情节严重”进行了解释。
如果行为人提供专门用于侵入、非法控制计算机信息系统的爬虫程序[2],或者明知他人实施侵入、非法控制计算机信息系统的违法犯罪行为而为其提供爬虫程序,情节严重的,则可能构成《刑法》第285条第3款规定的提供侵入、非法控制计算机信息系统程序、工具罪。
[2] 《最高法最高检关于办理危害计算机系统安全刑事案件应用法律若干问题的解释》第2条对“专门用于侵入、非法控制计算机信息系统的程序、工具”进行了解释。
其中,比较值得关注的是“非法获取计算机信息系统数据罪”。在司法实践中,一般对非法获取的形式有两种理解,一是对技术措施的突破,二是绕开技术措施。如果司法机关无法证明行为人的爬虫行为突破/绕开了技术措施,那么一般认为此种犯罪是不成立的。此外,行为人如果绕开的技术措施强度较低(如token数值常年不变),司法机关也一般不做犯罪处理。
比较典型的是晟品公司、侯某强等非法获取计算机信息系统数据案【(2017)京0108刑初2384号】。本案中,被告人侯某强等人作为晟品公司的员工,经过共谋,于2016年至2017年间采用技术手段抓取被害单位北京字节跳动网络技术有限公司服务器中存储的视频数据,并由侯某强指使被告人郭某破解北京字节跳动网络技术有限公司的防抓取措施,使用“tt_spider”文件实施视频数据抓取行为,造成被害单位北京字节跳动网络技术有限公司损失技术服务费人民币2万元。经鉴定,“tt_spider”文件中包含通过头条号视频列表、分类视频列表、相关视频及评论3个接口对今日头条服务器进行数据抓取,并将结果存入到数据库中的逻辑。在数据抓取的过程中使用伪造device_id绕过服务器的身份校验,使用伪造UA及IP绕过服务器的访问频率限制。北京市海淀区人民法院认为上述行为属于非法获取计算机信息系统中存储的数据,情节严重,构成非法获取计算机信息系统罪。
此外,在呙某某非法获取计算机信息系统数据一案中【(2019)鲁0213刑初144号】,被告人呙某某首先利用“SQL注入漏洞”获取网站的后台管理权限,进而利用其编写的爬虫脚本程序侵入计算机信息系统,获取计算机系统内存储的、非在公开页面显示的数据。因此,青岛市李沧区人民法院认为此行为违反《刑法》第二百八十五条规定,构成非法获取计算机信息系统数据罪。
三、从爬虫造成的客观后果看
爬虫作为一种技术手段,其天然并不具备违法性,而爬取数据的行为之所以落入法律,尤其是刑法的调整范畴,在于利用此技术手段的行为造成了危害性后果。
首先,为了运行爬虫程序,行为人往往会强行突破访问对象设置的反爬技术措施。如谷米公司诉元光公司案【(2017)粤0305刑初153号】,被告元光公司开始非法获取原告数据之际破解“酷米客”客户端的加密算法没有成功,被告人陈某便出面聘请其他公司的技术人员帮忙将原告APP的加密系统攻破,从而得以顺利非法获取原告服务器中的大量公交车行驶实时数据。
其次,行为人使用爬虫技术也可能导致访问对象长时间无法访问,在杨杰明、张国栋破坏计算机信息系统一案中【(2019)粤0305刑初193号】,被告人开发一款名为“快鸽信贷系统”的软件,该软件内的“网络爬虫”功能能与深圳市居住证网站链接,可以在深圳市居住证网站上查询到房产地址、房屋编码等对应的资料,该软件对深圳市居住证网站访问量能达到每小时数十万次,以达到为其公司主营业务便捷的目的。2018年5月2日10时至5月2日12时许两小时内,该软件对深圳市居住证系统查询访问量为每秒183次,共计查询信息1510140条次并将查询的信息以阿某云网络云盘的形式保存,在该时段内造成深圳市居住证系统无法正常运作,极大地影响了该居住证系统使用方深圳市公安局人口管理处的日常运作。深圳市南山区人民法院认为此行为违反了《刑法》第二百八十六条的规定,构成破坏计算机信息系统罪。
最后,行为人通过爬虫获取第三方数据,从而削弱了第三方的竞争优势,破坏了第三方的商业模式。如大众点评诉百度案【(2016) 沪73民终242号】、谷米公司诉元光公司案,法院并未认可原告对数据享有直接权利,但认为原被告之间存在竞争关系,且被告将爬取数据直接用于其经营的软件运营中,利用了原告的劳动成果,属于“搭便车”行为。此行为将削弱了原告的竞争优势,减少用户对原告软件的使用,损害原告的合法权益。
四、总结
当前,我国在立法上并没有明确界定使用爬虫技术的合法边界, 其对于数据抓取行为的规制散见于《刑法》、《反不正当竞争法》与《网络安全法》中,其中不同的法律规范对行为规制侧重点也有所不同,《刑法》强调的是对于法益的保护,打击的是具有社会危害性的爬虫行为,即导致个人信息泄露、商业秘密公开、计算机系统瘫痪、著作权侵权等不正当数据抓取行为将会受到刑法的规制。而《反不正当竞争法》对此行为的调整也值得关注。在无法获得刑法救济的情况下,许多权利人会转而寻求《反不正当竞争法》的保护。
最后,第十三届全国人民代表大会常务委员会第二十九次会议于2021年6月10日通过了《数据安全法》。该法是数据领域的基础性法律,也是国家安全领域的一部重要法律。该法第八条明确规定,开展数据处理活动,应当遵守法律、法规,尊重社会公德和伦理,遵守商业道德,诚实守信,履行数据安全保护义务,承担社会责任,不得危害国家安全、公共利益,不得损害个人、组织的合法权益。该法第五十一条则规定了相应的法律责任,即窃取或者以其他非法方式获取数据,开展数据处理活动排除、限制竞争,或者损害个人、组织合法权益的,依照有关法律、行政法规的规定处罚。对于在经营过程需要进行大量数据抓取工作的有关企业而言,除了建立数据分类分级保护、数据安全管理等基本制度外,在数据源获取层面需要进行更详尽的业务评估与风控管理,以应对《数据安全法》出台后的监管要求。