在大數(shù)據(jù)時代,,除直接通過用戶采集,另一個主要的數(shù)據(jù)來源就是使用網(wǎng)絡(luò)爬蟲采集公開信息,。爬蟲的使用到了何種程度,?有業(yè)內(nèi)人士稱,互聯(lián)網(wǎng)50%以上,,甚至更高的流量其實都是爬蟲貢獻的,。對某些熱門網(wǎng)頁,爬蟲的訪問量甚至可能占據(jù)了該頁面總訪問量的90%以上,。
從技術(shù)角度來看,,爬蟲就是通過程序去模擬人類上網(wǎng)或者瀏覽網(wǎng)頁或者APP行為,再從中抓取爬蟲作者所需要的信息的過程,。隨著數(shù)據(jù)產(chǎn)業(yè)的不斷發(fā)展,,數(shù)據(jù)價值的日益高漲,對于數(shù)據(jù)的爭奪日趨激烈,?!芭老x”與“反爬蟲”成為無休止的“攻防對抗”,一些爬蟲違反網(wǎng)站意愿,,對網(wǎng)站進行未經(jīng)授權(quán)的訪問,,獲取了網(wǎng)站大量公開或非公開的數(shù)據(jù),由此引發(fā)諸多法律爭議,。
10月23日,,杭州長三角大數(shù)據(jù)研究院、上海市楊浦區(qū)人民檢察院,、上海市企業(yè)法律顧問協(xié)會,、浙江省企業(yè)法律顧問協(xié)會與《財經(jīng)》商業(yè)治理研究院共同發(fā)起“長三角數(shù)據(jù)合規(guī)論壇暨數(shù)據(jù)爬蟲的法律規(guī)制研討會”,邀請了多位重量級法律學(xué)者,、法官,、檢察官、互聯(lián)網(wǎng)從業(yè)者從“數(shù)據(jù)爬蟲技術(shù)與產(chǎn)業(yè)影響”,、“數(shù)據(jù)爬蟲的民法責(zé)任”,、“數(shù)據(jù)爬蟲的刑事合規(guī)”等不同角度展開討論。
01
爬蟲無處不在
“爬蟲應(yīng)用場景廣泛,,合規(guī)與不合規(guī)的場景都有,。例如,抓取電商網(wǎng)站的評價數(shù)據(jù)做市場調(diào)研,;做數(shù)字內(nèi)容的可以利用爬蟲去抓取網(wǎng)絡(luò)相應(yīng)內(nèi)容,;抓取裁判文書網(wǎng)數(shù)據(jù),進行優(yōu)化后推出“付費版數(shù)據(jù)庫”,;企查查,、天眼查也在利用爬蟲技術(shù)對政府公開數(shù)據(jù)實現(xiàn)商業(yè)使用,。”歐萊雅中國區(qū)數(shù)字化負責(zé)人劉煜介紹,。
劉煜對爬蟲的基本原理進行了解釋,,通常爬蟲會定位網(wǎng)站所有的URL鏈接,獲取頁面里的數(shù)據(jù),,再對數(shù)據(jù)進行拆解利用,。不管在網(wǎng)頁端還是移動端,基本爬蟲都基于這樣的原理,。使用爬蟲技術(shù)對于‘爬蟲一方’和‘被爬蟲一方’都具有風(fēng)險,,輕則網(wǎng)站崩潰、重則面臨牢獄之災(zāi),。
具體來說,,對于那些小網(wǎng)站或者技術(shù)實力弱的網(wǎng)站,如果爬蟲7X24小時持續(xù)訪問,,可能因服務(wù)器無法承受激增的流量,,導(dǎo)致網(wǎng)站崩潰。更麻煩的是,,對編寫爬蟲的程序員來說,,如果爬到不該爬取數(shù)據(jù),再利用這些數(shù)據(jù),,可能屬于違法行為,。
劉煜表示,在不同場景中,,對于爬蟲的態(tài)度截然不同,。例如,搜索引擎爬蟲受人歡迎,,因為搜索引擎能提高被爬網(wǎng)站的曝光率,;但大多數(shù)網(wǎng)站也會基于服務(wù)器的風(fēng)險、或者種種商業(yè)原因,,不希望爬蟲抓取數(shù)據(jù),。拒絕分兩種,,‘反爬’機制,,‘反反爬’機制。網(wǎng)站可以去制定相應(yīng)策略或者技術(shù)手段,,去防止爬蟲抓取數(shù)據(jù),。
網(wǎng)站常見的應(yīng)對策略是放置Robots協(xié)議,該協(xié)議由荷蘭工程師傅馬丁·科斯特(Martijn Koster )在1994年編寫,,后來成為數(shù)據(jù)爬取方和被爬取方之間通行的溝通機制,。中國互聯(lián)網(wǎng)協(xié)會2012年發(fā)布的《中國互聯(lián)網(wǎng)行業(yè)自律公約》中,,將遵守Robots協(xié)議認定為“國際通行的行業(yè)管理與商業(yè)規(guī)則”。
但劉煜稱,,Robots協(xié)議更像君子協(xié)議,,只能起到告示作用,起不到防范作用,。爬蟲技術(shù),、反爬蟲技術(shù)、反反爬蟲技術(shù)一直在迭代,,只要網(wǎng)站,、App能夠被用戶訪問,就存在被爬取的可能,。惡劣的爬蟲手段會造成社會資源和技術(shù)資源的浪費,,這些資源都來之不易。小紅書總法律顧問曾翔表示,,有的爬蟲會通過“模擬真人訪問”或者“通過協(xié)議破解”來爬取數(shù)據(jù),。“這些都是不光彩的手段,,被爬取得的網(wǎng)站不得不采取攻防措施,,造成不少企業(yè)資源的浪費?!?/p>
曾翔說,,對內(nèi)容平臺而言,遭遇爬蟲攻擊極易對于自身以及用戶享有的知識產(chǎn)權(quán)造成侵害,。通常爬取都是有目的的,,如果爬取到核心商業(yè)機密,可直接用到其他地方形成競爭優(yōu)勢,。另外,,在他看來,爬蟲還涉及到對于互聯(lián)網(wǎng)公共秩序的破壞,?!芭廊〉臄?shù)據(jù)能否有效利用,是否被置于監(jiān)管之下,,這些數(shù)據(jù)流向何方,,都是非常大的問號?!?/p>
02
爬蟲的民事責(zé)任判定
“技術(shù)是中立的,,但技術(shù)應(yīng)用永遠不是中立的。”新浪集團訴訟總監(jiān)張喆表示,,在討論爬蟲技術(shù)原理時,,更重要的是看爬蟲技術(shù)用來干什么,看它的行為本身是否具有正當(dāng)性,。
近期,,北京市高級人民法院(下稱“北京高院”)對“今日頭條訴微博不正當(dāng)競爭案”作出二審判決。此案中,,微博因在Robots協(xié)議中設(shè)置黑名單,,限制字節(jié)跳動公司抓取相關(guān)網(wǎng)頁內(nèi)容被訴。法院認為,,微博是在行使企業(yè)自主經(jīng)營權(quán)范疇內(nèi)的正當(dāng)行為,,并不構(gòu)成不正當(dāng)競爭,同時撤銷一審判決等,。張喆表示,,司法機關(guān)對Robots協(xié)議評價是“一體兩面”的。
在2020年北京高院對“360訴百度不正當(dāng)競爭案”做出判決時,,認為百度在缺乏合理,、正當(dāng)理由的情況下,不得以主體作為區(qū)分,,去限制訪問搜索引擎抓取網(wǎng)站網(wǎng)頁內(nèi)容(太拗口了,,簡單點)。而在“今日頭條訴微博不正當(dāng)競爭案”中,,法院確立的原則是,,企業(yè)有權(quán)在自主經(jīng)營范圍內(nèi)去限制其他訪問者,只有在違反公共利益以及侵犯消費者權(quán)利的時候,,才有可能被認定其行為不正當(dāng),。
在華東政法大學(xué)法律學(xué)院教授、數(shù)據(jù)法律研究中心主任高富平看來,,爬蟲和數(shù)據(jù)產(chǎn)業(yè)是連一起的,,現(xiàn)在所謂的數(shù)據(jù)公司談及的數(shù)據(jù)智能、大數(shù)據(jù)分析基本上是抓取數(shù)據(jù),,再進行挖掘分析?,F(xiàn)在普遍認為爬蟲是項中立性的技術(shù),但更多時候,,使用者是為實現(xiàn)‘不勞而獲’的目的,。
高富平認為,不談?wù)摂?shù)據(jù)合法生產(chǎn)者具有控制權(quán),,難以對爬蟲合法性進行判斷,。國內(nèi)外爬蟲的合法性邊界探討,,主要著眼從數(shù)據(jù)爬取的手段,、目的兩個方面,。
從手段上來看,爬蟲無視網(wǎng)站的訪問控制,,或者假扮為合法訪問者,,會被認為是不合法的;從目的上來看,,數(shù)據(jù)爬取一方是否對被爬取一方提供的部分產(chǎn)品或服務(wù)進行“實質(zhì)性替代”,,如果屬“實質(zhì)性替代”,則目的便是不合法,。
網(wǎng)站合法積累數(shù)據(jù)資源,,那么網(wǎng)站生產(chǎn)端就可以對其進行控制使用,更重要的是承認數(shù)據(jù)控制者可以基于商業(yè)目的來開放數(shù)據(jù),,通過許可使用方式,、交換、交易等方式讓數(shù)據(jù)能夠被更多人使用,?!备吒黄綄Υ搜a充道,“基于數(shù)據(jù)合法生產(chǎn)者具有控制權(quán)的前提,,就可以對于那些無視Robots協(xié)議的爬取者進行打擊,。”
上海浦東法院知識產(chǎn)權(quán)庭法官徐弘韜認為,,Robots協(xié)議與數(shù)據(jù)流轉(zhuǎn)有兩個問題需要考慮:第一,,“互聯(lián)互通”與數(shù)據(jù)共享之間的度如何把握;第二,,當(dāng)下各互聯(lián)網(wǎng)產(chǎn)業(yè)經(jīng)營者采取的Robots協(xié)議策略是否可能導(dǎo)致數(shù)據(jù)孤島,。互聯(lián)互通的實質(zhì)在于確保數(shù)據(jù)有序流轉(zhuǎn),,而不是強行要求互聯(lián)網(wǎng)產(chǎn)業(yè)經(jīng)營者對己方平臺內(nèi)的數(shù)據(jù)資源向競爭對手全面開放,。在“互聯(lián)互通”的語境下,“有序”和“流轉(zhuǎn)”同等重要,、缺一不可,,需排除假借“互聯(lián)互通”妨礙公平競爭、危害用戶數(shù)據(jù)安全的行為,。
在某新媒體公司爬取微信公眾平臺數(shù)據(jù)案中,,杭州互聯(lián)網(wǎng)法院已經(jīng)亮明觀點。網(wǎng)絡(luò)平臺設(shè)置了Robots協(xié)議,,希望在競爭過程中還是能遵守競爭規(guī)范,,或者至少能保持一個互相尊重互相遵守協(xié)議,才是有序的基礎(chǔ)。
在上述案件中,,法院認為,,任由第三方爬蟲工具爬取公眾號信息會打擊平臺創(chuàng)造積極性,并扭曲大數(shù)據(jù)要素市場競爭機制,;從消費者利益角度,,未經(jīng)授權(quán)爬取信息并進行展示,未能尊重信息發(fā)布主體的意愿,;從公共利益角度,,被告爬取信息后未深度挖掘、創(chuàng)新,,也無更深層次的應(yīng)用,,未能提升社會整體公共利益,加之爬取數(shù)據(jù)來源并非正常,,難謂正當(dāng),。
徐弘韜認為,數(shù)據(jù)是內(nèi)容產(chǎn)業(yè)的核心競爭資源,,內(nèi)容平臺經(jīng)過匯總分析處理后的數(shù)據(jù)往往具有極高經(jīng)濟價值,。如果要求內(nèi)容平臺經(jīng)營者將其核心競爭資源向競爭對手無限開放,不僅有違“互聯(lián)互通”的精神實質(zhì),,也不利于優(yōu)質(zhì)內(nèi)容的不斷更迭和互聯(lián)網(wǎng)產(chǎn)業(yè)的持續(xù)發(fā)展,。
徐弘韜表示,對非搜索引擎爬蟲的正當(dāng)性判斷,,可以歸納為四個要素:第一看是否尊重被抓取網(wǎng)站預(yù)設(shè)的Robots協(xié)議,;第二看是否破壞被抓取網(wǎng)站的技術(shù)措施;第三看是否威脅用戶數(shù)據(jù)的安全,;第四從創(chuàng)造性與公共利益的衡量,。
徐弘韜特別指出,包括身份數(shù)據(jù),、行為數(shù)據(jù)等在內(nèi)的用戶數(shù)據(jù),,不僅僅是經(jīng)營者的競爭資源,同樣具有個人隱私屬性,,而此類數(shù)據(jù)的集合更涉及社會公共利益,。如果在抓取數(shù)據(jù)時危害用戶數(shù)據(jù)安全,其行為不具正當(dāng)性,。
03
爬蟲涉及刑事合規(guī)
刑事合規(guī),,最初起源于美國,是指國家以刑法為工具,,為推動企業(yè)開展合規(guī)管理,,建立的一套督促機制,、約束機制和激勵機制。
2020年,,在最高人民檢察院推動下,,深圳、浙江,、江蘇,、上海等地基層檢察機關(guān)積極探索企業(yè)刑事合規(guī),。為了鼓勵更多企業(yè)進行合規(guī)改制,,“刑事合規(guī)不起訴”這一全新的刑事訴訟制度在全國鋪開,嘗試選取有可能建立合規(guī)的涉罪企業(yè),,通過企業(yè)認罪認罰,、承諾建立合規(guī)計劃,進而對企業(yè)采取不起訴措施,。
上海市人民檢察院第二分院第三檢察部副主任吳菊萍表示,,刑事合規(guī)主要是為了給涉案企業(yè)一個整改自救、重新出發(fā)的機會,,也是為了保證社會經(jīng)濟的高質(zhì)量發(fā)展,。而目前很多企業(yè)所關(guān)注的刑事合規(guī)更多的是在探討其經(jīng)營行為如何避免刑事風(fēng)險。吳菊萍認為,,企業(yè)利用爬蟲技術(shù)來做數(shù)據(jù)分析,,就應(yīng)當(dāng)注重如何落實刑事合規(guī)。
吳菊萍表示,,“除了木馬病毒程序等本身就不合法的技術(shù),,我們評判一項與爬蟲技術(shù)相關(guān)的行為是否構(gòu)成犯罪,首先要看行為人用爬蟲技術(shù)干了什么事情,,有沒有社會危害性,,然后再去評判該行為是侵入計算機信息系統(tǒng),還是非法獲取計算機信息系統(tǒng)數(shù)據(jù),,再看爬取的數(shù)據(jù)涉及的是企業(yè)數(shù)據(jù)還是公民個人信息,,分別適用相關(guān)罪名?!?/p>
其中,,還需要考慮到被爬取數(shù)據(jù)的法律屬性到底是財產(chǎn)還是僅僅只是數(shù)據(jù)。吳菊萍表示,,這在司法實踐中存在較大爭議,。“比如,,我們有個以非法拘禁的方法強迫對方交付虛擬貨幣的案件,,刑事上認定為非法拘禁罪,,否定了虛擬貨幣的財產(chǎn)屬性,民事上判返還財產(chǎn),,認可了財產(chǎn)屬性,。”她認為,,數(shù)據(jù)在數(shù)字經(jīng)濟發(fā)展中是一個重要的生產(chǎn)要素,,本質(zhì)上應(yīng)當(dāng)具備財產(chǎn)屬性,但當(dāng)前的法律和司法實踐還沒有完全跟上,。
華東政法大學(xué)教授張勇對爬蟲可能涉及到的犯罪行為進行分類:從可能侵犯到的權(quán)益上看,,包括計算機系統(tǒng)安全、個人信息,、版權(quán),、國家秘密、商業(yè)秘密,、市場競爭秩序等,;從爬取方式來看,可能危害到計算機信息系統(tǒng)安全,,非法獲取公民個人信息,,非法獲取商業(yè)秘密,破壞版權(quán)技術(shù)保護措施等,;從爬取結(jié)果來看,,存在不正當(dāng)競爭類、侵犯著作權(quán)類,、侵犯人格權(quán)類等問題,。”
《財經(jīng)》E法在裁判文書網(wǎng)檢索到54份與爬蟲相關(guān)的刑事判決,,涉及多項罪名,。其中,被認定為侵犯公民個人信息罪的有26份,;非法獲取計算機信息系統(tǒng)罪10份,;傳播淫穢物品牟利罪5份;破壞計算機信息系統(tǒng)罪3份,;提供侵入,、非法控制計算機程序、工具罪3份,;侵犯知識產(chǎn)權(quán)罪3份,;非法侵入計算機信息系統(tǒng)罪、開設(shè)賭場罪,、盜竊罪,、詐騙罪各1份,。