首頁(yè) 新聞 > 科技 > 正文

合理規(guī)制,讓“爬蟲(chóng)”向善向上

年來(lái),隨著移動(dòng)互聯(lián)、人工智能、大數(shù)據(jù)、云計(jì)算等新技術(shù)的迅速發(fā)展與普及應(yīng)用,人們的工作、交往和生活方式都發(fā)生了深刻變化,數(shù)據(jù)成為驅(qū)動(dòng)社會(huì)發(fā)展的新型生產(chǎn)要素、各行各業(yè)增強(qiáng)競(jìng)爭(zhēng)力的重要源泉。但在大數(shù)據(jù)收集過(guò)程中,也存在著各種違法犯罪問(wèn)題。網(wǎng)絡(luò)爬蟲(chóng)(Web Crawler)作為一種能快速精準(zhǔn)地獲取數(shù)據(jù)信息的基礎(chǔ)網(wǎng)絡(luò)技術(shù),年來(lái)得到了越來(lái)越多的青睞和應(yīng)用。如何對(duì)其進(jìn)行規(guī)制,驅(qū)動(dòng)其向好向善,成為當(dāng)前重要的法治議題。

“小爬蟲(chóng)”的“大角色”

網(wǎng)絡(luò)爬蟲(chóng),又稱為“網(wǎng)頁(yè)蜘蛛”“網(wǎng)絡(luò)機(jī)器人”,是一種按照一定的規(guī)則,自動(dòng)抓取網(wǎng)絡(luò)信息的程序或者腳本。它能在特定程序的驅(qū)動(dòng)下,模仿人工點(diǎn)擊從網(wǎng)站、手機(jī)應(yīng)用、小程序或搜索引擎中檢索、提取、存儲(chǔ)數(shù)據(jù)。我們可以形象地將它們理解為一種爬行在網(wǎng)絡(luò)上的蜘蛛,它們根據(jù)程序的指令,通常沿著URL(網(wǎng)址)這根蛛絲,在互聯(lián)網(wǎng)這張大網(wǎng)上爬來(lái)爬去,尋找和帶回所需要的數(shù)據(jù)資源。我們熟知的百度、搜狗、谷歌等搜索引擎,其技術(shù)核心元素之一就是“網(wǎng)絡(luò)爬蟲(chóng)”。例如百度蜘蛛,它通過(guò)互聯(lián)網(wǎng)入口爬取網(wǎng)頁(yè),實(shí)時(shí)存儲(chǔ)并更新索引,然后為用戶提供檢索服務(wù)。

自從1993年第一個(gè)網(wǎng)絡(luò)爬蟲(chóng)程序——“互聯(lián)網(wǎng)漫游者”被開(kāi)發(fā)出來(lái),網(wǎng)絡(luò)爬蟲(chóng)這種便捷高效的搜索技術(shù)便得到了業(yè)界關(guān)注。特別是隨著數(shù)據(jù)資源的爆炸式增長(zhǎng),網(wǎng)絡(luò)爬蟲(chóng)的應(yīng)用場(chǎng)景也變得越發(fā)廣泛與多元,長(zhǎng)期活躍于市場(chǎng)調(diào)查、產(chǎn)品研發(fā)、金融分析、輿情監(jiān)控、風(fēng)險(xiǎn)預(yù)測(cè)等領(lǐng)域。年來(lái),一些運(yùn)用爬蟲(chóng)技術(shù)為客戶提供數(shù)據(jù)服務(wù)的互聯(lián)網(wǎng)企業(yè),也獲得了快速發(fā)展。對(duì)個(gè)人而言,我們可以利用爬蟲(chóng)軟件等計(jì)算機(jī)編程語(yǔ)言,讓網(wǎng)絡(luò)爬蟲(chóng)為自己服務(wù)。例如想買(mǎi)到理想的房子,就可爬取房產(chǎn)中介的公開(kāi)信息,分析房源數(shù)據(jù)與趨勢(shì)以輔助決策。

網(wǎng)絡(luò)的本質(zhì)與價(jià)值在于連接,核心是實(shí)現(xiàn)數(shù)據(jù)的流動(dòng)與分享。網(wǎng)絡(luò)爬蟲(chóng)作為數(shù)據(jù)抓取的技術(shù)工具,通過(guò)爬行增強(qiáng)了網(wǎng)絡(luò)節(jié)點(diǎn)間的聯(lián)絡(luò),提升了網(wǎng)絡(luò)的整體價(jià)值,是構(gòu)建互聯(lián)網(wǎng)開(kāi)放與共享理念的重要技術(shù)基石。但網(wǎng)絡(luò)爬蟲(chóng)所行之處,并非總是鮮花和掌聲,特別是涉及隱私領(lǐng)地和網(wǎng)絡(luò)安全之時(shí)。因此,為了規(guī)范爬蟲(chóng),維護(hù)網(wǎng)絡(luò)秩序,1994年誕生了“robots.txt協(xié)議”,該協(xié)議雖然只是一個(gè)“君子協(xié)議”,但它逐漸被視為網(wǎng)絡(luò)空間爬蟲(chóng)技術(shù)應(yīng)用公認(rèn)的行業(yè)準(zhǔn)則,也成為判定爬取行為是否獲得網(wǎng)站許可的主要依據(jù)。在2014年百度公司訴奇虎360違反robots協(xié)議案中,法院在判決時(shí)就認(rèn)為,被告沒(méi)有遵守原告網(wǎng)站的robots協(xié)議,其行為明顯不當(dāng),應(yīng)當(dāng)承擔(dān)相應(yīng)的不利后果。

科技異化:“好爬蟲(chóng)”和“壞爬蟲(chóng)”

科技本身是一種中立工具,向善向惡、合法與非法,關(guān)鍵在于使用者的選擇。原本通過(guò)robots協(xié)議,一方獲得了數(shù)據(jù)與信息,一方增加了流量與關(guān)注,皆大歡喜。但robots協(xié)議能防“君子”卻難防“小人”,有些爬蟲(chóng)程序不遵守規(guī)則,隨心所欲地爬取別人不愿意分享的數(shù)據(jù)信息,并大量擠占服務(wù)器資源,變成了“網(wǎng)絡(luò)害蟲(chóng)”。例如年來(lái)一些大數(shù)據(jù)風(fēng)控公司利用爬蟲(chóng)技術(shù),在網(wǎng)絡(luò)上非法收集用戶個(gè)人信息并轉(zhuǎn)賣(mài)給第三方,借以謀取經(jīng)濟(jì)利益。

網(wǎng)絡(luò)爬蟲(chóng)設(shè)計(jì)的初衷是通過(guò)計(jì)算機(jī)技術(shù),自動(dòng)為網(wǎng)站編纂索引,更新信息,為用戶提供高效的檢索服務(wù)。具有訪問(wèn)、下載和解析(對(duì)數(shù)據(jù)進(jìn)行分析與篩選)三種基本功能。目前,爬蟲(chóng)作惡主要是對(duì)前兩種功能的異化,體現(xiàn)為三類作惡方式。

一是惡意抓取非授權(quán)數(shù)據(jù)。訪問(wèn)數(shù)據(jù)是“網(wǎng)絡(luò)爬蟲(chóng)”的行為起點(diǎn),也是其價(jià)值本源,一些企業(yè)或個(gè)人為了經(jīng)濟(jì)利益或其他特殊目的,想方設(shè)法讓網(wǎng)絡(luò)爬蟲(chóng)突破道德規(guī)則與技術(shù)障礙(網(wǎng)站“反爬蟲(chóng)”措施),爬取未經(jīng)授權(quán)或超過(guò)授權(quán)范圍的數(shù)據(jù)。例如2018年2月至4月間,馬某通過(guò)編寫(xiě)“爬蟲(chóng)”程序,竊取手機(jī)應(yīng)用及網(wǎng)站的用戶信息約20萬(wàn)條,然后通過(guò)微信出售給他人,非法獲利共計(jì)2.4萬(wàn)元,這種行為就構(gòu)成了侵犯公民個(gè)人信息罪。

二是惡意侵犯知識(shí)產(chǎn)權(quán)。一些網(wǎng)絡(luò)爬蟲(chóng)在數(shù)據(jù)爬取過(guò)程中,未經(jīng)版權(quán)方的許可,就下載、復(fù)制或傳播文字、圖片和視頻等內(nèi)容,并以此獲利。通常形式是,爬蟲(chóng)對(duì)具有版權(quán)歸屬的文學(xué)或影視作品等設(shè)置加框鏈接,吸引用戶點(diǎn)擊,然后通過(guò)售賣(mài)廣告等形式牟利。例如段某建立的“窩窩電影”網(wǎng)站,利用爬蟲(chóng)技術(shù)對(duì)多家視頻網(wǎng)站的500余部影視作品設(shè)置了加框鏈接,吸引用戶點(diǎn)擊播放,并賺取廣告費(fèi)100余萬(wàn)元,這種行為就觸犯了著作權(quán)法。

三是惡意擾亂系統(tǒng)運(yùn)行。網(wǎng)絡(luò)爬蟲(chóng)訪問(wèn)系統(tǒng)時(shí),跟人工點(diǎn)擊原理一樣,因此當(dāng)巨量爬蟲(chóng)同時(shí)訪問(wèn)某一網(wǎng)站時(shí),就會(huì)占用大量的帶寬資源,造成服務(wù)器不堪重負(fù)甚至崩潰。業(yè)內(nèi)專家表示,2019年有40%的網(wǎng)絡(luò)流量來(lái)自爬蟲(chóng),其中20%來(lái)自惡意爬蟲(chóng),而且比例還將不斷上升。出行行業(yè)即是重災(zāi)區(qū)。以中國(guó)鐵路“12306網(wǎng)站”為例,自2011年上線運(yùn)營(yíng)以來(lái),春運(yùn)期間多次出現(xiàn)因爬蟲(chóng)(主要是搶票軟件)攻擊而無(wú)法訪問(wèn)的情況。據(jù)統(tǒng)計(jì),2018年春運(yùn)期間,網(wǎng)站最高峰時(shí)1天內(nèi)頁(yè)面瀏覽量達(dá)813.4億次,其中90%是“爬蟲(chóng)”所為。

合理規(guī)制,讓“爬蟲(chóng)”向善向上

據(jù)統(tǒng)計(jì),截至2020年12月,我國(guó)網(wǎng)民規(guī)模達(dá)9.89億。增強(qiáng)網(wǎng)絡(luò)空間治理,保障個(gè)人信息和數(shù)據(jù)安全,已成為重大的時(shí)代命題。

目前我國(guó)對(duì)網(wǎng)絡(luò)爬蟲(chóng)的規(guī)制還沒(méi)有專門(mén)的法律法規(guī),主要依靠民法典、反不正當(dāng)競(jìng)爭(zhēng)法、著作權(quán)法、網(wǎng)絡(luò)安全法以及刑法中的相關(guān)法律條款。但從法律規(guī)制效果來(lái)看,情況不容樂(lè)觀。一方面是由于互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,以及網(wǎng)絡(luò)所具有的開(kāi)放、虛擬和流動(dòng)等特征,讓對(duì)違法犯罪行為的監(jiān)管和證據(jù)提取較為困難,特別是隨著數(shù)據(jù)抓取從網(wǎng)頁(yè)拓展至手機(jī)應(yīng)用程序、小程序等移動(dòng)端臺(tái),抓取手段就更加復(fù)雜與隱蔽;另一方面是網(wǎng)絡(luò)世界和數(shù)字服務(wù)發(fā)展迅猛,法律法規(guī)還具有較大的滯后,司法實(shí)踐對(duì)網(wǎng)絡(luò)爬蟲(chóng)技術(shù)濫用引發(fā)的法律問(wèn)題缺乏足夠的司法經(jīng)驗(yàn),而相關(guān)的司法解釋亦未能予以足夠關(guān)注,難以形成有效規(guī)制。例如2017年今日頭條與新浪微博之間因“微頭條”業(yè)務(wù)同步“微博”發(fā)言內(nèi)容的糾紛案例,其實(shí)質(zhì)是數(shù)據(jù)權(quán)屬難以確定的問(wèn)題。但由于缺乏明確的司法解釋指引,引發(fā)了實(shí)踐中的普遍爭(zhēng)議。

2019年5月,國(guó)家互聯(lián)網(wǎng)信息辦公室公布了《數(shù)據(jù)安全管理辦法(征求意見(jiàn)稿)》,該辦法專門(mén)針對(duì)利用網(wǎng)絡(luò)開(kāi)展數(shù)據(jù)收集、存儲(chǔ)、傳輸、處理、使用等活動(dòng)進(jìn)行了規(guī)制,有望對(duì)網(wǎng)絡(luò)爬蟲(chóng)等技術(shù)行為進(jìn)行有效治理。該辦法強(qiáng)調(diào),國(guó)家堅(jiān)持保障數(shù)據(jù)安全與發(fā)展并重,鼓勵(lì)研發(fā)數(shù)據(jù)安全保護(hù)技術(shù),積極推進(jìn)數(shù)據(jù)資源開(kāi)發(fā)利用,保障數(shù)據(jù)依法有序自由流動(dòng)。這也提醒我們,網(wǎng)絡(luò)爬蟲(chóng)等本質(zhì)上是順應(yīng)數(shù)字經(jīng)濟(jì)發(fā)展需求而生,既要從法律層面高度重視,也要把握好法律規(guī)制的邊界,力求達(dá)到數(shù)據(jù)利用與合理規(guī)制之間的良衡,以便讓網(wǎng)絡(luò)技術(shù)更好地服務(wù)經(jīng)濟(jì)社會(huì)與人民生活,助推數(shù)字中國(guó)建設(shè)。

(作者:韓軼 聶晶,分別系中央民族大學(xué)法學(xué)院院長(zhǎng)、教授,中央民族大學(xué)法學(xué)院犯罪防控研究中心研究員)

關(guān)鍵詞: 網(wǎng)絡(luò)爬蟲(chóng) 科技異化 人工智能

最近更新

關(guān)于本站 管理團(tuán)隊(duì) 版權(quán)申明 網(wǎng)站地圖 聯(lián)系合作 招聘信息

Copyright © 2005-2018 創(chuàng)投網(wǎng) - www.zzkede.cn All rights reserved
聯(lián)系我們:33 92 950@qq.com
豫ICP備2020035879號(hào)-12