2020-06-19 23:01:57 sunmedia 1645
? ? Robots協(xié)議提供了一種保護互聯(lián)網(wǎng)內容和隱私的手段,借助該協(xié)議,實現(xiàn)了網(wǎng)站與搜索引擎之間的一種平衡,維護了正常的網(wǎng)絡秩序
? ? Robots協(xié)議是有關網(wǎng)絡爬蟲的一個協(xié)議,用于規(guī)范網(wǎng)絡爬蟲的行為,網(wǎng)站通過Robots協(xié)議告知爬蟲哪些頁面可以抓取,哪些頁面不可以抓取。
? ? Robots協(xié)議形成于1993年、1994年前后。當時,隨著互聯(lián)網(wǎng)的發(fā)展,網(wǎng)絡上的內容越來越豐富,同時,一些早期的搜索引擎包括一些信息收集網(wǎng)站的發(fā)展,出現(xiàn)了不少網(wǎng)絡爬蟲,自動收集網(wǎng)絡上的內容。在這種情況下,網(wǎng)站的所有者希望可以通過某種手段使自己網(wǎng)站上的全部或者部分內容不被抓取,以保護自己的權利或者隱私,而搜索引擎也希望可以合理地獲取網(wǎng)絡上的內容。為此,網(wǎng)站所有者和搜索引擎人員一起,通過郵件組開始討論,共同起草了Robots協(xié)議。
? ? Robots協(xié)議并不復雜,它主要是提供一些指令,通過這些指令表明自己網(wǎng)站的哪些內容可以被爬蟲爬,或者哪些內容不能被爬,也可以指令允許哪些爬蟲爬,不允許哪些爬蟲爬,這也就是所謂的黑名單、白名單這樣的方式。無論是黑名單還是白名單,都是保護網(wǎng)站內容的一種手段,可以單獨使用白名單,也可以單獨使用黑名單,或者兩個一起用。就我所知,目前使用白名單相對比較多,因為這樣對網(wǎng)站所有者比較方便,網(wǎng)站所有者可能不知道一共有多少爬蟲,但是一些大的搜索引擎,比如百度、谷歌、搜狗,允許他們來爬,于是就設置出白名單,可能后期還有其他的搜索引擎需要爬取內容,他們可以通過與網(wǎng)站所有者協(xié)商的方式加入到白名單中,這可能就是白名單比較多的原因。
? ? Robots協(xié)議經(jīng)世界互聯(lián)網(wǎng)技術郵件組發(fā)布以后,幾乎得到了所有搜索引擎的認可。Robots協(xié)議雖然不是一個國際標準,但事實上已經(jīng)成為了業(yè)內一種普遍遵守的規(guī)范。目前國際上大的搜索引擎均遵守該協(xié)議,比如國際上的雅虎、谷歌等,國內的百度、搜狗等。
? ? 網(wǎng)站的Robots協(xié)議內容以文本文件Robots.txt的方式放置在網(wǎng)站的根目錄下,當一個爬蟲訪問某個網(wǎng)站時,首先到網(wǎng)站的根目錄檢查是否存在Robots.txt,如果存在,則按照其允許的內容進行抓?。蝗绻淮嬖?,則默認該網(wǎng)站全部內容可以抓取。另外,Robots協(xié)議從保護內容的角度說,它僅是一個聲明并不是一種技術手段,也不是一種防止爬蟲爬取內容的技術,而是一種所謂的防君子不防小人的手段,它從技術上無法阻擋某個爬蟲抓取網(wǎng)站內容,只是一種聲明,告訴爬蟲可以抓取的內容。這就如同一個店家在門口掛了一個“閑人免進”的牌子,但是門是開著的,遵守的人看到“閑人免進”可能就不進入,但這無法阻止不遵守的人進入。
? ? Robots協(xié)議在1993年、1994年前后被提出以后,業(yè)內都在遵守這一協(xié)議,說明它具有一定的合理性,就如同在車馬路上行駛,大家都靠右行駛,如果有人看到左邊有空就走左邊勢必會造成一種混亂。既然目前大家都遵守這樣一個規(guī)則,那么這個秩序就形成了,如果容忍破壞者,那么這個秩序也就被破壞掉了??傊?,Robots協(xié)議提供了一種保護互聯(lián)網(wǎng)內容和隱私的手段,借助該協(xié)議,實現(xiàn)了網(wǎng)站與搜索引擎之間的一種平衡,維護了正常的網(wǎng)絡秩序。
(作者為清華大學智能技術與系統(tǒng)國家重點實驗室主任)