網路爬蟲其實是一種灰色產業!沒有法律規定爬蟲是違法的,也沒有法律規定爬蟲不違法,主要看爬取資料的型別,如:
-
高度敏感資料:行蹤軌跡資訊、通訊內容、徵信資訊、財產資訊;
-
敏感資料:住宿資訊、通訊記錄、健康生理資訊、交易資訊;
-
其他個人資訊:高度敏感資料和敏感資料。
一般來說,高度敏感的資料根本爬不了;如果是公司要求爬的,那出了事情就是公司的責任。
如果有些東西您不能確認是不是違法,可以向身邊律師朋友咨詢或者百度谷歌,切莫存僥倖心理!
螢幕前面的您心裡一定要有桿稱,搞爬蟲真的可能會坐牢的。資訊犯罪好像是直接坐牢的,而且不是按天算的,畢竟玫瑰金手銬可擺在那裡呢!
這桿稱就是
Robot.txt 協定。不過,Robot.txt 對學習聚焦型爬蟲的我們幫助不大,就當一個常識學一下,也可以根據 Robot.txt 協定列出的網頁作為指標,Robot.txt 協定允許的網頁我們就能爬,不允許的就不爬唄。
Robots 協定是網際網路爬蟲的一項公認的道德規範,全稱是“網路爬蟲排除標準(Robots exclusion protocol)”,這個協定用來告訴通用型爬蟲,哪些頁面是可以抓取的,哪些不可以。
大多數網站都有 Robots 協定,那如何檢視網站的 Robots 協定呢 ?
很簡單,在網站的根目錄域名後加上
/robots.txt
就可以了。例如,通過 https://www.douban.com/robots.txt 這個連結可以檢視淘寶的 Robots 協定。
User-agent: * #所有爬蟲,如百度、谷歌、必應
Disallow: /subject_search #禁止存取 /subject_search
Disallow: /amazon_search
Disallow: /search
Disallow: /group/search
Disallow: /event/search
Disallow: /celebrities/search
Disallow: /location/drama/search
Disallow: /forum/
Disallow: /new_subject
Disallow: /service/iframe
Disallow: /j/
Disallow: /link2/
Disallow: /recommend/
Disallow: /doubanapp/card
Disallow: /update/topic/
Allow: /ads.txt #允許存取 /ads.txt
Sitemap: https://www.douban.com/sitemap_index.xml
Sitemap: https://www.douban.com/sitemap_updated_index.xml
#sitemap檔案裡面是新產生的URL,有豆瓣網前一天的影評、書評、貼文等等,可以減少網站的頻寬消耗。
User-agent: Wandoujia Spider #如果是豌豆莢爬蟲
Disallow: / #禁止存取所有頁面(完全螢幕蔽)
User-agent: Mediapartners-Google #谷歌的廣告爬蟲,當網頁投放了谷歌的廣告時,他就會來抓取,對網頁進行分析,然後投放最佳的廣告...
Disallow: /subject_search #禁止存取 /subject_search
Disallow: /amazon_search
Disallow: /search
Disallow: /group/search
Disallow: /event/search
Disallow: /celebrities/search
Disallow: /location/drama/search
Disallow: /j/
Allow 代表允許存取,Disallow 就是禁止存取,User-agent 可以判斷是哪家爬蟲,經常產生新資料網站 sitemap 檔案會用的比較多。
豆瓣的 robots.txt 檔案表示:
-
對豌豆莢爬蟲完全螢幕蔽,不允許它爬任何豆瓣的網頁
-
對谷歌廣告爬蟲,允許爬取除了以Disallow開頭的網址以外的其他網址,並且爬取的時間間隔為 5s。
-
對於任何爬蟲(除豌豆莢爬蟲、谷歌的廣告爬蟲),允許爬取除了以Disallow開頭的網址以外的其他網址,並且爬取的時間間隔為 5s。
常見的搜尋引擎爬蟲有:
-
谷歌 Googlebot
-
百度 Baiduspider
-
360 360Spider
-
必應 bingbot
因為網站上的目錄其實就是電腦裡的資料夾,robots.txt 協定處於網站的根目錄下,任何人都可以直接輸入路徑開啟並檢視裡面的內容,就可以比較清楚的了解網站的結構。
robots.txt 相關新聞:
-
違反“爬蟲協定”能否適用反不正當競爭法(中國法院)
-
百度與 360 爬蟲之爭
-
robots.txt檔案的作用及寫法
駭客技巧
也可以通過 robots.txt 協定看到這個網站是不是一個網站模版系統建成的。比如,我在某個網站的域名後加上
/robots.txt
: