Robots協定是什麼？ - tw511教學網

網路爬蟲其實是一種灰色產業！沒有法律規定爬蟲是違法的，也沒有法律規定爬蟲不違法，主要看爬取資料的型別，如：

高度敏感資料：行蹤軌跡資訊、通訊內容、徵信資訊、財產資訊；
敏感資料：住宿資訊、通訊記錄、健康生理資訊、交易資訊；
其他個人資訊：高度敏感資料和敏感資料。

一般來說，高度敏感的資料根本爬不了；如果是公司要求爬的，那出了事情就是公司的責任。

如果有些東西您不能確認是不是違法，可以向身邊律師朋友咨詢或者百度谷歌，切莫存僥倖心理！

螢幕前面的您心裡一定要有桿稱，搞爬蟲真的可能會坐牢的。資訊犯罪好像是直接坐牢的，而且不是按天算的，畢竟玫瑰金手銬可擺在那裡呢！

這桿稱就是 Robot.txt 協定。不過，Robot.txt 對學習聚焦型爬蟲的我們幫助不大，就當一個常識學一下，也可以根據 Robot.txt 協定列出的網頁作為指標，Robot.txt 協定允許的網頁我們就能爬，不允許的就不爬唄。

Robots 協定是網際網路爬蟲的一項公認的道德規範，全稱是“網路爬蟲排除標準（Robots exclusion protocol）”，這個協定用來告訴通用型爬蟲，哪些頁面是可以抓取的，哪些不可以。

大多數網站都有 Robots 協定，那如何檢視網站的 Robots 協定呢？

很簡單，在網站的根目錄域名後加上/robots.txt就可以了。例如，通過 https://www.douban.com/robots.txt 這個連結可以檢視淘寶的 Robots 協定。

User-agent: *                          #所有爬蟲，如百度、谷歌、必應
Disallow: /subject_search              #禁止存取 /subject_search
Disallow: /amazon_search              
Disallow: /search
Disallow: /group/search
Disallow: /event/search
Disallow: /celebrities/search
Disallow: /location/drama/search
Disallow: /forum/
Disallow: /new_subject
Disallow: /service/iframe
Disallow: /j/
Disallow: /link2/
Disallow: /recommend/
Disallow: /doubanapp/card
Disallow: /update/topic/

Allow: /ads.txt                        #允許存取 /ads.txt

Sitemap: https://www.douban.com/sitemap_index.xml
Sitemap: https://www.douban.com/sitemap_updated_index.xml
#sitemap檔案裡面是新產生的URL，有豆瓣網前一天的影評、書評、貼文等等，可以減少網站的頻寬消耗。 

User-agent: Wandoujia Spider           #如果是豌豆莢爬蟲
Disallow: /                            #禁止存取所有頁面(完全螢幕蔽)

User-agent: Mediapartners-Google       #谷歌的廣告爬蟲，當網頁投放了谷歌的廣告時，他就會來抓取，對網頁進行分析，然後投放最佳的廣告...

Disallow: /subject_search              #禁止存取 /subject_search
Disallow: /amazon_search
Disallow: /search
Disallow: /group/search
Disallow: /event/search
Disallow: /celebrities/search
Disallow: /location/drama/search
Disallow: /j/

Allow 代表允許存取，Disallow 就是禁止存取，User-agent 可以判斷是哪家爬蟲，經常產生新資料網站 sitemap 檔案會用的比較多。

豆瓣的 robots.txt 檔案表示：

對豌豆莢爬蟲完全螢幕蔽，不允許它爬任何豆瓣的網頁
對谷歌廣告爬蟲，允許爬取除了以Disallow開頭的網址以外的其他網址，並且爬取的時間間隔為 5s。
對於任何爬蟲（除豌豆莢爬蟲、谷歌的廣告爬蟲），允許爬取除了以Disallow開頭的網址以外的其他網址，並且爬取的時間間隔為 5s。

常見的搜尋引擎爬蟲有：

谷歌 Googlebot
百度 Baiduspider
360 360Spider
必應 bingbot

因為網站上的目錄其實就是電腦裡的資料夾，robots.txt 協定處於網站的根目錄下，任何人都可以直接輸入路徑開啟並檢視裡面的內容，就可以比較清楚的了解網站的結構。

robots.txt 相關新聞：

違反“爬蟲協定”能否適用反不正當競爭法（中國法院）
百度與 360 爬蟲之爭
robots.txt檔案的作用及寫法

駭客技巧

也可以通過 robots.txt 協定看到這個網站是不是一個網站模版系統建成的。比如，我在某個網站的域名後加上/robots.txt：