搜尋引擎蜘蛛(機器人)匯總

2020-07-16 10:05:16
搜尋引擎蜘蛛一般指網路爬蟲,又稱為網頁蜘蛛或網路機器人,是一種按照一定的規則自動地抓取全球資訊網資訊的程式或者指令碼。

注意:蜘蛛到我們網站爬行的頻率越高,證明搜尋引擎給予我們網站的權重就越高。

常見的搜尋引擎蜘蛛名稱如下:
  • 百度蜘蛛:Baiduspider
  • 雅虎蜘蛛:Yahoo! Slurp China或Yahoo!
  • 谷歌蜘蛛:Googlebot
  • 有道蜘蛛:YoudaoBot或YodaoBot
  • 360蜘蛛:360Spider
  • MSN蜘蛛:msnbot
  • 蒐狗蜘蛛:Sogou News Spider
  • 必應蜘蛛:bingbot

robots.txt

robots.txt 即蜘蛛協定,全稱為“網路爬蟲排除標準”(Robots Exclusion Protocol),也稱為爬蟲協定、機器人協定等,其作用是告知搜尋引擎允許或不允許抓取哪些頁面。

robots.txt 是一種純文字格式的檔案,使用任何一個常見的文字編輯器(比如Windows系統自帶的記事本)就可以建立和編輯,它是搜尋引擎進入網站後第一個爬取的檔案,通常放置於網站根目錄下。

例如C語言中文網的位置為:http://c.biancheng.net/robots.txt