網路爬蟲算得上是一個輸出相當穩定的“黃金礦工”。為什麼這麼說呢?網路爬蟲的作用就是抓取某個指定網頁的資料並儲存在本地,而一些大公司的主要收入都來源於搜尋引擎,搜尋引擎的資料是由網路爬蟲沒日沒夜地從網際網路上抓取的,所以說網路爬蟲就是它們的黃金礦工。
那麼,這些爬蟲是怎樣“尋寶”的呢?原理其實很簡單,首先給爬蟲幾個初始的 URL 連結,爬蟲把這些連結的網頁抓取回來,經過對網頁進行分析,得到兩部分資料:
-
一部分是網頁的有效內容,可以用來建立搜尋關鍵詞的索引,這部分資料先儲存起來;
-
一部分就是網頁中的 URL 連結,這些連結可以作為下一輪爬蟲抓取的目標網頁,如此反復操作,也許整個網際網路的網頁都可以被抓取下來。
原理雖然很簡單,但是要成為一個優秀的網路爬蟲,也要具備以下特點。
1) 一個優秀的爬蟲,需要從頁面中解析出正確的 URL。
2) 一個優秀的爬蟲,也必須有很快的抓取速度。
3) 一個優秀的爬蟲,也需要有挑選最有價值的頁面進行抓取的能力。
4) 一個優秀的爬蟲,也需要智慧地適應不同的網站。
最後再分享一個關於爬蟲的冷知識,如果網站運營者不願意網站內容被爬蟲抓取,那麼可以在網站根目錄下放一個 robots.txt 檔案,在其中具體描述該網站的哪些頁面可以被抓取,哪些不能。