網路爬蟲：網際網路的黃金礦工

網路爬蟲算得上是一個輸出相當穩定的“黃金礦工”。為什麼這麼說呢？網路爬蟲的作用就是抓取某個指定網頁的資料並儲存在本地，而一些大公司的主要收入都來源於搜尋引擎，搜尋引擎的資料是由網路爬蟲沒日沒夜地從網際網路上抓取的，所以說網路爬蟲就是它們的黃金礦工。

那麼，這些爬蟲是怎樣“尋寶”的呢？原理其實很簡單，首先給爬蟲幾個初始的 URL 連結，爬蟲把這些連結的網頁抓取回來，經過對網頁進行分析，得到兩部分資料：

一部分是網頁的有效內容，可以用來建立搜尋關鍵詞的索引，這部分資料先儲存起來；
一部分就是網頁中的 URL 連結，這些連結可以作為下一輪爬蟲抓取的目標網頁，如此反復操作，也許整個網際網路的網頁都可以被抓取下來。

原理雖然很簡單，但是要成為一個優秀的網路爬蟲，也要具備以下特點。

1) 一個優秀的爬蟲，需要從頁面中解析出正確的 URL。

2) 一個優秀的爬蟲，也必須有很快的抓取速度。

3) 一個優秀的爬蟲，也需要有挑選最有價值的頁面進行抓取的能力。

4) 一個優秀的爬蟲，也需要智慧地適應不同的網站。

最後再分享一個關於爬蟲的冷知識，如果網站運營者不願意網站內容被爬蟲抓取，那麼可以在網站根目錄下放一個 robots.txt 檔案，在其中具體描述該網站的哪些頁面可以被抓取，哪些不能。