網路爬蟲是什麼？

本節我們先講一下網路爬蟲的概念，再講一下網路爬蟲的分類，期間會插入我個人的一些見解。

網路爬蟲（又被稱為網頁蜘蛛，網路機器人，在FOAF社群中間，更經常的稱為網頁追逐者），是一種按照一定的規則，自動地抓取全球資訊網資訊的程式或者指令碼。

對於我們來說，爬蟲需要我們自己寫，可以下載的我們眼裡最有價值的資料。

通常我們會把收集到的資料進行資料分析：

如果我們想開淘寶零售店，可對淘寶這個市場並不了解，我們就可以爬取淘寶使用者的行為資料，再考慮自己的定位在哪裡。
資料表明：使用者購買最多的商品是 100-200 RMB，最理想的定位應是 200 元以內卻特別高階的物品。
如果我們想預測倆人是否會修成正果，我們可以把資料爬取了（如果是約會，全程對話錄下來）預測。
資料表明：男性最後選擇的總是外表好看的，這可能傷了您的心。
如果服務於企業（如騰訊），微信（有平台）對 90 後、80 後、70 後和 55 歲以上人群的使用習慣做了資料分析，結果發現：
- 00 後最喜歡使用的表情是捂臉哭，80 後最愛呲牙笑，70 後最愛捂嘴笑，55 歲以上人最愛大拇指點讚；
- 在閱讀興趣方面，90 後的閱讀內容從三年前的娛樂八卦轉向了生活情感類內容，55 歲以上人群從三年前的勵志文化類內容轉向了關注養生健康類內容，而 80 後的閱讀偏好則仍然停留在關心國家大事上，你可以在每個階段推播不同的且貼心的服務。

獲取資料背後的結論（需要一些心理學知識才能推出來），還真須有大量隨機的資料；而且爬取的資料要盡量隨機、大規模，這樣能夠排除一切主觀的干擾因素。

如果爬蟲技術特別 NB，也可以直接去銷售資料：

1) http://chinadatatrading.com/ 是銷售資料的平台之一。