本節我們先講一下網路爬蟲的概念,再講一下網路爬蟲的分類,期間會插入我個人的一些見解。
網路爬蟲是什麼?
網路爬蟲(又被稱為網頁蜘蛛,網路機器人,在FOAF社群中間,更經常的稱為網頁追逐者),是一種按照一定的規則,自動地抓取全球資訊網資訊的程式或者指令碼。
對於我們來說,爬蟲需要我們自己寫,可以下載的我們眼裡最有價值的資料。
通常我們會把收集到的資料進行資料分析:
獲取資料背後的結論(需要一些心理學知識才能推出來),還真須有大量隨機的資料;而且爬取的資料要盡量隨機、大規模,這樣能夠排除一切主觀的干擾因素。
如果爬蟲技術特別 NB,也可以直接去銷售資料:
1) http://chinadatatrading.com/ 是銷售資料的平台之一。