網路爬蟲是什麼?

2020-07-16 10:05:08
本節我們先講一下網路爬蟲的概念,再講一下網路爬蟲的分類,期間會插入我個人的一些見解。

網路爬蟲是什麼?

網路爬蟲(又被稱為網頁蜘蛛,網路機器人,在FOAF社群中間,更經常的稱為網頁追逐者),是一種按照一定的規則,自動地抓取全球資訊網資訊的程式或者指令碼。

對於我們來說,爬蟲需要我們自己寫,可以下載的我們眼裡最有價值的資料。

通常我們會把收集到的資料進行資料分析:
  • 如果我們想開淘寶零售店,可對淘寶這個市場並不了解,我們就可以爬取淘寶使用者的行為資料,再考慮自己的定位在哪裡。

    資料表明:使用者購買最多的商品是 100-200 RMB,最理想的定位應是 200 元以內卻特別高階的物品。

  • 如果我們想預測倆人是否會修成正果,我們可以把資料爬取了(如果是約會,全程對話錄下來)預測。

    資料表明:男性最後選擇的總是外表好看的,這可能傷了您的心。

  • 如果服務於企業(如騰訊),微信(有平台)對 90 後、80 後、70 後和 55 歲以上人群的使用習慣做了資料分析,結果發現:
    • 00 後最喜歡使用的表情是捂臉哭,80 後最愛呲牙笑,70 後最愛捂嘴笑,55 歲以上人最愛大拇指點讚;
    • 在閱讀興趣方面,90 後的閱讀內容從三年前的娛樂八卦轉向了生活情感類內容,55 歲以上人群從三年前的勵志文化類內容轉向了關注養生健康類內容,而 80 後的閱讀偏好則仍然停留在關心國家大事上,你可以在每個階段推播不同的且貼心的服務。

獲取資料背後的結論(需要一些心理學知識才能推出來),還真須有大量隨機的資料;而且爬取的資料要盡量隨機、大規模,這樣能夠排除一切主觀的干擾因素。

如果爬蟲技術特別 NB,也可以直接去銷售資料:

1) http://chinadatatrading.com/ 是銷售資料的平台之一。