這是一篇詳細介紹 Python 爬蟲入門的教學,從實戰出發,適合初學者。讀者只需在閱讀過程緊跟文章思路,理清相應的實現程式碼,30 分鐘即可學會編寫簡單的 Python 爬蟲。
這篇 Python 爬蟲教學主要講解以下 5 部分內容:
-
了解網頁;
-
使用 requests 庫抓取網站資料;
-
使用 Beautiful Soup 解析網頁;
-
清洗和組織資料;
-
爬蟲攻防戰;
了解網頁
以中國旅遊網首頁(http://www.cntour.cn/)為例,抓取中國旅遊網首頁首條資訊(標題和連結),資料以明文的形式出面在原始碼中。在中國旅遊網首頁,按快捷鍵【Ctrl+U】開啟原始碼頁面,如圖 1 所示。
圖 1 中國旅遊網首頁原始碼