Python爬蟲入門教學:超級簡單的Python爬蟲教學

2020-07-16 10:04:42
這是一篇詳細介紹 Python 爬蟲入門的教學,從實戰出發,適合初學者。讀者只需在閱讀過程緊跟文章思路,理清相應的實現程式碼,30 分鐘即可學會編寫簡單的 Python 爬蟲。

這篇 Python 爬蟲教學主要講解以下 5 部分內容:
  1. 了解網頁;
  2. 使用 requests 庫抓取網站資料;
  3. 使用 Beautiful Soup 解析網頁;
  4. 清洗和組織資料;
  5. 爬蟲攻防戰;

了解網頁

以中國旅遊網首頁(http://www.cntour.cn/)為例,抓取中國旅遊網首頁首條資訊(標題和連結),資料以明文的形式出面在原始碼中。在中國旅遊網首頁,按快捷鍵【Ctrl+U】開啟原始碼頁面,如圖 1 所示。


圖 1 中國旅遊網首頁原始碼