Scrapy教學


Scrapy是什麼?

Scrapy是使用Python編寫的一個快速開源Web抓取框架,使用基於XPath選擇器來提取網頁中的資料。

歷史

Scrapy最初是在 2008年6月26日在BSD許可協定下發布,並在2015年6月發布的一個里程碑版本1.0。

為什麼要使用Scrapy?

  • 它更容易構建和大規模的抓取專案;
  • 它內建的機制被稱為選擇器,用於從網站(網頁)上提取資料;
  • 它非同步處理請求,速度十分快;
  • 它可以使用自動調節機制自動調整爬行速度;
  • 確保開發人員可存取性;

Scrapy的特點

  • Scrapy是一個開源和免費使用的網路爬蟲框架;
  • Scrapy生成格式匯出如:JSON,CSV和XML;
  • Scrapy內建支援從原始碼,使用XPath或CSS表示式的選擇器來提取資料;
  • Scrapy基於爬蟲,允許以自動方式從網頁中提取資料;

優點

  • Scrapy很容易擴充套件,快速和功能強大;
  • 這是一個跨平台應用程式框架(在Windows,Linux,Mac OS和BSD)。
  • Scrapy請求排程和非同步處理;
  • Scrapy附帶了一個名為Scrapyd的內建服務,它允許使用JSON Web服務上傳專案和控制蜘蛛。
  • 也能夠刮削任何網站,即使該網站不具有原始資料存取API;

缺點

  • Scrapy只面向Python2.7+以上版本;
  • 不同的作業系統安裝不太相同;