一、本文編寫緣由

很久沒有寫過爬蟲，已經忘得差不多了。以爬取p站圖片為著手點，進行爬蟲複習與實踐。

二、獲取網頁原始碼

爬取網頁資料的過程主要用到request庫，一個簡單的網頁爬蟲實現過程大致可以分為一下步驟：

指定爬取url
發起爬取請求
儲存爬取資料

下面以爬取pixiv網站為例，獲取pixiv網站首頁原始碼並儲存到pixiv1.html檔案中。

import requests


if __name__ == "__main__":

    # step 1: 爬取網頁資料

    # 指定url
    url = 'https://www.pixiv.net/'
    # 發起請求
    home_text = requests.get(url).text

    # step 2: 解析爬取資料

    # step 3: 儲存爬取資料
    save_path = './pixiv1.html'
    with open(save_path, 'w', encoding='utf-8') as fp:
        fp.write(home_text)
        print('下載成功！')

經過上述操作，將會在當前目錄下生成一個「pixiv1.html」檔案。雙擊檔案開啟，會發現是下圖這樣子，存取該網站首先需要登入，所以會跳入到登入註冊頁面，且頁面都為日文。

針對這個問題，右鍵檢查網頁，進入network，然後重新整理頁面，發現有資料更新，點選檢視Headers。發現request headers裡面帶有cookie，因此需要偽裝UA，設定請求頭header，將request header複製到程式碼塊中。

# 指定url
url = 'https://www.pixiv.net/'
headers = {
    'user-agent': '你的user-agent',
    'referer':'https://www.pixiv.net/',
    'sec-fetch-dest':'document',
    'sec-fetch-mode':'navigate',
    'sec-fetch-site':'same-origin',
    'sec-fetch-user':'1',
    'upgrade-insecure-requests':'1',
    'accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9',
    'accept-encoding':'gzip, deflate, br',
    'accept-language':'zh-CN,zh;q=0.9,en-US;q=0.8,en;q=0.7',
    'cache-control':'max-age=0',
    'cookie': '你的瀏覽器cookie'
}
# 發起請求
home_text = requests.get(url, headers=headers).text

再次開啟儲存的網頁檔案「pixiv2.html」，發現頁面並不像我們登入進去的一樣，而是如下圖所示。

小朋友，你是不是有很多問號......

三、爬取單張縮圖片

由上一個章節可知，首頁的插畫部分並不是首頁的直接原始碼，而是引入了另外的網頁地址和指令碼。這裡，通過進入到網頁並進行分析，右鍵圖片再點選檢查獲取圖片地址，該圖片比較小，為縮圖片。複製圖片地址，並貼上到瀏覽器的位址列，可顯示圖片。

根據獲得的圖片的地址，直接對圖片地址進行存取，獲取圖片資料，並儲存到本地。

import requests

if __name__ == "__main__":
    # 指定url
    url = 'https://i.pximg.net/c/360x360_70/custom-thumb/img/2020/09/19/02/56/19/84460298_p0_custom1200.jpg'
    # 發起請求
    img_data = requests.get(url).content
    # 儲存圖片
    img_path = './1.jpg'
    with open(img_path, 'wb') as fp:
        fp.write(img_data)
        print('下載成功！')

於是名為「1.jpg」的圖片在當前目錄下生成，雙擊開啟發現出錯。如下圖所示。

這是因為請求頭資訊缺失，需要新增請求頭，程式碼如下：

# 指定url
url = 'https://i.pximg.net/c/360x360_70/custom-thumb/img/2020/09/19/02/56/19/84460298_p0_custom1200.jpg'
# UA偽裝
headers = {
    'user-agent': '你的user-agent',
    'cookie': '你的瀏覽器cookie',
    'referer':'https://www.pixiv.net/',
    'sec-fetch-dest':'document',
    'sec-fetch-mode':'navigate',
    'sec-fetch-site':'same-origin',
    'sec-fetch-user':'1',
    'upgrade-insecure-requests':'1',
    'accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9',
    'accept-encoding':'gzip, deflate, br',
    'accept-language':'zh-CN,zh;q=0.9,en-US;q=0.8,en;q=0.7',
    'cache-control':'max-age=0',

}
# 發起請求
img_data = requests.get(url, headers=headers).content

「1.jpg」檔案生成，雙擊可開啟，爬取單張圖片成功。

三、爬取單張高清原圖

1、獲取原圖地址

要爬取原圖，首先還是得獲取圖片地址。點選插畫的縮圖，進入插畫的詳情頁面，右鍵插畫圖片inspect網頁，如下圖所示。

點選左側圖片進入大圖預覽模式，再右鍵inspect網頁，可知右邊紅色框中a標籤的連結地址就是插畫的原圖地址。但是複製該地址到瀏覽器位址列，顯示403狀態碼。這時點選返回原始網頁中點選圖片，進入大圖模式，然後再在瀏覽器位址列複製地址檢檢視片，發現可以成功顯示圖片。

2、爬取高清原圖

先附上爬取原圖的程式碼。

import requests

if __name__ == "__main__":
    # step 1: 指定url
    url = 'https://i.pximg.net/img-original/img/2020/09/19/02/56/19/84460298_p0.jpg'
    headers = {
        'referer': 'https://www.pixiv.net/artworks/84460298',
        'user-agent':'你的user-agent'
    }
    # step 2:發起請求
    res_data = requests.get(url, headers = headers)

    # step 3: 儲存資料
    res_code = res_data.status_code
    msg = '下載成功！'
    if res_code == 200 :                    # 請求成功
        img_data = res_data.content
        # 儲存資料
        img_path = './img/5.png'
        with open(img_path, 'wb') as fp:
            fp.write(img_data)
            print(msg)
    else:                                   # 請求失敗
        msg = "下載失敗，返回狀態碼為："+str(res_code)
        print(msg)

根據上面已經獲取了原圖地址，在請求原圖的過程中需設定headers的referer引數，否則請求不成功。

對於請求，可能存在不成功的情況，可以根據返回的狀態碼進行判斷。如果狀態為200，那麼說明ok，請求成功，否則說明請求不成功，列印狀態碼資訊。

四、批次爬取高清原圖

上述爬取單張圖片相比於「」手動右鍵另存為「，實在耗時費力且非但沒有體現任何爬蟲的優勢。但是如果喜歡這個網站的大多數圖片，並希望可以全部儲存到本地，手動就太繁瑣機械了，使用爬蟲可以方便且快速地實現這個操作。

1、分析原圖地址

由上一小節可知，這裡是直接通過檢檢視片地址，然後獲取多張圖片。要獲取多張圖片，那麼一種方法是記錄下所有的圖片地址並儲存到檔案，通過讀取檔案中的圖片地址下載圖片;另一種方式是分析圖片地址的邏輯、構成、關係。顯然後者更為科學與便捷。通過右擊多張圖片，獲取如下圖片地址：

以第一張圖片地址為例，發現該地址前面的」https://i.pximg.net/img-original/img/「以及後面的」_p0.jpg「為公共部分，僅有中間的」2020/09/19/18/00/29/84470884「與其他圖片地址不同。

通過檢視network中XHR的Preview來檢視每條xhr資訊的主題內容，獲知以下圖片內容。

上圖中的json資料中包含了不同的圖片資訊，比如最後一條的key參與構成原圖地址和referer，且裡面url的內容為原圖的縮圖地址，具有原圖特殊部分的資訊。因此，可以通過解析該json資料來構造原圖的url。

2、構造原圖地址

首先找到該preview對應的xhr資訊，然後複製request url，進行請求存取，編碼實現如下：

import requests
import json
import pprint

if __name__ == "__main__":
    # step 1: 指定url
    url = 'https://www.pixiv.net/ajax/user/10797546/illusts?ids%5B%5D=84243244&ids%5B%5D=84089827&ids%5B%5D=83931617&ids%5B%5D=83817260&ids%5B%5D=83774711&ids%5B%5D=83630300&ids%5B%5D=83447790&ids%5B%5D=83294064&ids%5B%5D=83293792&ids%5B%5D=82883638&ids%5B%5D=82210044&ids%5B%5D=81883995&ids%5B%5D=81415445&ids%5B%5D=80789668&ids%5B%5D=79598338&ids%5B%5D=79218284&ids%5B%5D=78917052&ids%5B%5D=78768898&ids%5B%5D=78711808&lang=zh'
    headers = {
    'accept':'application/json',
    'accept-encoding':'gzip, deflate, br',
    'accept-language':'zh-CN,zh;q=0.9,en-US;q=0.8,en;q=0.7',
    'cookie':'你的cookie',
    'referer': 'https://www.pixiv.net/artworks/84460298',
    'sec-fetch-dest':'empty',
    'sec-fetch-mode':'cors',
    'sec-fetch-site':'same-origin',
    'user-agent':'你的user-agent',
    }
    # step 2:發起請求
    res_data = requests.get(url, headers = headers)

    # step 3: 檢視請求結果
    res_json = res_data.json()
    pprint.pprint(res_json)

執行結果如下所示：

由此可知，該request url就是json資料對應的介面地址，通過存取該地址，返回所需要的包含圖片資訊的json資料。

根據顯示的json資料，可知其中包含了不止一個的圖片資訊，通過解析請求結果可以構造多個圖片地址。請求結果返回的資料為字典型別的資料，真正有用到的是body中的內容。首先或許結果資料的body部分，然後通過list方法可以獲取字典所有的key，即圖片的id。通過定義兩個陣列分別為origin_url_list和origin_title_list，分別儲存所有的原圖地址和原圖名稱。通過直接取值的方式獲取圖片的title並新增到列表中，通過正規表示式解析縮圖的地址來獲取原圖中的特殊部分，然後進行字串拼接獲得原圖地址。最後可以通過列印的方式，檢查構造的資料是否正確。

    # step 3: 解析json資料
    res_json = json_res_data.json()
    res_json_body = res_json['body']                        # 獲取json中的body內容
    id_list = list(res_json_body)                           # 獲取body中的所有的key，即圖片id
    origin_url_list = []                                        # 儲存所有的原圖地址
    origin_title_list = []

    # step 4: 構造原圖地址
    for item in id_list:
        # 獲取title
        origin_title_list.append(res_json_body[item]['title'])
        # 通過獲取縮圖地址構造原圖地址
        thumbnail_url = res_json_body[item]['url']          
        origin_specail_part = re.findall('img/(.*?)_p0',thumbnail_url)[0]
        origin_url_list.append("https://i.pximg.net/img-original/img/%s_p0.jpg" % origin_specail_part)

    # step 4: 列印檢視結果是否正確
    i = -1
    for item in origin_url_list:
        # 更新索引
        print(origin_title_list[i]) 
        print(id_list)
        print(item)
        print()

結果如下圖所示：

3、批次爬取原圖

經過上述步驟，可以獲得圖片的網址、標題、referer引數涉及到的圖片id等資訊，然後根據這些資訊，發起請求存取，然後儲存圖片至本地即可。至此，批次爬取圖片成功！

程式碼如下：

import requests
import pprint
import json
import re

if __name__ == "__main__":
    # step 1: 指定url
    json_url = 'https://www.pixiv.net/ajax/user/10797546/illusts?ids%5B%5D=84243244&ids%5B%5D=84089827&ids%5B%5D=83931617&ids%5B%5D=83817260&ids%5B%5D=83774711&ids%5B%5D=83630300&ids%5B%5D=83447790&ids%5B%5D=83294064&ids%5B%5D=83293792&ids%5B%5D=82883638&ids%5B%5D=82210044&ids%5B%5D=81883995&ids%5B%5D=81415445&ids%5B%5D=80789668&ids%5B%5D=79598338&ids%5B%5D=79218284&ids%5B%5D=78917052&ids%5B%5D=78768898&ids%5B%5D=78711808&lang=zh'
    json_url_headers = {
        'accept':'application/json',
        'accept-encoding':'gzip, deflate, br',
        'accept-language':'zh-CN,zh;q=0.9,en-US;q=0.8,en;q=0.7',
        'cookie':'你的cookie',
        'referer': 'https://www.pixiv.net/artworks/84460298',
        'sec-fetch-dest':'empty',
        'sec-fetch-mode':'cors',
        'sec-fetch-site':'same-origin',
        'user-agent':'你的user-agent',
        'x-user-id':'你的user-id',
    }
    # step 2:發起請求
    json_res_data = requests.get(json_url, headers = json_url_headers)

    # step 3: 解析json資料
    res_json = json_res_data.json()
    res_json_body = res_json['body']                        # 獲取json中的body內容
    id_list = list(res_json_body)                           # 獲取body中的所有的key，即圖片id
    origin_url_list = []                                    # 儲存所有的原圖地址
    origin_title_list = []

    # step 4: 構造原圖地址
    for item in id_list:
        # 獲取title
        origin_title_list.append(res_json_body[item]['title'])
        # 通過獲取縮圖地址構造原圖地址
        thumbnail_url = res_json_body[item]['url']          
        origin_specail_part = re.findall('img/(.*?)_p0',thumbnail_url)[0]
        origin_url_list.append("https://i.pximg.net/img-original/img/%s_p0.jpg" % origin_specail_part)

    # step 4: 遍歷origin_url_list爬取圖片
    i = -1
    for item in origin_url_list:
        # 更新id列表索引
        i = i+1

        # 獲取地址
        origin_url = item
        # 設定headers
        origin_url_headers = {
            'referer': 'https://www.pixiv.net/artworks/%s' % str(id_list[i]),
            'user-agent':'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.125 Safari/537.36'
        }
        # 發起請求
        img_res = requests.get(origin_url, headers=origin_url_headers)
        img_res_data = img_res.content
        img_res_code = img_res.status_code

        if img_res_code == 200:                 # 如果請求成功
            # 儲存圖片
            img_save_name = str(origin_title_list[i])+".png"
            with open("./img/"+img_save_name, 'wb') as fp:
                fp.write(img_res_data)
                msg = img_save_name+"儲存成功！"
                print(msg)
        else:                                   # 否則輸出狀態碼
            msg = "下載失敗！狀態碼為："+ img_res_code
            print(msg)

儲存結果如下圖：

寫在最後：

1、本文的圖片爬取在博主so long引導下完成，並參考了其部落格P站爬蟲，分析過程批次爬取原圖png。

2、如果讀者你覺得有幫助，可以點亮下方的小拇指，因為博主會很開心你喜歡。

從0實現python批次爬取p站插畫