python 實現自動存取網頁

2020-09-20 11:00:40

python 實現自動存取網頁

完整程式碼如下:

import time  
from urllib import request

# 文章的URL
url_list = ['108668971', '108620289', '108605091', '108601340', '108569697']
url = 'https://blog.csdn.net/qq_43618698/article/details/'
data = ''  # 將GET方法中待傳送的資料設定為空

# 請求頭
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) '
                  'Chrome/85.0.4183.102 Safari/537.36'}

count = 0  # 初始化計數器
url_i = 0  # 初始化文章序號
while 1:   # 開始後不停止
    # 組裝GET方法的請求
    req = request.Request(url='%s%s%s' % (url + url_list[url_i], '?', data), headers=headers)
    rec = request.urlopen(req)
    # rec = urllib.request.urlopen(request)  # 傳送GET請求,獲取部落格文章頁面資源
    page = rec.read()  # 讀取頁面內容到記憶體中的變數,這句程式碼可以不要
    count += 1  # 計數器加1
    url_i += 1
    print(str.format("{0:<4}", count), end=" ")  # 列印當前迴圈次數
   
    if count % 20 == 0:          # 輸出二十個換行
        print()
    if url_i == len(url_list):   # 如果存取到最後一篇文章,則重新初始化文章下標
        url_i = 0
    if count % 5:  # 每5次存取為1個迴圈
        time.sleep(1)  # 為每次頁面存取設定等待時間是必須的,
        
    else:
        time.sleep(55)   # 當所有文章存取一遍後,停頓一分鐘,然後繼續從頭回圈