CSDN個人主頁: 高智商白痴
原文地址: https://blog.csdn.net/qq_44700693/article/details/109124334?utm_source=app
前段時間我已經將B站的爬取方法做了一個總結:Python爬蟲:嗶哩嗶哩(bilibili)視訊下載。
這一次,我將繼續分享 AcFun 視訊網站的解析,其實相對於B站,A站的反爬機制更為簡單:
為了能夠方便的解析與說明,就肯定會拿一個例子來才好的哇:
【仙女UP特輯】AcFun Family Party ——成都站(今天又是
lsp的一天呢~~)
直接在瀏覽器端開啟並抓包該連結髮現,在 XHR 的資料下,第一條(又或者某一次)的請求就載入了視訊的真實請求連結:
雖然本身僅僅是一個 m3u8 檔案,不過我們還是有辦法處理的,我們在此之前先必須要找到該檔案的親親貴是從哪裡發出來的,又或者能夠在哪裡找到這個連結。
在找遍了 XHR 資料無果後,我決定去看一看網頁原始碼:
當我用 m3u8 檔案的請求連結在網頁原始碼中搜尋後發現,連結就出現在原始碼中:
因為在原始碼中是以 JSON 資料存放的:
所以我們需要將資料格式化,方便我們進行資料提取:
雖然我將該資料格式化以後發現,有一個欄位的值居然也是一個 JSON 資料的格式,所以我們再對第二層的 JSON 資料進行格式化後可以看到以下資訊:
對於未登入時的狀態,即使網頁端不能直接播放,但是 「 後臺 」 早已經給我們準備好了播放連結(B站則是載入當前賬戶或著未登入時能觀看的最大清晰度),所以我們可以在未登陸的情況下 白嫖 超高清資源~~
class m3u8_url():
def __init__(self, f_url):
self.url = f_url
def get_m3u8(self):
global flag, qua, rel_path
html = requests.get(self.url, headers=headers).text
first_json = json.loads(re.findall('window.pageInfo = window.*? = (.*?)};', html)[0] + '}', strict=False)
name = first_json['title'].strip().replace("|",'')
video_info = json.loads(first_json['currentVideoInfo']['ksPlayJson'], strict=False)['adaptationSet'][0]['representation']
為了後續能夠選擇清晰度,所以我還進行了清晰度的爬取:
for quality in video_info: # 清晰度
num += 1
Label[num] = quality['qualityLabel']
print(Label)
choice = int(input("請選擇清晰度: "))
到此,我們已經可以拿到視訊的 m3u8 檔案的地址,那麼現在就來開始解決之前遺留的一個小問題:如何通過 m3u8 檔案下載視訊?
首先,我們拿到一個 m3u8 檔案來作為案例:
為了方便,在這裡我手動的寫了一個 m3u8 檔案來作為例子。
我們知道,在 m3u8 檔案中的視訊連結都是 .ts 的分段格式,所以我們必須要先想辦法將所有的 .ts 連結都拿出來,並且加上字首,拼裝成視訊的真實完整的連結:(在這裡假設視訊原字首為 https://www.acfun.cn/)
urls=[] # 用於儲存視訊的分段連結
def get_ts_urls():
with open('123.m3u8',"r") as file:
lines = file.readlines()
for line in lines:
if '.ts' in line:
print("https://www.acfun.cn/"+line)
通過以上方法,我們就可以通過 m3u8 檔案來獲取每一段的視訊連結了,接下來,我們再將下載的功能進行完善:
下載的基本思路還是和我以前的一篇文章的思路一樣:Python爬蟲:用最普通的方法爬取ts檔案併合成為mp4格式
class Download():
urls = [] # 用於儲存視訊的分段連結
def __init__(self, name, m3u8_url, path):
'''
:param name: 視訊名
:param m3u8_url: 視訊的 m3u8檔案 地址
:param path: 下載地址
'''
self.video_name = name
self.path = path
self.f_url = str(m3u8_url).split('hls/')[0] + 'hls/'
with open(self.path + '/{}.m3u8'.format(self.video_name), 'wb')as f:
f.write(requests.get(m3u8_url, headers={'user-agent': 'Chrome/84.0.4147.135'}).content)
def get_ts_urls(self):
with open(self.path + '/{}.m3u8'.format(self.video_name), "r") as file:
lines = file.readlines()
for line in lines:
if '.ts' in line:
self.urls.append(self.f_url + line.replace('\n', ''))
def start_download(self):
self.get_ts_urls()
for url in tqdm(self.urls, desc="正在下載 {} ".format(self.video_name)):
movie = requests.get(url, headers={'user-agent': 'Chrome/84.0.4147.135'})
with open(self.path + '/{}.flv'.format(self.video_name), 'ab')as f:
f.write(movie.content)
os.remove(self.path + '/{}.m3u8'.format(self.video_name))
程式碼註解:
- 1、為了最後得到的只有視訊,所以在視訊下載完後,自動的將當前視訊的 m3u8 檔案進行了刪除操作。
- 2、
line.replace('\n', '')
的原因:讀取到的 m3u8 檔案的每一行結尾都含有一個 " \n "。
終於,到現在我們已經可以整合程式碼並執行看一看了:
import os
import re
import json
import requests
from tqdm import tqdm
path = './'
headers = {
'referer': 'https://www.acfun.cn/',
'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.83'
}
class m3u8_url():
def __init__(self, f_url):
self.url = f_url
def get_m3u8(self):
global flag, qua, rel_path
html = requests.get(self.url, headers=headers).text
first_json = json.loads(re.findall('window.pageInfo = window.videoInfo = (.*?)};', html)[0] + '}', strict=False)
name = first_json['title'].strip().replace("|",'')
video_info = json.loads(first_json['currentVideoInfo']['ksPlayJson'], strict=False)['adaptationSet'][0]['representation']
Label = {}
num = 0
for quality in video_info: # 清晰度
num += 1
Label[num] = quality['qualityLabel']
print(Label)
choice = int(input("請選擇清晰度: "))
Download(name + '[{}]'.format(Label[choice]), video_info[choice - 1]['url'], path).start_download()
class Download():
urls = []
def __init__(self, name, m3u8_url, path):
'''
:param name: 視訊名
:param m3u8_url: 視訊的 m3u8檔案 地址
:param path: 下載地址
'''
self.video_name = name
self.path = path
self.f_url = str(m3u8_url).split('hls/')[0] + 'hls/'
with open(self.path + '/{}.m3u8'.format(self.video_name), 'wb')as f:
f.write(requests.get(m3u8_url, headers={'user-agent': 'Chrome/84.0.4147.135'}).content)
def get_ts_urls(self):
with open(self.path + '/{}.m3u8'.format(self.video_name), "r") as file:
lines = file.readlines()
for line in lines:
if '.ts' in line:
self.urls.append(self.f_url + line.replace('\n', ''))
def start_download(self):
self.get_ts_urls()
for url in tqdm(self.urls, desc="正在下載 {} ".format(self.video_name)):
movie = requests.get(url, headers={'user-agent': 'Chrome/84.0.4147.135'})
with open(self.path + '/{}.flv'.format(self.video_name), 'ab')as f:
f.write(movie.content)
os.remove(self.path + '/{}.m3u8'.format(self.video_name))
url1 = input("輸入地址: ")
m3u8_url(url1).get_m3u8()
效果:
哦豁~ 起飛~~
既然要從番劇入手,那肯定就還是拿一個例子來說明吧:
租借女友 (又是
lsp的呢~~)
針對這部番劇,我們直接從單個視訊解析方式來獲取經驗 -----> 直接從網頁原始碼開始:
果然也在原始碼中找到了與單個視訊類似的 JSON 資料,我們繼續將這些資料進行格式化:
結果視訊的 存放方式 和 存放的欄位 和單個視訊 一摸一樣,為了減少最後的程式碼量,我們可以將兩種方式都適配到一個類中:
class m3u8_url():
def __init__(self, f_url, name=""):
'''
:param f_url: 當前視訊的連結
:param name: 番劇名,預設為空
'''
self.url = f_url
self.name = name
def get_m3u8(self):
global flag, qua, rel_path
html = requests.get(self.url, headers=headers).text
first_json = json.loads(re.findall('window.pageInfo = window.*? = (.*?)};', html)[0] + '}', strict=False)
if self.name == '':
name = first_json['title'].strip().replace("|",'')
else:
name = self.name
rel_path = path + first_json['bangumiTitle'].strip()
if os.path.exists(rel_path):
pass
else:
os.makedirs(rel_path)
video_info = json.loads(first_json['currentVideoInfo']['ksPlayJson'], strict=False)['adaptationSet'][0]['representation']
Label = {}
num = 0
for quality in video_info: # 清晰度
num += 1
Label[num] = quality['qualityLabel']
if flag:
print(Label)
choice = int(input("請選擇清晰度: "))
flag = False
qua = choice
Download(name + '[{}]'.format(Label[choice]), video_info[choice - 1]['url'], path).start_download()
else:
Download(name + '[{}]'.format(Label[qua]), video_info[qua - 1]['url'], rel_path).start_download()
程式碼註解:
- flag :用於判斷是否已經選擇了下載時的清晰度。
- qua : 儲存選擇的清晰度。
- rel_path :更改番劇下載的位置(番劇名的資料夾下)。
- first_json = json.loads(re.findall(‘window.pageInfo = window.? = (.?)};’, html)[0] + ‘}’, strict=False) :更改視訊資訊的匹配正規表示式,可以同時用來匹配單個視訊和番劇視訊。
知道了某一集怎麼下載,總不可能要每一集都要去手動輸入連結吧!!!遇到只有幾集的番劇還好,要是遇到這樣的:
你來???
同樣的,我們還是從網頁原始碼出發:
雖然我們能在原始碼中找到番劇的所有資訊,但是,並不是所有的都是我們需要的,我們還要先去看看哪些資訊是我們必須要拿到的:
當我點選第二集時,瀏覽器位址列的地址發生了變化:
我們很容易的就可以發現:
- https://www.acfun.cn/bangumi/aa6002917 :番劇的主頁連結。
- 36188 :一串不知道有什麼用的數位,不過我發現它並沒有什麼用,都是固定的:
舉幾個例子:
租借女友 :第2話 前女友和女友:https://www.acfun.cn/bangumi/aa6002917_36188_1740687
租借女友 :第3話 海和女友:https://www.acfun.cn/bangumi/aa6002917_36188_1741409
鎮魂街 :第2話:https://www.acfun.cn/bangumi/aa5020166_36188_232386
…
同樣的點回第一集時也可以看到第一集的連結也可以寫成:
鎮魂街 :第1話:https://www.acfun.cn/bangumi/aa5020166_36188_232383
租借女友 :第1話 租借女友:https://www.acfun.cn/bangumi/aa6002917_36188_1739760
…
- 1740687 :每一集的 ID ,在原始碼中以 itemId 欄位儲存。
於是,我們就可以寫出獲取每一集視訊連結的程式碼:
class Pan_drama():
def __init__(self, f_url):
'''
:param f_url: 視訊主頁的連結
'''
self.aa = len(str(f_url).split('/')[-1])
if self.aa == 7:
self.url = f_url
elif self.aa > 7:
self.url = str(f_url).split('_')[0]
def get_info(self):
video_info = {}
html = requests.get(self.url, headers=headers).text
all_item = json.loads(re.findall('window.bangumiList = (.*?);', html)[0])['items']
for item in tqdm(all_item, desc="正在準備番劇"):
video_info[item['episodeName'] + '-' + item['title']] = self.url + '_36188_' + str(item['itemId'])
for name in video_info.keys():
m3u8_url(video_info[name],name).get_m3u8()
程式碼註解:
- self.aa :為了更好的適應性,簡單的解決一下,傳入某一集的連結,但是可以下載全番劇的情況。
全部原始碼:
import os
import re
import json
import requests
from tqdm import tqdm
path = './'
headers = {
'referer': 'https://www.acfun.cn/',
'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.83'
}
flag = True
qua = 0
class m3u8_url():
def __init__(self, f_url, name=""):
'''
:param f_url: 當前視訊的連結
:param name: 番劇名,預設為空
'''
self.url = f_url
self.name = name
def get_m3u8(self):
global flag, qua, rel_path
html = requests.get(self.url, headers=headers).text
first_json = json.loads(re.findall('window.pageInfo = window.*? = (.*?)};', html)[0] + '}', strict=False)
if self.name == '':
name = first_json['title'].strip().replace("|", '')
rel_path=path
else:
name = self.name
rel_path = path + first_json['bangumiTitle'].strip()
if os.path.exists(rel_path):
pass
else:
os.makedirs(rel_path)
video_info = json.loads(first_json['currentVideoInfo']['ksPlayJson'], strict=False)['adaptationSet'][0][
'representation']
Label = {}
num = 0
for quality in video_info: # 清晰度
num += 1
Label[num] = quality['qualityLabel']
if flag:
print(Label)
choice = int(input("請選擇清晰度: "))
flag = False
qua = choice
Download(name + '[{}]'.format(Label[choice]), video_info[choice - 1]['url'], rel_path).start_download()
else:
Download(name + '[{}]'.format(Label[qua]), video_info[qua - 1]['url'], rel_path).start_download()
class Pan_drama():
def __init__(self, f_url):
'''
:param f_url: 視訊主頁的連結
'''
self.aa = len(str(f_url).split('/')[-1])
if self.aa == 7:
self.url = f_url
elif self.aa > 7:
self.url = str(f_url).split('_')[0]
def get_info(self):
video_info = {}
html = requests.get(self.url, headers=headers).text
all_item = json.loads(re.findall('window.bangumiList = (.*?);', html)[0])['items']
for item in tqdm(all_item, desc="正在準備番劇"):
video_info[item['episodeName'] + '-' + item['title']] = self.url + '_36188_' + str(item['itemId'])
for name in video_info.keys():
m3u8_url(video_info[name],name).get_m3u8()
class Download():
urls = []
def __init__(self, name, m3u8_url, path):
'''
:param name: 視訊名
:param m3u8_url: 視訊的 m3u8檔案 地址
:param path: 下載地址
'''
self.video_name = name
self.path = path
self.f_url = str(m3u8_url).split('hls/')[0] + 'hls/'
with open(self.path + '/{}.m3u8'.format(self.video_name), 'wb')as f:
f.write(requests.get(m3u8_url, headers={'user-agent': 'Chrome/84.0.4147.135'}).content)
def get_ts_urls(self):
with open(self.path + '/{}.m3u8'.format(self.video_name), "r") as file:
lines = file.readlines()
for line in lines:
if '.ts' in line:
self.urls.append(self.f_url + line.replace('\n', ''))
def start_download(self):
self.get_ts_urls()
for url in tqdm(self.urls, desc="正在下載 {} ".format(self.video_name)):
movie = requests.get(url, headers={'user-agent': 'Chrome/84.0.4147.135'})
with open(self.path + '/{}.flv'.format(self.video_name), 'ab')as f:
f.write(movie.content)
os.remove(self.path + '/{}.m3u8'.format(self.video_name))
url1 = input("輸入地址: ")
if url1.split('/')[3] == 'v':
m3u8_url(url1).get_m3u8()
elif url1.split('/')[3] == 'bangumi':
Pan_drama(url1).get_info()
效果範例:
(因為考慮到萬一要被拉黑的問題,那不就 gg 了,所以我沒加入多執行緒,有需要可以直行嘗試嘗試~~~)