Python範例詳解pdfplumber讀取PDF寫入Excel

2022-06-20 14:00:31
本篇文章給大家帶來了關於的相關知識,其中主要介紹了關於pdfplumber讀取PDF寫入Excel的相關問題,包括了pdfplumber模組的安裝、載入PDF,以及一些實戰操作等等,下面一起來看一下,希望對大家有幫助。

推薦學習:

一、Python操作PDF 13大庫對比

PDF(Portable Document Format)是一種便攜檔案格式,便於跨作業系統傳播檔案。PDF檔案遵循標準格式,因此存在很多可以操作PDF檔案的工具,Python自然也不例外。

Python操作PDF模組對比圖如下:

在這裡插入圖片描述

本文主要介紹pdfplumber專注PDF內容提取,例如文字(位置、字型及顏色等)和形狀(矩形、直線、曲線),還有解析表格的功能。

二、pdfplumber模組

其他幾個 Python 庫幫助使用者從 PDF 中提取資訊。作為一個廣泛的概述,pdfplumber它通過結合以下功能將自己與其他 PDF 處理庫區分開來:

  • 輕鬆存取有關每個 PDF 物件的詳細資訊
  • 用於提取文字和表格的更高階別、可自定義的方法
  • 緊密整合的視覺化偵錯
  • 其他有用的實用功能,例如通過裁剪框過濾物件

1. 安裝

cmd控制檯輸入:

pip install pdfplumber

導包:

import pdfplumber

案例PDF截圖(兩頁未截全):
在這裡插入圖片描述

2. 載入PDF

讀取PDF程式碼:pdfplumber.open("路徑/檔名.pdf", password = "test", laparams = { "line_overlap": 0.7 })

引數解讀:

  • password :要載入受密碼保護的 PDF,請傳遞password關鍵字引數
  • laparams:要將佈局分析引數設定為pdfminer.six的佈局引擎,請傳遞laparams關鍵字引數

案例程式碼:

import pdfplumberwith pdfplumber.open("./1.pdf") as pdf:
    print(pdf)
    print(type(pdf))

輸出結果:

<pdfplumber.pdf.PDF object at 0x000001A56C323DC0><class 'pdfplumber.pdf.PDF'>

3. pdfplumber.PDF類

pdfplumber.PDF類表示單個 PDF,並具有兩個主要屬性:

屬性說明
.metadata從PDF的Info中獲取後設資料鍵 /值對字典。 通常包括「 CreationDate」,「 ModDate」,「 Producer」等。
.pages返回一個包含pdfplumber.Page範例的列表,每一個範例代表PDF每一頁的資訊

1. 讀取PDF檔案資訊(.metadata

import pdfplumberwith pdfplumber.open("./1.pdf") as pdf:
    print(pdf.metadata)

執行結果:

{'Author': 'wangwangyuqing', 'Comments': '', 'Company': '', 'CreationDate': "D:20220330113508+03'35'", 'Creator': 'WPS 文字', 'Keywords': '', 'ModDate': "D:20220330113508+03'35'", 'Producer': '', 'SourceModified': "D:20220330113508+03'35'", 'Subject': '', 'Title': '', 'Trapped': 'False'}

2. 輸出總頁數

import pdfplumberwith pdfplumber.open("./1.pdf") as pdf:
    print(len(pdf.pages))

執行結果:

2

4. pdfplumber.Page類

pdfplumber.Page類是pdfplumber整個的核心,大多數操作都圍繞這個類進行操作,它具有以下幾個屬性:

屬性說明
.page_number順序頁碼,從1第一頁開始,從第二頁開始2,依此類推。
.width頁面的寬度。
.height頁面的高度。
.objects/.chars/.lines/.rects/.curves/.figures/.images這些屬性中的每一個都是一個列表,每個列表包含一個字典,用於嵌入頁面上的每個此類物件。有關詳細資訊,請參閱下面的「物件」。

常用方法如下

方法名說明
.extract_text()用來提頁面中的文字,將頁面的所有字元物件整理為的那個字串
.extract_words()返回的是所有的單詞及其相關資訊
.extract_tables()提取頁面的表格
.to_image() 用於視覺化偵錯時,返回PageImage類的一個範例
.close()預設情況下,Page物件快取其佈局和物件資訊,以避免重新處理它。但是,在解析大型 PDF 時,這些快取的屬性可能需要大量記憶體。您可以使用此方法重新整理快取並釋放記憶體。

1. 讀取第一頁寬度、高度等資訊

import pdfplumberwith pdfplumber.open("./1.pdf") as pdf:
    first_page = pdf.pages[0]  # pdfplumber.Page物件的第一頁
    # 檢視頁碼
    print('頁碼:', first_page.page_number)
    # 檢視頁寬
    print('頁寬:', first_page.width)
    # 檢視頁高
    print('頁高:', first_page.height)

執行結果:

頁碼: 1頁寬: 595.3頁高: 841.9

2. 讀取文字第一頁

import pdfplumberwith pdfplumber.open("./1.pdf") as pdf:
    first_page = pdf.pages[0]  # pdfplumber.Page物件的第一頁
    text = first_page.extract_text()
    print(text)

執行結果:

店鋪名 價格 銷量 地址
小罐茶旗艦店 449 474 安徽
零趣食品旗艦店 6.9 60000 福建
天貓超市 1304 3961 上海
天貓超市 139 25000 上海
天貓超市 930 692 上海
天貓超市 980 495 上海
天貓超市 139 100000 上海
三隻松鼠旗艦店 288 25000 安徽
紅小廚旗艦店 698 1767 北京
三隻松鼠旗艦店 690 15000 安徽
一統領鮮旗艦店 1098 1580 上海
新大猩食品專營9.8 7000 湖南.......艦店
蟹納旗艦店 498 1905 上海
三隻松鼠堅果at茶 188 35000 安徽
嘉禹滬曉旗艦店 598 1517 上海

3. 讀取表格第一頁

import pdfplumberimport xlwtwith pdfplumber.open("1.pdf") as pdf:
    page_one = pdf.pages[0]  # PDF第一頁
    table_1 = page_one.extract_table()  # 讀取表格資料
    # 1. 建立Excel表物件
    workbook = xlwt.Workbook(encoding='utf8')
    # 2. 新建sheet表
    worksheet = workbook.add_sheet('Sheet1')
    # 3. 自定義列名
    col1 = table_1[0]
    # print(col1)# ['店鋪名', '價格', '銷量', '地址']
    # 4. 將列屬性元組col寫進sheet表單中第一行
    for i in range(0, len(col1)):
        worksheet.write(0, i, col1[i])
    # 5. 將資料寫進sheet表單中
    for i in range(0, len(table_1[1:])):
        data = table_1[1:][i]
        for j in range(0, len(col1)):
            worksheet.write(i + 1, j, data[j])
    # 6. 儲存檔案分兩種格式
    workbook.save('test.xls')

執行結果:

在這裡插入圖片描述

三、實戰操作

1. 提取單個PDF全部頁數

測試程式碼:

import pdfplumberimport xlwtwith pdfplumber.open("1.pdf") as pdf:
    # 1. 把所有頁的資料存在一個臨時列表中
    item = []
    for page in pdf.pages:
        text = page.extract_table()
        for i in text:
            item.append(i)
    # 2. 建立Excel表物件
    workbook = xlwt.Workbook(encoding='utf8')
    # 3. 新建sheet表
    worksheet = workbook.add_sheet('Sheet1')
    # 4. 自定義列名
    col1 = item[0]
    # print(col1)# ['店鋪名', '價格', '銷量', '地址']
    # 5. 將列屬性元組col寫進sheet表單中第一行
    for i in range(0, len(col1)):
        worksheet.write(0, i, col1[i])
    # 6. 將資料寫進sheet表單中
    for i in range(0, len(item[1:])):
        data = item[1:][i]
        for j in range(0, len(col1)):
            worksheet.write(i + 1, j, data[j])
    # 7. 儲存檔案分兩種格式
    workbook.save('test.xls')

執行結果(上面得沒截全):

在這裡插入圖片描述

2. 批次提取多個PDF檔案

在這裡插入圖片描述

測試程式碼:

import pdfplumber
import xlwt
import os

# 一、獲取檔案下所有pdf檔案路徑
file_dir = r'E:\Python學習\pdf檔案'
file_list = []
for files in os.walk(file_dir):
    # print(files)
    # ('E:\\Python學習\\pdf檔案', [],
    #  ['1.pdf', '1的副本.pdf', '1的副本10.pdf', '1的副本11.pdf', '1的副本2.pdf', '1的副本3.pdf', '1的副本4.pdf', '1的副本5.pdf', '1的副本6.pdf',
    #   '1的副本7.pdf', '1的副本8.pdf', '1的副本9.pdf'])
    for file in files[2]:
        # 以. 進行分割如果字尾為PDF或pdf就拼接地址存入file_list
        if file.split(".")[1] == 'pdf' or file.split(".")[1] == 'PDF':
            file_list.append(file_dir + '\\' + file)

# 二、存入Excel
# 1. 把所有PDF檔案的所有頁的資料存在一個臨時列表中
item = []
for file_path in file_list:
    with pdfplumber.open(file_path) as pdf:
        for page in pdf.pages:
            text = page.extract_table()
            for i in text:
                item.append(i)

# 2. 建立Excel表物件
workbook = xlwt.Workbook(encoding='utf8')
# 3. 新建sheet表
worksheet = workbook.add_sheet('Sheet1')
# 4. 自定義列名
col1 = item[0]
# print(col1)# ['店鋪名', '價格', '銷量', '地址']
# 5. 將列屬性元組col寫進sheet表單中第一行
for i in range(0, len(col1)):
    worksheet.write(0, i, col1[i])
# 6. 將資料寫進sheet表單中
for i in range(0, len(item[1:])):
    data = item[1:][i]
    for j in range(0, len(col1)):
        worksheet.write(i + 1, j, data[j])
# 7. 儲存檔案分兩種格式
workbook.save('test.xls')

執行結果(12個檔案,一個檔案50行總共600行):

在這裡插入圖片描述

推薦學習:

以上就是Python範例詳解pdfplumber讀取PDF寫入Excel的詳細內容,更多請關注TW511.COM其它相關文章!