百度飛槳(PaddlePaddle) - PP-OCRv3 文字檢測識別系統 預測部署簡介與總覽
百度飛槳(PaddlePaddle) - PP-OCRv3 文字檢測識別系統 Paddle Inference 模型推理(離線部署)
百度飛槳(PaddlePaddle) - PP-OCRv3 文字檢測識別系統 基於 Paddle Serving快速使用(服務化部署 - CentOS)
百度飛槳(PaddlePaddle) - PP-OCRv3 文字檢測識別系統 基於 Paddle Serving快速使用(服務化部署 - Docker)
Paddle Serving 是飛槳服務化部署框架,能夠幫助開發者輕鬆實現從行動端、伺服器端呼叫深度學習模型的遠端預測服務。 Paddle Serving圍繞常見的工業級深度學習模型部署場景進行設計,具備完整的線上服務能力,支援的功能包括多模型管理、模型熱載入、基於Baidu-RPC的高並行低延遲響應能力、線上模型A/B實驗等,並提供簡單易用的Client API。Paddle Serving可以與飛槳訓練框架聯合使用,從而訓練與遠端部署之間可以無縫過度,讓使用者輕鬆實現預測服務部署,大大提升了使用者深度學習模型的落地效率。
Paddle Serving服務化部署框架(PIP安裝方式、Docker安裝)
最新wheel包合集
服務化部署指的是,將模型以服務的形式進行部署,其他的裝置可以通過傳送請求的形式去存取服務,從而獲取模型服務的推理結果。服務化部署示意圖如下所示。
在模型部署成功後,不同使用者都可以通過使用者端,以傳送網路請求的方式獲得推理服務。
基於Paddle Serving部署PP-OCRv2系統流程圖
資料與模型推理所用資料一致。
執行Paddle Serving,需要安裝Paddle Serving三個安裝包:paddle-serving-server、paddle-serving-client 和 paddle-serving-app,命令如下。
https://pypi.tuna.tsinghua.edu.cn/simple/
本文版本號:
PaddlePaddle 2.2.2
PaddleOCR 2.6
注意: Python 版本
PaddlePaddle 2.4.0 - => Python 3.7.4
PaddlePaddle 2.4.1 + => Python 3.9.0
儘量保持一致,防止麻煩
首先下載PaddleOCR程式碼,安裝相關依賴,具體命令如下
準備PaddleOCR的執行環境:https://gitee.com/paddlepaddle/PaddleOCR/blob/release/2.6/doc/doc_ch/installation.md
# 注意版本,原來電腦是 3.8 的。非常麻煩
[root@localhost PaddleOCR]# python -V
Python 3.7.4
[root@localhost PaddleOCR]# pip install -U pip
# 如果您的機器是CPU,請執行以下命令安裝
[root@localhost PaddleOCR]# pip install paddlepaddle==2.2.2 -i https://mirror.baidu.com/pypi/simple
# 如果您的機器安裝的是CUDA9或CUDA10,請執行以下命令安裝
# python3 -m pip install paddlepaddle-gpu==2.2.2 -i https://mirror.baidu.com/pypi/simple
# VQA任務中需要用到該庫 -- 不安裝也沒報錯
#[root@localhost PaddleOCR]# pip install paddlenlp==2.0.1 -i https://mirror.baidu.com/pypi/simple
[root@localhost ~]# cd /opt
# 下載程式碼
[root@localhost opt]# git clone https://gitee.com/paddlepaddle/PaddleOCR.git
[root@localhost opt]# cd /opt/PaddleOCR
# 安裝執行所需要的whl包
[root@localhost PaddleOCR]# pip install -r requirements.txt -i https://mirror.baidu.com/pypi/simple
步驟如下:
[root@localhost PaddleOCR]# pwd
/opt/PaddleOCR
# 安裝serving,用於啟動服務 https://pypi.tuna.tsinghua.edu.cn/simple/paddle-serving-server/
[root@localhost PaddleOCR]# wget https://paddle-serving.bj.bcebos.com/test-dev/whl/paddle_serving_server-0.8.3-py3-none-any.whl
[root@localhost PaddleOCR]# pip install paddle_serving_server-0.8.3-py3-none-any.whl
# GPU 安裝下面地址
# wget https://paddle-serving.bj.bcebos.com/test-dev/whl/paddle_serving_server_gpu-0.8.3.post102-py3-none-any.whl
# pip3 install paddle_serving_server_gpu-0.8.3.post102-py3-none-any.whl
# 如果是cuda10.1環境,可以使用下面的命令安裝paddle-serving-server
# wget https://paddle-serving.bj.bcebos.com/test-dev/whl/paddle_serving_server_gpu-0.8.3.post101-py3-none-any.whl
# pip3 install paddle_serving_server_gpu-0.8.3.post101-py3-none-any.whl -i https://pypi.tuna.tsinghua.edu.cn/simple
# 安裝client,用於向服務傳送請求, https://pypi.tuna.tsinghua.edu.cn/simple/paddle-serving-client/
# cp37 => python 3.7, 版本要對應,否則報 ERROR: paddle_serving_client-0.8.3-cp37-none-any.whl is not a supported wheel on this platform.
[root@localhost PaddleOCR]# wget https://paddle-serving.bj.bcebos.com/test-dev/whl/paddle_serving_client-0.8.3-cp37-none-any.whl
[root@localhost PaddleOCR]# pip install paddle_serving_client-0.8.3-cp37-none-any.whl -i https://pypi.tuna.tsinghua.edu.cn/simple
# 安裝serving-app https://pypi.tuna.tsinghua.edu.cn/simple/paddle-serving-app/
[root@localhost PaddleOCR]# wget https://paddle-serving.bj.bcebos.com/test-dev/whl/paddle_serving_app-0.8.3-py3-none-any.whl
# 需要單獨安裝一下,否則 pip install paddle_serving_app-0.8.3-py3-none-any.whl 安裝時會報 安裝 opencv 超時
[root@localhost PaddleOCR]# pip install opencv-python==3.4.17.61 -i https://pypi.tuna.tsinghua.edu.cn/simple --verbose
[root@localhost PaddleOCR]# pip install paddle_serving_app-0.8.3-py3-none-any.whl -i https://pypi.tuna.tsinghua.edu.cn/simple
使用PaddleServing做服務化部署時,需要將儲存的inference模型轉換為serving易於部署的模型。
首先,下載PP-OCR的inference模型
[root@localhost PaddleOCR]# cd /opt/PaddleOCR/deploy/pdserving/
# 下載並解壓 OCR 文字檢測模型
[root@localhost pdserving]# wget https://paddleocr.bj.bcebos.com/PP-OCRv3/chinese/ch_PP-OCRv3_det_infer.tar -O ch_PP-OCRv3_det_infer.tar && tar -xf ch_PP-OCRv3_det_infer.tar
# 下載並解壓 OCR 文字識別模型
[root@localhost pdserving]# wget https://paddleocr.bj.bcebos.com/PP-OCRv3/chinese/ch_PP-OCRv3_rec_infer.tar -O ch_PP-OCRv3_rec_infer.tar && tar -xf ch_PP-OCRv3_rec_infer.tar
# 降級,否則轉換模型會報錯,-> ImportError: urllib3 v2.0 only supports OpenSSL 1.1.1+, currently the 'ssl' module is compiled with OpenSSL 1.0.2k-fips 26 Jan 2017
[root@localhost pdserving]# pip install urllib3==1.25.6 -i https://pypi.tuna.tsinghua.edu.cn/simple --verbose
[root@localhost pdserving]# pip show urllib3
Name: urllib3
Version: 1.25.6
接下來,用安裝的paddle_serving_client把下載的inference模型轉換成易於server部署的模型格式。
# 轉換檢測模型
[root@localhost pdserving]# python -m paddle_serving_client.convert --dirname ./ch_PP-OCRv3_det_infer/ \
--model_filename inference.pdmodel \
--params_filename inference.pdiparams \
--serving_server ./ppocr_det_v3_serving/ \
--serving_client ./ppocr_det_v3_client/
# 轉換識別模型
[root@localhost pdserving]# python -m paddle_serving_client.convert --dirname ./ch_PP-OCRv3_rec_infer/ \
--model_filename inference.pdmodel \
--params_filename inference.pdiparams \
--serving_server ./ppocr_rec_v3_serving/ \
--serving_client ./ppocr_rec_v3_client/
# 安裝 tree 工具
[root@localhost pdserving]# yum -y install tree
# 檢視資料夾
[root@localhost pdserving]# tree -h *_client *_serving
ppocr_det_v3_client
├── [ 214] serving_client_conf.prototxt
└── [ 56] serving_client_conf.stream.prototxt
ppocr_rec_v3_client
├── [ 229] serving_client_conf.prototxt
└── [ 59] serving_client_conf.stream.prototxt
ppocr_det_v3_serving
├── [2.3M] inference.pdiparams
├── [1.3M] inference.pdmodel
├── [ 214] serving_server_conf.prototxt
└── [ 56] serving_server_conf.stream.prototxt
ppocr_rec_v3_serving
├── [ 10M] inference.pdiparams
├── [1.2M] inference.pdmodel
├── [ 229] serving_server_conf.prototxt
└── [ 59] serving_server_conf.stream.prototxt
0 directories, 12 files
[root@localhost pdserving]#
檢測模型轉換完成後,會在當前資料夾多出ppocr_det_v3_serving 和ppocr_det_v3_client的資料夾,具備如下格式:
|- ppocr_det_v3_serving/
|- __model__
|- __params__
|- serving_server_conf.prototxt
|- serving_server_conf.stream.prototxt
|- ppocr_det_v3_client
|- serving_client_conf.prototxt
|- serving_client_conf.stream.prototxt
注意: 將PaddleOCR/deploy/pdserving/config.yml檔案中的兩個model_config欄位,對應模型轉換的資料夾。
pdserver目錄包含啟動pipeline服務和傳送預測請求的程式碼,包括:
__init__.py
config.yml # 啟動服務的組態檔
ocr_reader.py # OCR模型預處理和後處理的程式碼實現
pipeline_http_client.py # 傳送pipeline預測請求的指令碼
web_service.py # 啟動pipeline伺服器端的指令碼
[root@localhost pdserving]# cd /opt/PaddleOCR/deploy/pdserving/
# 如果報錯,執行 ImportError: libGL.so.1: cannot open shared object file: No such file or directory
[root@localhost pdserving]# yum -y install libGL
# 啟動服務,執行紀錄檔儲存在log.txt
[root@localhost pdserving]# nohup python web_service.py --config=config.yml &>log.txt &
[root@localhost pdserving]# tail -f ./log.txt
成功啟動服務後,log.txt中會列印類似如下紀錄檔
[root@localhost PaddleOCR]# cd /opt/PaddleOCR/deploy/pdserving/
[root@localhost pdserving]# python pipeline_http_client.py
**********../../doc/imgs/00006737.jpg**********
erro_no:0, err_msg:
('登機牌', 0.98663443), [[156.0, 27.0], [353.0, 24.0], [354.0, 67.0], [157.0, 70.0]]
('BOARDING PASS', 0.92134), [[422.0, 23.0], [819.0, 15.0], [820.0, 55.0], [423.0, 63.0]]
('序號SERIALNO.', 0.90068984), [[490.0, 103.0], [663.0, 101.0], [663.0, 120.0], [490.0, 122.0]]
('CLASS', 0.9126972), [[398.0, 106.0], [455.0, 104.0], [456.0, 122.0], [399.0, 124.0]]
('艙位', 0.997319), [[343.0, 107.0], [385.0, 107.0], [385.0, 125.0], [343.0, 125.0]]
('日期 DATE', 0.8522339), [[213.0, 108.0], [317.0, 107.0], [317.0, 127.0], [213.0, 128.0]]
('座位號SEAT NO', 0.9227149), [[677.0, 99.0], [833.0, 96.0], [833.0, 116.0], [677.0, 119.0]]
('航班 FLIGHT', 0.9386937), [[64.0, 112.0], [191.0, 108.0], [191.0, 128.0], [64.0, 132.0]]
('W', 0.818372), [[406.0, 132.0], [430.0, 132.0], [430.0, 157.0], [406.0, 157.0]]
('035', 0.881623), [[511.0, 130.0], [567.0, 130.0], [567.0, 155.0], [511.0, 155.0]]
('O3DEC', 0.96435463), [[233.0, 138.0], [325.0, 136.0], [325.0, 157.0], [233.0, 159.0]]
('MU2379', 0.99732345), [[83.0, 140.0], [212.0, 137.0], [212.0, 160.0], [83.0, 162.0]]
('登機口', 0.82893676), [[489.0, 174.0], [553.0, 173.0], [553.0, 193.0], [490.0, 195.0]]
('GATE', 0.99797326), [[566.0, 174.0], [612.0, 172.0], [613.0, 190.0], [567.0, 192.0]]
('始發地', 0.9969302), [[343.0, 175.0], [409.0, 174.0], [410.0, 194.0], [344.0, 196.0]]
('FROM', 0.9880336), [[404.0, 175.0], [468.0, 175.0], [468.0, 193.0], [404.0, 193.0]]
('登機時間BDT', 0.96257985), [[678.0, 170.0], [810.0, 168.0], [810.0, 188.0], [678.0, 190.0]]
('目的地TO', 0.93609524), [[67.0, 181.0], [168.0, 178.0], [168.0, 198.0], [68.0, 202.0]]
('福州', 0.99901855), [[97.0, 207.0], [167.0, 206.0], [168.0, 227.0], [98.0, 229.0]]
('TAIYUAN', 0.950216), [[338.0, 219.0], [473.0, 216.0], [473.0, 235.0], [338.0, 239.0]]
('G11', 0.6856508), [[505.0, 214.0], [553.0, 214.0], [553.0, 235.0], [505.0, 235.0]]
('FUZHOU', 0.9885346), [[91.0, 231.0], [201.0, 227.0], [202.0, 248.0], [91.0, 251.0]]
('身份識別ID NO', 0.89463985), [[345.0, 240.0], [482.0, 236.0], [482.0, 256.0], [345.0, 259.0]]
('姓名NAME', 0.974122), [[67.0, 251.0], [172.0, 249.0], [172.0, 268.0], [67.0, 270.0]]
('ZHANGQIWET', 0.89279824), [[77.0, 278.0], [262.0, 274.0], [262.0, 294.0], [77.0, 297.0]]
('票號 TKTNO', 0.92473453), [[462.0, 297.0], [578.0, 295.0], [578.0, 315.0], [462.0, 317.0]]
('張祺偉', 0.9672684), [[103.0, 313.0], [208.0, 311.0], [208.0, 334.0], [103.0, 336.0]]
('票價FARE', 0.9370956), [[70.0, 344.0], [164.0, 341.0], [165.0, 362.0], [70.0, 364.0]]
('ETKT7813699238489/1', 0.9605237), [[346.0, 349.0], [660.0, 347.0], [660.0, 366.0], [346.0, 368.0]]
{"key": ["image"], "value": ["image base64"]}
調整 config.yml 中的並行個數獲得最大的QPS, 一般檢測和識別的並行數為2:1
det:
#並行數,is_thread_op=True時,為執行緒並行;否則為程序並行
concurrency: 8
...
rec:
#並行數,is_thread_op=True時,為執行緒並行;否則為程序並行
concurrency: 4
...
預測效能資料會被自動寫入 PipelineServingLogs/pipeline.tracer
檔案中。
參考:https://gitee.com/paddlepaddle/PaddleOCR/tree/release/2.6/deploy/pdserving