一文總結你需要的OpenCV操作

2023-03-30 21:00:24

一、OpenCV簡介

1.1 OpenCV是什麼

OpenCV是一種開源的計算機視覺庫,提供了廣泛的影象處理和計算機視覺演演算法的實現。它最初是由英特爾開發的,現在已經成為計算機視覺領域最流行和廣泛使用的開源庫之一。OpenCV支援多種程式語言,包括C++、Python和Java等。它的主要特點是它提供了許多預先實現的演演算法,包括特徵檢測、影象處理、目標跟蹤、臉部辨識、運動估計、3D重建和深度學習等領域。

1.2 安裝及使用

  • python 3.x
  • Jupyter
pip install jupyter
  • opencv-python
pip install opencv-python #或opencv-contrib-python 
# opencv-python包含基本的opencv
# opencv-contrib-python是高配版,帶一些收費或者專利的演演算法,還有一些比較新的演演算法的高階版本,這些演演算法穩定之後會加入opencv-python。

已經安裝opencv,檢視opencv庫的安裝路徑

  • 方法一:用__file__屬性
import cv2
cv2.__file__
# 'XXX\\Python\\Python310\\lib\\site-packages\\cv2\\__init__.py'
  • 方法二:用pip show opencv-python
C:\Users\Administrator> pip show opencv-python
# 輸出範例:
# Name: opencv-python
# Version: 4.7.0.72
# Summary: Wrapper package for OpenCV python bindings.
# Home-page: https://github.com/opencv/opencv-python
# Author:
# Author-email:
# License: Apache 2.0
# Location: xxx\python310\lib\site-packages // 此處即為所求安裝路徑
# Requires: numpy, numpy, numpy, numpy
# Required-by:

原始碼github地址:this

使用OpenCV進行影象處理的介面源地址:here

二、影象的基礎

2.1 成像原理

以電磁波譜輻射為基礎的影象我們最為熟悉,某個物體發出電磁波被其他物體所接受從而形成影象,常見的由X射線和可見光波段的影象。

  • 伽馬射線【Gamma rays】:是從原子核內部發出來的,穿透力很強,對生物的破壞力很大。
  • X射線【X-rays】
    • 應用:CT影像
    • 原理:利用不同密度對X射線的吸收率不一樣,從而得到不同的衰減以成像。
  • 紫外線波段成像【Ultraviolet】有顯著的化學效應和熒光效應
  • 可見光波段成像【Visible】
    • 人類能看到的所有物體都是可見光波段成像,原理是:光線照射到物體上,反射到人眼中從而形成影象。
  • 紅外線波段成像【Infrared】
    • 自然界中,一切物體都可以輻射紅外線。
    • 利用探測儀測量目標本身與背景間的紅外線差可以得到不同的紅外影象。
  • 微波波段成像【Microwaves】
    • 應用:雷達
  • 無線電波段成像【Radio waves】
    • 應用1:電視、手機、無線電廣播等
    • 應用2:磁共振成像(MRI)

2.2 影象格式

  • BMP:點陣圖影象
  • JPEG:網際網路上常用,壓縮較大
  • GIF:可以是動圖
  • PNG:支援Alpha通道調整影象的透明度
  • TIFF:資訊豐富,有利於原稿的複製

2.3 顏色空間

顏色空間又稱為彩色模型,在某些標準下對彩色加以說明,常見的顏色空間有:

  • RGB,主要用於計算機圖學中,根據人眼識別的顏色進行建立
  • HSV[色調、飽和度、明度],根據顏色的直觀特性建立
  • HSI【色調、飽和度、強度】,反應人感知顏色的基本屬性,與人感知顏色的結果一一對應
  • CMYK【青色、品紅、黃色、黑色】,應用於印刷業

三、OpenCV基礎操作

3.1 影象的讀取、顯示、儲存

  1. 讀取影象
import cv2
img = cv2.imread("影象路徑", "讀取方式")
# cv2.IMREAD_COLOR: 預設值,載入一張彩色影象,忽視透明度,數位表示1
# cv2.IMREAD_GRAYSCALE: 載入一張灰度圖,數位表示0
# cv2.IMREAD_UNCHANGED: 載入影象,包括它的Alpha通道,數位表示-1
print(img.shape) # img按照BGR的格式進行儲存
  1. 顯示影象
cv2.imshow("視窗名", img)
# cv2.waitKey()是一個鍵盤繫結函數,單位是毫秒,0代表等待鍵盤輸入
k = cv2.waitKey(0)
if k == 27: # 輸入ESC鍵退出
	cv2.destroyAllWindows()
  1. 儲存影象
cv2.imwrite("儲存路徑+名稱", img)

3.2 通道轉換

影象解析度,每英寸影象內的畫素點數,解析度越高,畫素點密度越高,影象越清晰。

影象的位深度[8位元、24位元、32位元],是指描述影象每個畫素點數值所佔的二進位制位數。如8bit只能表示灰度影象,每個點的值的範圍為0-255【\(2^8\)】,24bit可以表示RGB三通道的影象,32bit可以表示RGB+Alpha四通道的影象。也就是說,位深度越大則影象能表示的顏色數就越多,色彩越豐富逼真。

  1. 通道轉換
# 3==>1: GRAY = R * 0.114 + G * 0.587 + R * 0.299
# 1==>3: R = G = B = GRAY, A = 0
cv2.cvtColor(img, flag)
# img為待轉換的影象,flag為轉換模式
# cv2.COLOR_BGR2GRAY,彩色轉灰度
# cv2.COLOR_GRAY2BGR,灰度轉彩色
# cv2.COLOR_BGR2RGB, BGR格式轉為RGB格式,opencv讀入的影象是BGR格式的
# 注意:matplotlib.pyplot中使用的是RGB格式,需要進行轉換後再使用
import matplotlib.pyplot as plt
img = cv2.imread("test.png", cv2.IMREAD_COLOR)
img_rgb = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)
plt.subplot(1, 2, 1)
plt.imshow(img) # 會發現此影象有色差
plt.subplot(1, 2, 2)
plt.imshow(img_rgb) # 正常
  1. 通道分離

將彩色影象,分成b, g, r三個單通道影象。

import cv2
img = cv2.imread("orig.png")
b, g, r = cv2.split(img)
  1. 通道合併

可是使用split對影象進行通道分離後,對單獨通道進行修改,然後再合併為彩色影象。

import cv2
import numpy as np
img = cv2.imread("orig.png")
b, g, r = cv2.split(img)
b[:] = 0
img_merge = cv2.merge([b, g, r])
zeros = np.zeros(image.shape, dtype="uint8")
cv2.imshow("GREEN", cv2.merge([zeros, g, zeros]))
  1. 影象直方圖

影象直方圖(Image Histogram)用來表示數位影像中亮度分佈的直方圖,描述的是每個亮度值的畫素數,能夠反映影象亮度的分佈情況。直方圖常被用於影象的二值化。

import cv2
img = cv2.imread("test.png")
# cv2.calcHist([img], channels, mask, histSize, ranges)
hist = cv2.calcHist([img, [0], None, [256], [0, 255]])
# channels: 待計算的通道
# histSize:表示直方圖分成多少份

三、OpenCV常見影象處理

3.1 在影象上繪製幾何影象及新增文字

import cv2
img = cv2.imread("test.png")
# 繪製線段
cv2.line(img, (0, 0), (511, 511), (255, 0, 0), 5, cv2.LINE_AA)
# 待繪製的影象,起點,終點,線段顏色,線寬, linetype線條的型別

# 矩形繪製
# cv2.rectangle(待繪製影象, 左上角座標, 右下角座標,顏色,線寬,線型)
cv2.rectangle(img, (384, 0), (510, 128), (0, 255, 255), -1)
# 線寬為-1表示區域填充

# 圓繪製
# cv2.circle(待繪製影象, 圓心,半徑,顏色,線寬,線型)
cv2.circle(img, (447, 63), 63, (0, 0, 255), -1)

# 橢圓繪製
# cv2.ellipse(待繪製影象,中心點座標,(長軸長度、短軸長度), 旋轉角, 起始角度,終止角,顏色、線寬、線型)
cv2.ellipse(img, (256, 256), (100, 50), 0, 0, 360, (255, 0, 0), -1)
# 起始角和終止角控制了,是畫一整個橢圓,還是橢圓的一部分

# 多邊形繪製
# cv2.polylines(img, 點對,線段是否閉合,顏色,線寬、線型)
pts = np.array([[10, 5], [50, 10], [70, 20], [20, 30]])
pts = pts.reshape((-1, 1, 2)) # 將點對轉換為1行兩列
cv2.polylines(img, [pts], True, (0, 255, 255))

# 新增文字
# cv2.putText(img, 要新增的文字, 文字的起始座標[左下角的起點], 字型,文字縮放比例,顏色,線寬,線型)
font = cv2.FONT_HERSHEY_SIMPLEX
cv2.putText(img, "OpenCV", (50, 200), font, 3, (0, 255, 255), 5, cv2.LINE_AA)

3.2 影象的幾何變換

關於影象幾何變換的介面的官方說明,點這裡

影象的幾何變換包括平移、縮放、旋轉、映象、仿射變換、透視變換等。

# 仿射變換函數
cv2.warpAffine(img, M, dsize, flags, borderMode, borderValue)
# 輸入影象,變換矩陣,輸出影象尺寸,插值方法,邊界畫素模式,邊界填充值
# 插值方法有四種:
# cv2.INTER_NEAREST(最近鄰插值,預設,速度最快)、
# cv2.LINEAR(線性插值)
# cv2.INTER_AREA(區域插值)
# cv2.INTER_CUBIC(三次樣條插值)
# cv2.INTER_LANCZOS4(Lancozos插值)

平移:將影象上所有的點按照指定的平移量水平或垂直移動。

\(x_1 = x_0 + t_x\)

\(y_1 = y_0 + t_y\)

import cv2
import numpy as np
img = cv2.imread("test.png")

# 構造移動變換矩陣
# 在x方向移動50,y方向移動25
H = np.float32([[1, 0, 50], [0, 1, 25]])
rows, cols = img.shape[:2]

res = cv2.warpAffine(img, H, (cols, rows))
# 注意,這裡的dsize是先列後行

縮放:縮小影象稱為下取樣【down-Sampling】,放大影象稱為上取樣【up-Sampling】

import cv2
img = cv2.imread("test.png")

# cv2.resize(src, dsize=None, fx, fy, interpolation)
# 待縮放影象,輸出影象尺寸[與比例因子二選一],fx沿水平軸的比例因子,fy沿y軸的比例因子,插值方法
cv2.resize(img, None, fx=2, fy=2, interpolation=cv2.INTER_CUBIC)

旋轉:以某點為中心,旋轉一定的角度,也就是說將影象上所有畫素點旋轉一個相同的角度。

---- 用旋轉來擴充資料集,因為影象具有旋轉不變性,旋轉前後類別一致。

假設原來的座標為:

\(x_0 = r cos(\alpha), y_0 = r sin(\alpha)\)

旋轉後的座標為:

\(x = rcos(\alpha + \theta) = rcos{\alpha}cos{\theta} - rsin{\alpha}sin{\theta} = x_0cos{\theta} - y_0 sin{\theta}\)

\(y = rsin(\alpha + \theta) = rsin{\alpha}cos{\theta} - rcos{\alpha}sin{\theta} = y_0cos{\theta} + x_0 sin{\theta}\)

注意:

  • 影象旋轉之前,為了避免資訊丟失,一定要有座標平移
  • 旋轉後會有空洞,對這些空洞要進行填充
import cv2
# 旋轉矩陣:影象的旋轉中心,旋轉角度,縮放比例[0.5 正表示逆時針旋轉並將結果縮放為原來的0.5]
# M = cv2.getRotationMatrix2D(center, angle, scale)
img = cv2.imread("test.png")
rows, cols = img.shape[:2]

M = cv2.getRotationMatrix2D((cols/2, rows/2), 45, 2)
dst = cv2.warpAffine(img, M, (cols, rows), borderVal=(0, 255, 255))

仿射變換:通過仿射變換對影象進行平移、旋轉、縮放、剪下、反射等操作,以達到資料增強的效果。

# 求仿射變換矩陣, pos1表示變換前的位置,pos2表示變換後的位置
# M = cv2.getAffineTransform(pos1, pos2)

import cv2
import numpy as np

img = cv2.imread("test.png")
pos1 = np.float32([[50, 50], [200, 50], [50, 200]])
pos2 = np.float32([[10, 100], [200, 50], [100, 250]])
M = cv2.getAffineTransform(pos1, pos2)
res = cv2.warpAffine(img, M, (cols, rows))

透視變換:本質是將影象投影到一個新的視平面上。

# pos1表示透視變換前的4個點對應的位置
# pos2表示透視變換後的4個點對應的位置
# M = cv2.getPerspectiveTransform(pos1, pos2)

import cv2
import numpy as np

img = cv2.imread("test.png")
pos1 = np.float32([[114, 82], [287, 156], [8, 100], [143, 177]])
pos2 = np.float32([[0, 0], [188, 0], [0, 262], [188, 262]])
M = cv2.getAffineTransform(pos1, pos2)
res = cv2.warpAffine(img, M, (cols, rows))

3.3 影象濾波

關於平滑影象的介面的官方說明

濾波,就是過濾掉某些訊號。在影象處理領域,影象可以看作是一個二維訊號,其中畫素點的灰度值表示訊號的強弱;畫素值變化劇烈的地方稱為高頻區域,畫素值變化緩慢、平坦的地方稱為低頻區域。

根據過濾內容,可以將濾波器分為高通濾波器和低通濾波器,高通濾波器過濾低頻訊號,通過高頻訊號,從而可以檢測尖銳、變化明顯的地方,常用於影象的邊緣檢測低通濾波器過濾高頻訊號,放行低頻訊號,可以讓影象變得平滑,主要用於影象的平滑去噪

按照濾波器的實現方式,可以將濾波器分為線性濾波器和非線性濾波器。常見的線性濾波器有方框濾波、均值濾波、高斯濾波等;非線性濾波器有中值濾波、雙邊濾波等。

  • 線性濾波:

使用領域內畫素點值的加權和計算當前畫素點的結果

\(O(x, y) = \sum{f(x + i, y + j) * k(i, j)}\)

方框濾波:

\[ kernel = \alpha \begin{bmatrix} 1&1\cdots&1\\ 1&1\cdots&1\\ \vdots&\vdots&\vdots \\ 1&1\cdots&1 \\ \end{bmatrix}, \alpha = \left\{ \begin{matrix} {1 \over {height * width}}, normalize=True \\ 1, normalize = False \end{matrix} \right. \]

均值濾波:

\[ kernel = {1 \over {height*width}} \begin{bmatrix} 1&1\cdots&1\\ 1&1\cdots&1\\ \vdots&\vdots&\vdots \\ 1&1\cdots&1 \end{bmatrix} \]

高斯濾波:可消除高斯噪聲,廣泛用於影象處理的降噪過程。kernel的權重由中心向周邊遞減,中心權重最大,越遠離中心的畫素點權重越低。

kernel的定義可以參考這裡

在C++介面中,介面中可以定義\(\sigma_x\)\(\sigma_y\);Python介面中,只傳入\(\sigma_x\),y軸的\(\sigma\)由內部核大小計算得出。

import cv2
# boxFilter
# cv2.boxFilter(src, depth, ksize, normalize)
img = cv2.imread("test.png")
cv2.boxFilter(img, -1, (3, 3), normalize=True)

# 均值濾波
# cv2.blur(src, ksize) 
cv2.blur(img, (3, 3))

# 高斯濾波
# cv2.Guassianblur(src, ksize, std) 
# std為標準差,調整kernel的下降速度,std越大下降越慢[高斯曲線越矮胖,遠離中心點的畫素對中心畫素的影響越大],濾波結果越平滑。
blur = cv2.GaussianBlur(img, (5, 5), 0)
  • 非線性濾波:

中值濾波:利用鄰域內畫素點的中值作為目標畫素點的值【kernel區域內畫素值排序取中值】。可用於去除椒鹽噪聲和斑點噪聲。

雙邊濾波:同時考慮影象的空間鄰近度和畫素值相似性,達到保邊去噪的目的。

\(I^{filter}(x) = {1 \over W_p}\sum_{x_i}I(x_i)f_r(||I(x_i) - I(x)||)g_s(||I(x_i) - I(x)||)\)

# 中值濾波
# cv2.medianBlur(img, ksize)
median = cv2.medianBlur(img, 5)

# 雙邊濾波
# cv2.bilatralFilter(src, d, sigmaColor, sigmaSpace)
# d鄰域直徑,sigmaColor灰度值相似性高斯標準差,sigmaSpace空間鄰近高斯標準差
blur = cv2.bilateralFilter(img, 9, 75, 75)

3.4 影象增強

  • 直方圖均衡化:

將影象通過某種變換,得到一幅灰度值直方圖均勻分佈的新影象。可用於消除過度曝光,也可以提升暗部細節,計算方式為:

  1. 統計原圖中每個灰度級出現的次數
  2. 計算累積歸一化直方圖
  3. 重新計算畫素點的畫素值
import cv2
# 直方圖均衡化,接收單通道的影象, 如果是彩色影象,需要將其進行分離然後處理再合併
# cv2.equalizeHist(img)
img = cv2.imread("test.png")
b, g , r = cv2.split(img)
bH = cv2.equalizeHist(b)
gH = cv2.equalizeHist(g)
rH = cv2.equalizeHist(r)
imgH = cv2.merge((bH, gH, rH))
  • Gamma變換:

對輸入影象灰度值進行非線性操作,使得輸出影象的灰度值與輸入影象的灰度值呈指數關係,矯正過曝或過暗的圖片。

\(V_{out} = A V_{in}^\gamma\)

原理及實現可參考Python-OpenCV中的Gamma變換(校正)

3.5 形態學變換

當我們想要對數位影像進行處理和分析時,形態學運算是一種非常有用的工具。它主要用於影象處理領域中的形態學分析,例如形狀檢測、邊緣檢測、特徵提取等。

形態學運算是一種針對二值影象(即黑白影象)進行的基本操作,它可以通過對影象中的畫素進行特定的處理,來改變或增強影象的形態結構。

以下是形態學運算中最基本的兩個操作:

  • 膨脹(Dilation):將一個結構元素(通常是正方形或圓形)放在影象的某個畫素上,如果該畫素為白色(值為1),則該結構元素內的所有畫素都被標記為白色(1),從而擴大了影象中的白色區域。膨脹操作可以用來填充小的空洞或連線不連通的區域。
  • 腐蝕(Erosion):將一個結構元素放在影象的某個畫素上,如果該畫素為黑色(值為0),則該結構元素內的所有畫素都被標記為黑色(0),從而縮小了影象中的白色區域。腐蝕操作可以用來去除小的噪點或分離連線的物體。

這兩種基本的形態學運算通過重複執行多次,可以實現複雜的影象處理操作,如開運算、閉運算、梯度等。

  • 開運算(Opening):先對影象進行腐蝕操作,然後再進行膨脹操作,它可以用來去除影象中的小噪點和連線不緊密的區域。
  • 閉運算(Closing):先對影象進行膨脹操作,然後再對影象進行腐蝕操作,它可以用來填充影象中的小孔或連線不完整的區域。
  • 梯度(Gradient):對影象進行膨脹和腐蝕操作,然後將兩幅影象相減,可以得到原始影象中物體的邊緣。
  • 頂帽(Top Hat):原圖與開運算圖的差值,突出原影象中比周圍區域亮的區域
  • 黑帽(Black Hat):閉操作影象-原影象,突出原影象中比周圍暗的區域

形態學運算,可以凸顯目標物件最本質的形狀特徵,如邊界、連通區域等。

# 獲取結構元素
# kernel = cv2.getStructuringElement(cv2.MORPH_RECT, (7, 7)) # 矩形
# kernel = cv2.getStructuringElement(cv2.MORPH_CROSS, (7, 7)) # 十字形
# kernel = cv2.getStructuringElement(cv2.MORPH_ELLIPSE, (7, 7)) # 橢圓

# 腐蝕操作
cv2.erode(src, kernel, anchor, iterations)
# element: 腐蝕操作的核心,預設為一個簡單的3x3矩陣
# anchor: 核心中心點,預設為Point(-1, -1)
# iterations:腐蝕次數,預設為1

# 膨脹操作
cv2.dilate(src, kernel, iterations=1)

# cv2.morphologyEx(img, MorphTypes, kernel)
# MorphTypes包含如下型別:
# cv2.MORPH_ERODE、cv2.MORPH_DILATE
# cv2.MORPH_OPEN # dst = dilate(erode(src, element))
# cv2.MORPH_CLOSE # dst = erode(dilate(src, element))
# cv2.MORPH_GRADIENT # dst = dilate(src, element) - erode(src, element)
# cv2.MORPH_TOPHAT # dst = tophat(src, element) = src - open(src, element)
# cv2.MORPH_BLACKHAT # dst = blackhat(src, element) = close(src, element) - src
# 開運算
open_img = cv2.morphologyEx(img, cv2.MORPH_OPEN, kernel)
# 閉運算
close_img = cv2.morphologyEx(img, cv2.MORPH_CLOSE, kernel)