OpenCV是一種開源的計算機視覺庫,提供了廣泛的影象處理和計算機視覺演演算法的實現。它最初是由英特爾開發的,現在已經成為計算機視覺領域最流行和廣泛使用的開源庫之一。OpenCV支援多種程式語言,包括C++、Python和Java等。它的主要特點是它提供了許多預先實現的演演算法,包括特徵檢測、影象處理、目標跟蹤、臉部辨識、運動估計、3D重建和深度學習等領域。
pip install jupyter
pip install opencv-python #或opencv-contrib-python
# opencv-python包含基本的opencv
# opencv-contrib-python是高配版,帶一些收費或者專利的演演算法,還有一些比較新的演演算法的高階版本,這些演演算法穩定之後會加入opencv-python。
已經安裝opencv,檢視opencv庫的安裝路徑
__file__
屬性import cv2
cv2.__file__
# 'XXX\\Python\\Python310\\lib\\site-packages\\cv2\\__init__.py'
pip show opencv-python
C:\Users\Administrator> pip show opencv-python
# 輸出範例:
# Name: opencv-python
# Version: 4.7.0.72
# Summary: Wrapper package for OpenCV python bindings.
# Home-page: https://github.com/opencv/opencv-python
# Author:
# Author-email:
# License: Apache 2.0
# Location: xxx\python310\lib\site-packages // 此處即為所求安裝路徑
# Requires: numpy, numpy, numpy, numpy
# Required-by:
原始碼github地址:this
使用OpenCV進行影象處理的介面源地址:here
以電磁波譜輻射為基礎的影象我們最為熟悉,某個物體發出電磁波被其他物體所接受從而形成影象,常見的由X射線和可見光波段的影象。
顏色空間又稱為彩色模型,在某些標準下對彩色加以說明,常見的顏色空間有:
import cv2
img = cv2.imread("影象路徑", "讀取方式")
# cv2.IMREAD_COLOR: 預設值,載入一張彩色影象,忽視透明度,數位表示1
# cv2.IMREAD_GRAYSCALE: 載入一張灰度圖,數位表示0
# cv2.IMREAD_UNCHANGED: 載入影象,包括它的Alpha通道,數位表示-1
print(img.shape) # img按照BGR的格式進行儲存
cv2.imshow("視窗名", img)
# cv2.waitKey()是一個鍵盤繫結函數,單位是毫秒,0代表等待鍵盤輸入
k = cv2.waitKey(0)
if k == 27: # 輸入ESC鍵退出
cv2.destroyAllWindows()
cv2.imwrite("儲存路徑+名稱", img)
影象解析度,每英寸影象內的畫素點數,解析度越高,畫素點密度越高,影象越清晰。
影象的位深度[8位元、24位元、32位元],是指描述影象每個畫素點數值所佔的二進位制位數。如8bit只能表示灰度影象,每個點的值的範圍為0-255【\(2^8\)】,24bit可以表示RGB三通道的影象,32bit可以表示RGB+Alpha四通道的影象。也就是說,位深度越大則影象能表示的顏色數就越多,色彩越豐富逼真。
# 3==>1: GRAY = R * 0.114 + G * 0.587 + R * 0.299
# 1==>3: R = G = B = GRAY, A = 0
cv2.cvtColor(img, flag)
# img為待轉換的影象,flag為轉換模式
# cv2.COLOR_BGR2GRAY,彩色轉灰度
# cv2.COLOR_GRAY2BGR,灰度轉彩色
# cv2.COLOR_BGR2RGB, BGR格式轉為RGB格式,opencv讀入的影象是BGR格式的
# 注意:matplotlib.pyplot中使用的是RGB格式,需要進行轉換後再使用
import matplotlib.pyplot as plt
img = cv2.imread("test.png", cv2.IMREAD_COLOR)
img_rgb = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)
plt.subplot(1, 2, 1)
plt.imshow(img) # 會發現此影象有色差
plt.subplot(1, 2, 2)
plt.imshow(img_rgb) # 正常
將彩色影象,分成b, g, r
三個單通道影象。
import cv2
img = cv2.imread("orig.png")
b, g, r = cv2.split(img)
可是使用split
對影象進行通道分離後,對單獨通道進行修改,然後再合併為彩色影象。
import cv2
import numpy as np
img = cv2.imread("orig.png")
b, g, r = cv2.split(img)
b[:] = 0
img_merge = cv2.merge([b, g, r])
zeros = np.zeros(image.shape, dtype="uint8")
cv2.imshow("GREEN", cv2.merge([zeros, g, zeros]))
影象直方圖(Image Histogram)用來表示數位影像中亮度分佈的直方圖,描述的是每個亮度值的畫素數,能夠反映影象亮度的分佈情況。直方圖常被用於影象的二值化。
import cv2
img = cv2.imread("test.png")
# cv2.calcHist([img], channels, mask, histSize, ranges)
hist = cv2.calcHist([img, [0], None, [256], [0, 255]])
# channels: 待計算的通道
# histSize:表示直方圖分成多少份
import cv2
img = cv2.imread("test.png")
# 繪製線段
cv2.line(img, (0, 0), (511, 511), (255, 0, 0), 5, cv2.LINE_AA)
# 待繪製的影象,起點,終點,線段顏色,線寬, linetype線條的型別
# 矩形繪製
# cv2.rectangle(待繪製影象, 左上角座標, 右下角座標,顏色,線寬,線型)
cv2.rectangle(img, (384, 0), (510, 128), (0, 255, 255), -1)
# 線寬為-1表示區域填充
# 圓繪製
# cv2.circle(待繪製影象, 圓心,半徑,顏色,線寬,線型)
cv2.circle(img, (447, 63), 63, (0, 0, 255), -1)
# 橢圓繪製
# cv2.ellipse(待繪製影象,中心點座標,(長軸長度、短軸長度), 旋轉角, 起始角度,終止角,顏色、線寬、線型)
cv2.ellipse(img, (256, 256), (100, 50), 0, 0, 360, (255, 0, 0), -1)
# 起始角和終止角控制了,是畫一整個橢圓,還是橢圓的一部分
# 多邊形繪製
# cv2.polylines(img, 點對,線段是否閉合,顏色,線寬、線型)
pts = np.array([[10, 5], [50, 10], [70, 20], [20, 30]])
pts = pts.reshape((-1, 1, 2)) # 將點對轉換為1行兩列
cv2.polylines(img, [pts], True, (0, 255, 255))
# 新增文字
# cv2.putText(img, 要新增的文字, 文字的起始座標[左下角的起點], 字型,文字縮放比例,顏色,線寬,線型)
font = cv2.FONT_HERSHEY_SIMPLEX
cv2.putText(img, "OpenCV", (50, 200), font, 3, (0, 255, 255), 5, cv2.LINE_AA)
關於影象幾何變換的介面的官方說明,點這裡。
影象的幾何變換包括平移、縮放、旋轉、映象、仿射變換、透視變換等。
# 仿射變換函數
cv2.warpAffine(img, M, dsize, flags, borderMode, borderValue)
# 輸入影象,變換矩陣,輸出影象尺寸,插值方法,邊界畫素模式,邊界填充值
# 插值方法有四種:
# cv2.INTER_NEAREST(最近鄰插值,預設,速度最快)、
# cv2.LINEAR(線性插值)
# cv2.INTER_AREA(區域插值)
# cv2.INTER_CUBIC(三次樣條插值)
# cv2.INTER_LANCZOS4(Lancozos插值)
平移:將影象上所有的點按照指定的平移量水平或垂直移動。
\(x_1 = x_0 + t_x\)
\(y_1 = y_0 + t_y\)
import cv2
import numpy as np
img = cv2.imread("test.png")
# 構造移動變換矩陣
# 在x方向移動50,y方向移動25
H = np.float32([[1, 0, 50], [0, 1, 25]])
rows, cols = img.shape[:2]
res = cv2.warpAffine(img, H, (cols, rows))
# 注意,這裡的dsize是先列後行
縮放:縮小影象稱為下取樣【down-Sampling】,放大影象稱為上取樣【up-Sampling】
import cv2
img = cv2.imread("test.png")
# cv2.resize(src, dsize=None, fx, fy, interpolation)
# 待縮放影象,輸出影象尺寸[與比例因子二選一],fx沿水平軸的比例因子,fy沿y軸的比例因子,插值方法
cv2.resize(img, None, fx=2, fy=2, interpolation=cv2.INTER_CUBIC)
旋轉:以某點為中心,旋轉一定的角度,也就是說將影象上所有畫素點旋轉一個相同的角度。
---- 用旋轉來擴充資料集,因為影象具有旋轉不變性,旋轉前後類別一致。
假設原來的座標為:
\(x_0 = r cos(\alpha), y_0 = r sin(\alpha)\)
旋轉後的座標為:
\(x = rcos(\alpha + \theta) = rcos{\alpha}cos{\theta} - rsin{\alpha}sin{\theta} = x_0cos{\theta} - y_0 sin{\theta}\)
\(y = rsin(\alpha + \theta) = rsin{\alpha}cos{\theta} - rcos{\alpha}sin{\theta} = y_0cos{\theta} + x_0 sin{\theta}\)
注意:
import cv2
# 旋轉矩陣:影象的旋轉中心,旋轉角度,縮放比例[0.5 正表示逆時針旋轉並將結果縮放為原來的0.5]
# M = cv2.getRotationMatrix2D(center, angle, scale)
img = cv2.imread("test.png")
rows, cols = img.shape[:2]
M = cv2.getRotationMatrix2D((cols/2, rows/2), 45, 2)
dst = cv2.warpAffine(img, M, (cols, rows), borderVal=(0, 255, 255))
仿射變換:通過仿射變換對影象進行平移、旋轉、縮放、剪下、反射等操作,以達到資料增強的效果。
# 求仿射變換矩陣, pos1表示變換前的位置,pos2表示變換後的位置
# M = cv2.getAffineTransform(pos1, pos2)
import cv2
import numpy as np
img = cv2.imread("test.png")
pos1 = np.float32([[50, 50], [200, 50], [50, 200]])
pos2 = np.float32([[10, 100], [200, 50], [100, 250]])
M = cv2.getAffineTransform(pos1, pos2)
res = cv2.warpAffine(img, M, (cols, rows))
透視變換:本質是將影象投影到一個新的視平面上。
# pos1表示透視變換前的4個點對應的位置
# pos2表示透視變換後的4個點對應的位置
# M = cv2.getPerspectiveTransform(pos1, pos2)
import cv2
import numpy as np
img = cv2.imread("test.png")
pos1 = np.float32([[114, 82], [287, 156], [8, 100], [143, 177]])
pos2 = np.float32([[0, 0], [188, 0], [0, 262], [188, 262]])
M = cv2.getAffineTransform(pos1, pos2)
res = cv2.warpAffine(img, M, (cols, rows))
關於平滑影象的介面的官方說明。
濾波,就是過濾掉某些訊號。在影象處理領域,影象可以看作是一個二維訊號,其中畫素點的灰度值表示訊號的強弱;畫素值變化劇烈的地方稱為高頻區域,畫素值變化緩慢、平坦的地方稱為低頻區域。
根據過濾內容,可以將濾波器分為高通濾波器和低通濾波器,高通濾波器過濾低頻訊號,通過高頻訊號,從而可以檢測尖銳、變化明顯的地方,常用於影象的邊緣檢測;低通濾波器過濾高頻訊號,放行低頻訊號,可以讓影象變得平滑,主要用於影象的平滑去噪。
按照濾波器的實現方式,可以將濾波器分為線性濾波器和非線性濾波器。常見的線性濾波器有方框濾波、均值濾波、高斯濾波等;非線性濾波器有中值濾波、雙邊濾波等。
使用領域內畫素點值的加權和計算當前畫素點的結果
\(O(x, y) = \sum{f(x + i, y + j) * k(i, j)}\)
方框濾波:
均值濾波:
高斯濾波:可消除高斯噪聲,廣泛用於影象處理的降噪過程。kernel的權重由中心向周邊遞減,中心權重最大,越遠離中心的畫素點權重越低。
kernel的定義可以參考這裡。
在C++介面中,介面中可以定義\(\sigma_x\)和\(\sigma_y\);Python介面中,只傳入\(\sigma_x\),y軸的\(\sigma\)由內部核大小計算得出。
import cv2
# boxFilter
# cv2.boxFilter(src, depth, ksize, normalize)
img = cv2.imread("test.png")
cv2.boxFilter(img, -1, (3, 3), normalize=True)
# 均值濾波
# cv2.blur(src, ksize)
cv2.blur(img, (3, 3))
# 高斯濾波
# cv2.Guassianblur(src, ksize, std)
# std為標準差,調整kernel的下降速度,std越大下降越慢[高斯曲線越矮胖,遠離中心點的畫素對中心畫素的影響越大],濾波結果越平滑。
blur = cv2.GaussianBlur(img, (5, 5), 0)
中值濾波:利用鄰域內畫素點的中值作為目標畫素點的值【kernel區域內畫素值排序取中值】。可用於去除椒鹽噪聲和斑點噪聲。
雙邊濾波:同時考慮影象的空間鄰近度和畫素值相似性,達到保邊去噪的目的。
\(I^{filter}(x) = {1 \over W_p}\sum_{x_i}I(x_i)f_r(||I(x_i) - I(x)||)g_s(||I(x_i) - I(x)||)\)
# 中值濾波
# cv2.medianBlur(img, ksize)
median = cv2.medianBlur(img, 5)
# 雙邊濾波
# cv2.bilatralFilter(src, d, sigmaColor, sigmaSpace)
# d鄰域直徑,sigmaColor灰度值相似性高斯標準差,sigmaSpace空間鄰近高斯標準差
blur = cv2.bilateralFilter(img, 9, 75, 75)
將影象通過某種變換,得到一幅灰度值直方圖均勻分佈的新影象。可用於消除過度曝光,也可以提升暗部細節,計算方式為:
import cv2
# 直方圖均衡化,接收單通道的影象, 如果是彩色影象,需要將其進行分離然後處理再合併
# cv2.equalizeHist(img)
img = cv2.imread("test.png")
b, g , r = cv2.split(img)
bH = cv2.equalizeHist(b)
gH = cv2.equalizeHist(g)
rH = cv2.equalizeHist(r)
imgH = cv2.merge((bH, gH, rH))
對輸入影象灰度值進行非線性操作,使得輸出影象的灰度值與輸入影象的灰度值呈指數關係,矯正過曝或過暗的圖片。
\(V_{out} = A V_{in}^\gamma\)
原理及實現可參考Python-OpenCV中的Gamma變換(校正)。
當我們想要對數位影像進行處理和分析時,形態學運算是一種非常有用的工具。它主要用於影象處理領域中的形態學分析,例如形狀檢測、邊緣檢測、特徵提取等。
形態學運算是一種針對二值影象(即黑白影象)進行的基本操作,它可以通過對影象中的畫素進行特定的處理,來改變或增強影象的形態結構。
以下是形態學運算中最基本的兩個操作:
這兩種基本的形態學運算通過重複執行多次,可以實現複雜的影象處理操作,如開運算、閉運算、梯度等。
形態學運算,可以凸顯目標物件最本質的形狀特徵,如邊界、連通區域等。
# 獲取結構元素
# kernel = cv2.getStructuringElement(cv2.MORPH_RECT, (7, 7)) # 矩形
# kernel = cv2.getStructuringElement(cv2.MORPH_CROSS, (7, 7)) # 十字形
# kernel = cv2.getStructuringElement(cv2.MORPH_ELLIPSE, (7, 7)) # 橢圓
# 腐蝕操作
cv2.erode(src, kernel, anchor, iterations)
# element: 腐蝕操作的核心,預設為一個簡單的3x3矩陣
# anchor: 核心中心點,預設為Point(-1, -1)
# iterations:腐蝕次數,預設為1
# 膨脹操作
cv2.dilate(src, kernel, iterations=1)
# cv2.morphologyEx(img, MorphTypes, kernel)
# MorphTypes包含如下型別:
# cv2.MORPH_ERODE、cv2.MORPH_DILATE
# cv2.MORPH_OPEN # dst = dilate(erode(src, element))
# cv2.MORPH_CLOSE # dst = erode(dilate(src, element))
# cv2.MORPH_GRADIENT # dst = dilate(src, element) - erode(src, element)
# cv2.MORPH_TOPHAT # dst = tophat(src, element) = src - open(src, element)
# cv2.MORPH_BLACKHAT # dst = blackhat(src, element) = close(src, element) - src
# 開運算
open_img = cv2.morphologyEx(img, cv2.MORPH_OPEN, kernel)
# 閉運算
close_img = cv2.morphologyEx(img, cv2.MORPH_CLOSE, kernel)