科學計算庫Numpy基礎&提升(理解+重要函數講解)

2022-07-19 18:00:47

Intro

對於同樣的數值計算任務,使用numpy比直接編寫python程式碼實現 優點:

  • 程式碼更簡潔: numpy直接以陣列、矩陣為粒度計算並且支援大量的數學函數,而python需要用for迴圈從底層實現;
  • 效能更高效: numpy的陣列儲存效率和輸入輸出計算效能,比python使用list好很多,用numpy進行計算要比原生Python快得多,而且資料量越大,效果越明顯;numpy的大部分程式碼都是c語言實現的,這是numpy比python高效的原因

numpy核心:ndarray物件

ndarray物件

  • numpy的核心資料結構,叫做array就是陣列,array物件可以是一維陣列,也可以是多維陣列
  • python的list也可以實現相同的功能,但是array的優勢在於效能好,包含陣列後設資料資訊、大量的便捷函數
  • 成為 Scipy、Pandas、scilit-learn、tensorflow、paddlepaddle等框架的通用底層語言
  • numpy的array和python的list的一個區別是它的元素必須都是同一種資料型別,這也是numpy高效能的一個原因

ndarray屬性

個人以前會弄混shape和size,注意shape列印的是陣列的形狀是一個元組,size則是表示陣列大小即總共有多少個元素

  • shape 返回一個元組 表示array的形狀
  • ndim 返回一個數位 表示array的維度的數目
  • size 返回一個數位 表示array中所有資料元素的數目
  • dtype array中元素的資料型別,a.astype(str) 可以把a陣列元素轉為str型別
  • itemsize 表示陣列中每個元素的位元組大小

建立array的方法

  • 從Python的列表list和巢狀列表建立array,np.array([...])
  • 使用函數arange、linspace等建立等差陣列,np.arange(start,stop,step,dtype) 左閉右開,np.linspace(start,stop,num,endpoint) 預設左右取閉,num是要刪除的等間隔樣例數量(預設50),endpoint 序列中是否包含stop值, 預設為true
  • 使用ones、ones_like、zeros、zeros_like、empty、empty_like、full、full_like、eye等函數建立,注意使用empty建立的資料是未初始化的,裡面的值可能是隨機值不要用,full則是將一個給定大小的陣列填滿固定值,用法如np.full((2, 4), 666)
  • 生成亂數的np.random模組建立,np.random.seed(2022) 設定隨機種子,使得每次隨機的結果固定,np.random.rand(2,5) 隨機生成 2行5列的2維陣列,返回資料在[0,1)之間;np.random.randint(2,5,5) 在[2,5) 範圍內生成5個隨機整數;np.random.uniform(2,5,10) 在 [2,5) 之間 生成均勻分佈的10個數位;np.random.uniform(2,5,(2,5)) 在 [2,5) 之間 生成均勻分佈的(2,5)個數位; np.random.randn((2,5)) 則返回有標準正態分佈的資料,均值1方差0;np.random.normal(1,10,(2,5)) 則可指定均值和標準差;另外,choice 從給定的陣列裡 生成隨機結果,shuffle 把一個陣列進行隨機排列(如果陣列是多維的 則只會在第一維度打散資料),permutation 把一個陣列進行隨機排列 ,或者數位的全排列,兩者功能相同但permutation不會更改原來的arr 會返回一個新的copy

numpy的陣列索引

三種索引方法:

  • 基礎索引,切片法,不詳細敘述
  • 神奇索引,就是用整數陣列進行的索引,比如對於x = np.arange(10),可以用x[np.array([[0,2],[1,3]])]來取x對應位置的值;對於二維陣列,Y[:,[0, 2]] 篩選第0和第2列,Y[[0,2,3],[1,2,3]]同時指定行列
  • 布林索引,對於x = np.arange(10),可以用x>5返回bool值的陣列,x[x>5] = 1通過條件進行賦值,把x中大於5的值全部賦為1,x[x<5] += 20,小於5的值全部加20,還可以進行條件組合,比如x[(x%2==0)| (x>7)]x[(x%2==0)& (x>7)];注意對於二維陣列Y = np.arange(20).reshape(4, 5) 來說,既有行又有列 因此返回的是 行列一維陣列Y[Y>5] 返回的是行列一維陣列,可以用Y[:, 3][Y[:, 3]>5] 把第3列大於5的行資料篩選出來

numpy資料操作

陣列數學操作

A*B是對應位置元素相乘,對於arr = np.arange(12).reshape(3,4),可以用各種數學統計函數,包括sum,prod(元素乘積),cumsum(np.cumsum(arr)從頭到尾累加,每加一次輸出一個元素),cumprod(累積),min,max,median,mean,np.percentile(arr,[25,50,75])np.quantile(arr,[0.25,0.5,0.75])求取數列第?分位的數值(後者範圍為0-1),std(標準差)

,var(方差),np.average(arr, weights=np.random.rand(*arr.shape)) 加權平均,argmax 尋找最大值的下標

  • 對於numpy的聚合類函數的axis引數解釋:axis=0代表行 axis=1 代表列,axis=0 代表把行消解掉,axis=1 代表把列消解掉;axis=0 代表跨行計算, axis=1 代表跨列計算

陣列合併操作

對於a = np.arange(9).reshape(3,3)以及b = np.arange(9,18).reshape(3,3),合併行(行變多)使用np.concatenate([a,b])np.vstack([a,b])np.row_stack([a,b]) ,合併列(列變多)使用np.concatenate([a,b],axis=1)np.hstack([a,b])np.column_stack([a,b])

參考

[1-5 Numpy教學 — 梗直哥隨筆 v0.1 檔案 (gengzhige-essay.readthedocs.io)](https://gengzhige-essay.readthedocs.io/docs/01 環境設定/1-5 Numpy教學.html)

科學計算庫Numpy - mathor (wmathor.com)