Pandas庫--算術運算與常用函數

2020-08-10 16:48:02

Pandas庫--算術運算與常用函數

引入Pandas包

import pandas as pd

算術運算

Pandas進行數據運算時,會按照索引進行一一對應,對應後進行相應的算術運算,沒有對齊的位置就會用NaN進行填充。
Pandas直接算术运算

>>> list1=pd.Series([20,50,45,56,89])
>>> list2=pd.Series([22,56,45])
>>> list1+list2
0     42.0
1    106.0
2     90.0
3      NaN
4      NaN
dtype: float64

如果不希望沒有對應的部分用NaN填充,則可以在呼叫add方法的時候提供fill_value參數的值,fill_value將會使用物件中存在的數據進行補充
pandas add方法

>>> list1=pd.Series([20,50,45,56,89])
>>> list2=pd.Series([22,56,45])
>>> list1.add(list2,fill_value=0)
0     42.0
1    106.0
2     90.0
3     56.0
4     89.0
dtype: float64

統計計算與描述

Pandas常用的統計計算方法

函數名稱 說明
sum 計算總和
mean 計算平均值
median 獲取中位數
max/min 獲取最大值/最小值
idxmax/idxmin 獲取最大和最小索引值
count 計算非NaN值的個數
head 獲取前N個值
var 樣本值的方差
std 樣本值的標準差
unique 某一索引對應的所有值
value_counts 某一索引對應值的頻率,並按計數值進行排序
describe 對Series與DataFrame列計算彙總統計

describe方法:希望一次性輸出多個指標統計

describe(percentiles=None,include=None,exclude=None)

percentiles爲包含的百分數(位於[0,1]之間)。如果不設定該參數,則預設爲[0.25,0.5,0.75]之間。

>>> data=pd.DataFrame(np.arange(12).reshape(3,4),columns=['a','b','c','d'])
>>> data.describe()
         a    b     c     d
count  3.0  3.0   3.0   3.0
mean   4.0  5.0   6.0   7.0
std    4.0  4.0   4.0   4.0
min    0.0  1.0   2.0   3.0
25%    2.0  3.0   4.0   5.0
50%    4.0  5.0   6.0   7.0
75%    6.0  7.0   8.0   9.0
max    8.0  9.0  10.0  11.0