import pandas as pd
Pandas進行數據運算時,會按照索引進行一一對應,對應後進行相應的算術運算,沒有對齊的位置就會用NaN
進行填充。
>>> list1=pd.Series([20,50,45,56,89])
>>> list2=pd.Series([22,56,45])
>>> list1+list2
0 42.0
1 106.0
2 90.0
3 NaN
4 NaN
dtype: float64
如果不希望沒有對應的部分用NaN
填充,則可以在呼叫add
方法的時候提供fill_value
參數的值,fill_value
將會使用物件中存在的數據進行補充
>>> list1=pd.Series([20,50,45,56,89])
>>> list2=pd.Series([22,56,45])
>>> list1.add(list2,fill_value=0)
0 42.0
1 106.0
2 90.0
3 56.0
4 89.0
dtype: float64
Pandas常用的統計計算方法
函數名稱 | 說明 |
---|---|
sum | 計算總和 |
mean | 計算平均值 |
median | 獲取中位數 |
max/min | 獲取最大值/最小值 |
idxmax/idxmin | 獲取最大和最小索引值 |
count | 計算非NaN值的個數 |
head | 獲取前N個值 |
var | 樣本值的方差 |
std | 樣本值的標準差 |
unique | 某一索引對應的所有值 |
value_counts | 某一索引對應值的頻率,並按計數值進行排序 |
describe | 對Series與DataFrame列計算彙總統計 |
describe方法:希望一次性輸出多個指標統計
describe(percentiles=None,include=None,exclude=None)
percentiles爲包含的百分數(位於[0,1]之間)。如果不設定該參數,則預設爲[0.25,0.5,0.75]之間。
>>> data=pd.DataFrame(np.arange(12).reshape(3,4),columns=['a','b','c','d'])
>>> data.describe()
a b c d
count 3.0 3.0 3.0 3.0
mean 4.0 5.0 6.0 7.0
std 4.0 4.0 4.0 4.0
min 0.0 1.0 2.0 3.0
25% 2.0 3.0 4.0 5.0
50% 4.0 5.0 6.0 7.0
75% 6.0 7.0 8.0 9.0
max 8.0 9.0 10.0 11.0