Python測量方差


在統計中,方差是衡量資料集中的值與平均值相差多少的指標。 換句話說,它表示值的分散程度。 它通過使用標準偏差來衡量。 另一種常用的方法是偏斜。

這兩個都是通過使用pandas庫中可用的函式來計算的。

測量標準偏差

標準偏差是方差的平方根。 方差是資料集中平均值與平均值的平方差。 在python中,我們使用pandas庫中的函式std()來計算這個值。

import pandas as pd

#Create a Dictionary of series
d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack',
   'Lee','Chanchal','Gasper','Naviya','Andres']),
   'Age':pd.Series([25,26,25,23,30,25,23,34,40,30,25,46]),
   'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8,3.78,2.98,4.80,4.10,3.65])}

#Create a DataFrame
df = pd.DataFrame(d)

# Calculate the standard deviation
print (df.std())

執行上面範例程式碼,得到以下結果 -

Age       7.265527
Rating    0.661628
dtype: float64

測量偏斜度

它用於確定資料是對稱的還是傾斜的。 如果索引在-11之間,則分布是對稱的。 如果指數不超過-1,那麼它向左傾斜,如果它至少為1,那麼它向右偏斜

import pandas as pd

#Create a Dictionary of series
d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack',
   'Lee','Chanchal','Gasper','Naviya','Andres']),
   'Age':pd.Series([25,26,25,23,30,25,23,34,40,30,25,46]),
   'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8,3.78,2.98,4.80,4.10,3.65])}

#Create a DataFrame
df = pd.DataFrame(d)
print (df.skew())

執行上面範例程式碼,得到以下結果 -

Age       1.443490
Rating   -0.153629
dtype: float64

因此,年齡分布是對稱的,而年齡分布則偏向右側。