Python資料分析教學（二）：Pandas

Pandas匯入

Pandas是Python第三方庫，提供高效能易用資料型別和分析工具
Pandas基於NumPy實現，常與NumPy和Matplotlib一同使用
兩個資料型別：Series, DataFrame

import pandas as pd

Pandas與numpy的比較

Pandas的Series型別

由一組資料及與之相關的資料索引組成

Pandas的Series型別的建立

Series型別可以由如下型別建立：

Python列表，index與列表元素個數一致
標量值，index表達Series型別的尺寸
Python字典，鍵值對中的「鍵」是索引，index從字典中進行選擇操作
ndarray，索引和資料都可以通過ndarray型別建立
其他函數，range()函數等

Pandas的Series型別的基本操作

Series型別包含index和values兩個部分：

index 獲得索引
values 獲得資料

由ndarray或字典建立的Series，操作類似ndarray或字典型別

pandas的DataFrame型別

DataFrame型別由共用相同索引的一組列組成
DataFrame是一個表格型的資料型別，每列值型別可以不同
DataFrame既有行索引、也有列索引
DataFrame常用於表達二維資料，但可以表達多維資料
DataFrame是二維帶「標籤」陣列
DataFrame基本操作類似Series，依據行列索引

pandas的DataFrame型別建立

DataFrame型別可以由如下型別建立：

二維ndarray物件
由一維ndarray、列表、字典、元組或Series構成的字典
Series型別
其他的DataFrame型別

Pandas的Dataframe型別的基本操作

pandas索引操作

pandas重新索引

reindex()能夠改變或重排Series和DataFrame索引

reindex(index=None, columns=None, …)的引數

pandas刪除索引

drop()能夠刪除Series和DataFrame指定行或列索引

pandas資料運算

算術運算根據行列索引，補齊後運算，運算預設產生浮點數
補齊時缺項填充NaN (空值)
二維和一維、一維和零維間為廣播運算
採用+ ‐ * /符號進行的二元運算產生新的物件

算術運算

不同維度間為廣播運算，一維Series預設在軸1參與運算
使用運算方法可以令一維Series參與軸0運算

Pandas資料分析

pandas匯入與匯出資料

匯入資料

pd.read_csv(filename)：從CSV檔案匯入資料

pd.read_table(filename)：從限定分隔符的文字檔案匯入資料

pd.read_excel(filename)：從Excel檔案匯入資料

pd.read_sql(query, connection_object)：從SQL表/庫匯入資料

pd.read_json(json_string)：從JSON格式的字串匯入資料

pd.read_html(url)：解析URL、字串或者HTML檔案，抽取其中的tables表格

pd.read_clipboard()：從你的貼上板獲取內容，並傳給read_table()

pd.DataFrame(dict)：從字典物件匯入資料，Key是列名，Value是資料

匯出資料

df.to_csv(filename)：匯出資料到CSV檔案

df.to_excel(filename)：匯出資料到Excel檔案

df.to_sql(table_name, connection_object)：匯出資料到SQL表

df.to_json(filename)：以Json格式匯出資料到文字檔案

Pandas檢視、檢查資料

df.head(n)：檢視DataFrame物件的前n行

df.tail(n)：檢視DataFrame物件的最後n行

df.shape()：檢視行數和列數

http://df.info()：檢視索引、資料型別和記憶體資訊

df.describe()：檢視數值型列的彙總統計

s.value_counts(dropna=False)：檢視Series物件的唯一值和計數

df.apply(pd.Series.value_counts)：檢視DataFrame物件中每一列的唯一值和計數

Pandas資料選取

df[col]：根據列名，並以Series的形式返回列

df[[col1, col2]]：以DataFrame形式返回多列

s.iloc[0]：按位元置選取資料

s.loc['index_one']：按索引選取資料

df.iloc[0,:]：返回第一行

df.iloc[0,0]：返回第一列的第一個元素

pandas資料清理

df.columns = ['a','b','c']：重新命名列名

pd.isnull()：檢查DataFrame物件中的空值，並返回一個Boolean陣列

pd.notnull()：檢查DataFrame物件中的非空值，並返回一個Boolean陣列

df.dropna()：刪除所有包含空值的行

df.dropna(axis=1)：刪除所有包含空值的列

df.dropna(axis=1,thresh=n)：刪除所有小於n個非空值的行

df.fillna(x)：用x替換DataFrame物件中所有的空值

s.astype(float)：將Series中的資料型別更改為float型別

s.replace(1,'one')：用‘one’代替所有等於1的值

s.replace([1,3],['one','three'])：用'one'代替1，用'three'代替3

df.rename(columns=lambda x: x + 1)：批次更改列名

df.rename(columns={'old_name': 'new_ name'})：選擇性更改列名

df.set_index('column_one')：更改索引列

df.rename(index=lambda x: x + 1)：批次重新命名索引

Pandas資料處理

df.columns = ['a','b','c']：重新命名列名

pd.isnull()：檢查DataFrame物件中的空值，並返回一個Boolean陣列

pd.notnull()：檢查DataFrame物件中的非空值，並返回一個Boolean陣列

df.dropna()：刪除所有包含空值的行

df.dropna(axis=1)：刪除所有包含空值的列

df.dropna(axis=1,thresh=n)：刪除所有小於n個非空值的行

df.fillna(x)：用x替換DataFrame物件中所有的空值

s.astype(float)：將Series中的資料型別更改為float型別

s.replace(1,'one')：用‘one’代替所有等於1的值

s.replace([1,3],['one','three'])：用'one'代替1，用'three'代替3

df.rename(columns=lambda x: x + 1)：批次更改列名

df.rename(columns={'old_name': 'new_ name'})：選擇性更改列名

df.set_index('column_one')：更改索引列

df.rename(index=lambda x: x + 1)：批次重新命名索引

df[df[col] > 0.5]：選擇col列的值大於0.5的行

df.sort_values(col1)：按照列col1排序資料，預設升序排列

df.sort_values(col2, ascending=False)：按照列col1降序排列資料

df.sort_values([col1,col2], ascending=[True,False])：先按列col1升序排列，後按col2降序排列資料

df.groupby(col)：返回一個按列col進行分組的Groupby物件

df.groupby([col1,col2])：返回一個按多列進行分組的Groupby物件

df.groupby(col1)[col2]：返回按列col1進行分組後，列col2的均值

df.pivot_table(index=col1, values=[col2,col3], aggfunc=max)：建立一個按列col1進行分組，並計算col2和col3的最大值的資料透視表

df.groupby(col1).agg(np.mean)：返回按列col1分組的所有列的均值

data.apply(np.mean)：對DataFrame中的每一列應用函數np.mean

data.apply(np.max,axis=1)：對DataFrame中的每一行應用函數np.max

Pandas資料合併

df1.append(df2)：將df2中的行新增到df1的尾部

df.concat([df1, df2],axis=1)：將df2中的列新增到df1的尾部

df1.join(df2,on=col1,how='inner')：對df1的列和df2的列執行SQL形式的join

Pandas資料統計

df.describe()：檢視資料值列的彙總統計

df.mean()：返回所有列的均值

df.corr()：返回列與列之間的相關係數

df.count()：返回每一列中的非空值的個數

df.max()：返回每一列的最大值

df.min()：返回每一列的最小值

df.median()：返回每一列的中位數

df.std()：返回每一列的標準差

原創作者：孤飛-部落格園
原文連結：https://blog.onefly.top/posts/13141.html