python 在對 excel 操作的同時,前面文章中說了資料的讀取、插入、簡單分析,還有一個非常重要的點就是資料淨化。那什麼叫資料淨化,說白了就是去除資料文字中的垃圾值,比如:存在的空值、多餘的空格、資料格式等等的處理。
# 匯入 pandas 庫
import pandas as pd
# read_excel() 讀取 excel 資料
# DataFrame() 將讀取到的資料轉換為 DataFrame 資料
df = pd.DataFrame(pd.read_excel('data.xlsx'))
# dropna() 函數去除 df 資料表中存在空值的所有行
df.dropna(how='any')
# mean() 函數計算 age 欄位所在列的平均值
age_pre = df['age'].mean()
# 使用 fillna() 函數對存在的空值進行填充,將 age_pre 的值填充到欄位為空的值內面
df['age'].fillna(age_pre)
# 清除欄位的空格
df['name'] = df['name'].map(str.strip)
# rename() 函數對列進行重新命名
df.rename(columns={'name': 'name_new'})
# 從前往後查詢某個列中的重複值,如果存在則清除後面所出現的重複值
df['name'].drop_duplicates()
# 從後往前查詢某個列中的重複值,如果存在則清除前面所出現的重複值
df['city'].drop_duplicates(keep='last')
# 兩種正好是按照相反的清除順序
# 將某一列中的具體值進行替換
df['name'].replace('laow', 'lwsbc')
更多精彩請關注本系列老王說程式設計 >>>