Python pandas資料淨化流程

2020-10-13 12:00:16

1.匯入表格資料

1.匯入方法read_excel

# 匯入資料
import pandas as pda
import matplotlib.pylab as pyl

a = pda.read_excel("D:\\迅雷下載\\工具\\表格\\練習.xls")	# 路徑使用雙反斜槓,否則會報錯
print(len(a))   # 資料框的長度,是按行統計的

2.發現缺失值

先開啟excel表,檢視下有多少缺失值,缺失值是指值為0或空
有10個缺失值
統計發現有10個缺失值,同理其他列也有部分缺失值
然後著手把0值置空,保證所有的缺失值都是統一形式,方便處理

b = ["price", "trade"]
for i in b:
    a[i][(a[i] == 0)] = None
# a["price"] == 0  判斷語句,返回True或False  ,對列表的每一個值進行判斷,如果有0,該處值置為none,然後進行判斷直至完成

3.缺失值處理

遍歷所有的空值,統一賦值

x = 0
for j in b:
    for k in range(len(a)):
        if (a[j].isnull())[k]:  
            a[j][k] = 36
            x += 1
print(x)