資料分析--資料預處理

2023-12-14 12:00:59

本文主要是個人的學習筆記總結,資料預處理的基本思路和方法,包括一些方法的使用範例和引數解釋,具體的資料預處理案例case詳見其他文章。如有錯誤之處還請指正!


資料在進行建模和分析前,對其進行資料處理是必不可少的,這樣做能幫助我們從根本上保證資料質量,提高資料的準確性和可靠性。主要包括資料淨化、資料轉換、資料整合、資料降維等過程。

資料的質量評定

從五個維度來對資料質量進行評定

維度 說明
有效性
Validity
資料的有效性源於統計學概念,即符合資料收集時所制定的規則及約束條件的資料。
精確度
Accuracy
精確度是衡量資料質量的另一個重要條件。
一般情況下,通過資料清理很難改善資料的準確度,這就對資料來源質量提出了較高的要求。
完整度
Completeness
如果在採集資料的過程中造成了資料丟失,也就影響了其完整程度。
不完整的資料,勢必會對分析結論造成影響,這需要進一步採取措施來改善這種情況。
一致性
Consistency
原始資料中,資料可能會存在不一致性。
例如:客戶在兩個不同的系統中提供了兩個不一樣的家庭地址,而正確的地址只有一個。
那麼,就需要我們來判斷並消除這種不一致性。
均勻度
Uniformity
資料的均勻度可能來源於度量單位的不一致,這就需要我們通過換算來解決,使得最終資料統一均勻。

資料處理步驟

資料處理的常見四個步驟:

序號 步驟 說明
1 資料清理
Data Cleansing
資料清理大致包括對空缺鍵值進行填充操作,
對噪聲資料進行相應的平滑處理,對孤立點和異常點進行刪除處理等。
2 資料整合
Data Integration
將多個資料庫或者資料檔案裡面包含的資料進行整合處理。
3 資料轉換
Data Transformation
將資料進行聚集或者規範化處理,從一種形式轉換成另外一種我們需要的形式。
4 資料規約
Data Reduction
對龐大的資料集進行壓縮處理,且儘量保證最終預測結果的一致性。

下面將詳細介紹常用的資料處理方法:

缺失值的處理

標記缺失值
# 生成包含缺資料的範例
import numpy as np
import pandas as pd

null_data = {'A': [10, np.nan, 25, np.nan, 42, np.nan],
             'B': [12, 15, np.nan, 14, 17, np.nan],
             'C': [10, 13, 27, 13, 19, 40]}

df = pd.DataFrame(null_data)
  • 空值也有不同型別

    數值型空值 :NaN (not a number)

    空字串 :None

  • 定位缺失資料:

    • 使用 isnUll() 返回 True 代表缺失值
    • notnull()則與之相反
刪除缺失值
  • 直接刪除
    • 缺失資料佔全部資料比例非常低,可忽略不計且刪除後不會對整體資料分佈產生影響
    • 缺失資料因為本身特性無法填充,比如對於某些檢測指標,填充數值會對結果產生影響的寧願刪除也不要進行處理
# 刪除缺失值
import pandas as pd

# 建立一個範例資料框
data = {'A': [1, 2, None, 4],
        'B': [5, None, 7, 8],
        'C': [None, 10, None, 12]}
df = pd.DataFrame(data)

# 刪除包含缺失值的行
cleaned_df1 = df.dropna()  # 預設刪除包含缺失值的行
cleaned_df2 = df.dropna(axis=1)  # 刪除包含缺失值的列
cleaned_df3 = df.dropna(how='all')  # 當所有值為缺失值時刪除行
cleaned_df4 = df.dropna(thresh=2)  # 至少要有 2 個非缺失值才保留行
cleaned_df5 = df.dropna(subset=['B', 'C'])  # 只有在 'B' 和 'C' 列中同時存在空值的情況下,對應的行才會被刪除

print(cleaned_df1)
print(cleaned_df2)
print(cleaned_df3)
print(cleaned_df4)
print(cleaned_df5)
填充缺失值
  • 固定值填充:人為指定,使用行/列均值、中位數等

    # Pandas 提供的 replace t填充固定值
    print(df.replace(np.nan,0)) # 缺失值填充為0
    # 專門用於填充缺失值的函數 fillna()
    print(df.fillna(0)) 
    # 使用各列的平均值填充
    print(df.fillna(df.mean()))
    # 使用格列中位數填充
    print(df.fillna(df.median()))
    
  • 臨近值填充:使用缺失值相臨近的數值填充

    # 使用後一個臨近的資料向前填充
    print(df.fillna(method='bfill'))
    # 使用前一個臨近的資料向後填充
    print(df.fillna(method='ffill'))
    
  • 數位填充:使用函數插值填充

    資料缺失但能看出資料的變化趨勢,更好的缺失值填充方法時是使用資料方法進行插值Pandas中的interpolate()可以快速應用一些常用的插值函數

    sample_data = {'A': [1, np.nan, 3, np.nan, 5, 6],
                   'B': [1, 4, np.nan, np.nan, 25, 36]}
    
    df = pd.DataFrame(sample_data)
    # 線性插值
    print(df.interpolate(method='linear'))
    # 2次函數插值
    print(df.interpolate(method='polynomial', order=2))
    

重複值處理

# 範例資料
df = pd.DataFrame({'name': ['amy', 'david'] * 3 +
                   ['jam'], 'class': [2, 2, 2, 4, 3, 2, 4]})
  • duplicated() 判斷是否存在重複值

    print(df.duplicated()) # 判斷重複值 存在則返回True
    print(df.duplicated().sum()) # 統計判斷重複值
    
  • dropduplicates() 去除重複值

df.drop_duplicatep() #去除全部重複值
df.drop_duplicates(['name']) #去除name列的重複值
df.drop_duplicates(keep='last') # 預設保留重複項前面的值,而去除後面的值,‘last’則為保留最後一個

異常值的處理

當涉及 Pandas 應用數學與統計學領域中的異常值檢測時,有一些比較深入的方法,包括概率方法,矩陣分解,以及神經網路等。下面是一些具體範例展示:

  1. 概率方法 - 一元正態分佈檢測異常值:

    import pandas as pd
    import numpy as np
    
    # 建立一個範例資料集
    data = pd.DataFrame({'value': [1, 2, 3, 4, 5, 1000]})
    
    # 計算均值和標準差
    mean = data['value'].mean()
    std = data['value'].std()
    
    # 設定異常值閾值,例如均值加減3倍標準差
    threshold = 3 * std
    
    # 使用一元正態分佈方法檢測異常值
    data['is_outlier'] = np.abs(data['value'] - mean) > threshold
    print(data)
    
  2. 概率方法 - 多元高斯方法檢測異常值:

    from scipy import stats
    
    # 建立一個範例資料集
    data = pd.DataFrame({
        'feature1': [1, 2, 3, 4, 5],
        'feature2': [2, 4, 6, 8, 10]
    })
    
    # 計算多元高斯分佈概率密度
    multivariate_dist = stats.multivariate_normal(mean=data.mean(), cov=data.cov())
    
    # 設定異常值閾值
    threshold = 0.01  # 例如設定一個較小的閾值
    
    # 使用多元高斯方法檢測異常值
    data['is_outlier'] = multivariate_dist.pdf(data) < threshold
    print(data)
    
  3. 矩陣分解方法檢測異常值:

    from sklearn.decomposition import PCA
    
    # 建立一個範例資料集
    data = pd.DataFrame({
        'feature1': [1, 2, 3, 4, 5],
        'feature2': [2, 4, 6, 8, 100]
    })
    
    # 使用主成分分析(PCA)進行矩陣分解
    pca = PCA(n_components=2)
    pca.fit(data)
    
    # 計算重構誤差
    reconstruction_error = np.sum((data - pca.inverse_transform(pca.transform(data))) ** 2, axis=1)
    
    # 設定異常值閾值
    threshold = 20  # 例如設定一個閾值
    
    # 使用矩陣分解方法檢測異常值
    data['is_outlier'] = reconstruction_error > threshold
    print(data)
    
  4. 神經網路方法檢測異常值:

    from sklearn.neighbors import LocalOutlierFactor
    
    # 建立一個範例資料集
    data = pd.DataFrame({'value': [1, 2, 3, 4, 5, 1000]})
    
    # 使用區域性異常因子(Local Outlier Factor)進行異常值檢測
    lof = LocalOutlierFactor(n_neighbors=2, contamination=0.1)  # 設定引數
    data['is_outlier'] = lof.fit_predict(data[['value']])
    
    print(data)
    

資料集合並

這裡主要是用pandas中的常見方法進行資料集的連線合併。

pandas.DataFrame.concat()方法合併:
pandas.concat(
    objs,              # 接受一個列表或字典,表示要連線的 pandas 物件(Series 或 DataFrame)
    axis=0,            # 沿指定軸進行連線,0 表示沿第一個軸(行方向)連線,1 表示沿第二個軸(列方向)連線
    join='outer',      # 指定連線的方式,'outer'表示並集(union),'inner'表示交集(intersection)
    ignore_index=False,# 如果為 True,將忽略原始索引並生成一個新的整數索引
    keys=None,         # 建立層次化索引,用於識別每個片段
    levels=None,       # 指定多級索引的級別(通常自動推斷)
    names=None,        # 指定多級索引的級別名稱
    verify_integrity=False,  # 如果為 True,在連線操作之前驗證軸是否包含重複項
    sort=False         # 如果為 True,對非連線軸上的索引進行排序
)

以下是對各個引數的詳細解釋:

  • objs:要連線的 pandas 物件列表。可接受一個列表(或字典),其中包含要連線的 DataFrame 或 Series 物件。
  • axis:指定連線的軸方向。0 表示在行方向上連線,1 表示在列方向上連線。
  • join:指定連線的方式。預設為 'outer',表示取並集進行連線,也可以選擇 'inner',表示取交集進行連線。
  • ignore_index:如果為 True,將忽略原始索引並生成一個新的整數索引。
  • keys:當陣列沿著連線軸堆疊時,可以用 keys 引數建立一個層次化索引(MultiIndex),以便識別每個片段。
  • levels:指定鍵的層次化級別,通常不需要手動指定,會根據 keys 推斷。
  • names:指定多級索引的級別名稱。
  • verify_integrity:如果為 True,在連線操作之前驗證軸是否包含重複項,如果包含重複項則會丟擲 ValueError 異常。
  • sort:如果為 True,在連線操作之後對非連線軸上的索引進行排序。

pandas.DataFrame.merge() 方法合併
pandas.merge(
    left,                     # 左側的 DataFrame 物件
    right,                    # 右側的 DataFrame 物件
    how='inner',              # 合併方式,預設為 'inner',表示取兩個 DataFrame 的交集
    on=None,                  # 指定列名或索引級別作為合併的鍵,預設為 None,表示自動根據列名的交集進行合併
    left_on=None,             # 指定左側 DataFrame 中的列名或索引級別作為合併的鍵
    right_on=None,            # 指定右側 DataFrame 中的列名或索引級別作為合併的鍵
    left_index=False,         # 如果為 True,在左側 DataFrame 中使用索引作為合併鍵
    right_index=False,        # 如果為 True,在右側 DataFrame 中使用索引作為合併鍵
    sort=False,               # 如果為 True,根據合併鍵對結果進行排序
    suffixes=('_left', '_right'),  # 如果列名衝突,為列名新增字尾來區分,預設為 '_left' 和 '_right'
    copy=True                 # 如果為 True,在執行合併操作時複製資料
)

以下是對各個引數的詳細解釋:

  • left:左側的 DataFrame 物件。
  • right:右側的 DataFrame 物件。
  • how:指定合併的方式,預設為 'inner',即取兩個 DataFrame 的交集。還可以選擇 'outer',表示取兩個 DataFrame 的並集;'left',表示以左側 DataFrame 的鍵為基準進行合併;'right',表示以右側 DataFrame 的鍵為基準進行合併。
  • on:指定列名或索引級別作為合併的鍵。預設為 None,表示自動根據列名的交集進行合併。
  • left_on:指定左側 DataFrame 中的列名或索引級別作為合併的鍵。
  • right_on:指定右側 DataFrame 中的列名或索引級別作為合併的鍵。
  • left_index:如果為 True,在左側 DataFrame 中使用索引作為合併鍵。
  • right_index:如果為 True,在右側 DataFrame 中使用索引作為合併鍵。
  • sort:如果為 True,根據合併鍵對結果進行排序。
  • suffixes:如果列名衝突,為列名新增字尾來區分,預設為 ('_left', '_right')
  • copy:如果為 True,在執行合併操作時複製資料。
pandas.DataFrame.join() 方法:
DataFrame.join(
    other,                     # 合併的另一個 DataFrame 物件
    on=None,                   # 指定列名或索引級別作為合併的鍵,預設為 None,表示根據索引進行合併
    how='left',                # 合併方式,預設為 'left',表示以左側 DataFrame 為基準進行左外連線
    lsuffix='',                # 左側 DataFrame 列名相同時的字尾,預設為 '',不新增任何字尾
    rsuffix='',                # 右側 DataFrame 列名相同時的字尾,預設為 '',不新增任何字尾
    sort=False                 # 如果為 True,根據合併鍵對結果進行排序
)

以下是對各個引數的詳細解釋:

  • other:合併的另一個 DataFrame 物件。
  • on:指定列名或索引級別作為合併的鍵。預設為 None,表示根據索引進行合併。
  • how:指定合併的方式,預設為 'left',即以左側 DataFrame 為基準進行左外連線。還可以選擇 'inner',表示取兩個 DataFrame 的交集;'outer',表示取兩個 DataFrame 的並集;'right',表示以右側 DataFrame 為基準進行右外連線。
  • lsuffix:表示左側 DataFrame 中列名相同時的字尾,預設為 '',即不新增任何字尾。
  • rsuffix:表示右側 DataFrame 中列名相同時的字尾,預設為 '',即不新增任何字尾。
  • sort:如果為 True,根據合併鍵對結果進行排序。
資料對映 map()方法完成
df = pd.DataFrame({'name': ['amy', 'david', 'jam'], 'age': [14, 13, 12]})
name_to_gender = {'amy': 'girl', 'david': 'boy', 'jam': 'boy'}  # 建立對映字典
df['gender'] = df['name'].map(name_to_gender)

分組聚合

pandas.DataFrame.groupby()對資料集進行分組聚合

df = pd.DataFrame({'key1': ['A', 'B', 'C', 'A', 'B', 'C'],
                   'key2': ['X', 'Y', 'X', 'Y', 'X', 'Y'],
                   'data': [1, 2, 3, 4, 5, 6]})
df.groupby(by='key1').sum()
df.groupby(by=['key1', 'key2']).mean() # 替換為count().mean()等其它函數


資料轉換

不僅是資料格式或型別的轉換,更多的是通過一些統計學方法對資料進行標準化或離散化處理。

特徵工程:需要去設計資料特徵,以幫助訓練得到效能更加優異的模型。

標準化 Normalization(無量綱化)是資料預處理中的常用手段。標準化的目的主要是消除不同特徵之間的量綱和取值範圍不同造成的差異。這些差異,不僅會造成資料偏重不均,還會在視覺化方面造成困擾

import numpy as np
import pandas as pd
%matplotlib inline

np.random.seed(10)  # 亂數種子
df = pd.DataFrame({'A': np.random.random(
    20), 'B': np.random.random(20) * 10000})
print(df.plot())  # 繪圖

此時,B列資料太大,A列已經無法看出趨勢,近似一條直線.

Z-Score 標準化

Z-Score 標準化 是常用的標準化手段之一,其公式為:

\[z = \frac{x - \mu}{\sigma} \]

其中,