Python Pandas庫


Pandas是一個開源的Python庫,用於使用其強大的資料結構進行高效能資料處理和資料分析。 Python和Pandas在各種學術和商業領域都有應用,其中包括金融,經濟學,統計學,廣告,網路分析等等。 使用Pandas,無論資料源如何,我們都可以完成資料處理和分析中的五個典型步驟 - 載入,組織,操作,建模和分析資料。

以下是Pandas的一些重要功能,專門用於資料處理和資料分析工作。

Pandas的主要特點是 -

  • 使用預設和自定義索引的快速高效的DataFrame物件。
  • 用於將資料從不同檔案格式載入到記憶體資料物件的工具。
  • 資料對齊和缺失資料的整合處理。
  • 重新設定和旋轉日期集。
  • 巨量資料集的基於標籤的分片,索引和子集。
  • 資料結構中的列可以被刪除或插入。
  • 按資料分組進行聚合和轉換。
  • 高效能的資料合併和連線。
  • 時間序列功能。

Pandas處理以下三種資料結構 -

  • 維數
  • 系列
  • 資料影格

這些資料結構建立在Numpy陣列之上,使其快速高效。

維數和描述說明

考慮處理這些資料結構的最佳方式是:將高維資料結構化為較低維資料結構的容器。 例如,DataFrameSeries的容器,PanelDataFrame的容器。

資料結構 維數 描述說明
Series 1 1D標記的同質陣列,大小不可變。
DataFrame 2 一般的二維標籤,大小可變的表格結構,具有潛在的非均勻型別列。

DataFrame被廣泛使用,它是最重要的資料結構。

系列

系列(Series)是一種具有同質資料結構的一維陣列。 例如,以下系列是整數:10,23,56...的集合。

例如,

10    23    56    17    52    61    73    90    26    72

系列的要點

  • 同質資料
  • 大小不可變
  • 資料的值可變

資料影格

資料影格(DataFrame)是一個具有異構資料的二維陣列。 例如,

名字 年齡 性別 得分
Steve 32 3.45
Lia 28 4.6
Vin 45 3.9
Katie 38 2.78

該表格表示一個組織的銷售團隊的總體績效評級資料。資料以行和列表示。 每列代表一個屬性,每行代表一個人。

資料型別的列

四列的資料型別如下 -

列名 資料型別
名字 字串
年齡 數位
性別 字串
得分 浮點數

資料影格的要點 -

  • 異構資料
  • 大小可變
  • 資料可變

在接下來的章節中,我們將看到很多關於在資料科學工作中使用python的pandas庫的例子。