Pandas資料結構


Pandas處理以下三個資料結構 -

  • 系列(Series)
  • 資料影格(DataFrame)
  • 面板(Panel)

這些資料結構構建在Numpy陣列之上,這意味著它們很快。

維數和描述

考慮這些資料結構的最好方法是,較高維資料結構是其較低維資料結構的容器。 例如,DataFrameSeries的容器,PanelDataFrame的容器。

資料結構 維數 描述
系列 1 1D標記均勻陣列,大小不變。
資料影格 2 一般2D標記,大小可變的表結構與潛在的異質型別的列。
面板 3 一般3D標記,大小可變陣列。

構建和處理兩個或更多個維陣列是一項繁瑣的任務,使用者在編寫函式時要考慮資料集的方向。 但是使用Pandas資料結構,減少了使用者的思考。

例如,使用表格資料(DataFrame),在語意上更有用於考慮索引(行)和列,而不是軸0和軸1

可變性

所有Pandas資料結構是值可變的(可以更改),除了系列都是大小可變的。系列是大小不變的。

註 - DataFrame被廣泛使用,是最重要的資料結構之一。面板使用少得多。

系列

系列是具有均勻資料的一維陣列結構。例如,以下系列是整數:10,23,56...的集合。

關鍵點

  • 均勻資料
  • 尺寸大小不變
  • 資料的值可變

資料影格

資料影格(DataFrame)是一個具有異構資料的二維陣列。 例如,

姓名 年齡 性別 等級
Maxsu 25 4.45
Katie 34 2.78
Vina 46 3.9
Lia x女 4.6

上表表示具有整體績效評級組織的銷售團隊的資料。資料以行和列表示。每列表示一個屬性,每行代表一個人。

列的資料型別

上面資料影格中四列的資料型別如下:

型別
姓名 字串
年齡 整數
性別 字串
等級 浮點型

關鍵點

  • 異構資料
  • 大小可變
  • 資料可變

面板

面板是具有異構資料的三維資料結構。在圖形表示中很難表示面板。但是一個面板可以說明為DataFrame的容器。

關鍵點

  • 異構資料
  • 大小可變
  • 資料可變