Pandas處理以下三個資料結構 -
Series
)DataFrame
)Panel
)這些資料結構構建在Numpy陣列之上,這意味著它們很快。
考慮這些資料結構的最好方法是,較高維資料結構是其較低維資料結構的容器。 例如,DataFrame
是Series
的容器,Panel
是DataFrame
的容器。
資料結構 | 維數 | 描述 |
---|---|---|
系列 | 1 | 1 D標記均勻陣列,大小不變。 |
資料影格 | 2 | 一般2 D標記,大小可變的表結構與潛在的異質型別的列。 |
面板 | 3 | 一般3 D標記,大小可變陣列。 |
構建和處理兩個或更多個維陣列是一項繁瑣的任務,使用者在編寫函式時要考慮資料集的方向。 但是使用Pandas資料結構,減少了使用者的思考。
例如,使用表格資料(DataFrame
),在語意上更有用於考慮索引(行)和列,而不是軸0
和軸1
。
可變性
所有Pandas資料結構是值可變的(可以更改),除了系列都是大小可變的。系列是大小不變的。
註 -
DataFrame
被廣泛使用,是最重要的資料結構之一。面板使用少得多。
系列是具有均勻資料的一維陣列結構。例如,以下系列是整數:10
,23
,56
,...
的集合。
關鍵點
資料影格(DataFrame)是一個具有異構資料的二維陣列。 例如,
姓名 | 年齡 | 性別 | 等級 |
---|---|---|---|
Maxsu | 25 | 男 | 4.45 |
Katie | 34 | 女 | 2.78 |
Vina | 46 | 女 | 3.9 |
Lia | 女 | x女 | 4.6 |
上表表示具有整體績效評級組織的銷售團隊的資料。資料以行和列表示。每列表示一個屬性,每行代表一個人。
列的資料型別
上面資料影格中四列的資料型別如下:
列 | 型別 |
---|---|
姓名 | 字串 |
年齡 | 整數 |
性別 | 字串 |
等級 | 浮點型 |
關鍵點
面板是具有異構資料的三維資料結構。在圖形表示中很難表示面板。但是一個面板可以說明為DataFrame
的容器。
關鍵點