Pandas是一個開源的Python庫,用於使用其強大的資料結構進行高效能資料處理和資料分析。 Python和Pandas在各種學術和商業領域都有應用,其中包括金融,經濟學,統計學,廣告,網路分析等等。 使用Pandas,無論資料源如何,我們都可以完成資料處理和分析中的五個典型步驟 - 載入,組織,操作,建模和分析資料。
以下是Pandas的一些重要功能,專門用於資料處理和資料分析工作。
Pandas的主要特點是 -
Pandas處理以下三種資料結構 -
這些資料結構建立在Numpy陣列之上,使其快速高效。
考慮處理這些資料結構的最佳方式是:將高維資料結構化為較低維資料結構的容器。 例如,DataFrame
是Series
的容器,Panel
是DataFrame
的容器。
資料結構 | 維數 | 描述說明 |
---|---|---|
Series | 1 | 1D標記的同質陣列,大小不可變。 |
DataFrame | 2 | 一般的二維標籤,大小可變的表格結構,具有潛在的非均勻型別列。 |
DataFrame被廣泛使用,它是最重要的資料結構。
系列
系列(Series
)是一種具有同質資料結構的一維陣列。 例如,以下系列是整數:10
,23
,56...
的集合。
例如,
10 23 56 17 52 61 73 90 26 72
系列的要點
資料影格(DataFrame
)是一個具有異構資料的二維陣列。 例如,
名字 | 年齡 | 性別 | 得分 |
---|---|---|---|
Steve | 32 | 男 | 3.45 |
Lia | 28 | 女 | 4.6 |
Vin | 45 | 男 | 3.9 |
Katie | 38 | 女 | 2.78 |
該表格表示一個組織的銷售團隊的總體績效評級資料。資料以行和列表示。 每列代表一個屬性,每行代表一個人。
資料型別的列
四列的資料型別如下 -
列名 | 資料型別 |
---|---|
名字 | 字串 |
年齡 | 數位 |
性別 | 字串 |
得分 | 浮點數 |
資料影格的要點 -
在接下來的章節中,我們將看到很多關於在資料科學工作中使用python的pandas
庫的例子。