【matplotlib 實戰】--餅圖

2023-10-14 18:00:48

餅圖,或稱餅狀圖,是一個劃分為幾個扇形的圓形統計圖表。
在餅圖中,每個扇形的弧長(以及圓心角和麵積)大小,表示該種類佔總體的比例,且這些扇形合在一起剛好是一個完全的圓形。

餅圖最顯著的功能在於表現「佔比」。
習慣上,人們通過比較餅圖扇形的大小來獲得對資料的認知。

使用餅圖時,須確認各個扇形的資料加起來等於100%;
且避免磁區超過5個,扇形的排布順序,一般情況下,將最大的扇形放在12點鐘方向。

1. 主要元素

餅圖的主要元素包括:

  1. 餅片(扇形):餅圖由多個餅片組成,每個餅片的大小代表了對應部分在總體中的比例關係。
  2. 標籤:餅圖中的每個餅片通常都會有一個標籤,用於表示對應部分的具體名稱或者數值。
  3. 圖例:圖例是餅圖的一部分,用於解釋每個餅片所代表的含義,幫助觀察者理解圖表。
  4. 百分比:餅圖通常會顯示每個餅片所佔的百分比,以便更直觀地展示比例關係。

2. 適用的場景

餅圖適用的場景包括:

  • 比例展示:展示一個總體中各個部分的比例關係,例如市場份額、人口比例等。
  • 分類資料:展示分類資料的比例關係,例如某個產品的銷售額佔比、不同地區的人口分佈等。
  • 簡單資料分析:簡單的資料分析,幫助觀察者快速瞭解資料的分佈情況和相對大小。
  • 強調重點:突出某個部分的重要性,引起觀察者的注意,例如某個產品的關鍵特點或者某個地區的重要經濟指標。

3. 不適用的場景

餅圖不適用的場景包括:

  • 多個分類變數:當資料包含多個分類變數時,餅圖可能會變得複雜和難以理解,不適合展示覆雜的關係。
  • 資料過於細分:當資料被分成過多的小塊時,餅圖可能會變得擁擠和難以辨認,不適合展示細分資料。
  • 資料差異較小:當各個部分的差異較小,比例接近時,餅圖可能無法清晰地展示差異,不適合展示相似的資料。
  • 需要精確數值比較:餅圖通常只能展示相對比例關係,無法提供精確的數值比較,不適合需要準確數值的場景。

4. 分析實戰

本次用餅圖統計展示 不同人口規模的城市數量 的統計情況。

4.1. 資料來源

資料來自國家統計局公開的城市概況資料,可從下面的網址下載:
https://databook.top/nation/A0B

使用其中的 A0B01.csv 檔案(分機構型別法人單位數)

fp = "d:/share/A0B01.csv"

df = pd.read_csv(fp)
df

4.2. 資料清理

最新的2022年資料缺失較多,所以選取2021年的資料進行分析。

data = df[df["sj"] == 2021]
data

第一條資料全部城市情況,統計需要去除,另外,指標的名稱太長,統計前也可以調整下。
接著上面過濾後的資料繼續資料淨化:

data = data.reset_index() # 重置索引
data = data.iloc[1:]  # 忽略第一條合計的資料

#調整指標名稱,刪除多餘的文字
data["zbCN"] = data["zbCN"].str.replace("城市市轄區年末總", "")
data["zbCN"] = data["zbCN"].str.replace("地級及以上", "")

data

最後得到的資料有6條餅圖一般來說資料不要超過5個6個也還行,再多就影響顯示效果了。

4.3. 分析結果視覺化

with plt.style.context("seaborn-v0_8"):
    fig = plt.figure()
    ax = fig.add_axes([0.1, 0.1, 0.8, 0.8])

    ax.pie(data["value"], autopct="%1.1f%%")
    ax.legend(
        data["zbCN"].tolist(),
        loc="center",
        bbox_to_anchor=(1, 0, 0.5, 1),
    )

從分析結果可看出,50萬~200萬人口的城市超過一半,是大多數的城市規模。
兩端的情況(人口20萬以下,或者400萬以上)的城市佔比最小。