氣泡圖是一種多變數的統計圖表，可以看作是散點圖的變形。
與散點圖不同的是，每一個氣泡都表示三個維度的資料，除了像散點圖一樣有X，Y軸，氣泡的大小可以表示另一個維度的資料。
例如，x軸表示產品銷量，y軸表示產品利潤，氣泡大小代表產品市場份額百分比。

它可以幫助我們發現變數之間的模式、趨勢和異常值。
通過氣泡的大小和顏色，我們可以同時比較多個變數的值，並且可以快速識別出具有較大或較小數值的資料點。

1. 主要元素

氣泡圖通常用於展示和比較資料之間的關係和分佈，可以展示三維（X,Y軸，氣泡大小），甚至四維資料（X,Y軸，氣泡大小，氣泡顏色）之間的關係。
它的主要元素包括：

橫軸和縱軸：氣泡圖通常使用橫軸和縱軸來表示兩個變數的值。這些變數可以是數值型、分型別或時間型。
氣泡大小：氣泡圖通過氣泡的大小來表示第三個變數的值。通常，氣泡的大小與該變數的值成正比，較大的氣泡表示較大的數值。
氣泡顏色：氣泡圖還可以使用顏色來表示第四個變數的值。不同的顏色可以用於區分不同的資料類別或者表示不同的數值範圍。

2. 適用的場景

氣泡圖適用的分析場景包括：

多變數關係分析：氣通過橫軸、縱軸和氣泡大小，可以同時呈現三個變數的資訊，幫助我們發現變數之間的模式、趨勢和相關性。
資料聚類和分類：氣泡顏色可以用於區分不同的資料類別或者表示不同的數值範圍。這使得氣泡圖在資料聚類和分類分析中非常有用，可以幫助我們識別出不同群組或類別之間的差異和相似性。
比較分析：用於比較不同類別或不同時間點的資料。通過氣泡的大小和顏色，我們可以直觀地比較多個變數的值，快速識別出具有較大或較小數值的資料點，從而幫助我們理解資料的分佈和變化情況。
異常值檢測：幫助我們快速識別出具有異常數值的資料點。通過比較氣泡的大小和顏色，我們可以發現與其他資料點相比具有明顯不同數值的資料，從而幫助我們識別和分析異常情況。

3. 不適用的場景

氣泡圖在以下情況可能不適用：

巨量資料集：當資料集非常龐大時，氣泡圖可能不適合展示所有資料點，因為過多的氣泡可能會導致圖表混亂不清。
單變數分析：如果只需要分析單個變數的分佈或趨勢，氣泡圖可能過於複雜，不是最佳選擇。
離散資料：如果資料是離散的，而不是連續的數值型資料，氣泡圖可能無法有效地展示變數之間的關係。

4. 分析實戰

本次使用氣泡圖分析 2021年中歐之間的貿易資料情況。
氣泡圖可以分析三個維度的對比：

進口額：橫軸
出口額：縱軸
進出口總額：氣泡大小

4.1. 資料來源

資料來源國家統計局公開的資料，整理好的資料可從下面的地址下載：
https://databook.top/nation/A06

用到的三個統計資料分別是：

中國同歐洲各國(地區)進出口總額：A06050103.csv
中國向歐洲各國(地區)出口總額：A06050203.csv
中國從歐洲各國(地區)進口總額：A06050303.csv

fp = "d:/share/data/A06050103.csv"
df_total = pd.read_csv(fp)

fp = "d:/share/data/A06050203.csv"
df_output = pd.read_csv(fp)

fp = "d:/share/data/A06050303.csv"
df_input = pd.read_csv(fp)

4.2. 資料清理

資料清理步驟主要包括：

提取每個檔案中2021年的資料
去除中歐整體的交易額資料，只保留和各個國家之間的貿易資料
合併進出口總額，進口額，出口額到一個資料集中
過濾多餘字元，生成一個表示國家的資料列

#提取每個檔案中2021年的資料
df = df_total[df_total["sj"] == 2021]

#去除中歐整體的交易額資料，只保留和各個國家之間的貿易資料
data = df.loc[2:, ["zbCN", "value"]]
#重新對映列的名稱
data = data.rename(columns={"zbCN":"country", "value": "total"})

#過濾多餘字元，生成一個表示國家的資料列
data["country"] = data["country"].str.replace("中國同", "", regex=False)
data["country"] = data["country"].str.replace("進出口總額(萬美元)", "", regex=False)

df = df_input[df_input["sj"] == 2021]
#合併進出口總額，進口額，出口額到一個資料集中
data["input"] = df.loc[2:, ["value"]]

df = df_output[df_output["sj"] == 2021]
#合併進出口總額，進口額，出口額到一個資料集中
data["output"] = df.loc[2:, ["value"]]

data.head(5)

和歐洲的總體交易資料位於每個資料集的第一行，所用用 loc[2:, ...] 來過濾。

4.3. 分析結果視覺化

with plt.style.context("seaborn-v0_8"):
    fig = plt.figure()
    ax = fig.add_axes([0.1, 0.1, 0.8, 0.8])

    ax.scatter(
        data["input"] / 10000,
        data["output"] / 10000,
        data["total"] / 10000,
        c = np.random.rand(len(data)),
        cmap="Accent",
        alpha=0.6,
    )
    ax.set_xlabel("進口額(億元)")
    ax.set_ylabel("出口額(億元)")

    x = np.linspace(0, 1400, 7)
    y = x
    ax.plot(x, y, '-')

從圖中可以看出：
橫軸是進口額，縱軸是出口額，氣泡越大，進出口總額越大。

中間的藍色線表示進出口額度一樣，可以看出，大部分國家都在藍色線之上，
說明我國和大部分歐洲的貿易都是順差。

左下角有很多小氣泡，說明和大部分國家之間的進出口貿易額不高，也許是歐洲的小國家很多的緣故。