Scipy CSGraph - tw511教學網

CSGraph表示壓縮稀疏圖，它著重於基於稀疏矩陣表示快速圖演算法。

圖表示

首先，讓我們了解一個稀疏圖是什麼以及它在圖表示中的作用。

稀疏圖是什麼？

圖只是節點的集合，它們之間有連結。圖幾乎可以代表任何事物 - 社群網路連線，每個節點都是一個人，並且與熟人相連; 影象，其中每個節點是畫素並連線到相鄰畫素; 指向一個高維分布，其中每個節點連線到最近的鄰居; 實際上你可以想象的任何其他東西。

表示圖形資料的一種非常有效的方式是在一個稀疏矩陣中: 假設名稱為G。矩陣G的大小為N×N，並且G[i，j]給出節點'i'和節點之間的連線的值'J'。稀疏圖形包含大部分零 - 也就是說，大多數節點只有幾個連線。

在scikit-learn中使用的幾種演算法激發了稀疏圖子模組的建立，其中包括以下內容 -

Isomap - 流形學習演算法，需要在圖中找到最短路徑。
分層聚類 - 基於最小生成樹的聚類演算法。
譜分解 - 基於稀疏圖拉普拉斯運算元的投影演算法。

作為一個具體的例子，假設想要表示以下無向圖 -

該圖有三個節點，其中節點0和1通過權重2的邊連線，節點0和2通過權重1的邊連線。可以構造如下例所示的稠密，蒙板和稀疏表示，無向圖由對稱矩陣表示。

G_dense = np.array([ [0, 2, 1],
                     [2, 0, 0],
                     [1, 0, 0] ])

G_masked = np.ma.masked_values(G_dense, 0)
from scipy.sparse import csr_matrix

G_sparse = csr_matrix(G_dense)
print (G_sparse.data)

上述程式將生成以下輸出 -

array([2, 1, 2, 1])

這與前面的圖相同，只是節點0和2通過零權重的邊連線。在這種情況下，上面的稠密表示會導致含糊不清 - 如果零是一個有意義的值，那麼如何表示非邊緣。在這種情況下，必須使用蒙版或稀疏表示來消除歧義。

參考下面的例子 -

from scipy.sparse.csgraph import csgraph_from_dense
G2_data = np.array
([
   [np.inf, 2, 0 ],
   [2, np.inf, np.inf],
   [0, np.inf, np.inf]
])
G2_sparse = csgraph_from_dense(G2_data, null_value=np.inf)
print (G2_sparse.data)

上述程式將生成以下輸出 -

array([ 2., 0., 2., 0.])

使用稀疏圖的詞梯子

詞梯是劉易斯卡羅爾發明的遊戲，其中單詞通過在每一步更改單個字母而連結在一起。例如 -

APE → APT → AIT → BIT → BIG → BAG → MAG → MAN

在這裡，分七步從「APE」到「MAN」，每次更換一個字母。問題是 - 我們能否使用相同的規則在這些詞之間找到更短的路徑？這個問題自然表示為一個稀疏圖形問題。節點將對應於單個單詞，並且將建立最多不超過一個字母的單詞之間的連線。

獲取單詞列表

首先，當然，我們必須獲得有效的單詞列表。如果使用Mac，並且Mac在以下程式碼塊中給出的位置具有單詞字典。如果在其它的架構上，可能需要搜尋一下才能找到你的系統字典。

wordlist = open('/usr/share/dict/words').read().split()
print (len(wordlist))

執行上面範例程式碼，得到以下結果 -

現在想看長度為3的單詞，選擇正確長度的單詞。還將消除以大寫字母(專有名詞)開頭的單詞或包含撇號和連字元等非字母數位字元的單詞。最後，確保一切都是小寫的，以便稍後進行比較。

word_list = [word for word in word_list if len(word) == 3]
word_list = [word for word in word_list if word[0].islower()]
word_list = [word for word in word_list if word.isalpha()]
word_list = map(str.lower, word_list)
print (len(word_list))

執行上面範例程式碼，得到以下結果 -

現在，列出了1185個有效的三個字母的單詞(確切的數位可能會根據所使用的特定列表而變化)。這些單詞中的每一個都將成為圖中的一個節點，我們將建立連線與每對單詞關聯的節點的邊，這些節點之間的差異只有一個字母。

import numpy as np
word_list = np.asarray(word_list)

word_list.dtype
word_list.sort()

word_bytes = np.ndarray((word_list.size, word_list.itemsize),
   dtype = 'int8',
   buffer = word_list.data)
print (word_bytes.shape)

執行上面範例程式碼，得到以下結果 -

(1185,3)

我們將使用每個點之間的漢明距離來確定連線哪些單詞對。漢明距離度量兩個向量之間的條目分數，它們不同:漢明距離等於1/N1/N的任何兩個單詞，其中NN是單詞階梯中連線的字母數。

from scipy.spatial.distance import pdist, squareform
from scipy.sparse import csr_matrix
hamming_dist = pdist(word_bytes, metric = 'hamming')
graph = csr_matrix(squareform(hamming_dist < 1.5 / word_list.itemsize))

比較距離時，不使用相等性，因為這對於浮點值可能不穩定。只要字表中沒有兩個條目是相同的，不平等就會產生所需的結果。現在，圖形已經建立，我們將使用最短路徑搜尋來查詢圖形中任何兩個單詞之間的路徑。


i1 = word_list.searchsorted('ape')
i2 = word_list.searchsorted('man')
print (word_list[i1],word_list[i2])

執行上面範例程式碼，得到以下結果 -

ape, man

我們需要檢查它們是否匹配，因為如果單詞不在列表中，輸出中會有錯誤。現在，需要在圖中找到這兩個索引之間的最短路徑。使用dijkstra演算法，因為它能夠為一個節點找到路徑。

from scipy.sparse.csgraph import dijkstra
distances, predecessors = dijkstra(graph, indices = i1, return_predecessors = True)
print (distances[i2])

執行上面範例程式碼，得到以下結果 -

5.0

因此，我們看到ape和man之間的最短路徑只包含五個步驟。可以使用演算法返回的前輩來重構這條路徑。

path = []
i = i2

while i != i1:
   path.append(word_list[i])
   i = predecessors[i]

path.append(word_list[i1])
print (path[::-1]i2])

上述程式將生成以下輸出 -

['ape', 'ope', 'opt', 'oat', 'mat', 'man']