資料挖掘叢集分析


什麼是叢集?

叢集是一組屬於同一類的物件。換句話說,類似物件被分組在一個簇和異種分組在其他叢集。

什麼是聚類?

叢集是製作小組抽象物件到類相似物件的過程。

你需要記住的

  • 資料物件的一個叢集可以被視為一組。

  • 而這樣做的聚類分析,我們首先根據資料相似性劃分的一組資料分組,然後將標籤分配給該組。

  • 聚類在分類的主要優點是,它是適應變化,並幫助該區分不同群體挑出有用的功能。

聚類分析中的應用

  • 聚類分析被廣泛用於許多應用,如市場調查,圖形識別,資料分析和影象處理。

  • 群集也可以幫助行銷人員發現不同的群體在他們的客戶基礎。他們可以根據購買模式的客戶群體特徵。

  • 在生物學領域,可以用於推導植物和動物分類法進行分類的基因相似的功能,並深入了解所固有的種群結構。

  • 叢集也有助於識別類似土地利用在地球觀測資料庫的區域。它還有助於房子的群體在一個城市,根據房子的型別,價值,地理位置識別。

  • 叢集也有助於在網路上的資訊發現檔案分類。

  • 聚類也可用於異常檢測的應用,如檢測信用卡欺詐的。

  • 作為資料挖掘功能聚類分析作為一種工具來洞察資料,觀察每個簇的分佈性特點。

聚類在資料挖掘需求

這裡是聚類資料挖掘的典型要求:

  • 可延伸性 - 我們需要高度可延伸的聚類演算法來處理大型資料庫。

  • 能夠處理不同型別的屬性 - 演算法應該能夠在任何種類的資料,如基於間隔(數位)資料,類別,二進位制資料被應用。

  • 叢集與屬性形狀的發現 - 聚類演算法應能夠檢測任意形狀的簇。本不應該為界,往往發現小尺寸的球狀星團只有距離測量。

  • 高維 - 該聚類演算法不僅能夠處理低維資料,而且該高維空間。

  • 能夠處理噪聲資料 - 資料庫包含嘈雜,丟失或錯誤的資料。一些演算法是這樣的資料敏感,並且可能導致品質差的叢集。

  • 解釋性 - 聚類結果應該是可解釋的,可理解的和可用的。

聚類方法

聚類方法可以分為以下幾種:

  • 劃分方法

  • 分層方法

  • 基於密度的方法

  • 基於網格的方法

  • 基於模型的方法

  • 基於約束的方法

分割方法

假設我們給出n個物件的資料庫,該劃分方法構建資料的k個分割區。每個分割區將代表一個叢集和k≤| N。這意味著它將對資料進行分類成k個組,其中滿足下列要求:

  • 各組至少包含一個物件。

  • 每個物件必須屬於正好一個組。

要記住的要點:

  • 對於分割區(K)的一個給定的數目,分割區方法將建立一個初始劃分。

  • 然後,它使用了疊代搬遷技術,通過移動的物體從一組到其他改善分割區。

層次方法

這個方法建立給定資料物件的層次分解。我們可以的層次分解是如何形成如下基礎分層分類方法:

  • 凝聚法

  • 分裂法

凝聚進近

這種方法也被稱為自下而上的方法。在此,我們開始與每個物件形成一個單獨的組。它不斷合併是彼此接近的物體或基團。它繼續這樣做,直到所有的組都合併成一個或直到終止條件成立。

分裂的進近

這種方法也被稱為自頂向下的方法。在此,我們開始都在同一個簇中的物件的。在連續的疊代中,簇被分裂成更小的簇。這是直到在一個叢集或終止條件的每個物件儲存。

壞處

這個方法是剛性的,即,一旦合併或拆分完成後,它不可能被撤消。

方法以提高品質層次聚類

這裡是用來提高層次聚類的品質的兩種方法:

  • 在每個層次劃分進行認真分析物件的聯絡。

  • 首先使用分層凝聚演算法組物件到微簇,然後在微簇進行巨集簇整合分層結塊。

基於密度的方法

此方法是基於密度的概念。其基本思路是將繼續增長給定的簇,只要在附近的密度超過某個閾值,即對於一個給定叢集內的每一個資料點,在給定簇的半徑必須包含點中的至少一個最小數目。

基於網格的方法

在這個物件一起從一個網格。物件空間量化成形成一個網格結構單元的數量有限。

優點
  • 這種方法的主要優點是快速的處理時間。

  • 它僅依賴於細胞中的量化空間的每個維度的數目。

基於模型的方法

在該方法中,模型是假設每個簇並找到資料的給定模型的最佳擬合。此方法通過聚類的密度函式找出叢集。這反映了資料點的空間分布。

這種方法也有助於自動決定基於標準的統計聚類數,取異常或噪聲考慮的方式。因此,產生強大的聚類方法。

基於約束的方法

在該方法中,聚類是由使用者或應用程式面向約束摻入執行。約束是指使用者期望或希望的聚類結果的屬性。約束給我們的叢集進程間通訊的互動方式。該約束可以由使用者或應用程式的要求來指定。