資料挖掘叢集分析 - tw511教學網

什麼是叢集？

叢集是一組屬於同一類的物件。換句話說，類似物件被分組在一個簇和異種分組在其他叢集。

叢集是製作小組抽象物件到類相似物件的過程。

你需要記住的

這裡是聚類資料挖掘的典型要求：

聚類方法可以分為以下幾種：

假設我們給出n個物件的資料庫，該劃分方法構建資料的k個分割區。每個分割區將代表一個叢集和k≤| N。這意味著它將對資料進行分類成k個組，其中滿足下列要求：

要記住的要點：

這個方法建立給定資料物件的層次分解。我們可以的層次分解是如何形成如下基礎分層分類方法：

這種方法也被稱為自下而上的方法。在此，我們開始與每個物件形成一個單獨的組。它不斷合併是彼此接近的物體或基團。它繼續這樣做，直到所有的組都合併成一個或直到終止條件成立。

這種方法也被稱為自頂向下的方法。在此，我們開始都在同一個簇中的物件的。在連續的疊代中，簇被分裂成更小的簇。這是直到在一個叢集或終止條件的每個物件儲存。

壞處

這個方法是剛性的，即，一旦合併或拆分完成後，它不可能被撤消。

這裡是用來提高層次聚類的品質的兩種方法：

此方法是基於密度的概念。其基本思路是將繼續增長給定的簇，只要在附近的密度超過某個閾值，即對於一個給定叢集內的每一個資料點，在給定簇的半徑必須包含點中的至少一個最小數目。

在這個物件一起從一個網格。物件空間量化成形成一個網格結構單元的數量有限。

優點

在該方法中，模型是假設每個簇並找到資料的給定模型的最佳擬合。此方法通過聚類的密度函式找出叢集。這反映了資料點的空間分布。

這種方法也有助於自動決定基於標準的統計聚類數，取異常或噪聲考慮的方式。因此，產生強大的聚類方法。

在該方法中，聚類是由使用者或應用程式面向約束摻入執行。約束是指使用者期望或希望的聚類結果的屬性。約束給我們的叢集進程間通訊的互動方式。該約束可以由使用者或應用程式的要求來指定。