資料挖掘涉及什麼樣的模式可以開採。挖掘出來的資料在基礎上有2種涉及資料挖掘的功能,列出如下:
描述性
分類和預測
描述功能處理資料在資料庫中的一般屬性。下面是描述性的功能列表:
類/概念描述
頻繁模式挖掘
社團挖掘
相關性的挖掘
叢集挖掘
類/概念指的是可以與類或概念相關聯的資料。例如,在一個公司類出售的物品包括電腦和列印機,以及客戶的概念包括揮金如土和預算揮金如土。一個類或概念的這種描述稱為類/概念描述。這些描述可以得出通過以下兩種方式:
資料表徵 - 這是指在研究總結類的資料。此類別下的研究被稱為目標類。
資料辨析 - 它是指對映一類或分類有一些預定義的組或一類。
頻繁模式是那些經常出現在交易資料模式。下面是那種頻繁模式的列表:
頻繁項集 - 它是指設定經常一起出現,例如牛奶和麵包的專案。
頻繁子序列 - 經常出現諸如購買相機的模式序列其次是儲存卡。
頻繁子結構 - 子結構是指不同的結構形式,如圖形,樹木,或晶格,其可與項集或子組合。
關聯被用在零售銷售,以識別經常一起購買的模式。這個過程是指揭示資料之間的關係,並確定關聯規則的過程。
例如零售商生成顯示時間牛奶70%,銷售麵包,並且只有30%的時間用餅乾麵包出售的關聯規則。
它是一種進行揭露相關的屬性 - 值對之間或兩者之間的有趣的統計相關性的其他分析專案設定來分析,如果他們對對方正面,負面或沒有影響。
叢集是指一組相似的物件的型別的。聚類分析是指形成組非常相似彼此但與在其他簇中的物件高度不同的物件。
分類是找到一個模型,描述了資料類或概念的過程。的目的是為了能夠使用該模型來預測類別的物件,它的類標籤是未知的。此派生模型是基於訓練資料集的分析。匯出的模型可以提出下列形式:
分類(IF-THEN)規則
決策樹
數學公式
神經網路
以下是參與這個功能的列表:
分類 - 它預測類的物件,它的類標籤是未知的。它的目標是找到一個派生模型,描述並區分資料類或概念。派生模型是基於分析組訓練資料,即資料物件的類標籤是眾所周知的。
預測 - 它是用來預測丟失或不可用的數位資料值,而不是類的標籤。回歸分析通常被用於預測。預測還可以用於分布趨勢的基礎上提供資料的識別。
異常值分析 - 異常值可以被定義為不符合一般行為或資料的可用模型的資料物件。
進化分析 - 進化分析指,描述和模型的規律或趨勢的物件,其行為隨時間變化。
我們可以在資料挖掘查詢的形式指定資料挖掘任務。
該查詢被輸入到系統中。
資料挖掘查詢中的資料挖掘任務原語來定義。
Note: 使用這些原語讓我們的互動形式與資料挖掘系統通訊。下面是資料挖掘任務原語的列表:
設定任務的可供開採相關的資料
型別的知識才能開採出來的
在發現過程中使用的背景知識
興趣度度量和閾值模式評估
代表性的視覺化發現的模式
這是資料庫,其中使用者感興趣的部分。這部分包括以下內容:
資料庫屬性
感興趣的資料倉庫維度
它指的是種將要執行的功能。這些功能是:
描述
區別
關聯和相關性分析
分類
預測
聚類
異常值分析
進化分析
背景知識允許資料在多個層次的抽象挖掘。例如,概念層次結構的背景知識,使資料在多個抽象層次挖掘之一。
這是用來評估是發現通過知識發現過程的模式。有不同的興趣度度量不同型別的知識。
這是指在其中發現的模式是將要顯示的形式。這些陳述可能包括以下內容:
規則
表格
圖表
曲線圖
決策樹
多維資料集