資料挖掘是指從大量的資料集提取資訊。換句話說,我們可以說,資料挖掘是從資料挖掘領域的知識。此資訊可用於任何以下應用程式:
市場分析
欺詐檢測
客戶保留
生產控制
科學探索
資料挖掘引擎是非常必要的資料挖掘系統。它由一組功能模組。這些模組在以下任務:
描述
關聯和相關性分析
分類
預測
聚類分析
異常值分析
進化分析
這是領域知識。這方面的知識,用於指導搜尋或計算得到的圖案的趣味性。
有些人把資料挖掘一樣的知識發現,而有些人認為在知識發現過程中的資料挖掘必不可少的步驟。以下是參與知識發現過程的步驟列表:
資料清理
資料整合
資料選擇
資料轉換
資料挖掘
評估模式
知識呈列
使用者介面是資料挖掘系統的模組,可以幫助使用者和資料挖掘系統之間的通訊。使用者介面允許以下功能:
通過指定一個資料挖掘查詢任務互動與系統。
提供資訊,以幫助集中搜尋。
挖掘基於中間資料挖掘結果。
瀏覽資料庫和資料倉庫模式或資料結構。
評估開採模式。
視覺化的模式以不同的形式。
資料整合是合併來自多個異構資料源的資料轉換成一個連貫的資料儲存中的資料預處理技術。資料整合可能涉及的資料不一致,因此需要資料清理。
資料清理是應用於以去除噪聲的資料和校正資料中的不一致之處的一種技術。資料清理涉及轉換改正錯誤的資料。資料清洗,同時準備資料的資料倉庫進行資料預處理步驟。
資料選擇是在相關的分析任務資料從資料庫中檢索的過程。有時,資料轉換和合併前的資料選擇的過程中進行。
叢集是指一組相似的物件的型別的。聚類分析是指形成組非常相似彼此但與在其他簇中的物件高度不同的物件。
在這個步驟中的資料是由執行匯總或聚集操作轉化或合併成適合挖掘的形式。