各種理論的資料挖掘的基礎包括以下內容:
Data Reduction - 這一理論的基本思想是,以減少該交易的準確性,速度響應於需要獲得快速的近似的查詢答案在非常大的資料庫中的資料表示。一些資料減少技術如下:
奇異值分解
小波分析
回歸
對數線性模型
直方圖
聚類
取樣
索引樹的構建
資料壓縮 - 這一理論的基本思想是通過編碼在下面的術語來壓縮資料給出:
位元
關聯規則
決策樹
叢集
模式發現 - 這一理論的基本思想是要發現在資料庫中出現的圖案。以下是有助於這一理論的領域:
機器學習
神經網路
關聯挖掘
序列模式匹配
聚類
概率論 - 這個理論是基於統計理論。這一理論的基本思想是要發現隨機變數的聯合概率分布。
概率論 - 根據這一理論資料挖掘是找到有趣僅對它們可以在一些企業的決策過程中可以使用的程度的圖案。
微觀檢視 - 按照這一理論的感知,資料庫架構包括儲存在資料庫中的資料和圖案。因此,根據這一理論的資料挖掘是對資料庫進行感應的任務。
電感資料庫 - 除了在資料庫導向技術,也有可用於資料分析的統計學方法。這些技術可以應用到經濟和社會科學以及科學資料和資料。
一些統計資料挖掘技術如下:
回歸 - 回歸方法用於從一個或多個預測值變數,其中變數是數值預測響應的變數的值。以下是幾種形式回歸:
線性
多種
權重
多項式
非引數
健壯
廣義線性模型 - 廣義線性模型包括:
邏輯回歸
Poisson回歸模型
該模型的泛化允許一個明確的響應變數可能與在地類似於數位響應變數的使用線性回歸模型設定預測變數。
方差分析 - 這種技術分析:
實驗資料由一個數位響應變數描述的兩個或兩個以上的人群。
一個或多個分類變數(因素)。
混合效應模型 - 這些模型被用於分析的分組的資料。這些模型描述了根據一個或多個因素中的分組資料的響應變數和一些協變數之間的關係。
因子分析 - 因子分析法是用來預測一個明確的響應變數。此方法假定自變數服從多元正態分布。
時間序列分析 - 以下是一種方法,用於分析時間序列資料:
自我回歸方法
單變數ARIMA(自回歸移動平均)模型
長記憶時間序列建模
視覺化資料挖掘使用的資料和/或知識視覺化技術從大型資料集發現隱含的知識。視覺化資料挖掘可以看作是以下學科的整合:
資料視覺化
資料挖掘
視覺化資料挖掘是密切相關的以下內容:
計算機圖學
多媒體系統
人機互動
圖形識別
高效能運算
一般的資料視覺化和資料挖掘可以整合在以下方面:
資料視覺化 - 在資料庫或資料倉庫中的資料可以在下面列出了一些視覺化的形式進行檢視:
盒形圖
3-D 多維資料集
資料分布圖
曲線
表面
連結圖表等。
資料挖掘結果視覺化 - 資料挖掘結果的視覺化是資料挖掘的結果,在視覺形式呈現。這些視覺形式可能是散點圖和箱線圖等。
資料挖掘過程視覺化 - 資料挖掘過程視覺化呈現資料挖掘的幾個過程。這允許使用者檢視資料如何被提取。這也讓使用者能夠看到從資料庫或資料倉庫中的資料進行清洗,整合,預處理和挖掘。
指示資料或資料挖掘結果的特徵的圖案,音訊資料挖掘利用的音訊信號。通過將模式轉換成聲音和沉思,而不是看圖片,我們可以聽球場,曲調,以確定什麼有趣的事。
當今的消費者面臨著種類繁多的商品和服務,而購物。在現場客戶交易時,推薦系統通過使產品推薦幫助消費者。在協同過濾方法通常用於產品推薦給客戶。這些建議是根據其他客戶的意見。