資料探勘是從大量的、不完全的、有噪聲的、模糊的、隨機的資料中提取隱含在其中的、人們事先不知道的、但又是潛在有用的資訊和知識的過程。
資料探勘是從資料中提取資訊和知識的過程。
資料規範化解決不同量綱下資料的統一問題,將資料放縮至一個合適的區間,避免資料對量綱選擇的依賴性;
主要方法有:最大最小規範化法、z-score規範化法、小數定標
資料離散化解決資料探勘演演算法的對離散資料的需求問題
主要方法有:等寬法、等頻法、聚類法
找出描述和區分資料類或概念集的模型,以便能夠使用該模型預測類標號未知的物件的類標號
基本原理來源於數學中的熵,提出資訊熵,熵越高表示資料越混亂,熵越低表示資料越純。
因此提出資訊增益的概念,資訊增益越大表示劃分的分類越純,因此根據資訊增益從大到小的排列順序列為決策樹中從上到下的各節點
等寬法、收入變成三個離散狀態
基於Gini指數
過擬合,訓練集太少,模型太複雜。
欠擬合,訓練集太多,模型太簡單。
缺點
1、子樹可能在決策樹中重複多次,容易發生過擬合(隨機森林可以很大程度上減少過擬合);
2、容易忽略資料集中屬性的相互關聯,特徵關聯較強時表現不好
球狀的簇。
基本原理; 在給定子集個數的條件下,將資料按照距離分佈在隨機點周圍,並不斷調整,保證簇中的資料距離中心最優
K-means演演算法是一種典型的基於劃分的聚類演演算法,該演演算法具有運算速度快,執行過程簡單的優點,在很多巨量資料處理領域得到了廣泛的應用。K-means演演算法的思想利用相似性度量方法來衡量資料集中所有資料之間的關係,將關係比較密切的資料劃分到一個集合中。
(1) K-means演演算法首先需要選擇K個初始化聚類中心
(2) 計算每個資料物件到K個初始化聚類中心的距離,將資料物件分到距離聚類中心最近的那個資料集中,當所有資料物件都劃分以後,就形成了K個資料集(即K個簇)
(3)接下來重新計算每個簇的資料物件的均值,將均值作為新的聚類中心
(4)最後計算每個資料物件到新的K個初始化聚類中心的距離,重新劃分
(5)每次劃分以後,都需要重新計算初始化聚類中心,一直重複這個過程,直到所有的資料物件無法更新到其他的資料集中。
K modes眾數演演算法。找均值點,出現次數最多的數作為離散資料的均值點。
閾值根據經驗事先指定。
關聯規則發現
置信度一般要考慮頻繁二項集及以上。
關聯規則任務的過程
基於先驗原理進行提前剪枝
①尋找頻繁項集:找出支援度大於等於閾值的項集
②生成關聯規則:找出置信度大於等於閾值的關聯規則
支援度:包含特定項集的事務的個數與總事務個數之比
置信度:確定Y在包含X的事務中出現的頻繁程度。理解為一種條件概率,在X->Y的蘊含規則下,選擇包含X的項集中,Y出現的概率
如果一個項集是頻繁的,則他的所有子集也是頻繁的;
如果一個項集是非頻繁的,則他的超集也是非頻繁的。
降低候選項的生成。
生成條件模式
特點