有兩種形式的資料的分析,可以用於描述一種重要的類提取物的模型或預測未來的資料趨勢。這兩種形式如下:
分類
預測
這些資料的分析,有助於我們更好地理解巨量資料。分類預測分類和預測模型預測連續值函式。例如,我們可以建立一個分類模型,以銀行貸款申請歸類為安全或危險的,或者預測模型來預測在計算機裝置給他們的收入和職業美元的潛在客戶的支出。
以下情況下資料分析任務是分類的例子:
銀行信貸員要對資料進行分析,以便知道哪些客戶(借款申請人)是有風險的,或哪些是安全的。
行銷經理在一家公司需要分析猜測與給定輪廓的顧客會購買一台新電腦。
在上述兩個例子,一個模型或分類器被構造來預測類別的標籤。這些標籤都是有風險的或安全的貸款申請資料和yes或no的行銷資料。
以下情況下的資料分析任務是預測的例子:
假設行銷經理需要預測多少給定的客戶將在出售他的公司花。在這個例子中,我們刻意去預測數值。因此,資料分析的任務就是例子數值預測的。在這種情況下,模型或預測將構造,預測的連續值的函式或指令值。
註:回歸分析是最常用的數位預測的統計方法。
我會盡量讓你明白如何分類的?與我們上面所討論的銀行申請貸款的幫助。資料分類過程包括兩個步驟:
構建分類器或模型
利用分類器進行分類
這個步驟是在學習步驟或學習階段。
在此步驟中,分類演算法構建分類器。
分類器是從訓練集由資料庫元組和其相關聯的類別標籤的構建。
構成所述訓練集合中的每個元組被稱為一個類或類。這些元組也可以被稱為樣品,物件或資料點。
在此步驟中,分類器被用於分類。這裡的測試資料來估算的分類規則的準確性。分類規則可以應用到新的資料元組,如果準確度被認為是可以接受的。
主要的問題是準備資料的分類和預測。準備資料包括以下活動:
資料清理 - 資料清理涉及刪除缺失值的噪聲和治療。噪聲是通過運用平滑技術和遺漏值的問題是由最常出現的值該屬性替換缺失值解決了刪除。
相關分析 - 資料庫也可具有不相關的屬性。相關分析是用於了解任意兩個給定的屬性是否相關。
資料轉換和減少 - 該資料可通過任何以下方法進行變換。
正常化- 該資料是使用歸一化變換。歸一化處理包括縮放為給定屬性的所有值,以使它們落入一個小的指定範圍內。歸一化時使用的學習步驟中,涉及計量的神經網路或方法的使用。
概括 - 該資料也可以通過將其推廣到更高的概念轉化。為此,我們可以使用概念層次。
注意:資料也可以通過一些其他方法,如小波變換,離散化,直方圖分析,聚類和減少。
這裡是標準的分類比較和預測的方法:
準確性 - 分類的準確性是指分類的正確預測的類標籤的能力和預測的準確性是指在給定的預測在多大程度上能夠猜出預測屬性的值的一個新的資料。
速度 - 這指的是計算成本中生成和使用的分類器或預測。
穩健性- 它指的是分類或預測的,從給定的噪聲資料做出正確的預測能力。
可延伸性- 可延伸性是指構建分類或預測有效地給予大量資料的能力。
解釋性- 這指的是在何種程度上的分類或預測理解。