ETL體系結構


ETL代表Extract,Transform和Load。在今天的資料倉庫世界中,該術語擴充套件到E-MPAC-TL或Extract,Monitor,Profile,Analyze,Cleanse,Transform和Load。換句話說,ETL專注於資料品質和後設資料。

ETL體系結構

提取

提取的主要目標是盡可能快地從源系統收集資料,並且對這些源系統不太方便。它還指出,應根據情況為源日期/時間戳,資料庫紀錄檔表,混合選擇最適用的提取方法。
提取

轉換和載入

轉換和載入資料就是要整合資料,最後將組合資料移動到演示區域,終端使用者社群可以通過前端工具存取這些區域。在這裡,重點應放在ETL工具提供的功能上並最有效地使用它。使用ETL工具是不夠的。在中型到大型資料倉庫環境中,盡可能標準化資料而不是進行自定義非常重要。ETL將減少不同源的吞吐時間,以便將目標開發活動作為傳統ETL工作的主要部分。

監控

監控資料可以驗證資料,這些資料在整個ETL過程中移動,並有兩個主要目標。首先,應篩選資料。在進行過多檢查時,應盡可能平衡輸入資料,而不是減慢整個ETL過程。這裡可以使用Ralph Kimbal篩選技術中使用的由內而外的方法。此技術可以一致地捕獲所有錯誤,這些錯誤基於預定義的後設資料業務規則集,並通過簡單的星型模式實現對它們的報告,從而可以隨時檢視資料品質的變化。其次,我們應該關注ETL的表現。此後設資料資訊可以插入到所有維度和事實表中,並且可以稱為審計維度。

品質保證

品質保證是可以根據需要定義的不同階段之間的過程,這些過程可以檢查價值的完整性; 我們在不同的ETL階段之間是否仍有相同數量的記錄或特定措施的總數? 應將此資訊捕獲為後設資料。最後,應該在整個ETL過程中預見資料沿襲,包括產生的錯誤記錄。

資料分析

它用於生成有關源的統計資訊。資料剖析的目的是了解資源。資料分析將使用分析技術通過分析和驗證資料模式和格式以及通過識別和驗證資料源中的冗餘資料來發現資料的實際內容,結構和品質。必須使用正確的工具,該工具用於自動執行此過程。它提供了大量的資料。

資料分析

要分析組態資料的結果,請使用資料分析。為了分析資料,更容易識別資料品質問題,例如缺少資料,資料不一致,資料無效,約束問題,孤兒等問題,重複。必須正確捕獲此評估的結果。資料分析將成為源和資料倉庫團隊之間的溝通媒介,以解決懸而未決的問題。目標對映的來源高度依賴於源分析的品質。

源分析

在源分析中,不僅要關注源,還要關注周圍環境,以獲取源文件。源應用程式的未來取決於當前的原始資料問題,相應的資料模型/後設資料儲存庫,以及源所有者接收源模型和業務規則的演練。與源的所有者建立頻繁會議以檢測可能影響資料倉庫和相關ETL過程的更改至關重要。

淨化

在本節中,可以修復找到的錯誤,該錯誤基於預定義規則集的後設資料。在這裡,需要區分完全或部分拒絕的記錄,並能夠手動糾正問題,或者通過糾正不準確的資料欄位,調整資料格式等來修復資料。

E-MPAC-TL是一種擴充套件的ETL概念,它試圖平衡需求與系統,工具,後設資料,技術問題和約束以及最重要的資料本身的現實。