ETL管道


ETL管道是指一組從輸入源提取資料,轉換資料並載入到輸出目的地(如datamart,資料庫和資料倉庫)以進行分析,報告和資料同步的過程。

ETL管道

ETL代表Extract,Transform和load。

提取

在此階段,資料從各種異構源中提取,例如業務系統,行銷工具,感測器資料,API和事務資料庫。

轉換

第二步是將資料轉換為不同應用程式使用的格式。在此階段,使用不同應用程式中使用的格式更改資料儲存格式的資料。在成功提取資料之後,將資料轉換為用於標準化處理的形式。ETL過程中使用了各種工具,例如Data Stage,Informatica或SQL Server Integration Services。

載入

這是ETL過程的最後階段。在這裡,資訊以一致的格式提供。現在可以獲得任何特定的資料,並可以將其與另一部分資料進行比較。資料倉庫可以自動更新或手動觸發。這些步驟根據需求在倉庫之間執行。作為過程的一部分,資料臨時儲存在至少一組臨時表中。

但是,當資料載入到資料庫或資料倉庫時,資料管道不會結束。ETL目前正在發展,因此它可以支援跨事務系統,運營資料儲存,MDM中心,雲和Hadoop平台的整合。由於非結構化資料的增長,資料轉換過程變得更加複雜。例如,現代資料流程包括實時資料,例如來自廣泛的電子商務網站的網路分析資料。Hadoop是巨量資料的代名詞。開發了幾種基於Hadoop的工具來處理ETL過程的不同方面。我們可以使用的工具取決於資料的結構,批次或處理的資料流。

1. ETL管道與資料管道的區別

雖然ETL管道和資料管道幾乎都做同樣的活動。他們跨平台移動資料並以此方式對其進行轉換。主要區別在於構建管道的應用程式。

1.1. ETL管道

ETL管道是為資料倉庫應用程式構建的,包括企業資料倉庫以及特定於主題的資料集市。當新應用程式替換傳統應用程式時,ETL管道也用於資料遷移解決方案。ETL管道通常使用精通轉換結構化資料的行業標準ETL工具構建。

數據管道或商業智能工程師構建ETL管道

1.1. 資料管道

可以為使用資料帶來值的任何應用程式構建資料管道。它可用於跨應用程式整合資料,構建資料驅動的Web產品,構建預測模型,建立實時資料流應用程式,執行資料挖掘活動,構建數位產品中的資料驅動功能。隨著開源巨量資料技術(用於構建資料管道)的可用性,過去十年中資料管道的使用有所增加。這些技術能夠轉換非結構化資料和結構化資料。

ETL管道和資料管道之間的區別,如下所示:

ETL管道 資料管道
ETL管道定義為從一個系統中提取資料,轉換並將其載入到某個資料庫或資料倉庫的過程。 資料管道是指將資料從一個系統移動到另一個系統並沿途轉換資料的任何處理元素集。
ETL管道表示管道分批工作。例如,管道每12小時執行一次。 資料管道也可以作為流評估執行(即,每個事件在發生時進行處理)。資料管道型別是ELT管道(將整個資料載入到資料倉庫並稍後進行轉換)。