導讀
本文將介紹網易數帆在資料治理方面的一些總結和思考。文章將圍繞以下三點展開:
1. 資料治理解決了什麼問題
2. 資料治理體系
3. 淺談資料治理的實現
首先看一下資料治理解決了什麼問題,可以總結為六個方面:
1. 資料開發與資料治理脫節
在許多企業中存在這樣一個現象,就是對於資料的整個開發和治理往往是一個先汙染後治理的過程,資料治理往往不會融入到資料生產的過程當中,與資料開發、建模、運維安全這些環節都會存在脫節的現象。因此,對企業來說進行資料治理的時候就需要對現有的系統和流程進行改造,必然會面對很高昂的成本。所以我們需要將資料治理活動前置,在資料生產環節就加入資料治理的活動,將資料開發和資料治理一體化結合起來。
2. 煙囪式的資料開發
在網易早期,數倉建設更多的是業務部門各自內部進行維護的,沒有上升到組織架構層面進行規劃。不同的業務部門,因為都有資料分析的需求,就導致各部門會存在各種零散分裂的小數倉。給企業內部的資料管理和共用造成很大的問題。煙囪式的資料開發,還容易造成指標口徑不一致、資料重複開發、資料無法共用等問題,在中臺建設前也缺少統一的規範建模的標準。
3. 不同平臺缺少統一的管控
在我們的客戶裡面就有一個比較典型的例子,因為其IT架構存在很多不同的平臺系統,系統從後端到前端也是相互獨立緊耦合開發,導致整個系統很臃腫,建設效率又很低,對於業務的響應也不夠快,並且存在大量的重複建設工作。因此,他們將建立統一標準的巨量資料開發與治理平臺作為集團戰略,將各個獨立系統中存在的大量歷史資料及任務進行統一管理。但是,由於這些獨立系統的存在成為了他們做中臺建設的一個阻礙,如果要去做中臺,不僅需要去承擔高昂的資料遷移成本,面對遷移過程中可能出現的資料遺失問題,還要去培養人員去掌握新的開發和分析工具。所以,他們對開發與治理平臺的訴求就很高。
4. 治理過程缺少可量化的監控
治理過程實際上是很難衡量的。如果忽視了視覺化的成果展示,會導致領導或者客戶不易感知治理的成果,從而無法認同治理團隊的工作。所以,在整個治理過程中,除了要有階段性的目標,還要有視覺化效果的呈現。比如釋出了多少後設資料,這些後設資料在哪裡能夠被看到;存在多少質量稽核規則、又有多少規則被參照了。
5. 對資料的成本和價值缺少精細化的管理
隨著企業業務的高速發展,資料量呈指數增長,相應的資料成本也是急劇增加的。因此,企業需要識別有價值資料,去除無用資料,然後沉澱資料資產。對企業來說,就需要進行資料成本和價值精細化的管理。如何去做好企業公共資源的複用,如何基於ROI的方式去沉澱資料資產等,對整個資料團隊是很大的考驗。這也是資料治理要解決的問題。
6. 資料治理缺少閉環
資料治理實際上是一個長期可持續的過程。因此,我們在治理活動的各個環節是需要做到閉環的,去保證治理的結果切實落地。比如質量稽核規則,如果只是單純設定好質量規則,通過質量稽核規則找出一堆問題,而沒有將其具體落實到某些人或者是落實到相關人員的KPI上,這樣就會導致質量問題可能今天犯了之後,沒人關注,後面還會反覆出現,最後質量規則就形同虛設。資料治理還是要明確責任人,完成問題的反饋、記錄,從而閉環整個流程。
資料治理體系,要根據實際的客戶(企業)場景、行業場景,結合資料治理產品工具,去建立相應的流程,將制度建立在流程的基礎上,管理建立在制度的基礎上,形成全鏈路的資料治理體系。在實際實施過程中,要圍繞資料治理產品工具、流程、制度及管理去展開資料治理。
1. 資料治理工具——整體方案
在治理工具方面,要將治理和開發一體化,將整個治理流程貫穿到各個子產品,去沉澱一套全鏈路的資料治理體系。
在初期,先設計後開發。我們會有相關的一些模組作為支撐。做完之後要對資料進行評估,通過不同的維度去考察治理結果,並進行視覺化展現。整個過程依據於一整套基於企業組織架構而建立並完善的資料治理流程。資料在對外展示並被使用的時候,通過資料資產地圖開放給相關的使用者、業務人員、運營人員、開發人員,讓他們能夠從裡面瞭解後設資料、瞭解資料資產的分佈情況、資料血緣等內容。
2. 資料治理工具——開發與治理一體化
資料開發和治理一體化,指的是將資料治理的過程融入到資料開發的全生命週期當中,強調「先設計、後開發、先標準、後建模」的原則。其目標就是將整個資料治理的流程與開發全生命週期相融合,在資料開發過程中去完成資料治理。通過指標和資料標準的定義,實現「規範即設計,設計即開發,開發即治理」的開發治理一體化理念。
如圖上展示,在不同的階段,將資料模型、資料傳輸、資料安全、資料質量等形成規範化的定義,使整個治理過程與開發過程結合起來。
3. 資料治理流程——規範建模
在整個設計階段進行標準化的規範建模,能夠保證資料模型的規範化,提高資料資產水平,提升資料的質量。可以結合國家的標準、行業的標準、企業自身標準,以及各個業務部門的核心資料去打造一套貼合自身業務發展的資料標準體系,通過資料元和資料字典去承載。也可以通過對各條業務線的分析去梳理出相關的原子指標,派生指標以及複合指標。通過指標系統對指標進行管理,去完成資料規範定義,助力資料模型規範設計。解決指標口徑的計算口徑不一致,指標定義的不一致,資料來源不一致等指標可信度低的問題。最後在資料標準和指標規範下構建模型,從而沉澱我們的業務後設資料。
4. 資料治理流程——後設資料資產治理後設資料可分為業務後設資料、技術後設資料和管理後設資料。首先,要去完善業務後設資料和技術後設資料以及管理後設資料,要將它們補充完整。然後根據後設資料的治理髮布流程將後設資料釋出上線。同時配合資料資產中心的資產健康診斷,並基於 ROI 的資料資產精細化管理,對資料資產的健康情況和使用情況進行實時的觀察,識別有價值的資產。
5. 資料治理流程——湖外資料治理
資料治理的流程,還包括湖外資料的治理。湖外的資料可能來源於業務資料庫,比如 MySQL、Oracle 等。針對這類資料,可以首先通過資料治理的管理員根據治理需求向 IT 部門發起登記資料來源操作,資料來源可來源於不同的業務系統,登記資料來源後就可以進行後設資料採集、註冊。註冊後,就可以根據完善度來決定是否需要治理。最終將資料釋出為資產,供業務人員瀏覽和使用。
6. 資料治理流程——湖內資料治理
相比於湖外資料,湖內資料的治理也是通過註冊、治理、審批、釋出這幾個步驟進行的。首先,進行註冊,註冊後,經過業務治理專員或者技術治理專員不斷完善業務和技術後設資料,向申請人提交發布申請,最終由資料治理管理員稽核釋出,釋出後的資料資產可提供給業務人員瀏覽和使用。如果在使用過程中發現有資料問題,也可再次發起資料治理或者是資料下線。
7. 資料治理制度——開發規範制度
資料治理的制度包含很多,比如開發規範制度,資料要如何去準備?後設資料怎麼去梳理?有沒有模板?建模時主題域的命名?表和欄位的命名有沒有相應的規範要求?資料在進行排程的時候,如何設定?怎樣去運營等等,這些都會有相應的規範。
8. 資料治理制度——指標管理制度
指標管理制度,要明確指標的名稱、計算口徑以及業務口徑,這些都需要有一定的規範。只有有了規範,才能夠保證統一化、標準化。因此,可以有相應的指標管理制度,通過指標管理制度去保障體系化的管理。然後,可以根據這個制度去構建相應的指標模板,去梳理指標的基本資訊、口徑定義,完善指標的血緣關係等。
9. 資料治理制度——資料質量管理制度
資料質量管理制度,包含事前規則定義、事中質量監控、事後量化分析和問題追溯。在事前需求和規則定義的時候,通過事先梳理好的質量規則模板,通過自定義的一些規則,或者通過標準推薦的規則構建模板、構建規範。將質量規則設定完成之後,交與資料治理團隊監控。如果發現質量問題,則要完成質量報告,對問題進行追蹤改進以及相關的績效考核。
10. 資料治理管理——組織架構
在管理層面要構建專門的部門來負責資料治理的工作,完善相關的組織架構,進行權責分擔機制。比如有相關的資料治理管理工作組,有相關的資料治理管理員以及資料治理專員。資料治理管理員是作為集團資料治理工作的管理人員,對所有待治理的資料進行負責,推進和協調各部門的業務資料治理。資料治理專員是分派在各個部門,由各個部門內部確定的專門的一線人員,可對自己部門的資料進行治理。
11. 資料治理管理——運營與沉澱
資料治理不是一個臨時性的工作,從資料生命週期的全過程到治理體系的健康執行都需要一個長效的治理機制來保證,進行體系化的資料治理,發現問題、解決手段、持續運營、持續沉澱要形成閉環。
如圖,圍繞資料資產的閉環。首先是發現問題,我們會圍繞著成本、標準、質量、安全、價值這樣五個方面去明確需要進行治理的內容。然後,基於需要治理的內容,配套專題優化治理工具,比如對無用資料推薦下線、對錶生命週期的管理、對計算任務的優化等。最後,在治理過程當中持續有抓手,包括推播整個專案、個人的資產賬單、資料治理的紅黑榜、資產健康分和個人的任務優先順序和資源預算申請掛鉤等舉措。此外還需進行一些持續性的運營,比如舉辦資料治理大賽,業務線專項治理活動等,來持續運營和打磨產品的能力。
本期分享嘉賓:傅正