摘要:隨著雲端計算的興起和滲透,雲數倉成為了數倉技術演進的新階段,並且逐漸成為了眾多企業的共同選擇。
本文分享自華為雲社群《從GaussDB(DWS)的技術演進,看資料倉儲的積澱與新生》,作者: 華為雲頭條。
資料驅動著現代商業的發展
今天,無論在製造、零售、物流
還是在網際網路、金融等行業
資料都變得比以往任何時候更為重要
海量且多樣的資料浪潮對資料處理和分析提出了更高的要求,也使得資料倉儲走向了多元化的發展之路,傳統數倉、資料市集、實時數倉等相繼誕生。此外,隨著雲端計算的興起和滲透,雲數倉成為了數倉技術演進的新階段,並且逐漸成為了眾多企業的共同選擇。
「資料倉儲」的概念並非近些年才出現,關於它的起源,眾說紛紜:
隨著技術的不斷髮展和產業實踐的深入,資料倉儲逐漸成為了企業資訊管理中不可或缺的部分。在實際應用中,資料倉儲已經被廣泛應用於各個領域,如客戶關係管理、商業智慧、金融風險評估等。例如:
一些大型科技公司,基於自身業務訴求,也走上了資料倉儲的研發之路。
比如華為雲早在 2011 年就開始做資料倉儲——GaussDB(DWS)的預研,在經受了海量自有業務資料的考驗後,於2015年推向市場,面向金融、政府傳統一體機等企業級核心數倉場景提供服務,2017年 GaussDB(DWS)上雲,進一步提升了服務能力與服務範疇。
據華為雲數倉GaussDB(DWS)資深產品專家黃海燕介紹,GaussDB(DWS)是華為雲資料生產線上的一個明星產品,是支援實時入庫、實時分析、批次運算、互動式查詢的一站式分析平臺,具備傳統數倉的超大規模、高效能、高並行等優勢,同時也具備雲原生數倉的存算分離、彈性伸縮、Serverless、湖倉一體和數智融合等能力。
歷時12年,從內到外、從本地部署到雲端服務,GaussDB(DWS)逐漸探索出了適應雲時代多場景需求的雲數倉之路。
2017 年,華為雲開始加速拓展業務,推出了更多雲端計算服務,GaussDB(DWS)也全面上雲。上雲之後帶來的最直接的價值在於可以減少客戶企業的硬體投資和運維成本,提高整體的運營效益。但是由於企業的業務規模不同,負載差異非常大,黃海燕表示,小一點的可能只有幾十GB的資料集,大的則有數百TB甚至更多的資料集。業務規模的差異對數倉服務的彈性也提出了更高的要求。
針對這個問題,華為雲GaussDB(DWS)在一開始就將數倉服務傳統的一體機模式轉換成了彈性計算服務ECS+彈性儲存服務EVS上的存算分離模式,實現了計算儲存獨立的擴容和擴充套件,能夠實現計算升降配、儲存彈性擴容,同時也支援在資料擴容之間的資料重分佈,且不影響業務的中斷。
隨著業務場景的不斷深入, ECS+EVS彈性擴充套件的方式在面對一些資料量大但計算要求不高的場景,比如車聯網、網際網路紀錄檔、企業核心數倉的長週期歷史資料時,依然存在掣肘。
對此,GaussDB(DWS)團隊在ECS+EVS的基礎上又做了一層物件儲存OBS的冷資料管理,將車聯網、長週期歷史資料等放到OBS上,在不擴充套件計算的情況下,通過這種方式實現冷熱資料的管理,進而達到計算和儲存的平衡。最終整合為ECS+EVS+OBS冷熱資料管理的方式,GaussDB(DWS)基於本地盤進行效能加速,將 OBS 作為冷資料區,資料儲存異構擴充套件至OBS,利用分層儲存的方式,實現資料按需選擇儲存和計算引擎、冷熱資料遷移動態切換等,進而在不影響數倉體驗的前提下,達到成本最優。
「後來我們發現ECS+EVS+OBS冷熱資料管理的方式依然有覆蓋不到的場景,比如說有一些場景它需要在跑批次的時候同時能夠跑並行的查詢,還希望一份資料實現多樣化的分析和儲存。因為有一部分熱資料在EVS上,很多時候沒有辦法高效地擴充套件分析,所以後面我們把所有的資料都放在OBS上,原來的 EVS作為資料的快取,OBS資料可以供多個叢集、資料湖或者是AI去分析,再通過原先的EVS轉換成一個角色,做資料分析加速。可以理解成我們同時支援了三種模式,這三種模式不是相互替代的關係,而是各有其應用的場景和特點。」黃海燕提到。
基於上述三種Serverless模式, GaussDB(DWS)成功為1700+客戶提供了不同業務場景下的資料倉儲服務。黃海燕表示:「現在雲上有很多彈性的場景,比如說網際網路,在我們歸納來說我們認為有兩大類的彈性場景」。
主要有幾種型別:第一種是在固定的時間點上有一個潮汐波動,比如「雙十一」、「618」這類促銷節點;第二種是隨著企業規模的擴大,使用者量、資料量、計算量也會遞增;第三種是業務具備明顯的長週期時間特徵,比如銀行在月末、季末、年末有結算的需求,計算量會比平時要大,遊戲行業在週末時業務量會比平時更大。
即短期內有多樣化的訴求。比如銀行00:00-8:00是批次的執行高峰,8:00-18:00在批次執行的同時會有一些對報表、經營資料的互動式查詢,18:00後是業務的低峰期,整體呈現一個潮汐波動。
Serverless的極致彈性擴縮容,很好地滿足了長、短週期彈性場景下的業務需求,但是存算分離的架構也可能會帶來網路開銷變大、資料處理效率變低、效能下降等問題,對此GaussDB(DWS)團隊也做出了較多的探索。
除了在Serverless方向的探索外,GaussDB(DWS)在湖倉一體與數智融合上同樣取得了一些突破。
對於「湖倉一體」的探索,華為雲做的比較早,只不過當時主要是通過外表技術實現資料共用,比如對於Spark或Hive的表,在數倉裡建一張外表和它對應,從而查詢Spark和Hive裡的資料。但是這種方式隨著資料規模的增加,維護成本也會倍增。
外表技術本質上只能存取資料,並不知道後設資料長什麼樣,如果後設資料內容統一的話,對使用者來講就不需要建這個外表。
基於這個思路,GaussDB(DWS)引入了External schema的概念,通過建立一個External schema,然後以schema.table的方式去存取Hive和Spark的後設資料,和正常SQL一致,還可以和GaussDB(DWS)的內表做關聯分析,從而使得GaussDB(DWS)的優化器能力和執行引擎能力更強。
「未來華為雲這邊,整個 EI 平臺會建立一個Lake Formation的統一儲存管理的元件服務,它會統一管起來所有的數倉和資料湖裡面的各種元件的後設資料,真正實現後設資料意義上的共用,後設資料的共用是比資料共用難度更高,或者說是真正有更大價值的東西。」華為雲數倉GaussDB(DWS)技術專家齊天表示。
此外,為了解決多種資料庫外掛或引擎的排程問題,GaussDB(DWS)還提供了一個叫做External Connection的能力,可以直接呼叫外部的計算引擎,用於計算共用資料或者是它們的自有資料,從而用一個或者一套引擎實現計算的統一。資料共用、後設資料共用以及計算統一,是GaussDB(DWS)數倉一體的三大技術特徵,並由此打破資料孤島效應,解決企業的IT資源分散、資料不通、應用孤立等問題。
在實現多平臺的資料拉通之後,面向未來,華為雲數倉又提出了「數智融合」的概念。據瞭解,數智融合本質上是把資料和AI這兩條原本完全割裂的生產線融合到一起,從而實現1+1>2的效能。
當前GaussDB(DWS)對數智融合的探索主要在兩大場景:
縱觀資料倉儲的演進之路,不難看出,從誕生的那一刻起,它就不斷在與新技術、新場景相融合,並獲得生機,從而持續釋放資料的價值,推動產業發展。
GaussDB(DWS)的全面Serverless化、湖倉一體和數智融合等特徵,是華為雲對於新時代資料倉儲技術演進方向的重要判斷,同樣也是資料倉儲技術順應時代、發展迭代的結果。隨著AI新時代的到來,數智融合之後的資料倉儲技術又將會迸發出怎樣的力量,值得期待。