更多技術交流、求職機會，歡迎關注位元組跳動資料平臺微信公眾號，並進入官方交流群

範例 DAG 介紹

DataLeap 是火山引擎自研的一站式巨量資料中臺解決方案，集資料整合、開發、運維、治理、資產管理能力於一身的巨量資料研發治理套件。在平臺中，一個核心的功能為任務的排程，會根據任務設定的排程頻率（月級，日級，小時級等）執行任務，從而生成對應的範例。

在數倉研發中，不同的表之間會存在依賴關係，而產生表資料的任務範例，也會因此存在依賴關係。只有在上游範例執行成功、下游範例到達設定的執行時間且資源充足的情況下，下游範例才會開始執行。所以，在日常的任務運維中，常常需要分析範例上下游的執行情況，根據具體的情況對範例進行置成功、重跑等操作。

而如何清晰地展示範例之間的關係，幫助使用者快速地分析整個鏈路的執行情況，並完成問題定位和運維操作，則是範例 DAG 需要解決的問題。下面對比下優化前後的效果。

優化前：

可以看到在複雜鏈路中，將所有節點的關係全部展示出來，導致連線混亂，需要通過不停的拖拽、縮放，才能找到沒有執行的上游節點。

優化後：

通過採用了將節點聚合的形式，簡潔地展示上下游關係。同時，採用了將範例狀態進行分類的形式，提供快捷操作的按鈕，讓使用者可以只關注特定狀態的範例，減少了無用資訊對使用者運維操作的干擾。下面將詳細介紹優化的整體過程。

概念

任務：在 DataLeap 資料研發平臺中，對資料執行一系列操作的定義。
範例：通過任務設定的執行頻率（月級、天級等）而建立的一個任務的快照。
DAG：全稱為 Directed Acyclic Graph，指有向無環圖，具備嚴密的拓撲性質，有很強的流程表達能力。
DAG 佈局：指根據有向無環圖中邊的方向，自動計算節點層級和位置的佈局演演算法。

業務場景

以其中一個場景為例：

對於任務 test_3 在 2022-09-29 的範例進行分析可知。當前範例沒有執行，是由於上游任務 test_2 在 2022-09-29 的範例執行失敗導致的，那麼此時可聯絡上游範例對應的任務的負責人，對範例進行處理（包括但不限於重跑，置成功等操作）。

問題

在當前的範例 DAG 圖中，使用者在實際使用中會碰到如下問題：

複雜的範例 DAG 圖無法渲染。

在一些業務方向中，會出現 DAG 圖中有幾千節點。由於資料處理的複雜和採用了 svg 的渲染方案，常常會導致前端瀏覽器的崩潰。
同層級節點過多，操作困難。

以下圖為例，在分析上游範例中，是哪個範例沒有執行，導致當前範例沒有執行時，需要通過連續拖拽，才能定位到關注的上游範例。
檢視節點依賴時，只能不斷展開，在對不同的上游依賴進行展開時，會導致圖展示混亂。

需求分析

在通過使用者調研及使用過程中發現，使用 DAG 進行分析時主要有以下場景：

當前範例已經到達指定執行時間，但是沒有執行。

在這種情況下，使用者關注的是上游沒有執行的範例 / 執行失敗的範例，聯絡上游範例的責任人進行問題定位。
當範例已經執行成功，但是完成時間比正常情況下有延遲。

在這種情況下，使用者關注的是上游範例中，最晚完成的範例。從而判斷是否對鏈路進行治理優化。
當範例執行失敗，導致下游沒有執行。

在這種情況下，使用者關注的是依賴當前範例的所有下游範例，同時需要對下游範例進行聚合篩選，比如任務的優先順序（代表任務的核心程度），以通知下游範例進行重跑等操作。

結合上面存在的問題可得到，主要原因是由於在複雜鏈路情況下，上述需求比較難滿足。而在舊版的 DAG 中，針對簡單鏈路和複雜鏈路的處理是一致的，為此，我們需要設計解決複雜鏈路場景下的方案。

功能設計

針對上面存在的問題以及對需求的分析，我們可以進行如下的功能實現與設計：

渲染方案替換

將 svg 的渲染方案替換成 canvas 渲染，通過減少頁面中 DOM 的數量，提高前端渲染效能。

不同場景的功能設計

通過上面的需求分析，我們設計了不同的功能模式以滿足不同的需求。

模式名稱	功能
通用模式	分析上游阻塞下游執行的原因、檢視上游最晚完成的範例
統計模式	對依賴當前範例的所有下游進行分組檢視
鏈路模式	分析兩個範例之間的鏈路關係

通用模式

在通用模式中，使用者關注的是節點上下游的關係，在複雜鏈路中快速找到阻塞節點，同時關注阻塞節點的資訊。

針對複雜鏈路，我們設計了多種優化形式：

首先，在同一層的節點超過一定的數量（可自定義）後，所有節點將聚合在一起，我們稱之為聚合節點。這種優化下，可以解決上面提到的由於同一層級節點過多，查詢特定狀態節點不便的問題。也支援點選聚合詳情，通過列表的形式，檢視所有被聚合的節點。並支援篩選，快速查詢到關注的節點並通過展開，恢復與當前節點的依賴關係。