一、背景介紹

1.1 程式設計師的困擾

作為一名IT從業人員，比如開發和運維，多少有過類似的經歷：睡覺的時候被電話叫醒，過節的時候在值班，遊玩的時候被通知處理故障。作為一名程式設計師，我們時時刻刻都在想著運用資訊科技，為別人解決問題，提升效率，節省成本。隨著微服務架構的快速發展，帶來一系列複雜的呼叫鏈路和海量的資料。對於我們來說，排查問題是一個大挑戰，尋找故障原因猶如大海撈針，需要花費大量的時間和精力。

1.2 現狀分析

vivo已經建立了一套完整的端到端監控體系，涵蓋了基礎監控、通用監控、呼叫鏈、紀錄檔監控、撥測監控等。這些系統每天都會產生海量的資料，如何利用好這些資料，挖掘資料背後的潛在價值，讓資料更好的服務於人，成為了監控體系的探索方向。目前行業內很多廠商都在朝AIOps探索，業界有一些優秀的根因分析演演算法和論文，部分廠商分享了在故障定位實踐中的解決方案。vivo有較完整的監控資料，業界有較完整的分析演演算法和解決方案，結合兩者就可以將故障定位平臺run起來，從而解決困擾網際網路領域的定位問題。接下來我們看下實施的效果。

二、實施效果

目前主要針對平均時延指標的問題，切入場景包括兩種：主動查詢和呼叫鏈告警。

2.1 主動查詢場景

當用戶反饋某個應用很慢或超時，我們第一反應可能是檢視對應服務的響應時間，並定位出造成問題的原因，通常這兩個步驟是分別進行，需要用到一系列的監控工具，費時費力。如果使用故障定位平臺，只需從vivo的paas平臺上進入故障定位首頁，找到故障服務和故障時間，剩下的事情就交給系統完成。

2.2 告警場景

當收到一條關於平均響應時間問題的呼叫鏈告警，只需檢視告警內容下方的檢視原因連結，故障定位平臺就能幫助我們快速定位出可能的原因。下圖是呼叫鏈告警範例：

圖1 呼叫鏈告警

呼叫鏈是vivo服務級監控的重要手段，上圖紅框內原因連結是故障定位平臺提供的根因定位能力。

2.3 分析效果

通過以上兩種方式進入故障定位平臺後，首先看到的是故障現場，下圖表示服務A的平均響應時間突增。

圖2 故障現場

上圖紅框區域，A服務從10:00左右，每分鐘平均時延從78ms開始增長，突增到10:03分的90ms左右。

直接點選圖2藍色的【根因分析】按鈕，就可以分析出下圖結果：

圖3 根因分析結果

從點選按鈕到定位出原因的過程中，系統是如何做的呢？接下來我們看下系統的分析流程。

三、分析流程

圖4 分析流程

紅色箭頭各部分組成了一個遞迴呼叫

圖4是根因分析的主要流程，下面將通過文字詳細描述：

第一步：前端將異常服務名和時間作為引數通過介面傳遞到後端；
第二步：後端執行分析函數，分析函數呼叫檢測演演算法，檢測演演算法分析後，返回一組下游資料給分析函數(包括下游服務及元件、波動方差及pointType)；
第三步：分析函數根據pointType做不同邏輯處理，如果pointType=END_POINT，則結束分析，如果pointType=RPC_POINT，則將下游服務作為入參，繼續執行分析函數，形成遞迴。

RPC_POINT包含元件：HTTP、DUBBO、TARS

END_POINT包含元件：MYSQL、REDIS、ES、MONGODB、MQ

最終分析結果展示了造成服務A異常的主要鏈路及原因，如下圖所示：

圖5 鏈路及原因

在整個分析過程中，分析函數負責呼叫檢測演演算法，並根據返回結果決定是否繼續下鑽分析。而核心邏輯是在檢測演演算法中實現的，接下來我們看下檢測演演算法是如何做的。

四、檢測演演算法

4.1 演演算法邏輯

檢測演演算法的大體邏輯是：先分析異常服務，標記出起始時間、波動開始時間、波動結束時間。然後根據起始時間～波動結束時間，對異常服務按元件和服務名下鑽，將得到的下游服務時間線分成兩個區域：正常區域(起始時間~波動開始時間)和異常區域(波動開始時間～波動結束時間)，最後計算出每個下游服務的波動方差。大體過程如下圖所示：