中亦安圖 :以 NebulaGraph 為底座的智能運維解決
中亦安圖 :以 NebulaGraph 為底座的智能運維解決方案
智能運維落地中遇到的挑戰
隨著 IT 基礎架構的標準化和自動化水平的提升,智能運維技術開始在越來越多企業落地。但相較于互聯網企業,非互聯網行業的智能運維還處于初級階段,特別是金融行業,由于系統組件關系、運維對象、運維部門組織架構等比較復雜,而且監管要求高,運維人員更新與引進速度慢等綜合因素,導致智能運維在金融業的落地門檻較高。
目前,專門針對運維場景設計與優化的機器學習算法已經逐漸成熟,智能運維落地的核心難點落在了如何對海量、多維、多模態的運維數據進行持續的數據治理與高效的數據分析。因此,能處理多維數據統一查詢視圖的運維數據基座成為眾多客戶與團隊的真實痛點需求。
數據中心運維圖譜(KGOPS)解決方案
為什么選擇圖(Graph)
在考慮多維運維數據的關聯需求或嘗試描述 IT 基礎架構時,我們發現圖是最符合業務直覺的表達方式。假想一下,故障發生時工程師腦海中最先浮現什么?就是負責系統的整體架構圖與組件依賴關系,再結合自身的運維知識進行故障根因定位。
因此,為了支持能夠靈活、快速地形成多維數據的查詢視圖,我們選擇了 NebulaGraph 的圖數據庫作為更具優勢的存儲與計算核心。通過設計合理的圖譜結構,組織起已經自動采集的 CMDB 數據、性能監控指標、應用日志數據,甚至是基于微服務的 Trace 數據,從而構建出真正能滿足智能運維的數據基座。
圖的優勢:圖查詢與圖算法
我們知道,變更是引起故障的重要原因之一。每次變更開始時,管理員都需要考慮變更對象、影響面、觸發故障的隱患等一系列問題。部分問題可通過持續集成的管理去解決,另一部分問題則可通過對運維圖譜進行圖查詢解決。 在故障場景中,也可以使用圖查詢的場景,如多告警實體關聯查詢,我們可通過結果視圖尋找多個 IP 之間的關系,故障的根因就能浮出水面。
同時,使用圖算法能夠幫助企業進行運維數據分析和知識挖掘,從而釋放企業長時間積累的運維數據的真實價值。常用的圖算法包括:廣度優先算法、深度優先算法、所有節點對最短路徑、最小生成樹算法、隨機游走算法、中心性算法、緊密性中心性、社群發現算法等。
數據中心運維圖譜(KGOPS)架構總覽
上圖展示的就是 KGOPS 解決方案整體架構圖。它采用 NebulaGraph 作為圖數據存儲核心,通過結合動靜數據,KGOPS 提供標準的 Schema 定義方案,用戶可以根據自身 IT 環境的具體情況,實際需求進行定制化修改。同時,我們在 Server 層封裝了大量圖計算、圖分析的模塊,可以組合提供用戶進行使用,并在用戶層提供統一的工作臺,用戶可以方便地進行交互查詢。
目前圖相關技術已成為業界數據分析的熱點和重點,諸多頭部企業已經擁有多年將圖應用于運維業務的經驗,我們的智能運維解決方案依托于圖數據庫 NebulaGraph 本身的圖計算能力與諸多頭部金融客戶的落地建設經驗,提供開箱即用的圖算法,幫助客戶在具體的場景中實現智能算法,輔助疏通運維管理的阻滯點,提升運維團隊整體效率。
使用場景
1. 數據流與訪問關系
不同的應用之間基于業務邏輯,呈現出各類應用的數據訪問關系,這些關系對應用的運行、重要性等都有重要的參考價值。配置管理數據庫( CMDB )能夠將數據流向關系與應用訪問關系以可視化方式呈現出來,便于管理人員進行數據分析。
涉及技術:路徑檢索類算法、圖譜自動布局算法、圖譜交互可視化引擎。
價值:可用于性能分析、故障分析、影響分析,為管理者提供應用性能監控、數據鏈路支持。
2. 智能配置基線比對
基于應用系統的整體架構配置基線比對。包括對應用、中間件、數據庫、服務器等進行配置比對。
價值:直觀展示配置和架構上的差異,為災備切換、應用發布等復雜場景提供可行性分析的數據支撐。
3. 單點隱患發現
應用系統的運行架構中,可自動發現單點運行的環節。
涉及技術:圖視圖切換、自定義圖查詢
價值:快速識別影響應用系統可用性的風險點
4. 重要程度分級
利用應用的類型信息、關系信息,分析應用的重要程度與影響范圍,確定應用重要級別。
涉及技術:自定義圖查詢、節點影響力算法
價值:對應用系統的定級提供數據支持,便于管理者對應用系統進行更加精細化管理
5. 風險分攤模型
按應用的重要程度設置風險權重,并根據運行架構,將風險值向下分攤,到物理層時,能夠自動計算不同物理節點的風險權重值。
涉及技術:節點影響力算法、圖傳播算法
價值:能夠幫助管理人員識別出有風險匯聚的資源點,并且準確識別風險級別
合作案例
某大型股份制銀行在項目初期面臨的問題有:部分數據關聯缺失/過多關聯直接無法顯示/無場景應用指導 / 多數偏向于自主查詢。
中亦的團隊通過融合該銀行的 CMDB 與其他可獲得的監控性能數據,配置變更數據、告警數據,采用科學合理的圖譜設計方法,構建出統一、全面、可擴展性強,符合該銀行自身業務特點的運維知識圖譜。解決的具體場景有:
- 多節點關聯分析
通過輸入多個節點,實時多維度分析節點關聯,幫助運維工程師洞悉隱藏于海量監控數據之中的故障機器之間各維度的顯隱性關聯關系,進而對下一步的排障工作提供指導。
- 告警事件全景透視
通過輸入告警信息,穿透顯示一定范圍內的告警鏈路與機器拓撲,及其配置變更等信息,幫助運維工程師迅速了解全局情況,判斷告警影響范圍,確定關鍵影響節點,輔助生成排障方案。
- 配置變更影響分析
通過輸入配置變更工單號,實時穿透歷史變更情況與關聯機器變更情況,幫助運維工程師分析變更配置的潛在風險。
項目收益:
-
構建并完善了全景應用運維圖譜,不僅可以支持更復雜的運維管理場景變更影響面分析,并可以對外提供數據查詢服務,大幅降低運維管理及外圍系統查詢對接成本。
-
將告警粒度從應用監控指標層穿透到資源指標層,明顯提升了故障定位的精度。
-
將小時級排障縮短至分鐘級排障,大幅提升了故障定位的時效性。
總結
智能化運維對于不同的角色帶來的收益是不同的。 對于管理層,智能化運維可實現資產數據化和可視化,實現管理數字化,同時提升企業信息安全。
對于運維部門,智能化運維可實現企業動態應用拓撲圖、智能基線比對、智能變更審核,同時支持基于 AIOps(人工智能 IT 運營) 的各種提升。
對于業務團隊,智能化運維可實現部門資產可視化、成本數字化、運維數據采集加業務數據,實現全面提升運營、營銷和反欺詐效果。
目前,智能運維解決方案已在金融行業進入落地階段。歡迎相關行業伙伴前來交流,我們也希望為企業數據中心運維數字化轉型提供更多支持。