品牌名稱
錦泰保險
企業規模
201-500人

錦泰保險成功案例

467次閱讀

錦泰保險IT系統現有核心交換、防火墻、負載均衡設備多臺,同時保險行業的主要業務平臺基本齊全,它們的穩定運行直接關系到IT系統是否能夠正常提供服務,現有監控方式基本靠人員手工進行,人工操作工作量大而且容易造成處理延遲甚至失誤,造成不必要的損失。主要的問題集中在以下兩方面:在IT運維過程中, IT員工被動低效率手工救火,除了一些基本的網絡及服務屬性外,由于IT系統的自身特點,許多重要的系統運行狀態無法獲取, 導致只有當事件已經發生并已造成業務影響時才能發現和著手處理。這種被動“救火”不但使IT運維人員終日忙碌,也使IT運維本身質量很難提高,導致IT部門和業務部門對IT運維的服務滿意度都不高;缺乏高效的IT運維技術工具,錦泰保險的IT系統建設經過一段時間的發展, 已經具備相當的網絡、系統、應用規模,其監控、管理數據也是相當海量之數據,目前的監控管理系統基本都是有其特定的針對性,無法滿足構建符合ITSM管理規范的整體運維體系的要求。在這種情況下,該集團采用Netbase全IT架構網絡管理系統。對所有IT設備,應用、服務進行集中監控。

通過netbase,實現監控自動化,對重要的IT設備實施主動式監控,如路由器、交換機、防火墻、負載均衡、服務器操作系統、中間件、數據庫、業務應用等,通過對上述被監控對象的可用性、性能、日志實現三位一體的主動監控,設定監控閥值、監控策略,實現關鍵項目監控的自動化;配置變更檢測自動化,IT設備配置參數一旦發生變化,將觸發變更流程轉給相關技術人員進行確認,通過自動檢測協助IT運維人員發現和維護配置;維護事件提醒自動化,通過對IT設備和應用活動的實時監控,當發生異常事件時系統自動啟動報警和響應機制,第一事件通知相關責任人;系統健康檢測自動化,定期自動地對IT設備硬件和應用系統進行健康巡檢,配合IT運維團隊實施對系統的健康檢查和監控;維護報告生成自動化,定期自動的對系統做日志的收集分析,記錄系統運行狀況,并通過階段性的監控、分析和總結,定時提供IT運維的可用性、性能、系統資源利用狀況分析報告。

經過與錦泰保險項目人員的充分交流與測試,netbase完全實現了錦泰的各種需求。并實現了radware物理服務器監控,單臺設備多websphere實例監控,單臺設備多oracle實例監控等特殊需求。

 

Websphere,JDBC連接池的監控

undefined由于錦泰業務處于一個高增長期,無法精確定義性能閥值,我們對此提出了動態閥值BaseLine的概念

BaseLine基線閥值是以天和星期為單位對監控項目過去一段時間的平均監控值進行統計和分析的一種方法,BaseLine基線閥值分為上行基線,下行基線和基線值,上行基線和下行基線是在基線值的基礎上網絡管理人員設定無故障范圍,基線值是對過去一段時間監控值進行求平均值或求最大值。 BaseLine基線閥值的設立有助于對設備未來的發展趨勢進行判斷和分析,進而做到提前發現問題,進行預警。

隨著錦泰保險業務的不斷發展,運維人員人數也不斷增加,信息部肖總提出,基于以往的經驗,大多數故障可能并非安全原因及設備性能原因造成,而是由于內部人員的粗心大意造成(例如出于調試原因修改了設備配置,但是忘記改回來,windows域中管理員組的變動等等),因此如果能夠將設備的配置檢查及配置對比納入到監控系統,就能解決大部分類似問題。通過netbase開發部門的共同努力,最終我們實現了juniper,cisco,windows等常用設備的配置對比,一旦線上設備配置更改,管理員們就能第一時間接到通知,大大減少了人為原因導致的各位故障問題。