中國移動總部集中經(jīng)營分析系統(tǒng)——深度分析云助力中移動經(jīng)營決策
項目背景
深度分析云是中國移動總部集中經(jīng)分系統(tǒng)的重要組成部分,負責歷史數(shù)據(jù)存儲與深度分析,用于匯集經(jīng)分主數(shù)據(jù)倉庫、B域、O域、M域數(shù)據(jù),以及Hadoop云的互聯(lián)網(wǎng)分析結(jié)果、采樣數(shù)據(jù),用以支撐各類開放式分析環(huán)境,合理分配數(shù)據(jù)空間、運算資源。數(shù)據(jù)分布采用更為合理的多層結(jié)構(gòu),構(gòu)建數(shù)據(jù)和應(yīng)用的生命周期管理機制,規(guī)劃進行科學部署。
需求分析
深度分析云定位于集中經(jīng)分系統(tǒng)的歷史數(shù)據(jù)存儲與深度分析,在確保數(shù)據(jù)一致性的基礎(chǔ)上,對外提供自助分析、深度挖掘服務(wù)的支撐。本次建設(shè)需求,重點包括:
元數(shù)據(jù)管理、數(shù)據(jù)質(zhì)量管理、系統(tǒng)管理服務(wù);
Sandbox應(yīng)用的管理;
針對自助分析的各類數(shù)據(jù)挖掘,查詢、報表、多維分析;
不良治理數(shù)據(jù)運算和分析展現(xiàn);
與主數(shù)據(jù)倉庫和Hadoop平臺高效的數(shù)據(jù)傳輸。
解決方案
集中經(jīng)營分析系統(tǒng)由三個庫構(gòu)成,三個庫分別為主數(shù)據(jù)倉庫、GBase 8a MPP數(shù)據(jù)倉庫、Hadoop云,各庫通過獨立的集群進行建設(shè),三庫之間數(shù)據(jù)通過ETL平臺來進行調(diào)度和轉(zhuǎn)移。
深度分析云是由GBase 8a MPP Cluster分布式數(shù)據(jù)庫構(gòu)成,集群節(jié)點數(shù)共計1186個,其中包括1期266節(jié)點個數(shù)據(jù)倉庫節(jié)點,2期920節(jié)點;13.3PB實際入庫,每日增量9.7TB,數(shù)據(jù)來源于全國31省上傳的業(yè)務(wù)數(shù)據(jù)。深度分析云作為存儲數(shù)據(jù)的平臺,由以下四類數(shù)據(jù)組成:
來自B域、O域、M域的融合數(shù)據(jù);
來自非結(jié)構(gòu)化數(shù)據(jù),即Hadoop云的互聯(lián)網(wǎng)分析及匯總的結(jié)果;
來自自助分析提供的沙盒數(shù)據(jù)、采樣驗證數(shù)據(jù)等;
來自數(shù)據(jù)集市數(shù)據(jù)。
數(shù)據(jù)規(guī)模為“12+1”月明細數(shù)據(jù)。
MPP數(shù)據(jù)庫集群組成的深度分析云,重點包含如下功能:
實現(xiàn)底層結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)的輕度匯總,并在匯總數(shù)據(jù)基礎(chǔ)上實現(xiàn)多維分析、趨勢分析、TopN分析、原因影響分析和What IF分析等;
通過海量的跨域數(shù)據(jù)間的關(guān)聯(lián)計算實現(xiàn)深度分析與挖掘,生成準確的用戶畫像;
自助分析查詢能力;
提供數(shù)據(jù)集市應(yīng)用;
借用MPP數(shù)據(jù)倉庫的OLAP數(shù)據(jù)處理能力,生成數(shù)據(jù)沙盒(Data Sandbox)。
價值體現(xiàn)
自助分析:自助報表、多維分析查詢實現(xiàn)秒級響應(yīng),解決大數(shù)據(jù)量查詢效率低下問題,有效提升用戶滿意度;
動態(tài)擴展:系統(tǒng)可擴展能力強,支持集群動態(tài)擴展,且性能隨著節(jié)點的增加而線性提升;
低投高效:GBase 8a MPP Cluster運行于低成本X86 PC Server,成本低廉,性能高效;
國產(chǎn)化:產(chǎn)品完全自主研發(fā),國產(chǎn)可控,響應(yīng)去IOE的發(fā)展趨勢;
混搭架構(gòu)支撐海量數(shù)據(jù):通過分布式計算和存儲以及Hadoop + MPP + 主數(shù)據(jù)倉庫的混搭結(jié)構(gòu)有效支撐海量數(shù)據(jù)。