近年來,大量的新技術在大數據領域不斷涌現,成為大數據采集、存儲、處理和可視化的有效手段。大數據技術可以挖掘隱藏在大規模數據中的信息和知識,為人類社會經濟活動提供依據,提高各個領域的運行效率,乃至整個社會經濟的集約化程度。下面就讓小編為大家介紹大大數據智能分析的核心技術。
大數據智能分析的核心技術
大數據智能分析的核心技術
大數據堆棧,底層是包含計算資源、存儲器和網絡互連的基礎設施,主要包括計算節點、集群、機柜和數據中心。上面有數據的存儲與管理,包括文件系統、數據庫以及類似YARN的資源管理系統。
接下來還有計算處理層,比如hadoop、MapReduce和Spark,以及在上面的各種計算范例,比如批處理、流處理和圖計算等等,包括從編程模型如BSP、GAS等衍生出計算模型。以計算處理層為基礎的數據分析與可視化。該分析包含簡單查詢分析、流分析和更復雜的分析(例如機器學習、圖計算等等)。查詢分析多以表結構和關系函數為基礎,流分析基于數據、事件流和簡單的統計分析,而復雜分析基于更復雜的數據結構和方法,如圖、矩陣、迭代計算和線性代數。
通用含義的可視化是顯示分析結果。但通過交互可視化,也能探索性地提出問題,使分析得到新的線索,形成反復的分析與可視化。針對大規模數據進行實時交互式可視化分析及自動化因素的引入是當前研究的熱點。
上面兩個區域垂直貫通,需要從整體、協同的角度看待。一種是編程管理工具,方向是機器通過學習實現自動優化,盡可能不需要編程,不需要復雜配置。另外一個方面就是數據安全,并且貫穿于整個技術領域。在這兩個領域中,垂直打通每一層,還有一些技術方面是跨越多層的,比如“內存計算”實際上涵蓋了整個技術棧。
海量數據的基本處理流程與傳統的數據處理流程并沒有太大的不同,主要區別是:由于大數據要處理大量的非結構化數據,因此在各個處理環節都可采用并行處理。分布式處理,如Hadoop、MapReduce和Spark,已經成為大數據處理各個環節的通用處理方法。
Hadoop是一種分布式計算平臺,允許用戶輕松地構建和使用。通過Hadoop,用戶可以很容易地開發和運行處理大量數據的應用程序。Hadoop是一種數據管理系統,作為數據分析的核心,將結構化和非結構化的數據匯集在傳統的企業數據棧的每一層。
Hadoop也是一種大型并行處理框架,具有超級計算能力,可用于推動企業級應用的執行。Hadoop也是一個開放源碼社區,提供工具和軟件來解決大數據問題。盡管Hadoop提供了許多功能,但是還是應該將其分類為由多個組件組成的Hadoop生態圈,這些組件包括數據存儲、數據集成、數據處理以及用于數據分析的其他專門工具。
Hadoop的生態系統,主要由HDFS、MapReduce、Hbase、Zookeeper、Oozie、Pig、Hive等核心組件組成,并可用于與其他企業結合使用的Sqoop、Flume等框架。與此同時,Hadoop的生態系統正在增長,新增加的Mahout、Ambari、Whirr、BigTop等提供更新功能。
它具有低成本、高可靠性、高擴展、高效率、高容錯等特點,使Hadoop成為最受歡迎的大數據分析系統。然而,它所依賴的HDFS和MapReduce組件卻讓它一度陷入困境,而批量處理使它只能用于離線數據處理,在實時性要求的場景中沒有用武之地。于是,出現了各種基于Hadoop的工具。為降低管理成本,提高資源的利用率,現在有許多資源統一管理調度系統,如Twitter的ApacheMesos、Apache的YARN、Google的Borg、騰訊的Torca、FacebookCorona(開源)等等。
數據采集在大數據生命周期中處于首要環節。按照MapReduce數據生成的應用系統分類,有四種主要的數據源:管理信息系統、網絡信息系統、物理信息系統和科學實驗系統。對不同的數據集,可能存在不同的結構和模式,如文件、XML樹、關系表等,表現出數據的異構性。對于多個異構數據集,需要進行進一步的集成處理,收集、整理、清洗、轉換來自不同數據集的數據,生成新的數據集,為后續的查詢和分析處理提供統一的數據視圖。
目前,國內外對MIS中的異構數據庫集成技術、Web信息系統中的實體識別技術、DeepWeb集成技術、傳感器網絡數據融合技術等進行了深入的研究,并取得了較大的進展,目前已開發了許多數據清洗與質量控制工具,如美國SAS公司的DataFlux、美國IBM的DataStage、美國Informatica公司的InformaticaPowerCenter。
可視化技術在大數據分析的應用過程中,通過交互的視覺表達方式,幫助人們對復雜數據進行探索和理解。可視化和可視化分析技術可以快速而有效地簡化和提煉數據流,幫助用戶篩選大量數據,幫助用戶更快、更好地發現復雜數據,并成為深入分析復雜數據的必備手段。大型數據可視化主要是基于并行算法設計的技術,合理利用有限的計算資源,對特定數據集進行高效的處理和分析。
一般情況下,大型數據可視化技術結合多種分辨率表示等方法,以獲得足夠的交互性能??萍即笠幠祿⑿锌梢暬ぷ髦饕婕八姆N基本技術:流線化、任務并行化、管線并行化和數據并行化。
微軟公司在其云計算平臺Azure上開發了大型機器學習可視化平臺(AzureMachineLearning),將有向無環圖的大數據分析任務,并以數據流圖的方式展示給用戶,取得了比較好的效果。同時,阿里巴巴旗下的大數據分析平臺御膳房也在為企業員工提供一個互動大數據分析平臺。以上就是小編為大家介紹的大數據智能分析的核心技術,感謝觀看。
[免責聲明]
文章標題: 大數據智能分析的核心技術
文章內容為網站編輯整理發布,僅供學習與參考,不代表本網站贊同其觀點和對其真實性負責。如涉及作品內容、版權和其它問題,請及時溝通。發送郵件至36dianping@36kr.com,我們會在3個工作日內處理。