Hadoop的三大組件分別是:分布式存儲系統(tǒng) HDFS,提供了高可靠性、高擴(kuò)展性和高吞吐率的數(shù)據(jù)存儲服務(wù);分布式計算框架 MapReduce,具有易于編程、高容錯性和高擴(kuò)展性等優(yōu)點;分布式資源管理框架 YARN,負(fù)責(zé)集群資源的管理和調(diào)度。
hadoop三大組件
1、分布式存儲系統(tǒng) HDFS(Hadoop Distributed File System)。
提供了高可靠性、高擴(kuò)展性和高吞吐率的數(shù)據(jù)存儲服務(wù)。
一個高可靠、高吞吐量的分布式文件系統(tǒng),存儲海量數(shù)據(jù)、分布式、安全性、副本數(shù)據(jù)、數(shù)據(jù)是以block的方式進(jìn)行存儲的,128M。
比如:200M—128M 72M。
2、分布式計算框架 MapReduce。
具有易于編程、高容錯性和高擴(kuò)展性等優(yōu)點。
一個分布式的離線并行計算框架、對海量數(shù)據(jù)的處理、分布式。
思想:分而治之、大數(shù)據(jù)集分為小的數(shù)據(jù)集。每個數(shù)據(jù)集進(jìn)行邏輯業(yè)務(wù)處理(map),合并統(tǒng)計數(shù)據(jù)結(jié)果(reduce)。
3、分布式資源管理框架 YARN(Yet Another Resource Management)。
負(fù)責(zé)集群資源的管理和調(diào)度。
分布式資源管理框架,管理整個集群的資源(內(nèi)存、CPU核數(shù)),分配調(diào)度集群的資源。
[免責(zé)聲明]
文章標(biāo)題: hadoop三大組件
文章內(nèi)容為網(wǎng)站編輯整理發(fā)布,僅供學(xué)習(xí)與參考,不代表本網(wǎng)站贊同其觀點和對其真實性負(fù)責(zé)。如涉及作品內(nèi)容、版權(quán)和其它問題,請及時溝通。發(fā)送郵件至36dianping@36kr.com,我們會在3個工作日內(nèi)處理。