大數據是一個以數據為核心的行業。從數據生命周期的傳遞和演變來看,大數據產業的生成過程可以分為以下幾個部分:數據收集、數據存儲、數據建模、數據分析和數據實現。下面就由小編為您介紹一下大數據開發、架構與數據分析的區別,讓我們一起來看看吧!
大數據開發、架構與數據分析的區別
通過各種軟件收集數據,通過云數據中心存儲,通過數據科學家或行業專家建模和處理,最終數據分析發現大量看似無關的數據背后的因果關系,這些因果關系的意義將使人們在未來的各個方面進行推測,降低試錯成本,降低風險,解放生產力。
目前市場上人才需求觀和部署企業自身大數據項目來看,大致分為3個方向:大數據架構、大數據開發、大數據分析。
大數據架構偏重基建和架構,更多注重的是Hadoop、Spark、Storm等大數據框架的實現原理、部署、調優和穩定性問題,以及它們與Flume、Kafka等數據流工具以及可視化工具結合技巧,再有就是一些工具的商業應用問題,如Hive、Cassandra、HBase、PrestoDB等。能夠將這些概念理解清楚,并能夠用辯證的技術觀點進行組合使用,達到軟/硬件資源利用的最大化,服務提供的穩定化,這是大數據架構人才的目標。
主要研究方向
架構理論:高并發、高可用、并行計算、MapReduce、Spark等
數據流應用:Flume、Fluentd、Kafka、ZeroMQ等
儲存應用:HDFS、Ceph等
軟件應用:Hive、HBase、Cassandra、PrestoDB等。
可視化應用:HightCharts、ECharts、D3、HTML5、CSS3等。
大數據架構師對可視化應用部分要求不高,只需大致了解即可,但其他架構層面、數據流層面、存儲層面、軟件應用層面等都需要做比較深入的理解和落地應用。至少在每一個層面中挑選一個完全純屬的應用產品。
大數據開發偏重應用實現,注重服務器端開發、數據庫開發、呈現與可視化人機交互等銜接數據載體和數據加工各個單元以及用戶的功能落地與實現。
主要研究方向
數據庫開發:RDBMS、NoSQL、MySQL、Hive等。
數據流工具開發:Flume、Heka、Fluentd、Kafka、ZMQ等。
數據前端開發:HightCharts、ECharts、JavaScript、D3、HTML5、CSS3等。
數據獲取開發:關鍵詞有爬蟲、分詞、自然語言學習、文本分類等。
大數據開發和大數據架構方向很多關鍵詞是重合的,但一個主要是“開發”,一個主要是“應用”。“應用”更多的是懂得這些這種技術能為人們提供什么功能,以及使用這種技術的優缺點,并擅長做取舍;“開發”更注重的是熟練掌握,快速實現。
大數據分析偏重于建模與分析,更多注重的是數據指標的建立,數據的統計,數據之間的聯系,數據的深度挖掘和機器學習,并利用探索性數據分析的方式得到更多的規律、知識,或者對未來事物預測和預判的手段。
主要研究方向
數據庫應用:RDBMS、NoSQL、MySQL、Hive、Cassandra等。
數據加工:ETL、Python等。
數據統計:統計、概率等。
數據分析:數據建模、數據挖掘、機器學習、回歸分析、聚類、分類、協同過濾等。
大數據分析主要是數據統計和數據分析。要有良好的數學素養,一般來說是數學專業。另一方面是對業務知識的理解。每個行業和公司的業務形式都是多種多樣的。只有充分了解這些業務形式和業務流程,才能更正確地建模和解讀數據。以上就是小編為您介紹的大數據開發、架構與數據分析的區別。
[免責聲明]
文章標題: 大數據開發、架構與數據分析的區別
文章內容為網站編輯整理發布,僅供學習與參考,不代表本網站贊同其觀點和對其真實性負責。如涉及作品內容、版權和其它問題,請及時溝通。發送郵件至36dianping@36kr.com,我們會在3個工作日內處理。