| 企服解答
大數據平臺,可以從大數據處理流程來理解。大數據處理流程包括數據采集,數據融合,數據治理,存儲計算,數據分析,數據可視化。
大數據平臺是什么
1、數據采集
這一塊,有設備數據iot,系統數據可以用etl,互聯網數據用爬蟲,日志數據可以用flume,kafka什么的。這樣解決了數據采集的問題,你就有了大數據。
2、數據融合
是做數據的整合,將一些需要的數據拿出來,或者過濾掉不需要的數據,例如做網站日志分析的時候,用hive做一些數據處理,處理的數據再去做一些網站kpi的分析。數據治理說起來簡單其實是很復雜的一件事。
3、數據治理
就是把數做的規整,整齊,標準統一,質量高的數據。但是這個涉及業務,梳理會很麻煩。
4、存儲計算
就算是大數據的核心功能了。將大數據存儲起來,然后進行計算,得到結果,這些都是需要分布式的。存儲是基于hdfs的,文件存儲,列存儲等。計算的話區別于不同的場景分為三類吧,離線計算也叫批量計算,實時流處理,查詢式分析等等。離線是MR 、spark,實時的有flink、sparkstreaming、strom,查詢式分析的話就是提前做一些數據處理,然后通過sql查詢進行分析(可以百度百度)。
5、數據分析
就理解為人工智能和統計分析。現在人工智能這么火,大數據平臺不提供ai能力就不能叫大數據平臺。主要包括一些機器學習算法和深度學習算法,一般的數據預測用機器學習就夠了,語義、圖像識別等等用深度學習。常見的兩個框架機器學習skitlearn、深度學習Tensorflow。
6、可視化
這個是展現形式,比較常見的bi,可視化大屏等等的。
| 拓展閱讀
大數據平臺的功能:
1、容納海量數據
利用計算機群集的存儲和計算能力。不僅在性能上有所擴展,而且其處理傳入的大量數據流的能力也相應提高。
2、速度快
結合列式數據庫架構(相對于基于行的非并行處理傳統數據庫)和使用大規模并行處理技術,不僅能夠大幅提高性能(通常約100到1000倍),還可以實現更低且更透明的定價機制。
3、兼容傳統工具
確保平臺已經過認證,可以兼容傳統工具。
4、利用Hadoop
Hadoop已成為大數據領域中的主要平臺。利用Hadoop作為用于持久性和輕量型數據管理的高效益平臺。
5、為數據科學家提供支持
數據科學家在企業IT中擁有著更高的影響力和重要性,快速、高效、易于使用和廣泛部署的大數據平臺可以幫助拉近商業人士和技術專家之間的距離。
6、提供數據分析功能
確保大數據平臺不僅支持在數秒鐘內準備并加載數據,還支持利用高級算法建立預測模型,輕松部署模型以進行數據庫內計分。同時使數據科學家能夠使用現有統計軟件包和首選語言。
[免責聲明]
文章標題: 大數據平臺是什么
文章內容為網站編輯整理發布,僅供學習與參考,不代表本網站贊同其觀點和對其真實性負責。如涉及作品內容、版權和其它問題,請及時溝通。發送郵件至36dianping@36kr.com,我們會在3個工作日內處理。