| 企服解答
大數(shù)據(jù)Big Data是指大小超出了常用的軟件工具在運行時間內(nèi)可以承受的收集,管理和處理數(shù)據(jù)能力的數(shù)據(jù)集;大數(shù)據(jù)是目前存儲模式與能力、計算模式與能力不能滿足存儲與處理現(xiàn)有數(shù)據(jù)集規(guī)模產(chǎn)生的相對概念。
大數(shù)據(jù)的含義是什么
大數(shù)據(jù)最根本之處在于信息收集方式出現(xiàn)了重大變化與革新。大數(shù)據(jù)的出現(xiàn)與大量信息直接在網(wǎng)絡呈現(xiàn)關系非常緊密。
大數(shù)據(jù)的采集。科學技術(shù)及互聯(lián)網(wǎng)的發(fā)展,推動著大數(shù)據(jù)時代的來臨,各行各業(yè)每天都在產(chǎn)生數(shù)量巨大的數(shù)據(jù)碎片,數(shù)據(jù)計量單位已從從Byte、KB、MB、GB、TB發(fā)展到PB、EB、ZB、YB甚至BB、NB、DB來衡量。大數(shù)據(jù)時代數(shù)據(jù)的采集也不再是技術(shù)問題,只是面對如此眾多的數(shù)據(jù),我們怎樣才能找到其內(nèi)在規(guī)律。
數(shù)據(jù)主要分為結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和元數(shù)據(jù)。在對數(shù)據(jù)進行分析時,我們應當首先思考我們的數(shù)據(jù)分類標準是什么?數(shù)據(jù)是來自于哪個領域的數(shù)據(jù)?我們的目標是什么?比如說我們按照領域分類,數(shù)據(jù)來自于數(shù)據(jù)科學領域,而該領域主要針對的是結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),而非結(jié)構(gòu)化數(shù)據(jù)的處理目標是轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù)以及小數(shù)據(jù)。如果是對計算機領域來說,那么數(shù)據(jù)可以分為int(整型),float(浮點型),bool(布爾型)等。
| 拓展閱讀
大數(shù)據(jù)的特點:
1、數(shù)據(jù)體量巨大
現(xiàn)如今,一般的首頁導航每天需要提供的數(shù)據(jù)超過1.5PB(1PB=1024TB),這些數(shù)據(jù)如果打印出來將超過5千億張A4紙。有資料證實,就目前而言,人類生產(chǎn)的所有印刷材料的數(shù)據(jù)量僅為200PB。
2、數(shù)據(jù)價值密度低
與傳統(tǒng)信息系統(tǒng)相比,大數(shù)據(jù)中的數(shù)據(jù)價值密度相對較低,這就需要更快,更方便的方式來完成數(shù)據(jù)值提取過程,這也是當前大數(shù)據(jù)平臺所關注的核心競爭力之一。實際上,早期Hadoop和Spark平臺之所以能夠脫穎而出的重要原因是它們的數(shù)據(jù)處理(排序)速度相對較快。
3、數(shù)據(jù)多樣化
數(shù)據(jù)的形式是多種多樣的,包括數(shù)字(價格、交易數(shù)據(jù)、體重、人數(shù)等)、文本(郵件、網(wǎng)頁等)、圖像、音頻、視頻、位置信息(經(jīng)緯度、海拔等),等等,都是數(shù)據(jù)。
[免責聲明]
文章標題: 大數(shù)據(jù)的含義是什么
文章內(nèi)容為網(wǎng)站編輯整理發(fā)布,僅供學習與參考,不代表本網(wǎng)站贊同其觀點和對其真實性負責。如涉及作品內(nèi)容、版權(quán)和其它問題,請及時溝通。發(fā)送郵件至36dianping@36kr.com,我們會在3個工作日內(nèi)處理。