數據收集是進行大數據處理的前提和必要條件,它在整個過程中占有重要地位。今天小編將為大家介紹三種大數據數據采集的形式:系統日志采集法、網絡數據采集法和其它數據采集法。希望能夠增加大家對大數據數據采集有哪幾種形式的了解。
數據分析
系統日志是記錄系統中硬件、軟件和系統問題的信息,也可以監控系統中發生的事件。用戶可以通過它檢查錯誤的原因,或者找到攻擊者留下的痕跡。系統日志包括系統日志、應用日志和安全日志。
大數據平臺和開源Hadoop平臺產生了大量高價值系統日志信息,如何收集成為研究者的研究熱點。目前,基于Hadoop平臺開發的Chukwa、Cloudera的Flume和Facebook的Scribe(李連寧、2016)成為系統日志收集法的典范。目前,這種采集技術可以每秒傳輸數百MB的日志數據信息,滿足當前人們對信息速度的需求。一般來說,與我們有關的不是這樣的收集法,而是網絡數據收集法。
做自然語言的同學可能對這一點有很深的感觸,除了現在已經存在的公開數據集,用于日常算法研究外,有時為了滿足項目的實際需求,還需要收集和保存現實網頁的數據。目前,收集網絡數據有兩種方法:API和網絡爬蟲類。
API又稱應用接口,是網站管理者為用戶創建的程序接口。這種接口可以阻擋網站基礎的復雜算法,只需簡單調用即可實現數據的請求功能。目前,主流的社交媒體平臺,如新浪微博、百度貼吧和臉書等,都提供應用編程接口服務,可以在官方網站開放平臺上獲得相關的DEMO。但是,API技術最終限于平臺開發者,為了減少網站(平臺)的負荷,一般平臺限制每天的接口調用上限,給我們帶來很大的不便。因此,我們通常采用第二種方法。
網絡爬行動物(也稱為網絡蜘蛛、網絡機器人,在FOFA社區之間,經常被稱為網絡追蹤者是根據一定的規則自動捕獲萬維網絡信息的程序和腳本。另外,不怎么使用的名字有螞蟻、自動索引、模擬程序和蠕蟲。最常見的爬蟲類是我們經常使用的搜索引擎,如百度、360搜索等。這種爬蟲統稱為通用爬蟲,無條件收集所有網頁。
給爬蟲初始URL,爬蟲在提取和保存網頁所需的資源的同時,提取網站所存在的其他網站鏈接,發送請求,接受網站的響應,再次分析網頁,提取所需的資源并保存,提取網頁所需的資源當然,為了滿足更多的需求,多線程爬蟲類也誕生了主題爬蟲類。多線程爬蟲在多線程的同時執行采集任務,一般來說,數據采集數據會增加數倍。主題爬蟲類與通用爬蟲類完全相反,通過一定的戰略過濾與主題(收集任務)無關的網頁信息,只留下必要的數據。這可以大大降低與數據無關的數據稀疏問題。
其他采集法是指對科學研究院、企業政府等有機密信息,如何保證數據的安全傳遞?可采用系統的特定端口,進行數據傳輸任務,減少數據泄露的風險。
以上是小編介紹的大數據數據采集有哪幾種形式的相關內容。大數據采集技術是大數據技術的開始,好的開始是成功的一半,因此在進行數據采集時必須慎重選擇方法。特別是爬蟲類技術,主題爬蟲類對大部分數據采集任務來說應該是一個好方法,可以深入研究。
[免責聲明]
文章標題: 大數據數據采集有哪幾種形式?
文章內容為網站編輯整理發布,僅供學習與參考,不代表本網站贊同其觀點和對其真實性負責。如涉及作品內容、版權和其它問題,請及時溝通。發送郵件至36dianping@36kr.com,我們會在3個工作日內處理。