我經常在文章中講,做數據分析離不開統計學知識,它為我們的數據分析提供理論基礎,然而很多數據分析師在學習統計學知識時感到頭疼,看了很多統計學的書籍,里面講了很多復雜的數學公式和推導,讓人記不住也難理解,其實,市面上大部分的書籍都是面向高校教育的統計學書籍,專業性較強,對于數據分析師來說,我們并不需要掌握那么細。下面就有小編為您帶來統計數據分析怎么做的相關介紹。
因此,本文我就為大家列羅列了數據分析中需要掌握的統計學知識,讓大家了解統計學有哪幾大塊,每一類分別用于什么樣的分析場景,由于文章篇幅原因,僅為大家梳理知識點,具體的知識點講解不詳細展開。
稍微關注過統計學的人,可能會這么一個疑問。為什么大學里會有這樣兩門課,《概率論與數理統計》,《統計學》,它們有什么區別?
我的理解,《概率論與數理統計》更專業一些,偏理工科,會有大量公式的推導,知其然,知其所以然;而統計學這本書更基礎,側重于概念現象的解釋,一般會直接給出結論,而不要求掌握結論的數理推導過程,文理科皆可用。
但不管是哪門課程,前期都是先講概率和概率分布。概率論是統計學的基礎,而隨機事件的概率是概率論研究的基本內容。
統計學不研究統計,它研究的是不確定性。我們的世界是一個充滿不確定性的環境,整個世界并非嚴格按照某個制定好的路線運行的。多數事物之間也并非有因必有果,萬物之間充滿了不可控的隨機事件,我們不會因為今天努力了明天就一定會成功。
不確定性事件唯一的規律就是概率,獨立隨機事件我們沒辦法預測或控制它在某個時刻一定會發生,但卻可以用概率來描述它發生的可能性。以概率論作為理論基礎,為我們提供了認識不確定世界的方法。
今年疫情期間,待在家里除了陪伴家人以外,每天討論最多、關注最高的事件莫過于疫情的新動態,這些動態的展現形式大家有沒有注意到,各種專業、好看、直觀的圖表和數據圖,讓數據呈現得一目了然。
工作中,一名數據分析師拿到了數據后,第一步要做的是數據初步探索,這也叫數據的預處理,這個時候,更多的就是利用各種圖表探索數據。圖表的好處是它可以很直觀的看到數據的分布以及趨勢,更有效的觀察數據。
利用上面所講的圖表展示,我們可以對數據分布的形狀和特征有一個大致的了解,但要全面把握數據分布就要反映數據分布特征的代表值。通常包含分布的集中趨勢、分布的離散程度、分布的形狀。
數據分析中,最常見的場景,就是你手上拿到一組,一批或者一坨數據。不懂統計學的人,可能會不知所措,或者說,你不做些加工和處理,你不知道這些數據有啥用。這個時候,就需要通過這些概括性的度量指標,來幫我們從宏觀上把握數據中的初步信息。
抽樣好懂,抽樣分布不好懂。
抽樣,就是從研究的總體中抽取一部分個體作為我們真正的研究對象,可以簡單把樣本理解為總體的一個子集,通過樣本的結果來推測總體情況。
比如我們想知道中國成年男性的平均身高,理論上最準確的辦法是調查中國所有成年男性的身高,然后計算平均數。很顯然,沒人這樣做。實際的做法總是抽取一部分人,然后計算這部分人的平均身高,由這個平均身高來大致估計總體的平均身高。
理解了抽樣,再來理解抽樣分布。抽樣分布說的是對誰的分布?答案是樣本統計量,比如樣本均數或者樣本比例。以樣本均數為例,一般說樣本均數的抽樣分布如何如何,這里,樣本均數被當成了一個隨機變量來看待。我們最希望大家記住的要點:樣本均數是一個隨機變量,但對于初學者,這確實是比較反直覺的。
為何樣本均數可以被當做一個隨機變量?因為樣本均數是依賴樣本計算得出的:每抽取一組樣本都可以計算出一個樣本均數,而且這些樣本均數或多或少都會有些差異。由此,樣本均數會隨著抽樣的不同而隨機變動。只是現實生活中我們一般只抽取一組樣本,計算一個樣本均數,因此,會覺得樣本均數不變。
當初大學里,學數理統計的時候,到了這塊就感覺越來越難了,學習的過程中可以說就是囫圇吞棗,似懂非懂。但現在,經過漫長的實踐過程,對統計學的知識有了更深一步的理解。
統計推斷,說白了,就兩件事。第一個,參數估計。第二個,各類假設檢驗。學習到這里,假如你是做數據挖掘,機器學習的,你就會強烈意識到,數據挖掘和統計學之間是存在千絲萬縷的聯系。
參數估計,顧名思義就是對參數進行估計,那什么是參數呢?就是你假設分布的參數就是說你認為或者知道某個隨機過程服從什么分布,但是不確定他的參數是什么,那怎么辦?你采樣、采很多樣本(實際值),通過這些樣本的值去估計分布的參數就是參數估計。
上面講到,統計推斷就需要明白兩件事,一件是參數估計,另外一件是假設檢驗。
假設檢驗是什么?說白了,假設檢驗就是先對總體猜一個參數值,然后利用樣本的數據檢驗這個參數值準不準。
互聯網生產實踐中的ABTEST方法,就經常會應用到假設檢驗的思想。
舉一個簡單的例子:
學而思網校App進行了改版迭代,現在有以下兩個版本
版本1:首頁為一屏課程列表
版本2:首頁為信息流
如果我們想區分兩個版本,哪個版本用戶更喜歡,轉化率會更高。我們就需要對總體(全部用戶)進行評估,但是并不是全部存量用戶都會訪問App,并且每天還會新增很多用戶,所以我們無法對總體(全部用戶)進行評估,我們只能從總體的用戶中隨機抽取樣本(訪問App)的用戶進行分析,用樣本數據表現情況來充當總體數據表現情況,以此來評估哪個版本轉化率更高。
大學里學習統計學的時候,最喜歡學回歸分析,也是學的最明白的一部分。因為它的易懂性,也因為它的實用性。但隨著自己數據分析經驗的積累,對回歸分析的理解也越來越深,它不是簡單的回歸模型求解那么簡單,它更是一種日常工作中解決問題的思路和方法論。
數據挖掘中使用的各種高深的模型,任何模型都可理解成回歸模型,包含因變量Y和自變量X,求解參數。
在我看來,回歸分析由兩部分組成:業務分析和技術分析。其中,業務分析屬于“道”的層面,而技術分析屬于“術”的層面。從“道”的層面來看,回歸分析是業務分析,其分析的不是數據,而是業務,是業務中的不確定性。通過業務分析,獲得對業務不確定性的理解,進而將抽象的不確定性業務問題轉換成一個具體的數據可分析問題。
什么是數據可分析問題?一個業務問題,只要有清晰定義的因變量Y(不管是看得見的,還是看不見的)和清晰定義的自變量X,這就是一個數據可分析問題。一旦把業務問題規范成一個具體的數據可分析問題(有清晰定義的Y和X),那么接下來就是技術分析,屬于回歸分析“術”的層面。在這個層面,人們關心對于一個既定的Y和X,要研究其中的不確定性,應該選擇什么樣的模型設定,線性模型還是非線性模型,一元模型還是多元模型,簡單的決策樹還是隨機森林,普通的神經網絡還是深度學習。模型設定確定下來后,還需思考應該用什么方法估計,如何調優,等等。
以上是對回歸分析的一種廣義上的理解,狹義上理解回歸分析,需要理解以下幾個核心概念:
相關系數
回歸分析
最小二乘法
顯著性檢驗
多重共線性
擬合優度
當然,統計學的知識還包含很多,比如方差分析,時間序列分析,統計指數等等,這些知識在特定的應用場合,也有著廣泛的應用,只是相比以上的知識點,應用范圍更小點。 以上就是小編為您介紹的統計數據分析怎么做,希望對您有所幫助。
[免責聲明]
文章標題: 統計數據分析怎么做?
文章內容為網站編輯整理發布,僅供學習與參考,不代表本網站贊同其觀點和對其真實性負責。如涉及作品內容、版權和其它問題,請及時溝通。發送郵件至36dianping@36kr.com,我們會在3個工作日內處理。