數據驅動為什么是有效的?

文章轉自神策數據創始人 & CEO 桑文鋒知乎隨筆。
我是一個喜歡探究源頭的人。過去這十多年都是從事數據行業,在可見的未來依舊是。在這期間不斷看到數據發揮價值的例子,并且這種數據驅動有效的信念越來越強烈。但另一種觀念也在不斷地縈繞著我:數據驅動是有效的嗎?它為什么是有效的?
我們可以有一些直接的回答:數據讓你看清楚現實,數據讓你更好地獲得反饋,數據讓你更好地精細化操作,數據可以提升決策效率等等。作為一個專業人士,還是想要把源頭搞清楚,不想輕易地給出一個答案。總之,我想要保證我以及團隊所做的事情,從底層來說是對的。
這有點像醫生給患者看病,醫生開了一副藥,患者吃了康復了,于是興高采烈地離開。但醫生不能不思考,為啥這副藥就有效?底層的邏輯到底是什么?
為了尋找這個源頭,我先從中國歷史中尋找答案。先是看一些大家耳熟能詳的故事,比如孫臏采用減少灶臺的策略來引誘龐涓中計,諸葛亮通過精確計算草船借箭十萬支。但你要說通過這些小故事就來支撐數據驅動的有效性,那顯然是杯水車薪。
后來我有一段時間對楚漢爭霸的歷史比較感興趣,其中發現史記中關于蕭何運用數據的故事描述的很生動:“沛公至咸陽,諸將皆爭走金帛財物之府分之,何獨先入收秦丞相御史律令圖書藏之。沛公為漢王,以何為丞相。項王與諸侯屠燒咸陽而去。漢王所以具知天下戹塞,戶口多少,強弱之處,民所疾苦者,以何具得秦圖書也。”于是還專門寫了篇文章《劉邦背后的數據分析師——蕭何》。其實從今天來看,這些都是我的一廂情愿,過度裝飾。這些歷史先人們的認知水平,遠沒有到可以建立系統性的數據思維的階段。這不是他們不夠聰明,是他們的時代所限。
我從 2017 年中開始研究黨史,主要想研究中共為什么有這么強的組織性,期間自然就冒出另外一個問題:毛澤東為什么這么牛?在我看了《毛澤東選集第一卷》之后,發現我找到了一個答案,那就是他懂數據分析。為此,還寫了一篇文章《從<反對本本主義>一文看毛澤東的數據思維》。《毛選第一卷》中的《中國社會各階級分析》《湖南農民運動考察報告》《反對本本主義》等,都在講要重視調查研究,而調查研究在我看來就是數據采集與分析,這和數據驅動的理念是一致的。
隨著研究的深入,我逐步認識到數據只是成事的一個維度。比如對一家企業的業務增長,這不單單是個數據的事情,市場、競爭、團隊、資本等等,都是重要的影響因素。既然有多個維度共同影響業務增長,我們就能說只是通過數據這一單一維度,我們就能掌控業務增長,這本身就是不科學的。在數據驅動的背后,我逐步認識到還有一套更本質的邏輯,那就是科學方法,而數據驅動是科學方法的重要體現。
首先,我覺得在中國科學方法不是常識,許多成年人并不能在工作中靈活運用科學方法,甚至隨便找個人問“科學方法是什么”,可能都很難有個很好的答案。我自己對科學方法的理解,也是半瓶子晃蕩。只能說我認識到了科學方法的威力,但是對于科學方法還沒有系統性的認識,起碼對于科學方法的演進史,還有許多書要閱讀。
現階段我將科學方法主要總結為:觀察與統計、標準化與流程化、假設與檢驗三個主要方面。神策所倡導的數據理念:數據源很重要,打造數據閉環等,都能很好地映射到科學方法中。前一段和清華科學史教授吳國盛交流學習時,他提到我總結的這些方面都屬于簡單性方法論,還有復雜性方法論也值得研究,比如“一個和尚挑水喝,兩個和尚抬水喝,三個和尚沒水喝”。
