“假數據”避坑指南

無論是在日常生活還是工作,數據往往會給我們帶來一些“權威”的參考。
譬如,小時候你注意到自己一哭,媽媽就會關注你,這是你哭了很多次之后得出來的結論,這就是一種數據科學;
又比如,一家美國零售商最近發現,當天氣變冷,肉桂葡式蛋撻的銷量上升500%。面對這樣的“感覺”,零售商要做出抉擇:每當預測天氣即將轉冷時,就應該儲備多少肉桂葡式蛋撻嗎?
那些葡式蛋撻的零售商們在擁有十足把握以前,需要對他們的假設進行驗證。此時就需要數據來驗證他們的“感覺”和證明兩者之間的因果關系。
以數據指導業務決策而不是僅憑直覺和經驗已經成為很多企業決策者的共識,會收數據、會看數據、會分析數據成為了不少職場人的“加分項”。
那么你有想過,你精心收來的“真實數據”可能也會騙你?
大多數人認為,假數據只有在故意造假的情況才可能出現,事實上錯誤的收集方式、不準確的問題邏輯等都會產生“假數據”。
小倍從四個方面為大家整理了“假數據”的“假”從何而來:
1、問題問錯了
——今天晚上想吃什么?
——不知道,隨便。
這樣無解的對話是不是經常發生在我們身邊,其實,模糊又泛泛地提問是在我們設計問卷時最容易犯的錯誤之一。
——今晚有什么不想吃的東西嗎?
——不想吃火鍋,昨天才吃過。
當一個人根本不知道想要什么的時候往往更擅長于回答他們不想要什么以及過去發生了什么。正如喬布斯所說:“只有人們看到了他們想要的東西之后才知道什么東西能改善他們的生活。”
——您的月收入是多少?您平時吃飯會光盤嗎?
——......
這樣的敏感或者帶有明顯的“道德標準”的問題在面對面的訪談時得到的結果與匿名問卷得到的結果會一致嗎?很有可能不會!
在社會心理學中有一個詞叫社會贊許性(social desirability),又稱社會期許誤差,是指人們為了令人產生正面印象,傾向在調查中以虛假情況或意愿取代真實情況或意愿,以符合社會期望。例如過多提供自己的“善良行動”,或過少提及自己的“不良行動”。
人們在可能被他人審視的時候會更傾向突出其好的一面,而在匿名且隱私的環境中才能表達真實的自己。
2、人選錯了
假設調研一座城市的人均消費水平。如果是在機場調研,或許會得出“城市發達、人民收入高”等結論,但如果到貧民窟里調查,結論就會截然相反,因為城市里真正貧窮的人很少會在機場出沒。
這是非常常見的因幸存者偏差而帶來的“假數據”。所謂幸存者偏差,是指取得資訊的渠道僅來自于幸存者時,此資訊可能會與實際情況存在偏差。
此時,即使你的問卷收集過程沒有任何問題,也很難避免樣本本身在說謊。
由于我們無法對所有的用戶進行普查,因此在選擇被訪樣本時要做好用戶分層,進而從每一個層次的用戶抽取數人進行調查。
例如,我們想要對用戶積分使用情況進行調查,就需要將用戶分為幾類:
從每種類別的用戶中,我們選取數人來進行抽查。在每個層級的人群中,我們也要盡量將年齡,性別,職業等等區分開來,這樣才能減少幸存者偏差帶來的數據偏差。
不僅如此,我們還需要考慮另一個問題——樣本量越大越好嗎?
樣本量確實越大越好,樣本越大越接近數據總體情況,但樣本量越大同時也代表需要付出更多的人力和財力,所以往往出于現實因素的考慮,需要確定最少取樣數量。
那么影響樣本量的因素就只是人力財力嗎?顯然也不是!
影響樣本量的因素一般有以下5個:
? 調查對象標志的差異程度
? 允許誤差(又稱極限誤差)數值的大
? 調查結果的可靠程度
? 抽樣的方法
? 抽樣的組織形式
此外,根據調查經驗,調查表的回收率高低也是影響樣本數目的一個重要因素,調查表的回收率通常都很低,如果存在長時間段內多次調查同一批人的情況回收率會更低,此時也必須要適當考慮加大樣本數量。
3、場景預設錯了
在進行調研時,我們常常需要預設一個場景或條件,再收集信息。然后從各個角度再調研,去交叉驗證這個預設場景是否正確。
但實際上很少人去做「交叉驗證」這個環節,只做了「預設場景」,相當于把調研設計者的主觀意志強加到用戶身上。
依然以我們想要對用戶積分使用情況進行調查為例:
——您會使用積分做什么?
A.換購日用品
B.換購視頻網站會員
C.換購話費充值抵用券
D.換購消費抵用券
E.其他
當你調查的用戶可能從來沒有使用過積分,或者積分少得可憐什么也換不到的時候,這個時候可能人家就是憑感覺寫一個選項,可想而知,這樣的結果,肯定是存在很大的不準確性的。
此時如果將這個問題與用戶的積分兌換記錄掛鉤,數據的準確率會有明顯提升。
4、數據不能代替思考
夏天,“冰激凌的銷量”和“溺水死亡人數”成正比,二者的趨勢高度吻合。
所以,吃冰激凌會導致人們游泳時更容易溺水?游泳溺水時人們喜歡用冰激凌來搶救?
顯然,常識告訴我們這不可能,這兩者根本沒有聯系,唯一的契合點在于“夏天天氣熱”,冰激凌的銷量會因此上升,下水游泳的人也會因此增多,自然會有更多溺水事件發生。
數據是客觀的、理智的,但人是經驗主義者,更善于用邏輯去認識和判斷事物,數據的絕對客觀性,往往會把我們被拖入單維思考的沼澤里。
我們很容易相信數字所帶來的權威性,許多在人類看來再正常不過的邏輯思維,卻是冰冷傲慢的數據分析的盲區,數據可以輔助你思考,但它不能代替你思考。
品牌只有隱蔽地、悄無聲息地沖破嘈雜的信息,直接和顧客進行溝通,讓他們感受到你是真心在和他們談話并且想要提升他們的體驗,而不只是為了推廣產品。這樣,他們才會心甘情愿地告訴你他們真正想買的是什么,甚至還會告訴你他們想從你們公司購買到什么。
因此,如何提問、怎樣提問、對什么樣的人提問都是有一門學問在里面,因此,當您發現您發出去的問卷回收回來的數據“不好用”的時候,不妨思考一下是不是收到了“假數據”。
倍市得在以自身獨特的優勢,幫助品牌打造“互聯網+研究解決方案”的市場調研思路,輕松“避坑”。
不僅如此,倍市得客戶體驗管理系統通過客戶觸點,依據客戶使用場景,實現千人千面的問卷體系;BI看板可以按照不同的權限和角色,將體驗指標和數據在線化和可視化;系統自帶的預警工單處理客戶不滿意,實現實時的閉環。
不僅是發問卷,更是打造業務閉環管理的“最強大腦”。
