我好像看到了假的數據分析?

“林子大了什么鳥都有”,這句俗語特別適合于使用孤證或者不靠譜絕對值來證明自己價值的數據分析

作為一個小頭目,經常會讀到來自各種團隊的數據分析報告,看似基于理性和事實的雄辯,然而有可能是有意或無意的詭辯。搞得我經常像傻白甜的美少女面對追求的少男一樣,面對這些嚴謹的數據分析也不得不多長幾個心眼。

1、可視化的誤導

一般來說,畫出圖表就容易讓人肅然起敬,至少架勢是足的,然而其中卻容易出現詭計。

下圖的作者為了表達中國城鎮化率的增加以及家庭小型化趨勢對房價的支撐作用,擺出了兩個柱狀圖,然而為了表達這兩個指標的強烈趨勢,Y軸都不是從0開始,于是在視覺上更容易讓人有沖擊力,然而卻含有誤導性。(不過被誤導也就罷了,一二線這個趨勢,早幾年買房也不是壞事兒)

作者為了表達軟件開發類不等級別之間的工資巨大差異,居然把最低值、平均值和最高值疊加在一起進行呈現。效果是出來了,但邏輯和節操卻大珠小珠落玉盤。

2、使用孤證或者不靠譜的絕對值

“林子大了什么鳥都有”,這句俗語特別適合于使用孤證或者不靠譜絕對值來證明自己價值的數據分析,這是大公司里經常出現的一些場景,因為大公司產品經理偏愛依賴巨大流量來嘗試一些新功能。

比如最近某產品推出類社區的產品功能,大家都質疑其與主方向毫無關系。產品經理立即跳出來反駁,使用該功能的n個用戶已經找到了工作(找工作是該產品的核心功能之一)。然而每天上千萬用戶在產品里晃來晃去,做出啥事兒都不稀奇,舉出孤證有意思嗎?這時候想起知乎名言:脫離劑量,談論食物毒性,都是耍流氓。

所以為了印象深刻,參考“奶子大了什么鳥都有”,這句俗語可以考慮改成“數字大了什么鳥都有”。

3、推理邏輯混亂

許多數據分析雖然帶有翔實的數據,但是邏輯推理極其混亂。

前段時間遇到某產品在一級入口上線新功能X,然而卻有可能和位于二級入口的原有功能Y沖突,X搶奪了使用Y的用戶。

如同大家都了解的,大公司里面做產品,經常發生的事情就是左兜掏右兜,把用戶像趕鴨子一樣趕來趕去;不過總有一個兜的人因為數據大增要得到嘉獎。這里面最直觀的例子就是:不少公司的小程序用戶大增而受表揚,不過主App的數據跌了。

當挑戰這個產品經理的時候,他經過一天的數據分析后得意宣稱:擔心是多余的,因為數據顯示,使用X功能的用戶有60%使用了Y功能。

畫外音:那么使用X而不用Y的40%用戶在干嘛呢?算不算Y功能的流失?

4、扶不上墻的小規模測試

產品經理為了工作的嚴謹性,經常利用小規模測試甚至是AB測試來觀察新功能。然而一個詭異的現象卻是,小規模測試效果不錯的功能,全量之后卻差強人意。這往往可能是因為取樣偏差造成的,因為求勝心切,產品經理在取樣時很容易有意或無意得形成取樣偏差。這里面常見的兩個偏差是幸存者偏差和辛普森偏差。

幸存者偏差。前一段我們公司搞用戶開放日,與應邀前來的用戶做Focus Group(用戶焦點訪談)。結果在訪談中用戶對我們產品簡直是滿意無比,大大出乎我們意料。除去用戶保持紳士風或淑女風不敢當面懟我們之外,更主要的原因是邀約是通過我們App上面的推廣,來的用戶都不是被我們傷碎了心的人,所以好感爆棚。如果基于這些用戶去做新功能的小規模測試,一定會出現偏差。

辛普森偏差。從網上摘取的一個關于腎結石治療方案的AB測試。單個病例看,A方案都優于B方案;然而,總體看,結論反轉。這么詫異的結論主要是來源于樣本的不同:大小結石病例在A和B中的構成比例相差較大,從而形成兩個完全不同的樣本,從而造成這樣的結果反轉。

5、亂配因果關系

據說世界上比曖昧關系更難證明的關系是因果關系,也比曖昧關系更加容易搞錯而陷入泥潭。這里舉自己犯過的錯誤再恰當不過了

在面對冷門問答時,自鳴得意得使用百度指數相關功能,發現“詩歌”和“感恩節”之前的強相關性,于是又找到各種理由來相信他們之間的因果關系。

雖然總覺得哪里有點不對,為了騙贊還是忍不住發了。結果被人打臉,更為可能的因果關系是:被人教版語文課本折磨的六年級小學生,趕上綜合性學習活動“輕叩詩歌的大門”,課本的進度正在這個時間點左右,于是大量小學生搜索“詩歌”來完成作業。

這樣錯配因果關系的案例在生活中不少,大家可以留意收集。不過有個很有趣的國外網站(15 Insane Things That Correlate With Each Other)已經這么做來搞笑了,專門列出來看似邏輯相關但是其實因果關系錯亂的例子。發出來與大家共享,以便行文自嘲。

1、尼古拉斯凱奇在電影中的出鏡和淹死在游泳池里的人數,高度相關。

2、被床單纏死的人數和人均奶酪消耗量,高度相關。

3、美國在科技及空間領域的投入和絞死及各種窒息的花樣作死的人數,高度相關。

本文由Startifyd整理,原文來源于@數據冰山。

2條評論 添加新討論

07月09日評論

被最后錯配因果的例子笑死,real黑色幽默

回復
07月01日評論

你寫的好像蔡徐坤

回復
登錄后參與討論
Ctrl+Enter 發表