為什麼數據分析總是不準確?

我們常看到很多數據分析的結果都是不準確的,甚至在事前的分析結果後,很常聽到有人說我不信。其實真的不準確嗎?讓我來說說情況吧。

為什麼我要寫掃雷的文章就是想讓朋友們了解,你使用的分析法和數據蒐集是會影響分析結果的。如果你對這兩者都不熟悉,就使用它們,那很可能就是會有不準確的情況發生。另外還有兩種情況就是誤打誤撞,以及全部都跑一次比對後,挑最佳的做代表。最後那兩種就是難以被複製的方法,我就不討論這類的情況。

為什麼很多人都不相信分析預測呢,理由很簡單,第一,分析法用的是什麼,做了哪些調整,只有當事人知道。第二,湊答案法。例如,從A處知道會發生某事,但是不能說從A那邊獲得訊息,所以就得讓其合理化。第三,好壞全佔法。這就是好的也說,壞的也說,不管結果怎樣,都有說到,所以變成神準,但實際上什麼都沒說。或者是一群人分好每個人站一邊說,只要事後有一方正確,那麼就是正確。

至於全部跑一次,就得考慮到你的資料庫包含的範圍有多大。愈大的範圍,你運算的時間就需要愈久,但相對會比較準。可是下一次呢?得將新的數據加入資料庫內,全部重新再來一次。這樣的方法可以稱為分析法嗎?我想這可以說是預測法,但成為一個學科或新技術,這就有點欺騙了。這也就是為什麼誤打誤撞法以及全部跑一次比對法,我不討論的理由。

那麼基於分析法的預測為什麼也常被人說不準呢?

其實,當我們使用分析法或是資料庫分析時都是在已經蒐集到能夠蒐集的最多資訊下進行分析。至於未來會怎樣,現有數據當中沒有出現,又如何能夠顯示呢!

很多人誤會「預測」,甚至要求到神準,那就需要請這類的研究者或一般人進入「靜態」的世界,沒有時間,沒有政府,沒有意外的理想國。

這不是我故意如此說,而是現實世界就是如此,充滿了不確定性。如果能夠將不確定性抓到95%(統計學的95%信賴水準),這已經是非常好的了。當然你可以做到95%就能做到99%,只是區間寬度就會變大,包含的可能數值就會增加。你可說勝率提高,但變寬的區間卻無助於你逼近準確的未來值。

第二,未來的意外可能來自內部的某機構介入,例如美國聯準會或聯邦政府在防疫政策上的調整,以及釋放資金到市場的政策調整等都不是任何人可以說得準的。所以美國聯準會在2020年3和4月份時為什麼要連續兩次降息,為什麼要宣告那麼多政策。甚至無預警降息!

經濟學當中有提過「未預期」的政策效果特別有用,以及政策不一致性等都是能夠影響經濟。反而是預期中的政策都是短期效果為主或是變小。而這次新冠病毒疫情對經濟的影響是全面性的,這也難怪美國聯準會會採用一些特別的政策手法來試探經濟。所以只要市場被干預,數字就會改變原本的走勢。你沒有最新數據進入分析模式,就無法知道走勢改變。這也是為什麼一些落後的經濟指標無法顯示出新冠病毒疫情對經濟的影響,造成各國政府都在瞎子摸象。

所以,事情沒發生前,硬要準確,那你是內線或是政府消息外洩!這對每個國家來說,一般人可以臆測,但臆測的意思就是說可能準可能不準。誰知道行政干預何時出現?外部情況能不能維持現狀?所以我們只能就現況來說,數據分析結果是可信的!

第三,試看所有的理論模型也是一樣都是假設或是基於某些現況的資訊。如果假設不存在,或是現況被打破,那麼原本理論推論的結果就不可信!

所謂準確都是基於現有資訊下。如果干預或現狀改變,一切要重來。所以為什麼真正大數據分析或人工智能分析應該是天天做,天天發,尋找規律後去建模與指標。換句話說,現在使用的指標是合理且真實的嗎?

所以,做數據分析就要有結果,有數學模型的建模,能夠檢測,還要反覆檢測。數據分析是解構數據!至於「數據」來源、蒐集,那又是另一個故事了!