[掃雷]你知道統計學是有假設的?
你知道統計學理論是有假設的嗎?在實際的使用上,通常都是被忽略或是視為理所當然。
那倒底有哪些假設呢?
最基本的假設有
- 母體適合常態分配
- 樣本要能反映母體
- 樣本要隨機且彼此獨立,只反映母體特性
- 樣本與母體的差異就是誤差,且一定存在
因為統計學是個「由小推論大」的分析方法,而且推論的對象是母體參數,所以形成一種可以容錯的科學方法,而樣本具有隨機性,所以造成樣本與母體差異,以及在抽取樣本的方法造成的錯誤等都是需要被納入「容錯」當中。
那麼使用者就必須先將「數據」先檢測,確認符合統計學的假設。如果不符合,即使跑出結果都是僅供參考,沒有意義的。其次,很多的研究或寫出的文章都沒有註明此項,甚至有些期刊的Editor在以自己的期刊論文做解說時,甚至認為只要有意義就可以,全然忽略使用統計分析法(特指迴歸分析)的使用條件!所以,那些結果都是僅供參考,沒有意義的。即使作者是為了用數據輔助證實自己的數理模型正確性,那還是沒有意義。因為只有數據具備統計分析的規範,做為必要條件,使用者才能使用統計學去分析那些數據。
最後,當你用統計學分析大數據(Big data)或是大量資料時,其實是不適用的。前述說到統計學是用在小樣本,所以分析大樣本(或大數據)時,統計學的理論是否會發生改變,或者需要調整呢?這個問題迄今我仍未在期刊論文上看到,只有用個符號表示或是文字敘述,另外也幾乎沒看到沒有人在分析。所以,在我就學期間,從100提高到500,到就業後去研討會聽到的樣本數到1000,這真的是大樣本?
在常態分配下,我檢測平均數在100以上可以趨近常態分配。但有人做過變異數嗎?既然我們常說要用標準化,那麼沒有討論變異數是否很奇怪?變異數的分配是什麼?不會是F分配的,因為F分配是用於兩個變異數相除的檢定時所使用的分配。那麼只有一個變異數呢?維基百科針對變異數的分配參數有特別提到變異數的變異數是四次方,但是,分配呢?又如何受到樣本數影響呢?是不是常見的非常態分配數據也是如此呢?這是一直存在的問題,而你很難在網上獲得答案。這影響著你的分析法。要知道用錯分析法,亂用分析法,都會讓人得到錯誤的結果。如果你還相信著那錯誤的結果,就很可能發生2008年的金融海嘯情況。金融如此,經濟也是如此,公司經營更是如此。
所以,想使用統計學做分析之前,需要先了解數據應滿足分析的假設,才能進入分析。分析後的結果,如果不符合統計學的判斷要求,例如迴歸分析的配適度要高;一類因子分析的分類數據須滿足同質變異數,那麼,你得到的結果一樣是不適用的。
有興趣可以觀看我的書籍【統計學不能做為大數據分析的工具-原因與補正】的問題1與4。