[掃雷]當統計量沒有代表性怎辦

當樣本不具代表性,這也代表統計量不具代表性,那麼該怎辦呢?

首先,我們得先確定統計量不具代表性的意思。對所有的統計量,可以是樣本的平均數、變異數、中位數、絕對離差、相關係數、變異係數、峰態係數、偏態係數、分位數等。而統計學則是主要針對樣本的平均數做為理論說明,因此樣本所得到的統計量需要具有充分、不偏、效率、一致性。

最常被討論的不具代表性是由兩項來決定 -- 不偏與效率 -- 一個是期望值,另一個則是變異數。但是,我們卻發現有的機率分配參數不是平均數與變異數,而是位置參數或是中位數。如果你用樣本平均數所得到的統計量去衡量,自然就很可能產生不滿足不偏性。或者是母體根本就是不對稱分配,同樣也會產生偏誤。所以,統計學是建構在常態分配的理論,而不是適用於所有分配的理論

最常使用消除偏誤的方法就是扣除,也就是位移法。就像一般的常態分配可以透過扣除平均數,以及除以標準差後,形成標準常態分配。其中扣除平均數的概念就是種位移法。其實對於是否存在偏誤是需要依賴統計量和母體參數來決定的。換句話說,如果知道母體參數是中位數,你還用平均數,那除非對稱分配,否則只要參數影響分配型態,使用錯誤的統計量就會造成偏誤。

至於造成偏誤的原因,很可能是來自於樣本、來自於錯誤的統計量等。所以,我們得先確定計算統計量的樣本,來自哪種類型的機率分配。然後才能知道該用哪種極中趨勢或離散趨勢的統計量。而且我們也需要確定樣本的抽取方法,避免造成集中趨勢的偏誤問題。

第二個常見的就是效率性。所謂的效率性就是使用這個統計量所得到的變異數是最小的。這點是最為有趣的!無論是統計量或是迴歸分析的估計線來說,都是要具有代表性的。可是常見的錯誤就是明明變異數(或是MSE)非常大,但文章中卻仍然寫入,用數據去佐證數學模型。但實際上根本就不具代表性的統計量(或迴歸線),還是被使用,被接受。

如果想解決這樣的問題,研究者應該重新蒐集數據或是重新定義數據並蒐集。然而這樣的成本極高,導致研究者以現成的數據進行分析,認為有其意義,或直接調整數據,使其某些特性消失,卻符合模型分析用。這樣的數據分析是沒有意義的,其結果同樣也不太有意義的。

這個問題同樣在現下常見。例如要將產業轉為數位化,認為這樣就能夠成為科技化。但純粹這樣的科技化或數位化,一點意義也沒有。理由非常簡單:雖然變成數位化,科技化,其累積下來的數據如何分析,是否能適用高階且具有一定程度的分析法,例如迴歸分析、相關分析等?難道要像現在的新科技一樣,總是建構在「分類法」與「演算法」上,卻從來沒有見過其分析結果的數學模型嗎?

因此,當統計量沒有代表性時,我們需要重新檢測樣本,並且確認樣本的各種統計量情況。確認樣本的來源母體後,才能確定母體參數,進而統計量才能確定並進行分析。

當然,還有一種情況可以解決此情況,那就是足夠大量的樣本。不過此時統計學的基本假設與使用時機都已經不合適了,相關的理論都需要重新在大數據下進行檢測。目前統計學不能做為大數據分析的工具已經將分析法建構完成。所以,對想做數據分析的朋友們就須了解到程式的演算法需要有數學模型或數學分析方法為基礎,不是那些分類法基礎的演算法做分析。這也就是為什麼我們得說明統計量沒有代表性時該怎麼辦。

你需要針對樣本抽取方法、樣本來源與特性、由樣本來源決定統計量,或是使用更多的數據量反覆的驗證出適合的分析法,然後讓統計量具有代表性。