[掃雷]樣本與母體不得不說的二三事
在大多數的網站和書籍上,提到大數據分析,總是說統計學是其分析方法。但是真是如此嗎?大數據的數據量已經超過統計學是用的樣本個數,對於樣本與母體的情況,讓我在這邊跟朋友們分享其二三事吧。
既然要說說兩者的差異,就得從統計學開始說。統計學的基礎是來自於機率、事件的樣本空間。而一個理論的存在就如同柏拉圖提出的哲學觀點一樣:人有其原型。他的弟子亞里斯多德則運用歸納法,從歸納出世間萬物的規律後,從而獲得原型。這兩個觀點就像在說機率的機率空間和樣本空間。讓我們先了解樣本空間和機率空間。
樣本空間則是所有元素的集合(宇集合)以及子集合的集合。所有元素的子集合的集合相當於統計學抽取樣本。這須從宇集合先確定(基礎),再發展出所有元素的子集合的集合。這樣的子集合的集合是種另一種層次的運作。如此才被稱為「樣本空間」。
機率空間是以樣本空間為基礎,而且樣本空間內的「所有元素的子集合的集合」以事件表示,形成事件的所有可能集合,最後再加上事件的機率後就是「機率空間」。這樣的定義(或是符號表是順序)就代表著每次操作時的動作或確認順序。
有時候很多人會將樣本空間與機率空間搞混,甚至牽扯上母體和樣本的關係。無論是母體或樣本都是具有隨機性的。在隨機情況下仍有其規律,所以對其根本的描述要清楚且可區分。我們可以透過機率空間(運作方法為機率公設)協助完成確定討論的範圍與描述。
母體與樣本的差異
在了解樣本空間與母體空間後,對於母體與樣本的差異也可以從集合角度來看。其實樣本來自母體,所以樣本就是母體的子集合。另外,我們可將樣本當作是事件的實驗(有時候稱為試驗,此為翻譯問題)。所以統計學在一開始的學習內容中就是先討論機率、事件、隨機變數等的關係。
其次,樣本可以反映母體的參數特性。因為這樣的觀點,所以統計學又稱為推論統計,特別針對樣本的數學組合能否代表母體參數進行推估。這才會出現點估計要滿足充分、不偏、效率與一致性。而驗證點估計量是否具有這些特性就需要使用各種的點估計方法,例如迴歸分析愛用的BLUE,或是UMVUE法、MME法、MLE法等。
第三,要滿足第二點還需要一個條件,那就是樣本數(或稱為樣本規模)愈大,愈接近母體個數時就愈容易反映母體特性。雖然是如此說,但這有個問題就是樣本數到底要多大去反映母體特性。請注意所謂的母體特性都只是母體參數。所以大數據分析就是特別喜歡用這樣的角度去說母體分析。但實際上沒有經過驗證的說詞都是需要被質疑的。
那麼我就得說說怎樣才能知道樣本反映母體特性呢?
第一種方法,找出樣本的分配,然後運用係數比對法,與母體分配係數進行比對。如果係數相同那就代表樣本反映母體特性。不過這種方法是最少人使用的。因為這方法很困難得先用樣本找出分配。
除了係數比對法,還能使用大數法則法去比對。這個方法更難!因為大數法則幾乎無法真實使用在電腦運算上。[註:雖說是幾乎無法,但仍可做到,請看統計學不能做為大數據分析的工具內問題27與28]
第二種方法就是需要使用檢定或估算法。當我們根據事件要求獲得一組或多組樣本時,這稱為「樣本」,但是這些樣本都來自同一個來源,稱為「母體」。母體需要先被確定,如此才能定義出我們要做什麼。先界定出範圍才能形成特性。此母體特性,稱為「機率分配」。機率分配顯示隨機變數和對應機率的關係,稱為機率密度函數,若是累計的話就是累積機率密度函數(應變數介於0~1)。我們就需要使用「適合度檢定」或是「曲線估算法」來幫助我們知道樣本來自哪個來源。
- 隨機變數是根據機率公設,將事件分割後,給與十進位的數字。這些數字通常是有其意義的,而非任意地設定。因為這些隨機變數的數值在母體轉換到樣本的抽樣分配時,是需要做「樣本的數學組合」。
- 適合度檢定是皮爾森卡方統計檢定方法的應用,將樣本分類,經過計算後確定樣本來自哪。
- 當適合度檢定檢測不出來時就需要使用曲線估算法。透過機率密度函數和累積機率密度函數的關係,進行轉換。
母體與樣本的關聯
母體與樣本的關聯為樣本是母體的子集合。樣本是經由特定的抽取方法(抽樣方法)獲得的,所以帶有母體特性。
母體機率分配和樣本抽樣分配
統計學的學習過程中,前幾章都是在說機率、母體機率分配。為什麼要先了解這些呢?這就是先知道「原型」特性,這些都是來自歸納後得到的一些常見特性,所以形成許多機率分配(參閱維基百科)。而樣本呢,則是從母體中貝抽取出來。至於如何抽取也是會影響樣本特性的(參閱抽樣方法)。
當我們知道母體和樣本後,實際上我們真正獲得的是樣本,至於母體,是未知的。所以如何從樣本找出母體呢?除了上方說明的方法外,統計學以樣本的數學組合式做為新的變數,稱為「統計量」(估計時稱為估計量,檢定時稱為檢定量)。這統計量帶有集中趨勢或離散趨勢,所以就以此做集中或離散的代表參數。當然有的是位移參數,有的是高度參數等。
那麼統計量又該怎麼處理呢?一個統計量值是由一組樣本計算得到。那麼我們就從母體中反覆抽出K組樣本,那就可得到K個統計量值。我們再用這K個統計值計算出機率,形成統計量可能值與機率的關係,也就是「抽樣分配」。
至於母體機率分配和樣本抽樣分配是否一致呢?請注意道的是雖然每組樣本都是來自同一母體應該有母體機率分配特性,但是抽樣分配的基礎是統計量,統計量對應的是母體機率分配的參數,所以其意思並不相同的。
樣本規模
當樣本的規模等同於母體規模時,相當於我們做了普查,所以我們對樣本的分析就是對母體的分析。
當樣本規模小於母體規模時,也就是統計學的應用時機。不過樣本規模達到某一程度後,是可以直接有母體特性,這就是大樣本的情況。不過大樣本只是指抽樣分配,所以這只是樣本的統計量與母體參數的關係。
上述情況可以被破解嗎?當然可以!透過數值分析法,逼近參數位置就可以找出母體參數,而不需要使用樣本→抽樣分配。不過無論是使用數值分析法或是統計學的統計推論都是建立在一個很重要的前提:樣本要符合抽樣方法的抽取過程。這也就是大數據蒐集的資料方法是不滿足統計學樣本的抽取特性,自然也不適合使用統計學分析!
第二,樣本是小規模才適合使用統計學。隨著樣本增加,到一定程度後統計學不適用,而需要重新檢測統計量的抽樣分配,甚至於中央極限定理的應用時機、大數法則做為檢測工具等。
第三,樣本規模持續擴大,是否能夠代表母體或等於母體規模呢?這個問題需要回到母體的定義。而大數據的蒐集不符合母體定義,所以縱然樣本規模持續擴大,母體未知就是未知!所以看似母體,但實非母體。
樣本的代表性問題
那麼樣本能否代表母體呢?這個問題一般是指樣本所形成的統計量能否代表母體參數。當然若是要討論這個代表性問題,除了前述的點估計特性需要滿足外,蒐集數據時是否符合抽樣方法,還是受限預算或方便而選擇一些特殊方法都會造成樣本的代表性問題。實際上很多的文章並不會特別去說明這件事情,這使得我們都是默認在蒐集數據時皆是照著抽樣方法做的。所以這造成樣本的代表性無從檢測。
第二,很多的數據是由政府蒐集後公開,所以這是由政府背書讓使用者信任此數據。甚至有的是行之多年後已經累積一定量數據就變成值得信任,至於其一開始蒐集資料的方法等都變成小事。所以這造成有很多數據看似有,卻難以做分析的理由就在此。
第三,數據蒐集時不滿足分析法的要求,卻被忽略,就使用分析法來分析,特別是建立理論模型後用數據驗證,佐證模型的實用性。事實是數據蒐集是有其條件的,通常都不滿足一些理論模型假設,或對應模型之數據該具備的條件。這樣的數據(也就是樣本)自然代表性就會有問題。
第四,數據蒐集時的條件是變動的。這是非常常見的情況。例如此次的新冠病毒每日人數的蒐集資料來說,就會受到周末休息而有資料蒐集不全的影響。而這樣的影響並沒有被修正。這點在美國的紐約時報(紙本版)上有特別註明。所以想要分析新冠病毒每日人數的走勢是有問題的。
第四點的情況也發生在股票市場的股價指數和每日成交量(還有成交值)。因為股票市場的上市公司與權值是變動的,所以一段時間後比較股價指數,如果遇到一些公司下市、權值改變或幣值變化等都會造成數字改變。這種改變讓這些股價指數(樣本)不具代表性,因為成分已經改變。而研究者卻還在使用理想型的分析法在討論,甚至牽扯其他市場,不先看其指標相關性就放入討論,這都是代表性不足的情況,自然分析結果也不足以被參考或引用了。即使出現在知名期刊也是一樣!