[掃雷]你知道機率分配怎麼使用嗎?
很多人讀完統計學的機率分配後,都會有一種感覺。那就是我好像只要會常態分配、t分配、卡方分配、F分配就好。因為這是統計推論當中最常使用到的分配,以及臨界值表。至於其他的分配都像跑龍套一樣。可是台灣的教學部份可能受限於時間以及需要完成的課程內容,使得分配說明很少。然而,分配只要設定好特定的參數值就可以讓它們互相相等。[註1]

於是乎,當我們要建立大數據分析方法時就遭遇到很大的阻礙。因為統計學讓使用者養成了什麼都可以用常態分配,由中央極限定理為基礎,好像萬事萬物就使用一個無窮大的符號,趨近常態分配或標準常態分配。好似忘記了無窮大的符號只是符號,在實務上的操作是有困難的。那麼我們該不該重新耗費時間與精力去檢測樣本個數增加到多少才能真正趨近常態分配呢?
當然是需要的。可是這時代與這片土地上不允許這種事情進行。速食主義與功利主義盛行之下,所有都以績效論。但想要檢測出那樣本個數量就被認為是無意義的事情,也被認為原本理所當然的事情你還去做的傻冒行為。
那我們就來回顧一樣科學概念。科學求真、求實。大數據分析法屬於科學,所以大數據分析法要求真、求實。所以請問做到了嗎?統計學屬於科學,所以統計學要求真、求實,所以使用者在使用的時候做到了嗎?
所以我就來說說機率分配怎麼使用吧。不說分配之間的關係,而是說分配在應用時,我們是怎麼使用的。
因為機率分配來自於事件、隨機變數、機率,說明隨機變數與機率的關係,因此機率分配同樣要滿足機率公設[註2]。這讓我們可以透過機率密度函數與累積機率密度函數的反函數關係與機率特性進行模擬[註3]。於是運用數字特性就能夠找出數字的機率密度函數和累積機率密度函數。然後在透過係數比對法,確認是否與特定的常見分配相同,或是適合度檢定,檢定出適合某特定分配。
當然你很可能遇到數字特性根本就不是來自常見分配。就像癌症的年齡分佈就是非常見分配,而是雙峰分配。這通常是有其他因素交互干擾下,造成數字反映出這樣的特性。而癌症也確實如此,雖然初次診斷出的癌症時的年齡被記錄下來,但因為有些人其實在慢性病發展時就有了前因,中間過程陸陸續續地就診,只是病因未被記錄為癌症。
這樣的雙峰分配一樣是透過機率分配計算而尋找到。這就怕你找不出來而已。一旦能夠找出機率分配,我們就可以透過機率分配的狀態開始進行分析,甚至可以由峰點的年齡層去定位出容易罹癌的病人年齡。對於這年齡區間就特別需要在就醫時進行檢查。
這樣的方法比現階段認定可能罹癌病人的方式更為可靠。為什麼這樣說呢?這就得牽扯回機率分配形成前的母體定義。你要討論的對象倒底是誰?如果我們的問題是台灣人罹患某特定癌症的年齡分佈為何?那麼我們的母體就是台灣全體人口。
除了母體是台灣的全體人口,我們還需要設定母體為某特定年度。因為如果你合併多年來討論時,你的母體就是多年下來台灣全體人口,在生生死死下,人口流動造成母體不是穩定的狀態。這就像很多金融或經濟數據都是根據特定計算公式,但是公式內容卻會變動,例如消費者物價指數或股價指數。
那我現在已經確定母體為某特定年度下台灣的全體人口後,由健保資料庫當中,獲得某特定年度下,罹患某癌症的病人年齡。但是這些數據足夠我們使用嗎?我們還缺少某特定年度下每個年齡的總人口數。如此一來,我們就可以獲得每個年齡下,罹患某癌症的病人比例。這個比例就是機率值。接著再以年齡與對應之比例值進行估算方程式的計算,就能夠獲得機率分配的機率密度函數。
如果是使用適合度檢定,則需要特定年度下所有台灣人的年齡(例如2300萬筆),然後根據有無罹患特定癌症,形成兩個分類,接著可使用皮爾森卡方檢定[註4],獲得適合度檢定結果。
當然,你的母體設定也可以是某特定年度的所有罹癌病人年齡。這樣的分析則是討論這些初次被診斷出罹癌的病人年齡分佈情況是怎樣。
最後,你的母體設定為全台灣人口罹癌的可能性,跟母體為罹癌病人的年齡的情況分析並不相同。但我們卻可以從母體為罹癌病人的年齡分布去了解到這些病人大多是哪個年齡被查知罹癌,從而產生後續的飲食研究或治療研究等。至於現行的罹癌可能,在散佈圖的縱軸是不滿足機率分配的定義,所以不予討論。
------------------
註1:現在台灣中文的統計學課本已經將此內容縮減太多,並且沒有將這些機率分配的關聯性說明清楚。如對此部份有興趣的朋友可以選擇到英文版的維基百科查詢。
註2:參考王冠先,統計學上下冊;高中數學與程式粉絲專頁的機率單元內容。
註3:模擬是工業4.0很重要的基礎。模擬是指運用數字進行模型的估算後,在由模型產生不同的數字,了解數字變化,進而達到數字精準度。一般常見的是蒙地卡羅模擬,但此模擬法需建構在資料庫上。因此一些統計套裝軟體的付費功能中可提供22種左右的機率分配模擬功能。至於比較特殊的分配模擬或是工業常用的分配模擬則是目前尚未見過,僅有在 http://www.psccc.com.tw/ 的網站上有看到相關的資料。
我曾經試用過,確定常見的機率分配均可生成與進行變數轉換,換句話說,過去數學推導的變數轉換後的分配,同樣可以找到,並且生成樣本。
很多人都相信著大公司的產品專業能力,但是小公司的產品,因為專注在一項功能上的突破,所以,推薦需要模擬功能的朋友們可以參考此公司的軟體,或與此公司聯繫,針對特定功能需求做討論。因此,其實有軟體,就是怕你搜尋不到,而認為沒有辦法做到。