金融大數據分析-第二講

當我們遭遇到統計學的那些假設與要求時,而資料不知道是否符合,或是已經知道不符合,我們能怎麼做?我將從大家熟悉的統計學開始說明,然後比較統計分析和大數據分析的差異,最後說明大數據分析的流程。

統計學基礎概念

統計學是對數據的規範,不符合統計學要求,就不能使用統計學做分析。如果硬要套用,就會造成扭曲的分析結果。如果這樣的結果變成政策的依據,那麼很可能就會產生金融海嘯的投資產品設計問題。而金融體系最怕的就是泡沫!泡沫有兩種,一種是常見的投資心態造成的泡沫,另一種則是一開始設計投資產品的問題所造成的泡沫。

如果數據量愈大,仍要使用統計學對數據的規範,很可能多數的數據都不符合,或是因不符合統計學使用原則,不能套用統計分析方法。

統計學不是說明母體的方法,而是使用抽樣出來的樣本來尋找母體的參數。請注意到統計學是用樣本推論母體分配的參數,不是母體分配。因為母體分配已經假設為常態分配。至於母體的參數推論都是指「平均數」為主。其次才是「變異數」。這兩個參數都是常態分配的參數。如果你的數據來自柯西分配,柯西分配特色就是沒有平均數,那還討論數據的「平均數」就完全沒有意義。

另外,統計學是用樣本推估母體參數,所以樣本得反映母體資料特性。若想取得那些樣本,就會產生抽樣的誤差。抽樣的誤差須滿足隨機性,獨立性下,仍會讓樣本與母體之間產生偏離。這也就是為什麼樣本會受到抽樣誤差還有母體參數(通常樣本經過數學組合計算後才會是母體參數,例如平均數)影響。所以,統計學是種可以容忍錯誤的學科。

至於常聽到的「中央極限定理」,讓統計學的使用者都可以使用常態分配假設,然後開始統計分析。這點適用在樣本平均推估母體平均。中央極限定理沒有提到中位數、偏態係數、峰態係數、眾數、平均絕對離差等。所以前面提到的柯西分配不符合中央極限定理的使用原則。這一個反例可發現中央極限定理是有使用限制的,而不是樣本係數統計量都能使用!


統計分析和大數據分析的四個面向比較

當樣本個數增加後,上段敘述提到的中央極限定理就被濫用,甚麼都能夠趨近常態分配,可以使用統計分析。然而,來自不同母體機率分配的樣本,可以得到樣本平均。讓我們反覆抽樣,就可以得到一堆樣本平均值,計算這些樣本平均數出現機率,這就是抽樣分配。我們希望抽樣分配愈接近常態分配愈好,代表統計分析愈加能夠被使用。在書籍上的要求就是樣本個數超過或等於30。實際上,如果是均勻分配或是常態分配才有可能在少於30個樣本下可以得到趨近常態分配。不過,常態分配數據計算得到的樣本平均,最好有100個樣本值,會更有常態分配特性。

歸納自統計學不能做為大數據分析的工具


換句話說,如果樣本個數愈來愈多,統計分析就得解開那些假設限制,以符合大數據分析所需要的方法。


要如何分析大數據的程序過程(Process)

整個大數據分析的過程為主動式分析法,而非統計學的被動式分析法。所謂被動式分析法是指分析法有著假設,所以數據資料從設計、蒐集到變數轉換都需要滿足那些假設。而主動式分析法則是由數據資料自己說事,人類的主觀認定都不存在。所以,對大數據分析的過程就變成



結論

以上為基本概念。雖然有概念,但未必代表能夠運算出來。在分析過程的第三項、第四項、第六項、第七項,在統計學當中都是有其侷限性。所以大數據分析法能夠運行就得將這些問題解決,才能讓整個檢測與建模過程完成。甚至在第七項完成後,我們還能使用「機率分配模擬器」協助生成模型的數據(這就跟實驗室的數據意思一樣)。

我們將使用模擬數據,重新跑一次分析流程,或者是檢測第三項後,進行大數法則的比對。所以,這樣的大數據分析法,不同於統計分析,卻又是基於統計分析,加上機率論、數學分析、數值分析、微積分、線性代數、幾何學等。

相關詳細的內容請觀看【統計學不能做為大數據分析的工具】一書。