金融大數據分析-第一講
大數據分析在於「大數據」和「分析」二字的組成。原本數據分析就是客觀從數據當中分析出一些現象,只是當數據量過於龐大時,人類難以從中尋找出數據的規律時,就需要調整現有的分析法,以符合巨量數據量的多且雜亂特性。


大部份人都認為統計學可以適用數據分析,那自然可以適用大數據分析。實則不然。統計學就是一門解析數據的工具,是極佳的解析數據技術,若要跨越到解析巨量的數據量,那完全照本宣科是不行的。想要使用它就要符合使用的要求(也就是假設),所以我們提出了可以加入「數學」,成為一門新的科學方法。
我想很多人同樣聽到「數學」一詞就開始退卻。我若用數學方式解說,是會有侷限性,所以就使用演繹法說明,較能讓大多數人接受與了解,新創的分析法與如何應用,從數字分析前進到數學函數,到建立模型。
認識統計學
翻開統計學教科書,分了三個部份:母體、抽樣的樣本特性分析、兩個或多個隨機變數的關聯。統計學為處理數據的方法,建構在主觀認定母體為常態分配,使用少量數據,經過資料整理或扭曲資料後,再做推論。
【問題】蒐集到的數據經常不符合常態
即使使用中央極限定理,有些數據怎麼轉,怎麼趨近也都無法變成常態分配,當然此過程也扭曲了資料原始特性。所以我們如果要分析大數據,統計學就需要被修正,甚至是加入很多的新型解析數字的技術。
【數字技術】
統計學受限隨機變數的變數轉換技術,數學也只能輔助統計學突破,但想要成為相對完美的工具,我們還需要其他工具協助。電腦以及演算法就是重要的工具。很多的計算或轉換都是人力所不能及;運算的複雜程度是人力所不能及,所以理論要修正,工具也要更新。
工具 - 機率分配模擬器
想要能夠運做到這樣的成果,我們得先有一個很重要的工具—「機率分配模擬器」。模擬器可以幫我們做到隨機變數的變數轉換(或數學的變數轉換)、檢測數據來自哪的改良式適合度檢定、適合度檢定都無法做到,就只能用數學方程式估計法、誰說只能有那些統計檢定量,只要有檢定統計量就有分配,就有臨界值。另外想找數據關聯,估算他們的數學模式吧。我們可以在各種的數據變數進行尋找關聯,建模等。如此解決統計學的限制,讓我們可以做到更精準的數字分析。這也就是精準分析。
精準分析不是說巨量的資料量才能做,即使少量的資料,我們也該追求精準。有了模式的精準度控制,才能檢測模型的模擬,重新驗證模型與實際的差距。原本我們只是使用一組數據(實際數據或觀察值)得到模型,模型愈精準,就能夠由模型模擬出數據,再由這些模擬數據去比對實際的數據。很多人可能以為我們只要模擬出一組數據,再與模擬數據做比對。但實際上,有模型就能夠模擬出數千萬組的數據!也就是說可以再次建模,這次數據來自模擬的數據。最後用機率分配的機率模式,進行大數法則比對,確認精準度是多少。
工具 - 數字估算法
我們估算數字的什麼東西呢?規律、關聯!規律或關聯可以成為數據的數學模式或數學的結構。統計學的迴歸分析只能在常態分配假設下使用。只要你的資料不符合常態分配、二維常態分配或是條件常態分配,那麼你的資料就是不符合迴歸分析第一個假設!但是從數學的角度,最小平方法就是控制誤差最小的數學估算方法。
迴歸分析的第二個假設自變數與應變數都是已知的,有時候兩者是同時取得。可是迴歸分析是找出自變數與應變數的期望值,這個期望值顯示兩者有關係。那麼自變數與應變數難道不是個字來自特定分配嗎?不能成為隨機變數嗎?當然可以,只是不符合迴歸分析的假設。
迴歸分析的第三個假設自變數與應變數的關係是直線。當我們獲得成對的自變數與應變數時,沒有人可以確定兩者會有直線關係,很可能有其他關係存在。這也就是為什麼計量經濟學的一個章節在說明違反迴歸假設時會發生什麼事情,例如期望值有bias;使用權數改變數據、使用非線性模式(非常少的選擇)等。最常見的方法就是改變數據!其次才是改變整體的數學函數。
迴歸分析的第四個假設是同質變異數。第五個假設是無相關,包含序列相關。這兩個情況是跟前三個假設不同的。前三個假設講期望值,數字是一次方。第四個假設是變異數,數字是二次方。第五個相關,是兩者相乘後除以平方,數字回到一次方。
想要同時解決這些問題,讓數字系統穩定並且可以精準找出它的規律,我們在估算時就得解決這些數字問題。但統計學的迴歸分析在一開始討論的數字體系就只是累加性的數字,不適用其他特性的數字。所以當你不知道數字特性,直接用迴歸分析就會產生很多奇怪的結果,甚至在設計投資產品、指數型產品等都會有問題的。
結論
我們想要解析金融數據,甚至是金融的巨量資料時,就得先將分析法搞清楚。數據要先被檢測,確定基本特性。再來討論數據的估算和建模。建模分兩種,一種是機率模式、另一種是數學模式。最後,還要對模型做檢測,並且這個檢測跟一開始的數據檢測流程是一模一樣。如此才能以大數法則進行誤差確定。