[掃雷]談談大數據分析的三個障礙
為什麼會有大數據分析三個障礙呢?這些個問題都起源於我們的研究方法問題。在研究大數據分析方法時,很多都是從電腦程式語言的角度出發,試圖將資料進行分類,然後計數,再去做分析。而分析的方法囿限於他們所認知的方法上,就如同我一直提到的,方法有基礎,我們需要從現有的方法上,將方法中的問題點突破,才能串聯起原有方法的真實力量。
非線性一樣可以被解決,並且已經有效解決!
那麼什麼是原有方法?我們過去所學的統計學、機率論、數學、迴歸分析法等都是既有的基礎,但是這些理論都有其問題點需要去突破。例如,三個障礙當中的非線性問題,一樣是可以克服的,其根本就是數學。最小平方法就是數學,不是代表整個迴歸分析,而是迴歸分析藉由最小平方法來找出截距與斜率的估計值。
我在高中學最小平方法時可沒學還要常態分配才能做最小平方法!迴歸分析的方法可以架構在不具有分配假設下進行,同樣是最小平方法去計算得到,同樣可以得到估計值與殘差。所以這些方法的基礎與根本要能夠被了解,才能夠有效應用這些理論分析法,而非遇到障礙就想辦法繞過。解決的辦法一樣是迴歸分析方法,這只是數學的變數轉換能力應用。換句話說,現性與非線性之間只是轉換問題!而轉換的方法就在數學觀念的變數轉換法,以及挑選變數使用的迴歸分析方法。
你問我還有怎樣的特殊解決方法?我得跟你說,牛頓都說他是站在巨人肩上看世界。那你為什麼不能繼續站在巨人肩上看世界,或只站在巨人頭人看世界?
我不是說機器學習不好,也不是說我們既有的理論分析法有多好,但至少我們可見的是過去的非線性模型論文還是有其適用性,而且是機器學習演算法拍馬比不上。另外機器學習可以處理連續是轉間斷,那我的數據很多是連續特性,將那些轉成間斷,不就是種「令人有趣的事情」嗎?連續轉間斷,只要不影響我們分析時的連續數字所具備的特性就好。可有人敢保證嗎?我自己是不敢保證。因為在連續型的機率密度函數上,如果使用間斷地分割方法,那麼大致的機率密度函數還是可以看得出來,但細節都消失了。所以分析時你只能分析那輪廓。細節?別想了!
先區分非局部性的原因
在第二個障礙上,為了這個相關性,多少人投入其中希望解決這個問題。那我必須先回到迴歸分析當中的基礎,統計學從母體抽出樣本的基礎:樣本之間彼此獨立。換句話說,第二個障礙來源是認為變數之間相互作用影響,也就是有迴歸分析的關聯在。那麼在討論關聯之前,請先讓你的資料滿足迴歸分析的三個假設!如果你的資料有問題,怎樣都不可能達到。
其實大數據的資料蒐集法是基於時間與空間下同時產生的數據,如果只是特定時間下,依循空間蒐集來的數據量,並無法非常龐大。當然如果像是阿里巴巴那樣,在一天內處理海量的交易記錄,那麼他們一天內的數據量就是非常龐大。再加上資料量有數字,有文字,所以這並不能單純使用我們從小學到大的數字體系分析法,而是需要能夠幫助我們將文字轉數字(這還是門嚴謹的學問),或是直接使用另一套數字體系 -- 機率論。這就是為什麼像華為、富士康等會聘任很多數學家協助他們分析這些資料。但如果僅是數字的話,我們運用迴歸分析法時就可以解決其問題。
就最後一個障礙來說,數學是門很厲害的學科,當幾何學無法讓我們看四維空間、五維空間或是更高維空間時,數學模型和數學式卻能夠說明與表達出來。對我們來說高維度不是問題就像次方數一樣,只要你的電腦撐得住,就能夠算出來,甚至是複雜的數學式或人類永遠都算不出來的複雜數學模型,一樣都能算出來。因此這最後一個障礙,在數學的世界其實可以輕鬆解決。
其實電腦能夠幫助我們運算出來的都是架構在這個有地心引力的地球上,一旦脫離地球,我們所計算出來的數學模型就未必適合了。因為這些數字與文字記錄都是基於我們在地球上而產生的。所以這就是最大範圍的使用限制了。