[掃雷]大數據分析是什麼
在網上和書上皆對大數據有所定義,特別是3V最為常見。也是如此,這是對數據量的定義。但大數據當中卻有包含分析。而這樣的數據量定義卻無法說明分析法。於是分析法演變成使用電腦的程式語言做分析。而這樣的分析卻是非常基礎的分析法。而對於學習商科或管理專業的人來說,寫程式不是主軸,而是分析、解讀、決策。如果分析法有錯誤,或不適用,那麼分析結果是否真的適合用於決策呢?恐怕不如預期,這也讓決策後的執行結果需要在事前就先打些折扣。

這怎麼說呢?對大數據的分析法當中,看似好像有所內容,但對於數據來說卻是先採用分類,所以這代表應選擇適用於間斷性數值的隨機變數類型,而非我們常用的連續性數值的隨機變數類型。那麼在尋找其關聯時,如果只是相關係數矩陣,那還好,仍可適用。但是迴歸分析呢?這確有所差異了。而建模或是尋找數學模式的關聯性就比較適合使用迴歸分析,讓我們了解應變數與自變數之間的關聯。
可是統計學的假設被大數據的數據量給破壞掉,即使使用迴歸分析也不合適。但迴歸分析如果剔除分配的假設,是否仍可適用呢?當然可以!迴歸分析的整體模型是建構在數學模型上,即使我們不管分析使用的常態分配假設,一樣可以使用迴歸分析[參考王冠先,統計學上下冊]。這讓迴歸分析一樣可以用在大數據的分析上。
至於數據是否滿足統計學,那肯定是被否定的!
被蒐集到的大數據數量是受到時間與空間的影響,持續更新。這不符合統計學的數據假設。對於統計學可使用的數據,必須滿足穩定的數字架構,必須具備數字的累加性,讓數字可以進行數學運算,最後必須是在「特定時間點」所獲得的數字。因此大數據的數據蒐集就不適用統計學。但是統計學也是基於數學,所以這讓我們得以使用數學、機率論、統計學、數值分析、集合論、數論等高等的數學知識,分析數據的規律性。
第二大數據的數據多且雜亂特性,這使得我們能夠使用的分析法需要定位為精準分析。我們需要使用分析法將數據的規律,數據的模型去建立出來。例如,常見的股價指數就是不符合統計學的數據特性,但我們一樣要做分析的話,那麼就得針對數據特性,使用分析法分析股價指數的規律。而信用卡的客戶資料更加的雜亂,而且記錄的內容有數字,也有文字,如果使用我們常用的數學分析(包含統計學),那可能無法分析。不過機率論卻有一個觀念可以適用,且就是AlphaGo一開始提出的貝氏定理。美國在很早年代就已經可以分析到40層(等同於40個欄位)的貝氏定理關係。但現實是我們看到的都是很少的分析層,或者需要使用大型電腦協助處理相對多的分析層。
所以除了我們常見僅分析數字規律的精準分析外,還有另一種就是可以同時處理數字和文字的資料,做出決策分析用的人工智能分析法。這種分析法不如精準分析的精準度,但卻方便地處理與分析數字和文字同時存在的資料。
根據前面說的內容,讓我將大數據分析法整理歸納一下。
第一種是我們從國中開始學習的數學分析法,針對數字進行運算、找數學模型等。所以從數字基礎運算、方程式、空間(含平面)、微積分、統計學、數學分析、數論等,逐步讓我們熟悉數字的計算與建模。所以這樣的分析法就是數學史,並且可以達到非常精確的分析結果。因此可以稱為數字分析法或精準分析法。
當我們可以精準分析數字資料後,建模出來的數學模型就可以反覆被使用(如同複製且貼上)、可以被做為驗證使用,以及可以做為預測用。
第二種則是從小就會的能力 -- 分類法 + 計數,針對數字和文字同時存在的資料進行分析。因為有其前後出現的順序,或是因為問題而可能產生因果邏輯,所以可以主觀討論A影響B或是B影響A等。不過當我們使用分類時,就需要將可以精準表達使用的數字轉變成分類項目,以及只是計數,代表每個數字或文字都是同等的重要。所以這就不會如同第一種的精準分析達到相同的精確度。這種方法可以稱為意向大數據分析法或人工智能分析法。非常適合用於決策分析使用。
至於第二種方法是否適用於預測呢?其實並不非常合適,這只是使用歷史資料,經過分類與計數,獲得機率(比率)後進行比對與關聯分析。這些分析結果並不能推論到未來。如果要推論到未來,那就只是種臆測概念而已。這就像氣象局說明天可能有30%會下雨的意思[參考高中數學與程式 粉絲專頁的高中數學第二冊A系列的機率單元1~6集]。