發表文章

目前顯示的是 11月, 2019的文章

意向大數據分析_分辨資料視覺化下的聯合機率和條件機率

圖片
有人問我資料視覺化不就是資料進來後,經過整理就使用漂亮的UI來展現資料就可以知道資料的關聯嗎? 現在很多資料視覺化確實都是走向這樣的方向。可是讓我們回到資料分析的初衷,為什麼要做資料分析! 資料分析的目的就是希望從資料當中根據我的問題去找到答案,可以是驗證我所想的,也可能是發現問題點,或是意想不到的結果。那你所使用的資料真的可以就這樣丟進去,然後展現嗎? 我看到很多情況都是弄個走勢圖,就像匯率走勢、股價走勢、營收結構(圓餅圖或環狀圖)等,這些對我們提出的問題有什麼意義呢? 我在自己的研究中,特別是匯率關聯性,以及特定魚種價格關聯性,就發現了如果只是用走勢圖展現出資料來,其實根本就看不出個所以然。就其原因那是時間序列資料,你用走勢圖顯示,卻不代表不同國家匯率走勢就能表現他們之間的關聯性。 有人又說,我可以求相關係數(矩陣),這樣一樣可以知道那些資料的關聯性。我承認確實可以用相關係數矩陣,但這是有前提的,那係數值是建立在線性關係上,如果不是線性關係😵。好吧,你可以說課本沒教,受限於工具與學習經驗,所以不管! 那真是受限工具與學習經驗嗎?好像並非如此。 意向大數據分析是建立在機率論上,以機率值幫助我們知道數字或文字特徵。所以,如果可以將那些文字或數字以意向大數據分析方法來解讀,自然也是有理論基礎,而且也是過去學習過的知識。 這時,又發生了一個問題!我們可以計算邊際機率(這是我們最常看到的計算機率方式),條件機率(學統計學或計量經濟學時都會學到的迴歸分析就是架構在條件下),聯合機率(全部一起看,特別複雜,有時候很難解釋)。 所以,當我們計算出這些機率值後,就要根據自己詢問的問題特色來選擇邊際、條件或是聯合機率,而不是通通都認為是邊際機率或聯合機率。 我們最常發生的是條件與邊際傻傻分不清,特別是在資料視覺化圖像上! 這是怎麼一回事呢?下面的資料是來自常態分配的一組條件機率。為了能夠繪製出圖形,所以經過排序後,可以形成列聯表,列為Y,欄為X,然後繪製出圖形。 我們可以看到在對應的分類(對角線)很明顯條件機率為0.8~0.819,其左右,對角線的機率值則為0.22~0.25,在條件機率下,可以看出分類號碼相同,以及分類號碼加減1就會產生機率。 那聯合機率呢?下方圖內為Excel的截圖。可以看出聯合機率也是在對角線上有機率值,在鄰近的分類號也有機率值,但是,可以發現 對角線的機率...

意向大數據分析_資料視覺化_聯合機率法

圖片
意向大數據分析方法可以適用於同時出現文字與數字的資料。然後透過計算每個層次的機率與每個層次之間所形成的條件機率,我們可以繪製出樹狀圖來顯示每個可能路徑。樹狀圖會因為層次的排序不同而不同,所以這樣的樹狀圖會非常龐大的,計算起來也非常麻煩。 下面,我用三個層次的例子來說明意向大數據分析方法的使用。 資料內容 隨機調查一萬個人,記錄他的性別、居住區域、年所得(萬元) 男   北          52.4863746029 男   南         123.4805768599 女   北         331.9074010055 男   北         243.1755663228 男   南         180.8876075778 男   北         158.3195187234 男   北         193.4245893981 男   北         236.3479604666 男   南         146.9041270653 女   北         228.9483905483 男   北         187.6686910211 女   北         358.9686625266 男   南         14...

應用意向大數據分析於銷售

情   境 現下取得產品品項名稱、銷售數量(以X4表示),單價分類與區域,對此四組資料,可以了解特定產品品項在哪些區域賣得比較好,以及在當地銷售的數量和單價如何。 為了回答這樣的問題,我設定了層次順序為 產品品項 → 區域 → 單價分類 → 銷售數量 對唯一的數字資料,分為2組。X4 最小值=1.000000  最大值=507.000000 對單價則分為低單價、中單價、高單價、超高單價 其他文字類型的資料,以文字來分類 資料來源:使用模擬銷售資料,並調整部份數據 分    析    結    果 第一個問題特定產品在哪個區域賣最好呢?想回答這個問題,我們要選擇條件機率的最大值會是比較好的。所以經過意向大數據分析後,得到 由 家用紙品 估計結果 北部 由 女性衛生用品 估計結果 北部 由 嬰兒尿褲 估計結果 北部 無論是哪種產品品項條件下,都是在北部最好販售(出現機率最高)。 既然是在北部最好販售,那麼定價上有什麼特徵呢? 由 家用紙品 and 北部 估計結果 超高單價 由 家用紙品 and 中彰投 估計結果 超高單價 由 家用紙品 and 南部 估計結果 中單價 由 家用紙品 and 東部 估計結果 中單價 由 女性衛生用品 and 北部 估計結果 超高單價 由 女性衛生用品 and 中彰投 估計結果 中單價 由 女性衛生用品 and 南部 估計結果 低單價 由 女性衛生用品 and 東部 估計結果 低單價 由 嬰兒尿褲 and 北部 估計結果 超高單價 由 嬰兒尿褲 and 中彰投 估計結果 超高單價 由 嬰兒尿褲 and 南部 估計結果 超高單價 由 嬰兒尿褲 and 東部 估計結果 中單價 從意向大數據分析的結果中,我挑出產品品項且在北部的定價分類,分別有 由家用...