發表文章

目前顯示的是 4月, 2017的文章

大數據分析基礎 - 大數法則 (中央極限定理)

圖片
先前在說明 大數據分析的困境 中有提到統計學延伸到大數據分析的四個問題, 統計學方法擴展到「大數據分析」的困境有其以下問題: 母體分配必需為常態分配,無法擴展到其他母體分配。 統計的檢定臨界值受到樣本的限制(數值分析無法有效獲得),無法提供大數據分析的樣本個數的臨界值。 「大數法則」與「中央極限定理」並無數學與計算方法發展正確的「極限分配」。 沒有精確的檢定統計量的抽樣分配作為基礎。 其中,第一點與第三點的根源在於第三點。如果所得到的資料,其樣本平均數與樣本變異數都可以趨近常態分配 -- 也就是極限分配 ,那麼,母體所服從的分配就不需要假設常態分配,以及迴歸分析的誤差也無需假設常態分配。 問題出在於所有的數學推導皆寫著 「n 趨近於無窮大」,此時,極限分配存在。那樣本個數真的可以有無窮多個嗎?這是不可能的。所以知道多少樣本個數可以達到極限分配,在大數據分析理論基礎是非常重要的! 第二個問題是我們看到的極限分配推導都是立基於樣本平均數,至於,樣本變異數的極限分配為何?樣本變異數可以標準化嗎?這個問題卻沒有人回答。 在英語版的維基百科內,寫著這段內容: 樣本變異數的期望值為母體變異數,而樣本變異數的變異數則是與四階動差有關,也就是峰態係數。而且非常重要的是所有的樣本值無須假設來自常態分配!可是,即使是維基百科,附圖下方的註解仍寫著: Distribution and cumulative distribution of s2/σ2, for various values of ν = n − 1, when the yi are independent normally distributed . 即使如此,v = n - 1,應可以讓其增加,了解是否具有中央極限特性,並且清楚告知樣本個數,n,要多少個以上才發生中央極限定理。 可惜,沒有! 理論上,我們就可以像樣本平均數一樣找到各種機率分配下,樣本變異數的中央極限定理。我們需要根據大數法則設定以下的條件: 比較分配差距時的誤差控制 找到做為依據的基準誤差 大數法則運算機率值的公式

經濟學的基礎 - 國外部門的經濟行為

圖片
國外部門可以使用國籍來衡量,或是商品生產地來衡量。如果使用國籍衡量,那麼以台灣為例就是指持有非具有中華民國國籍者或非持有中華民國護照者。若以商品生產地衡量,可以看到所有商品或勞務須註明產地,如Made in Hong Kong。這些商品就是屬於國外部門生產,然後進入台灣並被販售給居住在台灣的人。為什麼國外部門會在經濟循環圖內呢? 由於各區域的資源分佈是不平均的,所以各區域所生產的商品或勞務亦有不同,因此,若能將某地沒有的商品或勞務販售到當地,那必然奇貨可居,高價賣出。對任何擁有此商品或勞務者而言,是再好不過的事情。只要能夠突破地域限制,將商品或勞務販賣到另一個需要的區域,產生互通有無的現象,此時雙方都是雙贏的局面。所以,國外部門的存在可以是讓商品或勞務互通有無,同時也讓商品或勞務的銷售範圍擴大(市場規模擴大)。 不過,有得必有失。國外部門的存在會讓經濟體系內的金流流出,產生金流減少,這稱為 進口 (Import)。同時,又將商品或勞務販售給國外部門,帶來金流流入,產生金流增加,這稱為 出口 (Export)。在經濟循環體系內,我們希望金流是增加的,所以國際貿易提倡出口扣除進口後的 淨出口 (Net export),最好為正值(positive value)!這表示國家的總金流除了國內運轉的金流外,還能得到國外的金流挹注,讓整體金流更為龐大,也意味者經濟規模愈加龐大,國力愈為強盛。 然而,有得必有失,一個國家從國外得到的金流挹注愈多,代表另一國家的金流損失愈大。 中華民國進出口總值年月走勢 台灣每月的進出口總值走勢圖當中,可發現多數月份的出口總值高於進口總值。這顯示台灣的經濟是跟隨上面描述的概念,認為國外部門的金流挹注愈多,經濟體系的規模就會愈大。不過,從上圖可發現另一件事情,在2010年後,台灣的出口總值很穩定再700,000至800,000範圍。而2001年至2008年則還有持續上漲的趨勢。 與此同時,無論是出口或是進口總值,兩者的線性相關高達96.5577%。這顯示台灣與國外部門的金流關係是同增同減。而同增同減代表只要金流挹注不夠時,同時減少金流外溢的現象,控制台灣與國外部門的總金流數字。當然,另一個原因或許是當國外部門購買較少的台製商品或勞務時,台灣的家計單位獲得較少所得,因此對國外部門生產的商品或勞務同樣減少。因此,國外部門的經濟行為可歸納為 有國外部門是與...