兩組資料比對,尋找差異

當我們取得兩組資料後,通常就會開始做兩母體平均數之差的檢定,以及兩母體變異數之比的檢定。那是基於常態分配假設下,將區間估計和檢定可以互通的特性發揮出來。但如果你並不知道資料是否為常態分配時,就不能只做檢定,而是區間估計和檢定都要做。而檢定或區間估計所需要的臨界值也需符合資料的母體分配,才不會在統計可容錯的範圍內,無形增加更多的錯誤。

那我們該怎麼做呢?

我選擇來自英國的公開資料,公部門的財政指標:淨債務。觀察了淨債務指標有二,一個不包含英國央行(稱為X1),一個則有包含英國央行(稱為X2)。那麼英國淨債務有無包含英國央行的淨債務是否有差異呢?

就讓我們試試看吧!

資料描述

英國公部門財政指標:淨債務
期間:2011Q3 ~2020Q1

基本資料描述

無論包不包含英國央行的淨債務是負偏態且擴闊峰的資料情況。但每單位平均數所面對的風險則是包含英國央行的淨債務指標。

X1的敘述統計係數表
    sample Mean               :          1478.12571
    Geometrical Mean :           1471.83516
    Harmonic Mean    :           1465.24670
    sample variance         :          18214.73608
    sample S.D.             :            134.96198
    Skewed Coef.     :             -0.69430
    Kurtosis Coef.   :              2.02063
    MAD              :            115.71624
    Range            :            446.20000
    MIN              :           1193.60000
    MAX              :           1639.80000
    Median           :           1536.90000
    Q1               :           1354.30000
    Q2               :           1536.90000
    Q3               :           1589.90000
    IQR              :            235.60000
    C.V.             :              0.09131
 
X2的敘述統計係數表
    sample Mean               :          1562.20286
    Geometrical Mean :           1549.75744
    Harmonic Mean    :           1536.87122
    sample variance         :          38434.09205
    sample S.D.             :            196.04615
    Skewed Coef.     :             -0.34698
    Kurtosis Coef.   :              1.74750
    MAD              :            165.63118
    Range            :            621.70000
    MIN              :           1193.20000
    MAX              :           1814.90000
    Median           :           1578.80000
    Q1               :           1393.70000
    Q2               :           1578.80000
    Q3               :           1759.60000
    IQR              :            365.90000
    C.V.             :              0.12549


X1檢測出來的資料來源為Pareto1(lamda=9.036869,c=1637.948337), p value=0.602533 
X2檢測出來的資料來源為Log Normal(mu=7.333911,sigma=0.146040), p value=0.842619 

檢測結果都說明兩組資料不是常態分配,而是符合少數人的財富用的分配,另外log-normal分配為Pareto分配的替代分配。所以實際的資料可以對應到常用的母體機率分配,並且符合資料特性。

因為這是時間序列資料,所以做前後是否有相關的DW檢定後,發現兩組資料都有序列相關。

The 1st sample data,
 The sample auto correlation coefficient=0.903906
 H0:auto correlation coefficient=0, D.W.test=0.024517
 right tailed p value= 0.0000000%
 left tailed p value=100.0000000%
 two tailed p value= 0.0000000%

 The 2nd sample data,
 The sample auto correlation coefficient=0.917300
 H0:auto correlation coefficient=0, D.W.test=0.015828
 right tailed p value= 0.0000000%
 left tailed p value=100.0000000%
 two tailed p value= 0.0000000%

最後,兩組資料的平均數之差的區間估計則顯示出在99%或95%下都包含0,代表兩平均數無證據證實有差異。但90%信賴水準則顯示包含英國央行的淨債務平均值 > 不包含英國央行淨債務平均值。



 99% C.I. for E(X1)-E(X2)
  [     -183.2732168794,       32.5468357998]
  95% C.I. for E(X1)-E(X2)
  [     -159.9678495542,        2.0057354733]
  90% C.I. for E(X1)-E(X2)
  [     -147.8410701610,      -12.7783605974]

變異數之比是以1做為比對,所以無論是哪個信賴水準,區間範圍都包含1,因此,我們沒有證據說兩變異數有差異。


  99% C.I. for Var(X1)/Var(X2)
  [        0.1581929417,        1.6223639508]
  95% C.I. for Var(X1)/Var(X2)
  [        0.2059676115,        1.2074227401]
  90% C.I. for Var(X1)/Var(X2)
  [        0.2359804414,        1.0391340162]

如果有需要在特定分配下的檢定臨界值,可參考下方
The critical value of test1=((sample mean 1-sample mean 2)-(population mean 1 - population mean 2))/S(sample mean 1-sample mean 2),
P(test1<=-2.465659)=0.005000
P(test1<=-2.228277)=0.010000
P(test1<=-1.886371)=0.025000
P(test1<=-1.584943)=0.050000
P(test1<=-1.236801)=0.100000
P(test1<=1.359536)=0.900000
P(test1<=1.772232)=0.950000
P(test1<=2.139712)=0.975000
P(test1<=2.582755)=0.990000
P(test1<=2.898854)=0.995000

 The critical value of test2=((sample variance 1)/(sample variance 2))/((population variance 1)/(population variance 2)),
P(test2<=0.292118)=0.005000
P(test2<=0.329485)=0.010000
P(test2<=0.392507)=0.025000
P(test2<=0.456073)=0.050000
P(test2<=0.540867)=0.100000
P(test2<=1.715201)=0.900000
P(test2<=2.008308)=0.950000
P(test2<=2.300951)=0.975000
P(test2<=2.690001)=0.990000
P(test2<=2.995844)=0.995000