兩組資料比對,尋找差異
當我們取得兩組資料後,通常就會開始做兩母體平均數之差的檢定,以及兩母體變異數之比的檢定。那是基於常態分配假設下,將區間估計和檢定可以互通的特性發揮出來。但如果你並不知道資料是否為常態分配時,就不能只做檢定,而是區間估計和檢定都要做。而檢定或區間估計所需要的臨界值也需符合資料的母體分配,才不會在統計可容錯的範圍內,無形增加更多的錯誤。
那我們該怎麼做呢?
我選擇來自英國的公開資料,公部門的財政指標:淨債務。觀察了淨債務指標有二,一個不包含英國央行(稱為X1),一個則有包含英國央行(稱為X2)。那麼英國淨債務有無包含英國央行的淨債務是否有差異呢?
就讓我們試試看吧!
資料描述
英國公部門財政指標:淨債務
期間:2011Q3 ~2020Q1
基本資料描述
無論包不包含英國央行的淨債務是負偏態且擴闊峰的資料情況。但每單位平均數所面對的風險則是包含英國央行的淨債務指標。
X1的敘述統計係數表
sample Mean : 1478.12571
Geometrical Mean : 1471.83516
Harmonic Mean : 1465.24670
sample variance : 18214.73608
sample S.D. : 134.96198
Skewed Coef. : -0.69430
Kurtosis Coef. : 2.02063
MAD : 115.71624
Range : 446.20000
MIN : 1193.60000
MAX : 1639.80000
Median : 1536.90000
Q1 : 1354.30000
Q2 : 1536.90000
Q3 : 1589.90000
IQR : 235.60000
C.V. : 0.09131
X2的敘述統計係數表
sample Mean : 1562.20286
Geometrical Mean : 1549.75744
Harmonic Mean : 1536.87122
sample variance : 38434.09205
sample S.D. : 196.04615
Skewed Coef. : -0.34698
Kurtosis Coef. : 1.74750
MAD : 165.63118
Range : 621.70000
MIN : 1193.20000
MAX : 1814.90000
Median : 1578.80000
Q1 : 1393.70000
Q2 : 1578.80000
Q3 : 1759.60000
IQR : 365.90000
C.V. : 0.12549
X1檢測出來的資料來源為Pareto1(lamda=9.036869,c=1637.948337), p value=0.602533
X2檢測出來的資料來源為Log Normal(mu=7.333911,sigma=0.146040), p value=0.842619
檢測結果都說明兩組資料不是常態分配,而是符合少數人的財富用的分配,另外log-normal分配為Pareto分配的替代分配。所以實際的資料可以對應到常用的母體機率分配,並且符合資料特性。
因為這是時間序列資料,所以做前後是否有相關的DW檢定後,發現兩組資料都有序列相關。
The 1st sample data,
The sample auto correlation coefficient=0.903906
H0:auto correlation coefficient=0, D.W.test=0.024517
right tailed p value= 0.0000000%
left tailed p value=100.0000000%
two tailed p value= 0.0000000%
The 2nd sample data,
The sample auto correlation coefficient=0.917300
H0:auto correlation coefficient=0, D.W.test=0.015828
right tailed p value= 0.0000000%
left tailed p value=100.0000000%
two tailed p value= 0.0000000%
最後,兩組資料的平均數之差的區間估計則顯示出在99%或95%下都包含0,代表兩平均數無證據證實有差異。但90%信賴水準則顯示包含英國央行的淨債務平均值 > 不包含英國央行淨債務平均值。
99% C.I. for E(X1)-E(X2)
[ -183.2732168794, 32.5468357998]
95% C.I. for E(X1)-E(X2)
[ -159.9678495542, 2.0057354733]
90% C.I. for E(X1)-E(X2)
[ -147.8410701610, -12.7783605974]
變異數之比是以1做為比對,所以無論是哪個信賴水準,區間範圍都包含1,因此,我們沒有證據說兩變異數有差異。
99% C.I. for Var(X1)/Var(X2)
[ 0.1581929417, 1.6223639508]
95% C.I. for Var(X1)/Var(X2)
[ 0.2059676115, 1.2074227401]
90% C.I. for Var(X1)/Var(X2)
[ 0.2359804414, 1.0391340162]
如果有需要在特定分配下的檢定臨界值,可參考下方
The critical value of test1=((sample mean 1-sample mean 2)-(population mean 1 - population mean 2))/S(sample mean 1-sample mean 2),
P(test1<=-2.465659)=0.005000
P(test1<=-2.228277)=0.010000
P(test1<=-1.886371)=0.025000
P(test1<=-1.584943)=0.050000
P(test1<=-1.236801)=0.100000
P(test1<=1.359536)=0.900000
P(test1<=1.772232)=0.950000
P(test1<=2.139712)=0.975000
P(test1<=2.582755)=0.990000
P(test1<=2.898854)=0.995000
The critical value of test2=((sample variance 1)/(sample variance 2))/((population variance 1)/(population variance 2)),
P(test2<=0.292118)=0.005000
P(test2<=0.329485)=0.010000
P(test2<=0.392507)=0.025000
P(test2<=0.456073)=0.050000
P(test2<=0.540867)=0.100000
P(test2<=1.715201)=0.900000
P(test2<=2.008308)=0.950000
P(test2<=2.300951)=0.975000
P(test2<=2.690001)=0.990000
P(test2<=2.995844)=0.995000