兩組資料比對，尋找差異

當我們取得兩組資料後，通常就會開始做兩母體平均數之差的檢定，以及兩母體變異數之比的檢定。那是基於常態分配假設下，將區間估計和檢定可以互通的特性發揮出來。但如果你並不知道資料是否為常態分配時，就不能只做檢定，而是區間估計和檢定都要做。而檢定或區間估計所需要的臨界值也需符合資料的母體分配，才不會在統計可容錯的範圍內，無形增加更多的錯誤。

那我們該怎麼做呢？

我選擇來自英國的公開資料，公部門的財政指標：淨債務。觀察了淨債務指標有二，一個不包含英國央行(稱為X1)，一個則有包含英國央行(稱為X2)。那麼英國淨債務有無包含英國央行的淨債務是否有差異呢？

就讓我們試試看吧！

資料描述

英國公部門財政指標：淨債務

期間：2011Q3 ~2020Q1

基本資料描述

無論包不包含英國央行的淨債務是負偏態且擴闊峰的資料情況。但每單位平均數所面對的風險則是包含英國央行的淨債務指標。

X1的敘述統計係數表

sample Mean : 1478.12571

Geometrical Mean : 1471.83516

Harmonic Mean : 1465.24670

sample variance : 18214.73608

sample S.D. : 134.96198

Skewed Coef. : -0.69430

Kurtosis Coef. : 2.02063

MAD : 115.71624

Range : 446.20000

MIN : 1193.60000

MAX : 1639.80000

Median : 1536.90000

Q1 : 1354.30000

Q2 : 1536.90000

Q3 : 1589.90000

IQR : 235.60000

C.V. : 0.09131

X2的敘述統計係數表

sample Mean : 1562.20286

Geometrical Mean : 1549.75744

Harmonic Mean : 1536.87122

sample variance : 38434.09205

sample S.D. : 196.04615

Skewed Coef. : -0.34698

Kurtosis Coef. : 1.74750

MAD : 165.63118

Range : 621.70000

MIN : 1193.20000

MAX : 1814.90000

Median : 1578.80000

Q1 : 1393.70000

Q2 : 1578.80000

Q3 : 1759.60000

IQR : 365.90000

C.V. : 0.12549

X1檢測出來的資料來源為Pareto1(lamda=9.036869,c=1637.948337), p value=0.602533

X2檢測出來的資料來源為Log Normal(mu=7.333911,sigma=0.146040), p value=0.842619

檢測結果都說明兩組資料不是常態分配，而是符合少數人的財富用的分配，另外log-normal分配為Pareto分配的替代分配。所以實際的資料可以對應到常用的母體機率分配，並且符合資料特性。

因為這是時間序列資料，所以做前後是否有相關的DW檢定後，發現兩組資料都有序列相關。

The 1st sample data,

The sample auto correlation coefficient=0.903906

H0:auto correlation coefficient=0, D.W.test=0.024517

right tailed p value= 0.0000000%

left tailed p value=100.0000000%

two tailed p value= 0.0000000%

The 2nd sample data,

The sample auto correlation coefficient=0.917300

H0:auto correlation coefficient=0, D.W.test=0.015828

right tailed p value= 0.0000000%

left tailed p value=100.0000000%

two tailed p value= 0.0000000%

最後，兩組資料的平均數之差的區間估計則顯示出在99%或95%下都包含0，代表兩平均數無證據證實有差異。但90%信賴水準則顯示包含英國央行的淨債務平均值 > 不包含英國央行淨債務平均值。

99% C.I. for E(X1)-E(X2)

[ -183.2732168794, 32.5468357998]

95% C.I. for E(X1)-E(X2)

[ -159.9678495542, 2.0057354733]

90% C.I. for E(X1)-E(X2)

[ -147.8410701610, -12.7783605974]

變異數之比是以1做為比對，所以無論是哪個信賴水準，區間範圍都包含1，因此，我們沒有證據說兩變異數有差異。

99% C.I. for Var(X1)/Var(X2)

[ 0.1581929417, 1.6223639508]

95% C.I. for Var(X1)/Var(X2)

[ 0.2059676115, 1.2074227401]

90% C.I. for Var(X1)/Var(X2)

[ 0.2359804414, 1.0391340162]

如果有需要在特定分配下的檢定臨界值，可參考下方

The critical value of test1=((sample mean 1-sample mean 2)-(population mean 1 - population mean 2))/S(sample mean 1-sample mean 2),

P(test1<=-2.465659)=0.005000

P(test1<=-2.228277)=0.010000

P(test1<=-1.886371)=0.025000

P(test1<=-1.584943)=0.050000

P(test1<=-1.236801)=0.100000

P(test1<=1.359536)=0.900000

P(test1<=1.772232)=0.950000

P(test1<=2.139712)=0.975000

P(test1<=2.582755)=0.990000

P(test1<=2.898854)=0.995000

The critical value of test2=((sample variance 1)/(sample variance 2))/((population variance 1)/(population variance 2)),

P(test2<=0.292118)=0.005000

P(test2<=0.329485)=0.010000

P(test2<=0.392507)=0.025000

P(test2<=0.456073)=0.050000

P(test2<=0.540867)=0.100000

P(test2<=1.715201)=0.900000

P(test2<=2.008308)=0.950000

P(test2<=2.300951)=0.975000

P(test2<=2.690001)=0.990000

P(test2<=2.995844)=0.995000