[掃雷]誰說變異數異質性只能檢定

計量經濟學當中，談到變異數異質性就是架構在線性迴歸模型上的假設被破壞後所造成的問題，而我們希望能夠解決這樣的問題，所以延伸出變異數異質性的檢定。

為什麼會有變異數異質性問題呢？以下有幾個原因是常見並且被提出的理由：

我們應該選擇衡量個人的數據，但因為獲取不到而使用替代數據。替代數據可能來自平均概念，例如平均家戶就不等於平均每人，造成變異數受到干擾。
自變數數據可能受到其他因素影響，造成自變數應被視為隨機變數，並且其變動會被納入變異數當中，造成異質性發生。
解釋變數是來自偏態係數不為0的分配時，也會造成變異數異質性。
錯誤的數據轉換或是錯誤的模型形式造成變異數異質性。(David Hendry)

第1到3點都是數據的問題，第4點有數據問題，也有模型錯誤問題。

一般的做法就是認為在估計完迴歸模型[註1]後，認為殘差具有變異數的代表性，所以透過檢定殘差確認是否有變異數異質性。常見的檢定方法有Batlett test, Breusch Pagan test, Goldfeld Quandt test, Glesjer test, White test, Ramsey test, Szroter test. 我在這僅說明前四種檢定方法，所有的檢定方法都可以在維基百科上找到。

無論是哪種檢定，虛無假設都是n個變異數值皆相等，那麼對立假設就是至少有一變異數值不相等。

Bartlett's test

Bartlett's test的模型為

$Y_{i}=\beta_{0}+\beta_{1} X_{1,i}+...+\beta_{k} X_{k,i}+\varepsilon_{i}, E(\varepsilon_{i})=0,Var(\varepsilon_{i})=\sigma \tfrac{2}{i}, i=1, 2, ..., n$

如果每次有mi個樣本就能夠跑一次上式，所以這代表我們將會有n組的上式進行估計，得到殘差後，利用變異數的計算方法得到估計值。

第二步運用Bartlett's test

$\chi ^2=\frac{1}{C} \sum_{i=1}^{n}(m_{i}-k)log(\frac{s^2}{s_{i}^{2}})$

上式會有極限分配存在，然後進行檢定。

Breusch Pagan test

Breusch Pagan test則認為變異數是解釋變數(或稱為自變數)的線性方程式，亦即

$\sigma_{i}^2=\gamma_{1}+\gamma_{2}\, Z_{i2}+...+\gamma_{p}\, Z_{ip}$

所以我們可以先不管變異數異質性，直接先跑迴歸模型，然後計算出殘差。

第二步建立個別殘差平方除以(殘差平方和除以n)

$g_{i}=\frac{e_{i}^2}{\frac{\sum_{i=1}^{n} e_{i}^2}{n}}$

第三步設定Z為自變數的組合，然後用第二步的g為應變數，跑迴歸模型，計算出殘差與殘差平方和。

第四步產生檢定統計量Q為(g的平方和 - 第三步的殘差平方和) / 2。此時同樣是使用卡方分配，自由度為p - 1去做檢定。

Goldfeld Quandt test

Goldfeld test是以一個解釋變數做為表達模型的異質性，並且這個解釋變數與變異數有正相關。所以假設第j個解釋變數可以表達異質性，亦即

$\sigma_{i}^2=\sigma^2 \times X_{ij}, i=1, 2, ..., n$

檢定流程為

將樣本(或觀察值)進行與Xj做反向排序
將樣本均分，留下中間c個樣本，因此兩組的樣本個數有(n - c) / 2 > k
使用OLS跑兩個分離的迴歸，獲得兩個殘差平方和
建立F檢定統計量為第二個迴歸的殘差平方和 / 第一個迴歸的殘差平方和，檢定臨界值為F((n - c) / 2 - k, (n - c) / 2 - k)

Goldfeld檢定非常簡單，但是它要求的假設卻是要能挑出一個解釋變數幫助確定異質性。其次，這個檢定是個有限樣本的檢定。最困難的點是如何確定c。c的決定會影響檢定的有效性。所以在實作上通常建議設定為 c = n / 3。

Glesjer test

Glesjer test是建構在變數Z會影響變異數。這同樣是一個變數去影響異質性。不過對於變數Z的選擇可以來自於解釋變數，也可以來自外在因素。

其檢定流程為，使用OLS跑完後得到殘差。殘差值取絕對值後成為應變數，建立

$|e_{i}|=\delta_{0}+\delta_{1}\, Z_{i}^{h}+\nu_{i}$

跑OLS後，會得到斜率值，此斜率為t檢定統計量。

在Glesjer檢定的最大特點在於殘差絕對值去跑Z的線性迴歸。這對於變異數異質性的函數模式有其意義在。第一，殘差絕對值仍是一次方。與第一步驟的自變數與應變數迴歸，可以繼續銜接上。所以這種模型，稱為MAD法的模型。

發現

從Breusch Pagan test和Glesjer test可以發現變異數異質性是透過一個方程式估計後，再由檢定統計量去進行檢定。其中，Breusch Pagan test是變異數，也就是平方數值做為應變數的方程式，而Glesjer test則是殘差絕對值做應變數的方程式。對我們來說這就代表同樣經過「期望值」的迴歸方程式後，所剩下的殘差計算得到代表變異數數值或是殘差直接取絕對值，都可以建立方程式說明變異數異質性。

換句話說，為什麼我們不能將變異數異質性是為是可以被估計的方程式呢？就如同傳統迴歸分析所估計的迴歸方程式，其實就是在估計「期望值」！

----------------------------------------------------------------

註1：這裡指的迴歸模型就是估計應變數期望值的估計式。

進階的詳細內容請參考「統計學不能做為大數據分析的工具-原因與補正」的問題24~26，免費研究報告可以掃書籍封面的QR code