[掃雷]分析法差之毫釐 - 你真認識迴歸分析的二三事?
你沒正確拆解迴歸分析的數學結構就別說你學過迴歸分析。無論是統計學、迴歸分析或計量經濟學的課程中,都會說到迴歸模型。當然深入討論迴歸模型的課程多落在迴歸分析或計量經濟學上。可是你知道迴歸分析的數據要求、自變數要求、殘差要求、整個的模式狀態嗎?
迴歸分析使用時機
傳統的迴歸分析是要其使用時機的,不是我們說想找兩個變數,或是多個變數的關聯就直接使用。而是需要在使用前進行檢查是否符合使用的條件。那麼就讓我一一說明吧。
你知道怎樣的數字體系是迴歸分析可以分析的?
我們總是將所有只要可以變成數字的資料放入迴歸模型中進行分析。可是能夠使用迴歸模型的數字首先必須滿足數字性質:具累加性。因為迴歸分析就是建立期望值估計式,所以數字自然要滿足能夠做期望值的累加功能。
不過有時候我們會遇到間斷型的數字,同樣需要滿足這樣的特性。例如,問卷上代表滿意程度的數字其實只是分類性的數字,而不具有累加性。這就像經濟學的效用值一樣,我喝2杯水的效用值未必等於2倍的喝1杯水的效用值。
另外,如果能夠以機率表示那些數字出現的頻率,那就是機會均等,也就是隨機概念。因為來自於特定母體的這些數字是隨機被抽出來的,形成一個個的數對,
。這個數對當中,有一個應變數以及q個自變數。
【釐清觀念】
對於迴歸分析的模型其實來自條件概念,也就是
。所以就有條件機率密度函數出現。而上方的數對模式是聯合觀念,所以就是聯合機率密度函數。條件與聯合的關聯就在於還需要有自變數的邊際函數[註1]。換句話說,無論你的自變數有多少個,只要聯合機率密度函數找到後,就能夠推論出條件機率密度函數。這也就是為什麼可以轉換無礙的原因[註2]。
你知道怎樣的自變數是合適迴歸分析的?
迴歸分析是怎麼尋找自變數的呢?通常我們認為這幾個變數有其關聯,所以我們就使用迴歸分析試著找出他們之間的影響性。這句話當中就已經說明了前提:有關聯!用統計的術語來說就是他們之間有相關性存在。因此,自變數其實就是相關性的變數,或是相似來源的資料。
進一步來說,自變數就得選跟應變數有相關的,甚至高度線性相關的變數才是對的。不過前述的那句話同樣也有錯誤,那就是:我們認為....,所以就使用....。真正科學的作法是要檢測應變數與自變數的關聯性,然後從中挑出最高的相關性變數,進行迴歸分析。不然,你所得到的迴歸估計式其實不具代表性。而有趣的是,如果不是時間序列資料,通常估計式的解釋能力非常弱,就會說橫斷面資料都是如此。可這實際上就反映出你在選擇數據或蒐集資料的時候,就不是主要的影響因子。或者剛好這方面議題的文章有所缺漏,所以多少能夠有些參考依據,總比沒有好。在這樣的情況下,逐漸地可以接受數具關聯性很低,一樣可以放進去,做說明應變數的原因。
你知道迴歸分析需要的殘差要求?
在所有的寫迴歸模型的書籍或網路文章都會明確標明殘差的要求:殘差和為0且殘差乘以自變數之和為0。當然這是因為我們在誤差的設定上就有這兩個要求,很多人都覺得這兩個條件好像沒有用。其實這兩個條件就是讓迴歸分析得以快點讓殘差具備常態分配特質的因素,也是我們在推導迴歸模型時可以用殘差要求,回到線性代數計算方法,快速推導出公式來。
第三個就是
的條件檢測都是基於殘差,所以自然殘差也會具有來自常態分配的特性,不過我們曾經使用模擬器設定誤差是非常態分配,但殘差的檢測都會是常態分配。
殘差雖然滿足這三個迴歸分析時的要求,但殘差仍未必可代表誤差。原因之一來自在「你以為的線性真的正確嗎?」一文內。
你知道迴歸分析的整個狀態嗎?
所謂的整個狀態就是迴歸模型的整個架構。由於應變數與自變數的關係就是期望值估計線,自變數無法解釋的部份就會形成殘差。所以,整個數學式就是
而殘差(ei)可能會有規律存在,也就是變異數異質性和序列相關的問題。這時候這兩個問題是難以區分,同時存在於殘差內。所以,我們就可以將殘差拆分成變異數異質性的函數,以及序列相關函數。換句話說,整個迴歸模型數學架構就會是期望值估計線、異質性估計線、殘差變數轉換後的序列相關估計調整項[註3]。
----------------------------
註1:如果對於超過兩個變數的邊際機率、條件機率和聯合機率概念不熟悉,可以參考高中數學與程式粉絲專頁的機率單元。
註2:如果做不到找出聯合機率密度函數,則一切就沒有意義,不能單純視為存在,然後就開始操作。
註3:參考「統計學不能做為大數據分析的工具-原因與補正」一書。