邏輯回歸能擺平二分類因變量,那……不止二分類呢?| 協和八

通過前面的五期「說人話的統計學」專欄,我們已經把邏輯回歸的基本理論知識和應用技巧討論了一遍。相信大家已經了解,邏輯回歸能幫助我們解決的,是因變量有且只有兩種類別的問題,比如我們之前例子里,一場選舉中選民投票給兩位候選人中的哪一位。通過邏輯回歸,我們可以研究各種自變量與我們關心的二分類因變量之間的相關關系,而這些自變量既可以是二分類的(如性別),也可以是多分類的(如職業),還可以是連續的(如收入、教育程度)。

毫無疑問,這個世界上有不少問題的答案就是非此即彼的,因而邏輯回歸的用途很廣泛。尤其在醫學領域,諸如是否患有某種疾病,某個療法是否有效,這些幾乎就是醫學研究和實踐的核心問題。運用邏輯回歸,我們可以把病人的各種指標作為自變量,從而對疾病的風險因素、藥物或手術的適應癥等問題進行嚴謹的研究。

但是,同樣也有很多其他我們關心的事情,其結果不一定只有兩種情況。比方說,你輾轉反側地琢磨你暗戀多時的女神究竟對你有沒有意思,可別傻乎乎地掰起花瓣兒「她愛我、她不愛我、她愛我……」了!誰知道除了這兩種情況以外,是不是還有「想和你曖昧」「想拿你當備胎」「想培養你當男閨蜜」之類的其他可能性呢?

換回一張正經臉,實際工作和科研中同樣存在類似的多分類(多于兩種類別)問題。我們曾經在《數據到手了,第一件事該干啥?》里講過,多分類變量可以進一步分成兩種:名義變量(nominal variable)和定序變量(ordinal variable)。名義變量的不同分類是沒有順序可言的,比如說基因型、疾病的分型等;而有定序變量的不同分類則有邏輯上的順序,比如客戶滿意度調查中的選項「非常不滿意」「不滿意」「一般」「滿意」「非常滿意」。現在我們的問題是,如果因變量是多分類變量,那么要用怎樣的統計學模型研究與其相關的因素?多分類因變量的類別有或無順序時,方法是否有所不同?

對于第二個問題的答案,也許你已經猜到,對付這兩種情形,的確要用到不太一樣(但是頗有共通之處)的方法。我們今天就先來討論一下,當因變量的類別沒有順序(即為名義變量)時,要建立怎樣的統計學模型。

既然多分類是二分類的拓展和延伸,那么我們就從已經熟悉的邏輯回歸模型出發,來找找靈感:

這條式子大家已經看過許多遍了,右邊與線性回歸相似,是一堆自變量xi(i=1,2,…,k)的線性疊加(注意xi不僅可以是單個自變量,也可以是若干其他自變量的交互作用,例如x3·x5),對應的回歸系數βi(i=1,2,…,k)代表各自對因變量的效應大小,當然還有一個我們通常不太關注的截距β0。而左邊呢,p代表了在兩個可能的類別中,因變量為某一個事先選定的類別(比如男/女中的女)的概率。

注意式子左邊對數里頭的分母1-p,它代表了什么?當因變量只有兩個可能的類別時,既然p是取其中一個類別(稱為類別1)的概率,那么1-p自然就是另一個類別(稱為類別2)的概率了。也就是說,我們可以把前面的模型寫成

這樣一來,我們就更能清楚地看到,這個模型描繪的是因變量取兩個類別的概率的比值

。因此,對于邏輯回歸來說,回歸系數βi描述了當其他自變量都保持不變,而自變量增加時,因變量在類別1和2之間的「傾向性」的變化。更具體地說,如果βi是正數,則xi越大,因變量更可能取類別1;如果βi是負數,則xi越大,因變量更可能取類別2。

現在,我們將踏出關鍵的一步——類別只有不止兩個的時候呢?比如說,5個類別?

在這種情況下,我們5個類別之間兩兩比較有多少不同的組合?這個可就多了(回憶一下高中時學過的組合數,5選2一共有10種組合),但我們并不需要窮盡所有的組合。一種方便的做法是,選定一個類別固定做分母(比如說類別5,稱其為「參考類別」),然后讓剩下的類別輪流做分子,因此有

四個比例。

為什么這樣就夠了呢?首先,有了這四個比例,所有涉及類別5的組合就都照顧到了。其次,如果我們要關心不涉及類別5的組合,比如說

,那又怎么辦呢?好辦,我們只需拿

除以

,把分母上共同的類別5消掉,就能得到

了。因此,我們只需要對

這四個比例建立統計模型,就能夠全方位地覆蓋這5個類別之間的概率比例關系了。究竟選哪個類別做參考類別,其實不影響模型得到的結論,但回歸系數的解讀會有所不同,這一點我們以后還會有進一步的闡釋。其實,這里的思想和《線性回歸能玩多變量,邏輯回歸當然也能!》里面的「啞變量」方法是一脈相承的,只不過啞變量是對名義變量作為自變量時的處理方式,而我們今天講的是名義變量做因變量時的建模方法。推廣到一般情形,如果因變量有k種分類,那么我們需要對k-1個比例關系進行建模。

既然如此,我們就依葫蘆畫瓢,按照一般的二分類邏輯回歸模型的樣子,寫出關于上面的四個比例的模型(注意,為了簡明起見,下面我們省去了關于第幾個數據點的下標,但是我們仍要記住,對于每一個數據點,自變量x1,x2,x3,… xk取值不同,各等式左邊的p類別1,p類別2,…p類別5也會不同):

其中,等式最右邊用了求和符號,只是為了把中間一長串的β0,類別1+β1,類別1x1+β2,類別1x2+…+βk,類別1xk之類寫得簡單一些,而且對后續的表述會有幫助。

很容易看到,這幾條式子與二分類的邏輯回歸模型很相似,這樣的一組模型,稱為「多項邏輯回歸」(multinomial logistic regression)。需要著重點出的是,在多項邏輯回歸里,因變量除了參考類別以外的每一個類別,都擁有自己的一套回歸系數,因此,大家會注意到,回歸系數不像以前那樣只有一個對應自變量xi的下標i。在本文中,各個β下標的第一部分依然表明該回歸系數對應于哪一個自變量,而第二部分則表示該回歸系數對應的是因變量的哪一個類別(在上面的式子中用紅色標出) 。比如說,β2,類別3對應于自變量x2和類別3,它的意義是,當自變量x2增長一個單位、而其他自變量保持不變時,因變量取類別3的概率與取類別5的概率之比例的對數值(或稱兩者的分對數)

會相應發生多少變化。推廣到一般情況,如果我們有k個自變量,因變量總共有m個類別(包含選做參考類別的那一個)的話,多項邏輯回歸模型里就一共包含(m-1)(k+1)個回歸系數(含截距)。

根據上面的模型,我們還可以進一步推出,對于任何一個數據點,如果我們知道了它所有自變量x1,x2,x3,… xk的取值,那么它的因變量取各個不同類別的可能性(概率p類別j)是多少。根據對數的定義,前面的四條式子可以變成:

別看右邊e的冪那么一大堆很復雜的樣子,現在我們關心的是p類別1,p類別2,p類別3,p類別4,p類別5,所以其他的都可以看成是常數。此時,簡單做個移項,把左邊的分母都挪到右邊去,我們就能發現,這四條式子只不過是類似于y=0.3x,z=1.2y 那樣簡單的一次方程組而已:

既然是一次方程組,我們知道,要能解得出來,有幾個未知數就要有幾個方程。現在我們有5個未知數p類別1,p類別2,p類別3,p類別4,p類別5,可是上面只有四個方程。缺了一個怎么辦呢?仔細想想,其實對于這5個未知數,還有一個條件我們沒用上:因為已經知道因變量y只可能取這5個類別中的一個,沒有別的可能,那么這5個概率加起來一定是1:

p類別1+p類別2+p類別3+p類別4+p類別5=1

這下好了,5個未知數,5個一次方程,我們可以解出:

看著滿眼的符號很嚇人吧?其實都是紙老虎,仔細看看其實你會發現,翻來覆去都是那幾項,而且計算機和統計學軟件會幫我們打點一切。關鍵在于,對于任何一個數據點,把自變量x1,x2,x3,… xk的具體數值代入到上面的式子里,我們就能用各個回歸系數βi,類別j(i=1,…,k; j=1,…,m)表示出p類別1,p類別2,p類別3,p類別4,p類別5。這個數據點的因變量y是哪個類別,那么相應的那一個

免責聲明:本文僅代表文章作者的個人觀點,與本站無關。其原創性、真實性以及文中陳述文字和內容未經本站證實,對本文以及其中全部或者部分內容文字的真實性、完整性和原創性本站不作任何保證或承諾,請讀者僅作參考,并自行核實相關內容。

http://www.uswqb.club/style/images/nopic.gif
分享
評論
首頁
高速公路之王电子游艺
世界杯比分表 巴西 江西11选5投注彩乐乐 江西多乐彩十一选五 好玩的棋牌捕鱼游戏 广西快乐双彩开奖结果走势图 欧冠历史积分榜 哈哈湖南麻将 澳洲幸运5龙虎 25选7 最新35选7开奖号 福彩25选7分布图 哈林麻将下载哈灵麻将 澳洲幸运10官网免费下载 河北家乡麻将 单双中特一 重庆麻将技巧图解