正態分布的前世今生(上) | 科學松鼠會

作 者:rickjin(靳志輝??)

校 對: 湯濤,香港浸會大學數學講座教授

[editornote]

神說,要有正態分布,就有了正態分布。

神看正態分布是好的,就讓隨機誤差就服從了正態分布。

創世紀-數理統計

[/editornote]

一、正態分布,熟悉的陌生人

學過基礎統計學的同學大都對正態分布非常熟悉。這個鐘型的分布曲線不但形狀優雅,其密度函數寫成數學表達式

1√2πσexp(?(x?μ)22σ2)也非常具有數學的美感。其標準化后的概率密度函數

1√2πexp(?x22)更加的簡潔漂亮,兩個最重要的數學常量π,e都出現在了公式之中。在我個人的審美之中,它也屬于top-N的最美麗的數學公式之一,如果有人問我數理統計領域哪個公式最能讓人感覺到上帝的存在,那我一定投正態分布的票。因為這個分布戴著神秘的面紗,在自然界中無處不在,讓你在紛繁蕪雜的數據背后看到隱隱的秩序。

【正態分布曲線】

正態分布又通常被稱為高斯分布,在科學領域,冠名權那是一個很高的榮譽。早年去過德國的兄弟們還會發現,德國的鋼镚和10馬克的紙幣上都留有高斯的頭像和正態密度曲線。正態分布被冠名高斯分布,我們也容易認為是高斯發現了正態分布,其實不然,不過高斯對于正態分布的歷史地位的確立是起到了決定性的作用。

【德國馬克上的高斯頭像和正態分布曲線】

正態曲線雖然看上去很美,卻不是一拍腦袋就能想到的。我們在本科學習數理統計的時候,課本一上來介紹正態分布就給出密度分布函數,卻從來不說明這個分布函數是通過什么原理推導出來的。所以我一直搞不明白數學家當年是怎么找到這個概率分布曲線的,又是怎么發現隨機誤差服從這個奇妙的分布的。我們在實踐中大量的使用正態分布,卻對這個分布的來龍去脈知之甚少,正態分布真是讓人感覺既熟悉又陌生。直到我讀研究生的時候,我的導師給我介紹了陳希儒院士的《數理統計學簡史》這本書,看了之后才了解了正態分布曲線從發現到被人們重視進而廣泛應用,也是經過了幾百年的歷史。

正態分布的這段歷史是很精彩的,我們通過講一系列的故事來揭開她的神秘面紗。

二、邂逅,正態曲線的首次發現

第一個故事和概率論的發展密切相關,主角是棣莫弗(De Moivre)和拉普拉斯(Laplace)。拉普拉斯是個大科學家,被稱為法國的牛頓;棣莫弗名氣可能不算很大,不過大家應該都熟悉這個名字,因為我們在高中數學學復數的時候我們都學過棣莫弗定理

(cosθ+isinθ)n=cos(nθ)+isin(nθ).古典概率論發源于賭博,惠更斯、帕斯卡、費馬、貝努利都是古典概率的奠基人,他們那會研究的概率問題大都來自賭桌上,最早的概率論問題是賭徒梅累在1654年向帕斯卡提出的如何分賭金的問題。統計學中的總體均值之所以被稱為期望(Expectation),就是源自惠更斯、帕斯卡這些人研究平均情況下一個賭徒在賭桌上可以期望自己贏得多少錢。

棣莫弗(De Moivre)拉普拉斯 (Laplace)

有一天一個哥們,也許是個賭徒,向棣莫弗提了一個和賭博相關的一個問題:A,B兩人在賭場里賭博,A,B各自的獲勝概率是p和q=1?p,賭n局,若A贏的局數X>np,則A付給賭場X?np元,否則B付給賭場np?X元。問賭場掙錢的期望值是多少?

問題并不復雜,本質上是一個二項分布,最后求出的理論結果是

2npqb(n,p,np),

其中

b(n,p,i)=(ni)piqn?i

是常見的二項概率。但是對具體的n,要把這個理論結果實際計算出數值結果可不是件容易的事,因為其中的二項公式中有組合數.這就驅動棣莫弗尋找近似計算的方法。

與此相關聯的另一個問題,是遵從二項分布的隨機變量X~B(n,p),問X落在二項分布中心點一定范圍的概率Pd=P(|X?np|≤d)是多少?

對于p=12的情形,棣莫弗做了一些計算并得到了一些近似結果,但是還不夠漂亮,幸運的是棣莫弗和斯特林(Stirling)處在同一個時代,而且二人之間有聯系,斯特林公式是在數學分析中必學的一個重要公式:(事實上斯特林公式的形式其實是棣莫弗最先發現的,但是斯特林改進了這個公式,改進的結果為棣莫弗所用)

n!~√2πn(ne)n

1733年,棣莫弗很快利用斯特林公式進行計算并取得了重要的進展。考慮n是偶數的情形,令二項概率

b(i)=b(n,12,i)=(ni)(12)n

通過斯特林公式做一些簡單的計算容易得到,

b(n2)~√2πn ? b(n2+d)b(n2)~exp(?2d2n).

于是有

b(n2+d)~2√2πnexp(?2d2n).

使用上式的結果,并在二項概率累加求和的過程中近似的使用定積分代替求和,很容易就能得到

P(|Xn?12|≤c√n)=∑?c√n≤i≤c√nb(n2+i) ~ ∑?c√n≤i≤c√n2√2πnexp(?2i2n)                                        (1) = ∑?2c≤2i√n≤2c1√2πexp(?12(2i√n)2)2√n ~ ∫2c?2c1√2πexp(?x22)dx.

看,正態分布的密度函數的形式在積分公式中出現了!這也就是我們在數理統計課本上學到的二項分布的極限分布是正態分布。

以上只是討論了p=12的情形,棣莫弗也對p≠12做了一些計算,后來拉普拉斯對p≠12的情況做了更多的分析,并把二項分布的正態近似推廣到了任意p的情況。這是第一次正態密度函數被數學家勾畫出來,而且是以二項分布的極限分布的形式被推導出來的。熟悉基礎概率統計的同學們都知道這個結果其實叫棣莫弗-拉普拉斯中心極限定理。

[De Moivre-Laplace中心極限定理] 設隨機變量Xn(n=1,2...)服從參數為p的二項分布,則對任意的x,恒有

limn→∞P{Xn?Xp√np(1?p)≤x}=∫x?∞1√2πexp(?t22)dt.

我們在大學學習數理統計的時候,學習的過程都是先學習正態分布,然后才學習中心極限定理。而學習到正態分布的時候,直接就描述了其概率密度的數學形式,雖然數學上很漂亮,但是容易困惑數學家們是如何憑空就找到這個分布的。讀了陳希孺的《數理統計學簡史》之后,我才明白正態分布的密度形式首次發現是在棣莫弗-拉普拉斯的中心極限定理中。數學家研究數學問題的進程很少是按照我們數學課本的安排順序推進的,現代的數學課本都是按照數學內在的邏輯進行組織編排的,雖然邏輯結構上嚴謹優美,卻把數學問題研究的歷史痕跡抹得一干二凈。DNA雙螺旋結構的發現者之一James Waston在他的名著《DNA雙螺旋》序言中說:“科學的發現很少會像門外漢所想象的一樣,按照直接了當合乎邏輯的方式進行的。”

棣莫弗給出他的發現后40年(大約是1770),拉普拉斯建立了中心極限定理較一般的形式,中心極限定理隨后又被其它數學家們推廣到了其它任意分布的情形,而不限于二項分布。后續的統計學家發現,一系列的重要統計量,在樣本量N趨于無窮的時候,其極限分布都有正態的形式,這構成了數理統計學中大樣本理論的基礎。

棣莫弗在二項分布的計算中瞥見了正態曲線的模樣,不過他并沒有能展現這個曲線的美妙之處。棣莫弗的這個工作當時并沒有引起人們足夠的重視,原因在于棣莫弗不是個統計學家,從未從統計學的角度去考慮其工作的意義。正態分布(當時也沒有被命名為正態分布)在當時也只是以極限分布的形式出現,并沒有在統計學,尤其是誤差分析中發揮作用。這也就是正態分布最終沒有被冠名棣莫弗分布的重要原因。那高斯做了啥了不起的工作導致統計學家把正態分布的這頂桂冠戴在了他的頭上呢?這先得從最小二乘法的發展說起。

三、最小二乘法,數據分析的瑞士軍刀

第二個故事的主角是歐拉(Euler),拉普拉斯(Lapalace),勒讓德(Legendre)和高斯(Gauss),故事發生的時間是十八世紀中到十九世紀初。十七、十八世紀是科學發展的黃金年代,微積分的發展和牛頓萬有引力定律的建立,直接的推動了天文學和測地學的迅猛發展。當時的大科學家們都在考慮許多天文學上的問題。幾個典型的問題如下:

土星和木星是太陽系中的大行星,由于相互吸引對各自的運動軌道產生了影響,許多大數學家,包括歐拉和拉普拉斯都在基于長期積累的天文觀測數據計算土星和木星的運行軌道。

勒讓德承擔了一個政府給的重要任務,測量通過巴黎的子午線的長度。

海上航行經緯度的定位。主要是通過對恒星和月面上的一些定點的觀測來確定經緯度。

這些天文學和測地學的問題,無不涉及到數據的多次測量、分析與計算;十七、十八世紀的天文觀測,也積累了大量的數據需要進行分析和計算。很多年以前,學者們就已經經驗性的認為,對于有誤差的測量數據,多次測量取平均是比較好的處理方法。雖然缺乏理論上的論證,也不斷的受到一些人的質疑,取平均作為一種異常直觀的方式,已經被使用了千百年,在多年積累的數據的處理經驗中也得到相當程度的驗證,被認為是一種良好的數據處理方法。

 【勒讓德(Legendre)】

以上涉及的問題,我們直接關心的目標量往往無法直接觀測,但是一些相關的量是可以觀測到的,而通過建立數學模型,最終可以解出我們關心的量。這些問題都可以用如下數學模型描述:我們想估計的量是β0,?,βp,另有若干個可以測量的量x1,?,xp,y,這些量之間有線性關系

y=β0+β1x1+?+βpxp

如何通過多組觀測數據求解出參數β0,?,βp呢?歐拉和拉普拉斯采用的都是求解線性方程組的方法。

{y1=β0+β1x11+β2x21+?+βpxp1y2=β0+β1x12+β2x22+?+βpxp2                                   (2)                    ?br/>yn=β0+β1x1n+β2x2n+?+βpxpn但是面臨的一個問題是,有n組觀測數據,p+1個變量,如果n>p+1,則得到的線性矛盾方程組,無法直接求解。所以歐拉和拉普拉斯采用的方法都是通過一定的對數據的觀察,把n個線性方程分為p+1組,然后把每個組內的方程線性求和后歸并為一個方程,從而就把n個方程的方程組化為p+1個方程的方程組,進一步解方程求解參數。這些方法初看有一些道理,但是都過于經驗化,無法形成統一處理這一類問題的一個通用解決框架。

以上求解線性矛盾方程的問題在現在的本科生看來都不困難,就是統計學中的線性回歸問題,直接用最小二乘法就解決了,可是即便如歐拉、拉普拉斯這些數學大牛,當時也未能對這些問題提出有效的解決方案。可見在科學研究中,要想在觀念上有所突破并不容易。有效的最小二乘法是勒讓德在1805年發表的,基本思想就是認為測量中有誤差,所以所有方程的累積誤差為

累積誤差 =∑( 觀測值 - 理論值 )2我們求解出導致累積誤差最小的參數即可。

?β=argminβn∑i=1e2i=argminβn∑i=1[yi?(β0+β1x1i+?+βpxpi)]2                              (3)勒讓德在論文中對最小二乘法的優良性做了幾點說明:

最小二乘使得誤差平方和最小,并在各個方程的誤差之間建立了一種平衡,從而防止某一個極端誤差取得支配地位

計算中只要求偏導后求解線性方程組,計算過程明確便捷

最小二乘可以導出算術平均值作為估計值

對于最后一點,推理如下:假設真值為θ,x1,?,xn為n次測量值,每次測量的誤差為ei=xi?θ,按最小二乘法,誤差累積為

L(θ)=n∑i=1e2i=n∑i=1(xi?θ)2求解θ使得L(θ)達到最小,正好是算術平均

ˉx=1nn∑i=1xi.由于算術平均是一個歷經考驗的方法,而以上的推理說明,算術平均是最小二乘的一個特例,所以從另一個角度說明了最小二乘方法的優良性,使我們對最小二乘法更加有信心。

最小二乘法發表之后很快得到了大家的認可接受,并迅速的在數據分析實踐中被廣泛使用。不過歷史上又有人把最小二乘法的發明歸功于高斯,這又是怎么一回事呢。高斯在1809年也發表了最小二乘法,并且聲稱自己已經使用這個方法多年。高斯發明了小行星定位的數學方法,并在數據分析中使用最小二乘方法進行計算,準確地預測了谷神星的位置。

扯了半天最小二乘法,沒看出和正態分布有任何關系啊,離題了吧?單就最小二乘法本身,雖然很實用,不過看上去更多的算是一個代數方法,雖然可以推導出最優解,對于解的誤差有多大,無法給出有效的分析,而這個就是正態分布粉墨登場發揮作用的地方。勒讓德提出的最小二乘法,確實是一把在數據分析領域披荊斬棘的好刀,但是刀刃還是不夠鋒利;而這把刀的打造后來至少一半功勞被歸到高斯,是因為高斯不但獨自地給出了造刀的方法,而且把最小二乘這把刀的刀刃造得無比鋒利,把最小二乘打造為了一把瑞士軍刀。

高斯拓展了最小二乘法,把正態分布和最小二乘法聯系在一起,并使得正態分布在統計誤差分析中確立了自己的定位,否則正態分布就不會被稱為高斯分布了。那高斯這位神人是如何把正態分布引入到誤差分析之中,打造最小二乘這把瑞士軍刀的呢?

四、眾里尋她千百度,誤差分布曲線的確立

第三個故事有點長,主角是高斯和拉普拉斯,故事的主要內容尋找隨機誤差分布的規律。

天文學是第一個被測量誤差困擾的學科,從古代至十八世紀天文學一直是應用數學最發達的領域,到十八世紀,天文學的發展積累了大量的天文學數據需要分析計算,應該如何來處理數據中的觀測誤差成為一個很棘手的問題。我們在數據處理中經常使用平均的常識性法則,千百年來的數據使用經驗說明算術平均能夠消除誤差,提高精度。平均有如此的魅力,道理何在,之前沒有人做過理論上的證明。算術平均的合理性問題在天文學的數據分析工作中被提出來討論:測量中的隨機誤差服應該服從怎樣的概率分布?算術平均的優良性和誤差的分布有怎樣的密切聯系?

伽利略在他著名的《關于兩個主要世界系統的對話》中,對誤差的分布做過一些定性的描述,主要包括:

誤差是對稱分布的;

大的誤差出現頻率低,小的誤差出現頻率高。

用數學的語言描述,也就是說誤差分布函數f(x)關于0對稱分布,概率密度隨|x|增加而減小,這兩個定性的描述都很符合常識。

許多天文學家和數學家開始了尋找誤差分布曲線的嘗試。托馬斯·辛普森(Thomas Simpson,1710-1761)先走出了有意義的一步。設真值為θ,而x1,?,xn為n次測量值,每次測量的誤差為ei=xi?θ,若用算術平均ˉx=(∑ni=1xi)/n去估計θ,其誤差為ˉe=(∑ni=1ei)/n。Simpson證明了,對于如下的一個概率分布,

【Simpson的誤差態分布曲線】

有下面的估計:

P(|ˉe|x)≥P(|e1|x)

.也就是說,|ˉe|相比于|e1|取小值的機會更大。辛普森的這個工作很粗糙,但是這是第一次在一個特定情況下,從概率論的角度嚴格證明了算術平均的優良性。

在1772-1774年間,拉普拉斯也加入到了尋找誤差分布函數的隊伍中。拉普拉斯假定誤差分布函數f(x)滿足如下性質

?f′(x)=mf(x).由此最終求得的分布函數為

f(x)=m2e?m|x|這個概率密度函數現在被稱為拉普拉斯分布。

【Laplace的誤差態分布曲線】

以這個函數作為誤差分布,拉普拉斯開始考慮如何基于測量的結果去估計未知參數的值。拉普拉斯可以算是一個貝葉斯主義者,他的參數估計的原則和現代貝葉斯方法非常相似:假設先驗分布是均勻的,計算出參數的后驗分布后,取后驗分布的中值點,即1/2分位點,作為參數估計值。可是基于這個誤差分布函數做了一些計算之后,拉普拉斯發現計算過于復雜,最終沒能給出什么有用的結果。

拉普拉斯可是概率論的大牛,寫過兩本極有影響力的《概率分析理論》,不過以我的數學審美,實在無法理解拉普拉斯這樣的大牛怎么找了一個零點不可導的誤差的分布函數,拉普拉斯最終還是沒能搞定誤差分布的問題。

現在輪到高斯登場了,高斯在數學史中的地位極高,號稱數學史上的狐貍,數學家阿貝爾對他的評論是“他像狐貍一樣,用其尾巴把其在沙灘上的蹤跡清除掉”(He is like the fox, who effaces his tracks in the sand with his tail.)我們的數學大師陳省身把黎曼和龐加萊(Henri Poincaré)稱為數學家中的菩薩,而稱自己為羅漢;高斯是黎曼的導師,數學圈里有些教授把高斯稱為數學家中的佛。在數學家中既能仰望理論數學的星空,又能腳踏應用數學的實地的可不多見,高斯是數學家中少有的頂“天”立“地”的人物,他既對純理論數學有深刻的洞察力,又極其重視數學在實踐中的應用。在誤差分布的處理中,高斯以極其簡單的手法確立了隨機誤差的概率分布,其結果成為數理統計發展史上的一塊里程碑。

高斯的介入首先要從天文學界的一個事件說起。1801年1月,天文學家Giuseppe Piazzi發現了一顆從未見過的光度8等的星在移動,這顆現在被稱作谷神星(Ceres)的小行星在夜空中出現6個星期,掃過八度角后在就在太陽的光芒下沒了蹤影,無法觀測。而留下的觀測數據有限,難以計算出他的軌道,天文學家也因此無法確定這顆新星是彗星還是行星,這個問題很快成了學術界關注的焦點。高斯當時已經是很有名望的年輕數學家了,這個問題也引起了他的興趣。高斯以其卓越的數學才能創立了一種嶄新的行星軌道的計算方法,一個小時之內就計算出了行星的軌道,并預言了它在夜空中出現的時間和位置。1801年12月31日夜,德國天文愛好者奧伯斯(Heinrich Olbers)在高斯預言的時間里,用望遠鏡對準了這片天空。果然不出所料,谷神星出現了!

高斯為此名聲大震,但是高斯當時拒絕透露計算軌道的方法,原因可能是高斯認為自己的方法的理論基礎還不夠成熟,而高斯一向治學嚴謹、精益求精,不輕易發表沒有思考成熟的理論。直到1809年高斯系統地完善了相關的數學理論后,才將他的方法公布于眾,而其中使用的數據分析方法,就是以正態誤差分布為基礎的最小二乘法。那高斯是如何推導出誤差分布為正態分布的?讓我們看看高斯是如何猜測上帝的意圖的。

設真值為θ,而x1,?,xn為n次獨立測量值,每次測量的誤差為ei=xi?θ,假設誤差ei的密度函數為f(e),則測量值的聯合概率為n個誤差的聯合概率,記為

L(θ)=L(θ;x1,?,xn)=f(e1)?f(en)=f(x1?θ)?f(xn?θ).                        (4)但是高斯不采用貝葉斯的推理方式,而是直接取L(θ)達到最大值的?θ=?θ(x1,?,xn)作為θ的估計值,即

?θ=argmaxθL(θ).現在我們把L(θ)稱為樣本的似然函數,而得到的估計值?θ稱為極大似然估計。高斯首次給出了極大似然的思想,這個思想后來被統計學家R.A.Fisher系統地發展成為參數估計中的極大似然估計理論。

高斯接下來的想法特別牛,他開始揣度上帝的意圖,而這充分體現了高斯的數學天才。他把整個問題的思考模式倒過來:既然千百年來大家都認為算術平均是一個好的估計,那我就認為極大似然估計導出的就應該是算術平均!所以高斯猜測上帝在創世紀中的旨意就是:

誤差分布導出的極大似然估計 = 算術平均值.

然后高斯去找誤差密度函數f以迎合這一點。即尋找這樣的概率分布函數f,使得極大似然估計正好是算術平均?θ=ˉx。通過應用數學技巧求解這個函數f,高斯證明(證明不難,后續給出)了所有的概率密度函數中,唯一滿足這個性質的就是

f(x)=1√2πσexp(?x22σ2).

瞧,正態分布的密度函數N(0,σ2)被高斯他老人家給解出來了!

進一步,高斯基于這個誤差分布函數對最小二乘法給出了一個很漂亮的解釋。對于最小二乘公式中涉及的每個誤差ei(見前面的公式(3),有ei~N(0,σ2),則(e1,?,en)的聯合概率分布為

(e1,?,en)~1(√2πσ)nexp(?12σ2n∑i=1e2i).

要使得這個概率最大,必須使得∑ni=1e2i取最小值,這正好就是最小二乘法的要求。

高斯所拓展的最小二乘法成為了十九世紀統計學的最重要成就,它在十九世紀統計學的重要性就相當于十八世紀的微積分之于數學。而勒讓德和高斯的最小二乘發明權之爭,成了數學史上僅次于牛頓、萊布尼茨微積分發明權的爭端。相比于勒讓德1805給出的最小二乘法描述,高斯基于誤差正態分布的最小二乘理論顯然更高一籌,高斯的工作中既提出了極大似然估計的思想,又解決了誤差的概率密度分布的問題,由此我們可以對誤差大小的影響進行統計度量了。高斯的這項工作對后世的影響極大,而正態分布也因此被冠名高斯分布。估計高斯本人當時是完全沒有意識到他的這個工作給現代數理統計學帶來的深刻影響。高斯在數學上的貢獻特多,去世前他要求給自己的墓碑上雕刻上正十七邊形,以說明他在正十七邊形尺規作圖上的杰出工作。而后世的德國鈔票和鋼镚上是以正態密度曲線來紀念高斯,這足以說明高斯的這項工作在當代科學發展中的份量。

十七、十八世紀科學界流行的做法,是盡可能從某種簡單明了的準則(first principle)出發進行邏輯推導。高斯設定了準則“最大似然估計應該導出優良的算術平均”,并導出了誤差服從正態分布,推導的形式上非常簡潔優美。但是高斯給的準則在邏輯上并不足以讓人完全信服,因為算術平均的優良性當時更多的是一個經驗直覺,缺乏嚴格的理論支持。高斯的推導存在循環論證的味道:因為算術平均是優良的,推出誤差必須服從正態分布;反過來,又基于正態分布推導出最小二乘和算術平均,來說明最小二乘法和算術平均的優良性。這陷入了一個雞生蛋蛋生雞的怪圈,邏輯上算術平均的優良性到底有沒有自行成立的理由呢?

高斯的文章發表之后,拉普拉斯很快得知了高斯的工作。拉普拉斯看到,正態分布既可以從拋鋼镚產生的序列求和中生成出來,又可以被優雅地作為誤差分布定律,這難道是偶然現象?拉普拉斯不愧為概率論的大牛,他馬上將誤差的正態分布理論和中心極限定理聯系起來,提出了元誤差解釋。他指出如果誤差可以看成許多微小量的疊加,則根據他的中心極限定理,隨機誤差理所當然是高斯分布。而20世紀中心極限定理的進一步發展,也給這個解釋提供了更多的理論支持。因此有了這個解釋為出發點,高斯的循環論證的圈子就可以打破。估計拉普拉斯悟出這個結論之后一定想撞墻,自己辛辛苦苦尋尋覓覓了這么久的誤差分布曲線就在自己的眼皮底下,自己卻長年來視而不見,被高斯給占了先機。

至此,誤差分布曲線的尋找塵埃落定,正態分布在誤差分析中確立了自己的地位,并在整個19世紀不斷地開疆擴土,直至在統計學中鶴立雞群,傲世其它一切概率分布;而高斯和拉普拉斯的工作,為現代統計學的發展開啟了一扇大門。

在整個正態分布被發現與應用的歷史中,棣莫弗、拉普拉斯、高斯各有貢獻,拉普拉斯從中心極限定理的角度解釋它,高斯把它應用在誤差分析中,殊途同歸。正態分布被人們發現有這么好的性質,各國人民都爭搶它的冠名權。因為拉普拉斯是法國人,所以當時在法國被稱為拉普拉斯分布;而高斯是德國人,所以在德國叫做高斯分布;中立國的人稱它為拉普拉斯-高斯分布。后來法國的大數學家龐加萊建議改用正態分布這一中立名稱,而隨后統計學家卡爾·皮爾森使得這個名稱被廣泛接受:

Many years ago I called the Laplace-Gaussian curve the normal curve, which name, while it avoids an international question of priority, has the disadvantage of leading people to believe that all other distributions of frequency are in one sense or another "abnormal".

-Karl Pearson(1920)

不過因為高斯在數學家中的名氣實在是太大,正態分布的桂冠還是更多的被戴在了高斯的腦門上,目前數學界通行的用語是正態分布、高斯分布,兩者并用。

正態分布在高斯的推動下,迅速在測量誤差分析中被廣泛使用,然而早期也僅限于測量誤差的分析中,其重要性遠沒有被自然科學和社會科學領域中的學者們所認識,那正態分布是如何從測量誤差分析的小溪,沖向自然科學和社會科學的汪洋大海的呢?

五、曲徑通幽處,禪房花木深

在介紹正態分布的后續發展之前,我們來多講一點數學,也許有些人會覺得枯燥,不過高斯曾經說過:“數學是上帝的語言”。所以要想更加深入地理解正態分布的美,唯有通過上帝的語言。

造物主造物的準則往往是簡單明了的,只是在紛繁蕪雜的萬物之中,我們要發現并領會它并非易事。之前提到過,十七、十八世紀科學界流行的做法,是盡可能從某種簡單明了的準則(first principle)出發作為科學探求的起點;而后來的數學家和物理學家們的研究發現,屢次從一些給定的簡單的準則出發,我們總是被引領到了正態分布的家門口,這讓人感覺到正態分布的美妙。

達爾文的表弟高爾頓是生物學家兼統計學家,他對正態分布非常的推崇與贊美:“我幾乎不曾見過像誤差呈正態分布這么激發人們無窮想象的宇宙秩序”。當代兩位偉大的概率學家Levy和Kac都曾經說過,正態分布是他們切入概率論的初戀情人,具有無窮的魅力。如果古希臘人知道正態分布,想必奧林匹斯山的神殿里會多出一個正態女神,由她來掌管世間的混沌。

要拉下正態分布的神秘面紗展現她的美麗,需要高深的概率論知識,本人在數學方面知識淺薄,不能勝任。只能在極為有限的范圍內嘗試掀開她的面紗的一角。棣莫弗和拉普拉斯以拋鋼镚的序列求和為出發點,沿著一條小徑第一次把我們領到了正態分布的家門口,這條路叫做中心極限定理。而這條路上風景秀麗,許多概率學家都為之傾倒。這條路在20世紀被概率學家門越拓越寬,成為了通往正態曲線的一條康莊大道。而數學家和物理學家們發現:條條小路通正態。著名的物理學家E.T.Jaynes在他的名著《Probability Theory:the Logic of Science》(中文譯書《概率論沉思錄》)中,描繪了四條通往正態分布的小徑;曲徑通幽處,禪房花木深,讓我們一起來欣賞一下四條小徑上的風景吧。

1. 高斯的推導(1809)

第一條小徑是高斯找到的,高斯以如下準則作為小徑的出發點

誤差分布導出的極大似然估計 = 算術平均值

設真值為θ,而x1,?,xn為n次獨立測量值,每次測量的誤差為ei=xi?θ,假設誤差ei的密度函數為f(e),則測量值的聯合概率為n個誤差的聯合概率,記為

L(θ)=L(θ;x1,?,xn)=f(e1)?f(en)=f(x1?θ)?f(xn?θ)                        (5)為求極大似然估計,令

dlogL(θ)dθ=0.整理后可以得到

n∑i=1f′(xi?θ)f(xi?θ)=0.令g(x)=f′(x)/f(x),由上式可以得到

n∑i=1g(xi?θ)=0.由于高斯假設極大似然估計的解就是算術平均ˉx,把解帶入上式,可以得到

n∑i=1g(xi?ˉx)=0.                                             (6)在上式中取n=2,有

g(x1?ˉx)+g(x2?ˉx)=0.由于此時有x1?ˉx=?(x2?ˉx),并且x1,x2是任意的,由此得到:g(?x)=?g(x).再在(6)式中取n=m+1,并且要求x1=?=xm=?x,且xm+1=mx,則有ˉx=0,并且

n∑i=1g(xi?ˉx)=mg(?x)+g(mx).所以得到g(mx)=mg(x).而滿足上式的唯一的連續函數就是g(x)=cx,從而進一步可以求解出

f(x)=Mecx2.由于f(x)是概率分布函數,把f(x)正規化一下就得到正態分布密度函數N(0,σ2).

2. Herschel(1850)和麥克斯韋(1860)的推導

第二條小徑是天文學家John Hershcel和物理學家麥克斯韋(Maxwell)發現的。1850年,天文學家Herschel在對星星的位置進行測量的時候,需要考慮二維的誤差分布,為了推導這個誤差的概率密度分布f(x,y),Herschel設置了兩個準則:

x軸和y軸的誤差是相互獨立的,即誤差的概率在正交的方向上相互獨立;

誤差的概率分布在空間上具有旋轉對稱性,即誤差的概率分布和角度沒有關系。

這兩個準則對于Herschel考慮的實際測量問題看起來都很合理。由準則1,可以得到f(x,y)應該具有如下形式

f(x,y)=f(x)?f(y).把這個函數轉換為極坐標,在極坐標下的概率密度函數設為g(r,θ),有

f(x,y)=f(rcosθ,rsinθ)=g(r,θ)由準則2,g(r,θ)具有旋轉對稱性,也就是應該和θ無關,所以g(r,θ)=g(r),綜合以上,我們可以得到

f(x)f(y)=g(r)=g(√x2+y2).取y=0,得到g(x)=f(x)f(0),所以上式可以轉換為

log[f(x)f(0)]+log[f(y)f(0)]=log[f(√x2+y2)f(0)].令log(f(x)/f(0))=h(x),則有

h(x)+h(y)=h(√x2+y2).從這個函數方程中可以解出h(x)=ax2,從而可以得到f(x)的一般形式如下

f(x)=√απe?αx2而f(x)就是正態分布N(0,1/√2α),而f(x,y)就是標準二維正態分布函數。

f(x,y)=απexp(?α(x2+y2)).1860年,我們偉大的物理學家麥克斯韋在考慮氣體分子的運動速度分布的時候,在三維空間中基于類似的準則推導出了氣體分子運動的分布是正態分布ρ(vx,vy,vz)∝exp(?α(v2x+v2y+v2z))。這就是著名的麥克斯韋分子速率分布定律。大家還記得我們在普通物理中學過的麥克斯韋-波爾茲曼氣體速率分布定律嗎?

F(v)=(m2πkT)3/2exp(?mv22kT)=(m2πkT)1/2exp(?mv2x2kT)?(m2πkT)1/2exp(?mv2y2kT)?(m2πkT)1/2exp(?mv2z2kT)                   (7)所以這個分布其實是三個正態分布的乘積。你的物理老師是否告訴過你其實這個分布就是三維正態分布?反正我是一直不知道,直到今年才明白。

Herschel-Maxwell推導的神妙之處在于,沒有利用任何概率論的知識,只是基于空間幾何的不變性,就推導出了正態分布。美國諾貝爾物理學獎得主費曼(Feymann)每次看到一個有π的數學公式的時候,就會問:圓在哪里?這個推導中使用到了x2+y2,也就是告訴我們正態分布密度公式中有個π,其根源來在于二維正態分布中的等高線恰好是個圓。

3. Landon的推導(1941)

第三條道是一位電氣工程師,Vernon D. Landon 給出的。1941年,Landon 研究通信電路中的噪聲電壓,通過分析經驗數據他發現噪聲電壓的分布模式很相似,不同的是分布的層級,而這個層級可以使用方差σ2來刻畫。因此他推理認為噪聲電壓的分布函數形式是p(x;σ2)。現在假設有一個相對于σ而言很微小的誤差擾動e,且e的分布函數是q(e),那么新的噪聲電壓是x′=x+e。Landon提出了如下的準則

隨機噪聲具有穩定的分布模式

累加一個微小的隨機噪聲,不改變其穩定的分布模式,只改變分布的層級(用方差度量)

用數學的語言描述:如果

x~p(x;σ2),   e~q(e),   x′=x+e,則有x′~p(x;σ2+var(e)).現在我們來推導函數p(x;σ2)應該長成啥樣。按照兩個隨機變量和的分布的計算方式,x′的分布函數將是x的分布函數和e的分布函數的卷積,即有

f(x′)=∫p(x′?e;σ2)q(e)de.把p(x′?e;σ2)在x′處做泰勒級數展開(為了方便,展開后把自變量由x′替換為x),上式可以展開為

f(x)=p(x;σ2)??p(x;σ2)?x∫eq(e)de+12?2p(x;σ2)?x2∫e2q(e)de+?記p=p(x;σ2),則有

f(x)=p??p?xˉe+12?2p?x2ˉe2+o(ˉe2)對于微小的隨機擾動e,我們認為他取正值或者負值是對稱的,所以ˉe=0。所以有

f(x)=p+12?2p?x2ˉe2+o(ˉe2)                                          (8)對于新的噪聲電壓是x′=x+e,方差由σ2增加為σ2+var(e)=σ2+ˉe2,所以按照Landon的分布函數模式不變的假設,新的噪聲電壓的分布函數應該為f(x)=p(x;σ2+ˉe2)。把p(x;σ2+ˉe2)在σ2處做泰勒級數展開,得到

f(x)=p+?p?σ2ˉe2+o(ˉe2).                                           (9)比較(8)和(9)這兩個式子,可以得到如下偏微分方程

12?2p?x2=?p?σ2.而這個方程就是物理上著名的擴散方程(diffusion equation),求解該方程就得到

p(x;σ2)=1√2πσexp(?x22σ2)又一次,我們推導出了正態分布!

E.T.Jaynes對于這個推導的評價很高,認為Landon的推導本質上給出了自然界的噪音形成的過程。他指出這個推導基本上就是中心極限定理的增量式版本,相比于中心極限定理來說,是一次性累加所有的因素,Landon的推導是每次在原有的分布上去累加一個微小的擾動。而在這個推導中,我們看到,正態分布具有相當好的穩定性;只要數據中正態的模式已經形成,他就容易繼續保持正態分布,無論外部累加的隨機噪聲q(e)是什么分布,正態分布就像一個黑洞一樣把這個累加噪聲吃掉。

4. 正態分布和最大熵

還有一條小徑是基于最大熵原理的,物理學家E.T.Jaynes在最大熵原理上有非常重要的貢獻,他在《概率論沉思錄》里面對這個方法有描述和證明,沒有提到發現者,我不確認這條道的發現者是否是Jaynes本人。

熵在物理學中由來已久,信息論的創始人香農(Claude Elwood Shannon)把這個概念引入了信息論,讀者中很多人可能都知道目前機器學習中有一個非常好用的分類算法叫最大熵分類器。要想把熵和最大熵的來龍去脈說清楚可不容易,不過這條道的風景是相當獨特的,E.T.Jaynes對這條道也是偏愛有加。

對于一個概率分布p(x),我們定義它的熵為

H(p)=?∫p(e)logp(e)de.如果給定一個分布函數p(x)的均值μ和方差\(\sigma^2\)(給定均值和方差這個條件,也可以描述為給定一階原點矩和二階原點矩,這兩個條件是等價的)則在所有滿足這兩個限制的概率分布中,熵最大的概率分布\(p(x|\mu, \sigma^2)\)就是正態分布\(N(\mu, \sigma^2)\)。

這個結論的推導數學上稍微有點復雜,不過如果已經猜到了給定限制條件下最大熵的分布是正態分布,要證明這個猜測卻是很簡單的,證明的思路如下。

考慮兩個概率分布\(p(x)\)和\(q(x)\),使用不等式\(\log x \le x-1\),得

\(\displaystyle\int p(x) \log \frac{q(x)}{p(x)} dx \le \displaystyle\int p(x) (\frac{q(x)}{p(x)} - 1) dx

= \displaystyle\int q(x) dx - \displaystyle\int p(x) dx = 0\).于是

\(\displaystyle\int p(x) \log \frac{q(x)}{p(x)} dx = \displaystyle\int p(x) \frac{1}{p(x)}dx + \displaystyle\int p(x) \log q(x) dx \le 0\);所以

\(~~~~~~~~~~~~~~H(p) \le -\displaystyle\int p(x) \log q(x) dx ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~(10)\)熟悉信息論的讀者都知道,這個式子是信息論中的很著名的結論:一個概率分布的熵總是小于相對熵。上式要取等號只有取\(q(x)=p(x)\)。

對于\(p(x)\),在給定的均值\(\mu\)和方差\(\sigma^2\)下,我們取\(q(x)=N(\mu,\sigma^2)\),則可以得到

\begin{eqnarray} \begin{array}{lll} H(p) & \le & - \displaystyle\int p(x) \log \left(\frac{1}{\sqrt{2\pi}\sigma}\exp \left(-\frac{{(x-\mu})^2}{2\sigma^2}\right)\right) dx \\ & = & \displaystyle \int p(x) \left( \frac{(x-\mu)^2}{2\sigma^2} + \log \sqrt{2\pi}\sigma \right) dx ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~(11)\\ & = & \displaystyle \frac{1}{2\sigma^2} \int p(x)(x-\mu)^2 dx + \log \sqrt{2\pi}\sigma. \end{array} \end{eqnarray}由于\(p(x)\)的均值方差有如下限制:\(\displaystyle\int p(x) (x-\mu)^2 dx = \sigma^2\),于是

\(H(p) \le \dfrac{1}{2\sigma^2}\sigma^2 + \log \sqrt{2\pi}\sigma = \dfrac{1}{2} + \log \sqrt{2\pi}\sigma\)而當\(p(x)=N(\mu, \sigma^2)\)的時候,上式可以取到等號,這就證明了結論。

E.T.Jaynes顯然對正態分布具有這樣的性質極為贊賞,因為這從信息論的角度證明了正態分布的優良性。而我們可以看到,正態分布熵的大小,取決于方差的大小。這也容易理解,因為正態分布的均值和密度函數的形狀無關,正態分布的形狀是由其方差決定的,而熵的大小反應概率分布中的信息量,顯然和密度函數的形狀相關。

好的,風景欣賞暫時告一段落。所謂橫看成嶺側成峰,遠近高低各不同,正態分布給人們提供了多種欣賞角度和想象空間。法國菩薩級別的大數學家龐加萊對正態分布說過一段有意思的話,引用來作為這個小節的結束:

Physicists believe that the Gaussian law has been proved in mathematics while mathematicians think that it was experimentally established in physics.

—Henri Poincaré

免責聲明:本文僅代表文章作者的個人觀點,與本站無關。其原創性、真實性以及文中陳述文字和內容未經本站證實,對本文以及其中全部或者部分內容文字的真實性、完整性和原創性本站不作任何保證或承諾,請讀者僅作參考,并自行核實相關內容。

http://www.uswqb.club/style/images/nopic.gif
分享
評論
首頁
高速公路之王电子游艺
秒秒彩原理 四川金7乐开奖查询 新十一选五专家杀号 云南十一选五 新疆11选5开奖信息 能回收金币的棋牌游? 广西十一选五历史开奖结果查询结果 山东十一选五任三遗 燕赵风釆20选5 30选5今天开奖号 河内5分彩开奖号码彩经网 江苏7位数 快3走势图北京 全自动挂机赚钱一天40元 一起玩温州台炮麻将下载安装 2013上证指数历史数据