機率統計教學錄影數學符號數學基礎排列組合機率統計簡介機率機率公理隨機變數連續測度單一分布條件機率聯合分布貝氏定理動差生成函數特徵函數機率法則匯總離散分布二項分布多項分布負二項分布幾何分布超幾何分布布瓦松分布連續分布均勻分布常態分布Gamma 分布指數分布卡方分布柯西分布Weibull 分布T 分布F 分布Beta 分布多維分布統計抽樣敘述統計推論統計中央極限定理估計方法單組樣本估計兩組樣本估計檢定方法單組樣本檢定兩組樣本檢定平均値的推論變異數的推論無母數推論迴歸分析變異數分析實驗設計因子實驗品質管制時間序列數據分類統計定理匯總統計情況分類計算統計蒙地卡羅法最大似然法則假說與學習EM 算法簡單貝氏分類貝氏網路隨機過程馬可夫鏈蒙地卡羅馬可夫資源範例投影片教學錄影練習題考題解答訊息相關網站參考文獻最新修改簡體版English |
簡介計算統計學乃是研究如何用電腦程式尋找統計模型的學問,其方法主要是將假說 (hypothesis) 的概念融入到機率分布當中,利用『最大似然法則』(Maximum Likelihood) 或者『最大熵法則』(Maximum Entropy) 進行最佳化的尋找,以便學習出良好的機率模型。這種學習出來的良好機率模型,可以用來預測下一個樣本出現的機率。 當程式找出良好的機率模型之後,就可以利用『最大效用法則』,找出最有利的理性決策。舉例而言,我們可以透過下列的 EM 演算法公式,學習出機器翻譯系統所使用的良好機率模型 P(h,z)。 (1)\begin{align} \arg\max_h \sum_{z} P(z|c,e,h) L(z,c|e, h) \end{align}
在上述的公式中, c 代表中文語句, e 代表英文語句,z 代表隱變數,h 則是假說 (通常是一組機率參數)。 然後再利用該機率模型,再透過下列的最佳化程序,找出最符合輸入英文語句 e 的中文翻譯語句,然後將該英文語句翻譯為中文語句 c。 (2)\begin{align} \arg\max_{c} P(c | e, z, h) \end{align}
或許讀者現在還無法理解上述公式的意義,但是應該可以從這個範例感覺到計算統計學理論的強大威力。這個威力來自於計算統計學的強大數學理論,以及現代計算機的超快速度。當然,其中的數學也是相當複雜的,需要用到許多變數。因此,我們有必要再進入這個領域之前先釐清一些數學符號,否則,在引入假說等概念時,將會導致數學符號的過度複雜,因而難以理解其背後隱藏的概念。 即使你已經學過機率與統計,也請先耐心的看完下一節的基本機率符號,否則可能無法理解後續的內容。 計算統計中的機率理論
澄清幾個容易混淆的觀念由於隨機變數是一個函數,會將樣本隨機實驗的結果映射到某個值域,因此被映射到同一目標值的樣本點會形成一個集合,而樣本點的集合在機率理論中被稱為事件,於是隨機變數也經常被用來代表事件,像是在投擲兩次銅板的例子中, x=0 代表事件 {00}, x=1 代表事件 {01,10}, x=2 代表事件 {11}。 況且,包含一個樣本的事件計被稱為簡單事件,但實際上又通常以該樣本符號 x 所表示,例如在投擲兩次銅板的例子中,我們可以用 x=00 代表出現兩次反面的『樣本點』,也可以用 x=00 代表出現兩次反面的『事件』,又可以用 x=00 來代表兩次隨機實驗的結果,因為 $x=x_1 x_2=00$。 因此,為了避免數學符號過於複雜,我們通常用單一的小寫符號 x 同時代表『樣本點』、『事件』與映射到該樣本點的『隨機變數』,在不特別指明的情況之下,將這些概念用同樣的符號表示。也就是在符號上採用下列方式。 x : 代表樣本點 x, 事件 E={x} 或隨機變數 X(x)=x 同樣的,我們也很難在數學符號上去區分機率源 X(), 樣本空間 X 與隨機變數 X(x) = x,因此,我們也將這兩個概念用同樣的大寫符號 X 表示。 X : 代表機率源 X(), 樣本空間 X 或隨機變數 X(x) = x, 對於某機率源所定義的隨機序列,通常也與隨機試驗無法區分開來,我們會以下列符號表示。 $x_1 x_2 .... x_n$ : 代表隨機試驗序列或者機率源 X 所產生的序列。 對於產生樣本序列 $x_1 x_2, ..., x_n$ 的機率源 X,我們通常以大寫字母 P 代表產生樣本 x 所有可能機率分布。同樣的,當我們想要代表某個特定的機率分布時,我們會用小寫的 p 代表。但是,機率源本身所具有的機率分布,我們也同樣用大寫的 P 代表,雖然這個分部實際上是一個特定的機率分布。當我們想透過隨機試驗想要找出機率源的分布時,我們可能會從許多種可能的機率分布 ${p_1, p_2, ..., p_n}$ 當中挑選出一個機率分布作為機率模型, p : 代表特定的機率分布, $P=\{p_1, p_2, ..., p_n\}$ : 代表機率分布的集合,或者是機率源的真實分布,或者作用在所有隨機變數上的機率系統機率分布。 計算統計學中的假說有時候,我們會將假說的概念 h 放入機率分布函數中,當成機率分布的參數之一,例如 P(x, h) 其實代表了由 h 假說所決定的一個機率特定機率分布 p,作用在樣本 x 上的結果 。 在具有假說 h 的情況之下,P(h) 代表由假說 h 所決定的一個機率分布,這是一個特定的機率分布,按照上述規則,原本應該用某個小寫的 p 所代表,但是由於引入了函數形式的關係,我們用 P(h) 代表該假說所決定的特定機率分布。 大寫的 P 符號通常則代表假說 $P(h_1), P(h_2), ... P(h_n)$ 所形成的機率分布集合,計算統計學的主要任務是找出最好的假說,以便用該假說的機率分布進行預測。這個尋找最佳假說的過程可用下列公式表達。 (3)\begin{eqnarray} && \arg\max_h P(h|x,y) \\ &=& \arg\max_h P(x,y|h) \frac{P(h)}{P(x,y)} &; by\,bayes\,theorem\\ \end{eqnarray}
計算統計學通常會用程式 (演算法) 尋找最符合訓練資料 $(x_1,y_1) (x_2,y_2) ...., (x_n,y_n)$ 的假說 P(h),這個過程稱為學習。當電腦完成學習的程序之後,就可以利用 P(h) 預測整個系統的下一個輸出之機率。 通常在預測進行時系統會取得某些輸入值 x,然後再利用該輸入值找到一個最可能的輸出值,也就是找到讓 P(y|x,h) 最大的輸出 y,因此整個預測程序仍然是一個最佳化的過程,如下列公式所示。 (4)\begin{align} \arg\max_y P(y|x,h) \end{align}
結語計算統計學是一個數學當中相當有應用潛力的領域,目的在尋找適當的假說以便用來預測某些答案。透過訓練的方式,我們可以找出一組機率模型,用來做『分群、分類、翻譯、語料庫對齊、經濟預測』等應用,因此,凡是能應用機率模型的領域,幾乎都可以應用計算統計學的理論與技術,這在電腦的應用上是一個強大的工具。 |
計算統計學簡介 (Computational Statistics)
page revision: 38, last edited: 25 Aug 2011 07:11
Post preview:
Close preview