計算統計學簡介 (Computational Statistics)

機率統計

教學錄影

數學符號

數學基礎

排列組合

機率統計簡介

機率

機率公理

隨機變數

連續測度

單一分布

條件機率

聯合分布

貝氏定理

動差生成函數

特徵函數

機率法則匯總

離散分布

二項分布

多項分布

負二項分布

幾何分布

超幾何分布

布瓦松分布

連續分布

均勻分布

常態分布

Gamma 分布

指數分布

卡方分布

柯西分布

Weibull 分布

T 分布

F 分布

Beta 分布

多維分布

統計

抽樣

敘述統計

推論統計

中央極限定理

估計方法

單組樣本估計

兩組樣本估計

檢定方法

單組樣本檢定

兩組樣本檢定

平均値的推論

變異數的推論

無母數推論

迴歸分析

變異數分析

實驗設計

因子實驗

品質管制

時間序列

數據分類

統計定理匯總

統計情況分類

計算統計

蒙地卡羅法

最大似然法則

假說與學習

EM 算法

簡單貝氏分類

貝氏網路

隨機過程

馬可夫鏈

蒙地卡羅馬可夫

資源

範例

投影片

教學錄影

練習題

考題解答

訊息

相關網站

參考文獻

最新修改

簡體版

English

簡介

計算統計學乃是研究如何用電腦程式尋找統計模型的學問,其方法主要是將假說 (hypothesis) 的概念融入到機率分布當中,利用『最大似然法則』(Maximum Likelihood) 或者『最大熵法則』(Maximum Entropy) 進行最佳化的尋找,以便學習出良好的機率模型。這種學習出來的良好機率模型,可以用來預測下一個樣本出現的機率。

當程式找出良好的機率模型之後,就可以利用『最大效用法則』,找出最有利的理性決策。舉例而言,我們可以透過下列的 EM 演算法公式,學習出機器翻譯系統所使用的良好機率模型 P(h,z)。

(1)
\begin{align} \arg\max_h \sum_{z} P(z|c,e,h) L(z,c|e, h) \end{align}

在上述的公式中, c 代表中文語句, e 代表英文語句,z 代表隱變數,h 則是假說 (通常是一組機率參數)。

然後再利用該機率模型,再透過下列的最佳化程序,找出最符合輸入英文語句 e 的中文翻譯語句,然後將該英文語句翻譯為中文語句 c。

(2)
\begin{align} \arg\max_{c} P(c | e, z, h) \end{align}

或許讀者現在還無法理解上述公式的意義,但是應該可以從這個範例感覺到計算統計學理論的強大威力。這個威力來自於計算統計學的強大數學理論,以及現代計算機的超快速度。當然,其中的數學也是相當複雜的,需要用到許多變數。因此,我們有必要再進入這個領域之前先釐清一些數學符號,否則,在引入假說等概念時,將會導致數學符號的過度複雜,因而難以理解其背後隱藏的概念。

即使你已經學過機率與統計,也請先耐心的看完下一節的基本機率符號,否則可能無法理解後續的內容。

計算統計中的機率理論

隨機試驗 (Random Experiment)
舉凡觀察、實驗、調查、檢驗、抽樣等,階可稱為隨機試驗。隨機試驗會產生一連串的樣本點,通常我們用符號 $x_1 x_2 .... x_n$ 代表這種實驗產生的樣本串列。
樣本空間 (Sample Space)
一個隨機試驗之各種可能結果的集合,稱為樣本空間,數學上通常以大寫字母,像是 S, X, Y 等符號表示。
樣本點 (Sample Point)
樣本空間內的一個元素,稱為樣本點,或稱樣本 (Sample),數學上通常以小寫字母,像是 s, x, y 等符號表示。
事件 (Event)
乃是樣本空間的子集合,包含單一樣本的事件稱為簡單事件,包含兩個以上樣本的事件稱為複合事件。
隨機變數 (Random Variable)
隨機變數是以樣本空間為定義域的實數值函數,舉例而言,如果我們用隨機變數 X 代表投擲兩次銅板時正面 (1) 出現的次數,那麼隨機變數 X 的函數定義如下 X(00) = 0, X(01) = 1, X(10) = 1, X(11) = 2。
機率分布 (Probability Distribution)
機率分布乃是針對某些隨機變數之可能值,求其機率所得到的機率函數。通常我們用符號 P 代表機率分配,P(x) 代表 x 樣本出現的機率。
機率源 (Probability Source)
一個產生某隨機變數之樣本點的隨機產生器,稱為機率源,像是我們所生活的世界就是個複雜的機率源,而電腦的亂數產生器也是一種機率源。這是一個從整數領域映射到樣本點的函數 $X(1..n) = [x_1,...,x_n]$,代表產生該隨機實驗的系統或函數 (在機率的書籍中我還沒有看過機率源這個名詞,這個名詞是筆者為了方便而定義的)。

澄清幾個容易混淆的觀念

由於隨機變數是一個函數,會將樣本隨機實驗的結果映射到某個值域,因此被映射到同一目標值的樣本點會形成一個集合,而樣本點的集合在機率理論中被稱為事件,於是隨機變數也經常被用來代表事件,像是在投擲兩次銅板的例子中, x=0 代表事件 {00}, x=1 代表事件 {01,10}, x=2 代表事件 {11}。

況且,包含一個樣本的事件計被稱為簡單事件,但實際上又通常以該樣本符號 x 所表示,例如在投擲兩次銅板的例子中,我們可以用 x=00 代表出現兩次反面的『樣本點』,也可以用 x=00 代表出現兩次反面的『事件』,又可以用 x=00 來代表兩次隨機實驗的結果,因為 $x=x_1 x_2=00$

因此,為了避免數學符號過於複雜,我們通常用單一的小寫符號 x 同時代表『樣本點』、『事件』與映射到該樣本點的『隨機變數』,在不特別指明的情況之下,將這些概念用同樣的符號表示。也就是在符號上採用下列方式。

x : 代表樣本點 x, 事件 E={x} 或隨機變數 X(x)=x

同樣的,我們也很難在數學符號上去區分機率源 X(), 樣本空間 X 與隨機變數 X(x) = x,因此,我們也將這兩個概念用同樣的大寫符號 X 表示。

X : 代表機率源 X(), 樣本空間 X 或隨機變數 X(x) = x,

對於某機率源所定義的隨機序列,通常也與隨機試驗無法區分開來,我們會以下列符號表示。

$x_1 x_2 .... x_n$ : 代表隨機試驗序列或者機率源 X 所產生的序列。

對於產生樣本序列 $x_1 x_2, ..., x_n$ 的機率源 X,我們通常以大寫字母 P 代表產生樣本 x 所有可能機率分布。同樣的,當我們想要代表某個特定的機率分布時,我們會用小寫的 p 代表。但是,機率源本身所具有的機率分布,我們也同樣用大寫的 P 代表,雖然這個分部實際上是一個特定的機率分布。當我們想透過隨機試驗想要找出機率源的分布時,我們可能會從許多種可能的機率分布 ${p_1, p_2, ..., p_n}$ 當中挑選出一個機率分布作為機率模型,

p : 代表特定的機率分布,

$P=\{p_1, p_2, ..., p_n\}$ : 代表機率分布的集合,或者是機率源的真實分布,或者作用在所有隨機變數上的機率系統機率分布。

計算統計學中的假說

有時候,我們會將假說的概念 h 放入機率分布函數中,當成機率分布的參數之一,例如 P(x, h) 其實代表了由 h 假說所決定的一個機率特定機率分布 p,作用在樣本 x 上的結果 。

在具有假說 h 的情況之下,P(h) 代表由假說 h 所決定的一個機率分布,這是一個特定的機率分布,按照上述規則,原本應該用某個小寫的 p 所代表,但是由於引入了函數形式的關係,我們用 P(h) 代表該假說所決定的特定機率分布。

大寫的 P 符號通常則代表假說 $P(h_1), P(h_2), ... P(h_n)$ 所形成的機率分布集合,計算統計學的主要任務是找出最好的假說,以便用該假說的機率分布進行預測。這個尋找最佳假說的過程可用下列公式表達。

(3)
\begin{eqnarray} && \arg\max_h P(h|x,y) \\ &=& \arg\max_h P(x,y|h) \frac{P(h)}{P(x,y)} &; by\,bayes\,theorem\\ \end{eqnarray}

計算統計學通常會用程式 (演算法) 尋找最符合訓練資料 $(x_1,y_1) (x_2,y_2) ...., (x_n,y_n)$ 的假說 P(h),這個過程稱為學習。當電腦完成學習的程序之後,就可以利用 P(h) 預測整個系統的下一個輸出之機率。

通常在預測進行時系統會取得某些輸入值 x,然後再利用該輸入值找到一個最可能的輸出值,也就是找到讓 P(y|x,h) 最大的輸出 y,因此整個預測程序仍然是一個最佳化的過程,如下列公式所示。

(4)
\begin{align} \arg\max_y P(y|x,h) \end{align}

結語

計算統計學是一個數學當中相當有應用潛力的領域,目的在尋找適當的假說以便用來預測某些答案。透過訓練的方式,我們可以找出一組機率模型,用來做『分群、分類、翻譯、語料庫對齊、經濟預測』等應用,因此,凡是能應用機率模型的領域,幾乎都可以應用計算統計學的理論與技術,這在電腦的應用上是一個強大的工具。

Facebook

Unless otherwise stated, the content of this page is licensed under Creative Commons Attribution-NonCommercial-ShareAlike 3.0 License