機率統計教學錄影數學符號數學基礎排列組合機率統計簡介機率機率公理隨機變數連續測度單一分布條件機率聯合分布貝氏定理動差生成函數特徵函數機率法則匯總離散分布二項分布多項分布負二項分布幾何分布超幾何分布布瓦松分布連續分布均勻分布常態分布Gamma 分布指數分布卡方分布柯西分布Weibull 分布T 分布F 分布Beta 分布多維分布統計抽樣敘述統計推論統計中央極限定理估計方法單組樣本估計兩組樣本估計檢定方法單組樣本檢定兩組樣本檢定平均値的推論變異數的推論無母數推論迴歸分析變異數分析實驗設計因子實驗品質管制時間序列數據分類統計定理匯總統計情況分類計算統計蒙地卡羅法最大似然法則假說與學習EM 算法簡單貝氏分類貝氏網路隨機過程馬可夫鏈蒙地卡羅馬可夫資源範例投影片教學錄影練習題考題解答訊息相關網站參考文獻最新修改簡體版English |
簡介最大熵法則 (Maximum Entropy) 在自然語言與機器翻譯領域上相當有用,舉例而言,在統計式機器翻譯領域,最大熵法則就常被用在雙語語句的詞彙對齊問題上,並且有許多人以該法則實作出自動對齊軟體,而且效果不錯。 舉例而言,英文詞彙 fly 翻譯成中文時可能有『飛行、搭機、蒼蠅』等三種可能譯文,假如沒有其他種譯法,那我們就可以假設
但是,滿足這個條件的機率分布有很多,像是平均分布 (各 1/3),或者極端分布 P(飛行 | fly) = 1, 其餘為 0 等等,這些各式各樣的可能分布稱為一個機率模型 (Model)。 但是,什麼樣的分布最好呢?通常,在沒有任何進一步訊息的情況下,我們會傾向於使用平均分布。但是,如果有進一步的訊息,例如 加上限制條件 P(飛行 | fly) + (P(搭機 | fly) = 4/5。那麼,我們會傾向於使用哪種分布呢? 在資訊理論當中,當一個詞彙 w 的出現機率為 P(w) 時,其資訊量定義為如下公式。 (1)\begin{equation} h(w) = - p_w log(p_w) \end{equation}
對於一個語言的所有詞彙集合 (詞集) 而言,整個詞集平均的詞彙編碼長度,稱為該詞集的『熵』或亂度,定義為如下公式。 (2)\begin{align} H(W) = - \sum_{w \in W} p_w log(p_w) \end{align}
在數學符號的使用上,我們通常使用大寫代表整個隨機變數 (像是 W) 或整體函數 (像是 H),小寫代表一個案例 (像是 w) 或案例的函數 (像是 h)。 從觀察樣本到機率模型針對英漢機器翻譯 (Machine Translation) 領域而言,假如訓練語料庫為一個很長的 (英文, 中文) 配對 $(x_1, y_1) (x_2, y_2) ... (x_N, y_N)$ 的雙語對齊語料庫。那麼,我們就可以統計配對 (x,y) 的出現機率 $\tilde{p}(x,y)$,其算法如下。 (3)\begin{align} \tilde{p}(x,y) = \frac{n(x, y)}{N} \end{align}
其中的 n(x,y) 代表 (x,y) 配對出現的次數。 假如我們現在加入一個限制函數 f(x,y) 代表雙連詞 (bigram) 模型,如果 y 緊跟在 x 之後出現則為 1 ,否則為 0,其函數定義如下。
那麼,f 函數在 P(X,Y) 分布下的期望值將可由下列公式定義之。 (4)\begin{align} \tilde{p}(f) \equiv \sum_{x,y} \tilde{p}(x,y) f(x,y) \end{align}
像 f 這樣的函數稱為特徵函數 (feature function,簡稱 feature)。 當我們取得一些統計上較為堅實的樣本,像是詞彙的出現率統計 $\tlide{P}(X)$ 時,我們可以假設真實的分布也應該與樣本一致,於是可以用下列算式取代 4。 (5)\begin{align} p(f) \equiv \sum_{x,y} \tilde{p}(x) p(y|x) f(x,y) \end{align}
(6)
\begin{align} p(f) \equiv \tilde{p}(f) \end{align}
條件式 6 稱為一種限制 (Constraint),這種限制要求我們只考慮符合這個條件的機率模型。於是我們可以將 4, [eref eq5]], 6 合併起來,形成下列等式。 (7)\begin{align} \sum_{x,y} \tilde{p}(x,y) f(x,y) = \sum_{x,y} \tilde{p}(x) p(y|x) f(x,y) \end{align}
也就是我們要求找出的機率模型必須與訓練樣本一致,此時我們可以將 $\tlide{P}(x,y)$ 時 (像是雙語對齊語料庫), 我們的目標是希望建立一個統計模型,讓這個模型產生整個機率分布 P(X,Y) 的機會最大, 當沒有進一步的訊息時,我們傾向於使用平均分布,也就是讓 熵的距離公式(8)\begin{equation} d(X,Y) = H(X,Y) - I(X;Y) = H(X|Y) + H(Y|X) = 2 H(X,Y) - H(X) - H(Y) \end{equation}
目標最佳化目標:找出 p 以最大化下列算式 (9)\begin{eqnarray} && argmax \quad { d(X,Y) } \\ & \rightarrow & argmax \quad { H(X|Y) + H(Y|X)} \\ & \rightarrow & argmax \quad { 2 H(X,Y) - H(X) - H(Y) } \end{eqnarray}
最大距離原則 = 最大條件熵原則 = 最大聯合熵原則 (保持系統的最大亂度) 參考文獻
軟體程式
|
最大熵學習法 (Maximum Entropy) 在機器翻譯上的用途
page revision: 38, last edited: 11 Sep 2010 00:24
Post preview:
Close preview