雙語語句對齊法

自然語言

前言

簡介

歷史

理論篇

知識表達

語法理論

語意理論

語用理論

方法篇

規則比對

機率統計

神經網路

應用篇

語料建構

全文檢索

自動分類

自動摘要

機器翻譯

問答系統

中文處理

程式篇

交談程式

英漢翻譯

維基語料

搜尋引擎

相關資源

語料辭典

程式工具

相關網站

相關文獻

網頁列表

統計資訊

最新修改

訊息

相關網站

參考文獻

最新修改

簡體版

English

熵的距離公式

(1)
\begin{equation} d(X,Y) = H(X,Y) - I(X;Y) = H(X|Y) + H(Y|X) = 2 H(X,Y) - H(X) - H(Y) \end{equation}

目標

最佳化目標:找出 p 以最大化下列算式

(2)
\begin{eqnarray} && argmax \quad { d(X,Y) } \\ & \rightarrow & argmax \quad { H(X|Y) + H(Y|X)} \\ & \rightarrow & argmax \quad { 2 H(X,Y) - H(X) - H(Y) } \end{eqnarray}

最大距離原則 = 最大條件熵原則 = 最大聯合熵原則 (保持系統的最大亂度)

學習演算法

Algorithm Learn(dx, dy)
output p(wx,wy), p(sx,sy)

  initialize p(sx|sy) = 1/|SX|, p(sy|sx)=1/|SY|, p(wx|wy) = 1/|WX|, p(wy|wx)=1/|WY|
  while not end
    foreach sx, sy
       foreach wx in sx, wy in sy
         p(wx,wy) += alpha * p(sx,sy)  // 說明:機率增加,距離下降
    foreach wx,wy
      foreach wx in sx, wy in sy
         p(sx,sy) += alpha * p(wx,wy) ???
   normalize p(sx|sy), p(sy|sx), p(wx|wy), p(wy|wx)
  end while

資料結構

Index(s) = Index { w1, w2, ...., wk }
ps[|sx|, |sy|]
pw[|wx|, |wy|]
psn[|sx|, |sy|]
pwn[|wx|, |wy|]

Facebook

Unless otherwise stated, the content of this page is licensed under Creative Commons Attribution-NonCommercial-ShareAlike 3.0 License