詞彙分群方法 (統計式機器翻譯)

自然語言

前言

簡介

歷史

理論篇

知識表達

語法理論

語意理論

語用理論

方法篇

規則比對

機率統計

神經網路

應用篇

語料建構

全文檢索

自動分類

自動摘要

機器翻譯

問答系統

中文處理

程式篇

交談程式

英漢翻譯

維基語料

搜尋引擎

相關資源

語料辭典

程式工具

相關網站

相關文獻

網頁列表

統計資訊

最新修改

訊息

相關網站

參考文獻

最新修改

簡體版

English

簡介

由於自然語言 (例如中文、英文) 當中的詞彙眾多,因此即使採用相當大的語料庫,通常出現某些稀少詞彙的語句也相當少量,如果再考慮雙連詞 (Bigram) 的模型,那麼有許多雙連詞可能只出現一次,甚至從未出現過,這就是統計式機器翻譯中所面臨的稀少性問題。

為了解決這樣的問題,可以採用詞彙分群的方式,將詞彙分成較少的幾群,然後統計時以詞群代替詞彙,就可以緩解稀少性的問題。

參考文獻

  1. Franz Josef Och: "An Efficient Method for Determining Bilingual Word Classes"; pp. 71-76, Ninth Conf. of the Europ. Chapter of the Association for Computational Linguistics; EACL'99, Bergen, Norway, June 1999.

軟體程式

  1. mkcls — training of word classes

Facebook

Unless otherwise stated, the content of this page is licensed under Creative Commons Attribution-NonCommercial-ShareAlike 3.0 License