自然語言前言簡介歷史理論篇知識表達語法理論語意理論語用理論方法篇規則比對機率統計神經網路應用篇語料建構全文檢索自動分類自動摘要機器翻譯問答系統中文處理程式篇交談程式英漢翻譯維基語料搜尋引擎相關資源語料辭典程式工具相關網站相關文獻網頁列表統計資訊最新修改訊息相關網站參考文獻最新修改簡體版English |
自然語言處理是人工智慧的重要子領域,主要研究如何用電腦處理像中文、英文等自然語言,特別是表現出與智慧相關的語言行為,像是交談系統、機器翻譯、自然語言理解等。 自然語言處理的終極目標是要讓電腦可以理解人類的話語,並且進行流暢的對話,但是這個目標顯然太過高遠,目前看不到任何完整解決的可能性。但是如果只是要欺騙人類,讓某些人以為電腦真的在與他進行對話,這倒是不太困難,著名的 Eliza 程式就曾經達成這樣的目標。 自然語言處理的方法主要分為統計式與規則式的兩種方法。在 Web 發明以前,規則式的方法較受到重視,但在 Web 發明之後,由於語料的大量增加,導致統計式的方法發展迅速。另外,像是神經網路式的自然語言處理方法,雖然有少數人進行研究,但是還沒有形成一個完整的體系。 機器翻譯是自然語言處理技術的一大應用,許多大型軟體公司 — 像是 Google 與微軟,都設立了研發部門,特別針對機器翻譯進行研究,因為這個市場具有龐大的商業潛力。Google 挖角優秀的機器翻譯研究人員 Franz Josef Och 的原因也正是為了這個龐大的潛在市場,但是即便 Och 在機器翻譯領域的表現是如此傑出,但是 Google 恐怕還是太過輕視這個問題的困難度,以至於曾經發有新聞報導說 Google 認為機器翻譯技術可以在 5 年內 (2014年) 達到人類翻譯的水準,這是筆者認為幾乎不可能的。 以往對機器翻譯的研究較著重於理論的描述,近來則在統計式翻譯的領導之下,許多程式能力優秀的研究者開始嶄露頭角, Och 就是一個程式能力很強的研究者,因此才會創作出像 Giza++、mkcls、YASMET 等機器翻譯的相關子系統。 機器翻譯領域已經受到開放原始碼運動的影響,開始在程式上進行交流分享的動作。因此像 Giza++ 等系統後來也成為完整的統計式翻譯軟體 Moses 的建構基礎,筆者相信這對機器翻譯的學術研究會有相當正面的影響。 自然語言領域可以分享的不是只有程式,包含字典、語料庫、平行語料庫等都是可以分享的資源,目前已經有不少字典資源可以在網路上取得,像是 CEDICT 就是一個相當好的漢英雙語詞典。但是在中文領域,平行語料庫的資源就相對稀少,還好有些網路資源可以彌補這個現象。舉例而言,我們可以使用維基百科作為平行語料庫的基礎,因為維基百科當中有許多文章是從英文被翻譯成中文的,只要利用程式將這些語句進行對齊動作,就可以得到大量的平行語料庫,進而進行統計式翻譯系統的建構。 筆者衷心的希望自然語言的研究人員,能進一部的將手上的語料庫釋放出來,讓大家能共享這些資源,以加快學術的進步速度,讓自然語言處理的研究進行的更為順利。 陳鍾誠 於金門大學 2010 年 8 月 24 日 |
免費電子書 -- 自然語言處理 (前言)
page revision: 1, last edited: 24 Aug 2010 01:07






Post preview:
Close preview