免費電子書 -- 自然語言處理 (前言)

自然語言

前言

簡介

歷史

理論篇

知識表達

語法理論

語意理論

語用理論

方法篇

規則比對

機率統計

神經網路

應用篇

語料建構

全文檢索

自動分類

自動摘要

機器翻譯

問答系統

中文處理

程式篇

交談程式

英漢翻譯

維基語料

搜尋引擎

相關資源

語料辭典

程式工具

相關網站

相關文獻

網頁列表

統計資訊

最新修改

訊息

相關網站

參考文獻

最新修改

簡體版

English

自然語言處理是人工智慧的重要子領域,主要研究如何用電腦處理像中文、英文等自然語言,特別是表現出與智慧相關的語言行為,像是交談系統、機器翻譯、自然語言理解等。

自然語言處理的終極目標是要讓電腦可以理解人類的話語,並且進行流暢的對話,但是這個目標顯然太過高遠,目前看不到任何完整解決的可能性。但是如果只是要欺騙人類,讓某些人以為電腦真的在與他進行對話,這倒是不太困難,著名的 Eliza 程式就曾經達成這樣的目標。

自然語言處理的方法主要分為統計式與規則式的兩種方法。在 Web 發明以前,規則式的方法較受到重視,但在 Web 發明之後,由於語料的大量增加,導致統計式的方法發展迅速。另外,像是神經網路式的自然語言處理方法,雖然有少數人進行研究,但是還沒有形成一個完整的體系。

機器翻譯是自然語言處理技術的一大應用,許多大型軟體公司 — 像是 Google 與微軟,都設立了研發部門,特別針對機器翻譯進行研究,因為這個市場具有龐大的商業潛力。Google 挖角優秀的機器翻譯研究人員 Franz Josef Och 的原因也正是為了這個龐大的潛在市場,但是即便 Och 在機器翻譯領域的表現是如此傑出,但是 Google 恐怕還是太過輕視這個問題的困難度,以至於曾經發有新聞報導說 Google 認為機器翻譯技術可以在 5 年內 (2014年) 達到人類翻譯的水準,這是筆者認為幾乎不可能的。

以往對機器翻譯的研究較著重於理論的描述,近來則在統計式翻譯的領導之下,許多程式能力優秀的研究者開始嶄露頭角, Och 就是一個程式能力很強的研究者,因此才會創作出像 Giza++mkclsYASMET 等機器翻譯的相關子系統。

機器翻譯領域已經受到開放原始碼運動的影響,開始在程式上進行交流分享的動作。因此像 Giza++ 等系統後來也成為完整的統計式翻譯軟體 Moses 的建構基礎,筆者相信這對機器翻譯的學術研究會有相當正面的影響。

自然語言領域可以分享的不是只有程式,包含字典、語料庫、平行語料庫等都是可以分享的資源,目前已經有不少字典資源可以在網路上取得,像是 CEDICT 就是一個相當好的漢英雙語詞典。但是在中文領域,平行語料庫的資源就相對稀少,還好有些網路資源可以彌補這個現象。舉例而言,我們可以使用維基百科作為平行語料庫的基礎,因為維基百科當中有許多文章是從英文被翻譯成中文的,只要利用程式將這些語句進行對齊動作,就可以得到大量的平行語料庫,進而進行統計式翻譯系統的建構。

筆者衷心的希望自然語言的研究人員,能進一部的將手上的語料庫釋放出來,讓大家能共享這些資源,以加快學術的進步速度,讓自然語言處理的研究進行的更為順利。

陳鍾誠 於金門大學 2010 年 8 月 24 日

Facebook

Unless otherwise stated, the content of this page is licensed under Creative Commons Attribution-NonCommercial-ShareAlike 3.0 License