自然語言處理 (Natural Language Processing)

作品

書籍

課程

程式集

小說集

論文集

散文集

影片集

編輯雜誌

程式人

電子書

JavaScript

計算語言學

微積分

Blender 動畫

C# 語言

系統程式

高等 C 語言

Java

Android

Verilog

Wikidot

R 統計軟體

機率統計

計算機數學

組合語言

人工智慧

開放原始碼

網路資源運用

計算機結構

相關訊息

常用工具

友站連結

在家教育

RSS

最新修改

網頁列表

簡體版

English

自然語言處理

  1. 自然語言處理 — 期望讓電腦讀懂人類語言的努力。
  2. 知識表達法 — 規則、推論、框架、物件、劇本…。
  3. 語法理論 — (Generative Grammar) 生成語法、深層結構、…。
  4. 格變語法 — (Case Grammar) 施事、動作、受事、與事、工具、…。
  5. 概念依存理論 — (Conceptual Dependency) R.C.Schank 將 CaseGrammar 精緻化後的結果。
  6. 原型-圖示理論 — Prototype-Schema Theory。
  7. 邏輯語言學 — 以邏輯表達自然語言。
  8. 語用理論 — 用途、語境、…。
  9. 表格式剖析器 — Chart Parser…。
  10. 延伸轉換網路 — Augmented Transition Network …。
  11. 中文的自然語言處理
  12. 自然語言處理系統的歷史
    • 問答系統:BASEBALL — 一個回答有關棒球比賽紀錄的系統 (Green, Wolf, Chomsky, Laughery 1963)
    • 問答系統:Eliza — 一個與人自然交談的系統 (Weizenbaum 1966)
    • 自動摘要:FRUMP — 自動摘要程式 (Gerald DeJong 1982)
    • 理解問答:MARGIE — Schank,
    • 理解問答:BORIS — Schank, Dyer。

機器翻譯

  1. 機器翻譯 — 試圖建立電腦翻譯員的程式。
  2. 規則式機器翻譯 — 使用語法規則及語意規則建構機器翻譯系統。
  3. 統計式機器翻譯 — 使用語料庫建構機器翻譯系統。
  4. EM 算法在自然語言上的應用 — EM 最佳化算法在自然語言處理上有強大的用途。

機率統計法

  1. 機率 — (Probability)
  2. 貝氏網路 — (Bayesian Network)
  3. 蒙地卡羅算法 — (Monte Carlo Algorithm)
  4. 馬可夫鏈 — (Markov Chain and Hidden Markov Model, HMM)
  5. 蒙地卡羅馬可夫算法 — (Markov Chain Monte Carlo, MCMC)
  6. Gibbs 取樣程序 — 用 Gibbs Sampling 進行蒙地卡羅式的取樣模擬。
  7. Metropolis-Hasting 疊代法 — 用 Metropolis-Hasting 學習馬可夫鏈的狀態轉換矩陣。
  8. EM 算法 — (Expectation-Maximization Algorithm) 。
  9. 最大似然法則 — (Maximum Likelihood) 找尋最適當的機率模型。
  10. 最大熵法則 — (Maximum Entropy) 找尋最大亂度的機率模型。
  11. 拉格朗日乘數 — (Lagrange Multiplier) 將最大似然法與最大熵法則連接成對偶問題的數學工具。

自然語言的子領域

  1. 數學在機器學習上的用途
  2. 機率與自動學習技術 — (Machine Learning)
  3. 機率與資料採礦 — (Data Mining)
  4. 詞彙分群的方法 — 處理稀少性問題,以提升機率的可靠度。
  5. 統計式對齊法 — 將雙語語料庫對齊,以便計算機率 P(s|t) 。
  6. 熵與互資訊 — 介紹熵 (Entropy) 與互資訊 (Mutual Information) 之間的關係。
  7. 短語的學習 — 統計式機器翻譯中所使用的短語學習方法。
  8. PatTreehttp://en.wikipedia.org/wiki/Radix_tree, http://code.google.com/p/radixtree/
  9. 全文檢索

語料庫

  1. CC-CEDICT — 開放授權的漢英詞典。
  2. Japanese-English News Article Alignment Data (JENAAD)

自動評測方法

  1. BLEU (comparison of n-gram matches between MT output and ref.)
  2. NIST (similar to BLEU),
  3. METEOR (takes into account stemming & synonymy),
  4. TER (related to edit distance), etc.

相關研究人員

  1. Franz Josef Och — http://www.fjoch.com/ Och 原為南加大的研究人員,於 2004 年被 Google 網羅成為機器翻譯的軟體研究人員,以研發 Google 的翻譯系統。因此在 2004 年的論文中其屬名為 Franz Josef Och, Google Inc. 1600 Amphitheatre Parkway, Mountain View, CA 94043, USA, moc.elgoog|hco#moc.elgoog|hco.

相關資源

  1. 正規表示式 — (Regular Expression)
  2. 清華大學自然語言處理實驗室 (課程) — http://nlp.cs.nthu.edu.tw/course.htm

工具

  1. Moses — 統計式機器翻譯系統。
  2. Giza++ — 雙語詞彙對齊系統。
  3. Lucene – 1998 (開放原始碼全文檢索系統) (Indexer, Searcher)
  4. Nutch - 2002 (開放原始碼網頁下載器) (Crawler, Parser)
  5. Hadoop - 2004 (開放原始碼 大表格處理, 分散式檔案系統) (MapReduce, HDFS)

參考文獻

  1. Handbook of Computational Statistics , http://fedc.wiwi.hu-berlin.de/xplore/ebooks/html/csa/node1.html
  2. http://www.statmt.org/moses/
  3. Syntax for Statistical Machine Translation, Bibliography for Statistical Machine Translation - http://www.clsp.jhu.edu/ws03/groups/translate/biblio.shtml
  4. MT: The Current Research Landscape, Roland Kuhn and Pierre Isabelle, August 2009 - http://summitxii.amtaweb.org/summitxii-keynote-pierre-and-roland.pdf
  5. Open-source machine translation: an opportunity for minor languages, Mikel L. Forcada - http://www.dlsi.ua.es/~mlf/docum/forcada06p2.slides.pdf
  6. NLPReference

Facebook

Unless otherwise stated, the content of this page is licensed under Creative Commons Attribution-NonCommercial-ShareAlike 3.0 License