自然語言處理( Natural Language Processing, NLP)是電腦科學領域與人工智慧領域中的一個重要方向。它研究能實現人與計算機之間用自然語言進行有效通訊的各種理論和方法。自然語言處理是一門融語言學、電腦科學、數學於一體的科學。
(1) 計算機將自然語言作為輸入或輸出:
(2) 關於NLP的多種觀點:
(3) NLP的應用:
A、機器翻譯(Machine Translation)…….
B、MIT翻譯系統(MIT Translation System)……
C、文字摘要(Text Summarization)……
D、對話系統(Dialogue Systems)……
E、其他應用(Other NLP Applications):
——語法檢查(Grammar Checking)
——情緒分類(Sentiment Classification)
——ETS作文評分(ETS Essay Scoring)
(1) 歧義
「At last, a computer that understands you like your mother」
A、 它理解你就像你的母親理解你一樣;
B、 它理解你喜歡你的母親;
C、 它理解你就像理解你的母親一樣
D、 我們來看看Google的翻譯:終於有了一臺像媽媽一樣懂你的電腦(看上去Google的理解更像選項A)。
(2) 不同層次的歧義
A、 聲音層次的歧義——語音識別:
——「 ... a computer that understands you like your mother」
——「 ... a computer that understands you lie cured mother」
Two definitions of 「mother」:
——a woman who has given birth to a child
——a stringy slimy substance consisting of yeast cells and bacteria; is added to cider or wine to produce vinegar
——符號方法 or 象徵手法:將所有需要的資訊在計算機裡編碼;
樣本:Scientists in United States have found way of turning lazy monkeys into workaholics using gene therapy. Usually monkeys work hard only when they know reward is coming, but animals given this treatment did their best all time. Researchers at National Institute of Mental Health near Washington DC, led by Dr Barry Richmond, have now developed genetic treatment which changes their work ethic markedly. 」Monkeys under influence of treatment don’t procrastinate,」 Dr Richmond says. Treatment consists of anti-sense DNA - mirror image of piece of one of our genes - and basically prevents that gene from working. But for rest of us, day when such treatments fall into hands of our bosses may be one we would prefer to put off.
a) 限定詞位置很大程度上由以下幾項決定:
i. 名詞型別-可數,不可數;
ii. 照應-特指,類指;
iii. 資訊價值-已有,新知
iv. 數詞-單數,複數
b) 然而,許多例外和特殊情況也扮演著一定的角色,如:
i. 定冠詞用在報紙名稱的前面,但是零冠詞用在雜誌和期刊名稱前面
(3) 符號方法方案
a) 我們需要哪些類別的知識:
i. 語言知識:
ii. 世界知識:
iii. 這些資訊很難人工編碼!
a) 樸素方法:
i. 收集和你的領域相關的大量的文字
ii. 對於其中的每個名詞,計算它和特定的限定詞一起出現的概率
iii. 對於一個新名詞,依據訓練語料庫中最高似然估計選擇一個限定詞
b) 實現:
i. 語料:訓練——華爾街日報(WSJ)前21節語料,測試——第23節
ii. 預測準確率:71.5%
c) 結論:
i. 結果並不是很好,但是對於這樣簡單的方法結果還是令人吃驚
ii. 這個語料庫中的很大一部分名詞總是和同樣的限定詞一起出現,如:
-「the FBI」,「the defendant」, ...
a) 預測:
b) 代表性的問題:
i. 複數?(是,否)
ii. 第一次在文字中出現?
iii. 名詞(詞彙集的成員)
c) 圖表例子略
d) 目標:學習分類函數以預測未知例子
a) 學習X->Y的對映函數
b) 假設已存在一些分佈D(X,Y)
c) 嘗試建立分佈D(X,Y)和D(X|Y)的模型
a) 許多NLP應用領域可以被看作是從一個複雜的集合到另一個集合的對映:
i. 句法分析: 串到樹
ii. 機器翻譯: 串到串
iii. 自然語言生成:資料詞條到串
b) 注意,分類框架並不適合這些情況!
(1) 什麼是語料庫(Corpora)
i. 一個語料庫就是一份自然發生的語言文字的載體,以機器可讀形式儲存;
(2) 單詞計數(Word Counts)
i. 在文字中最常見的單詞是哪些?
ii. 在文字中有多少個單詞?
iii. 在大規模語料庫中單詞分佈的特點是什麼?
(3) 我們以馬克吐溫的《湯姆索耶歷險記》為例:
單詞(word) 頻率(Freq) 用法(Use)
the 3332 determiner (article)
and 2972 conjunction
a 1775 determiner
to 1725 preposition, inf. marker
of 1440 preposition
was 1161 auxiliary verb
it 1027 pronoun
in 906 preposition
that 877 complementizer
Tom 678 proper name
(4) 這個例句裡有多少個單詞:
They picnicked by the pool, then lay back on the grass and looked at the stars.
i. 「型」(Type) ——語料庫中不同單詞的數目,詞典容量
ii. 「例」(Token) — 語料中總的單詞數目
iii. 注:以上定義參考自《自然語言處理綜論》
iv. 湯姆索耶歷險記(Tom Sawyer)中有:
1. 詞型— 8, 018
2. 詞例— 71, 370
3. 平均頻率— 9(注:詞例/詞型)
(5) 詞頻的頻率: