• 沒有找到結果。

第二章 相關研究工作

第二節 解析詞鍵歧義性

本節介紹詞鍵語意的問題以及解決方法,2.2.1 介紹三種解析詞鍵歧義性的 方法,2.2.2 介紹同義詞典方法用到的兩個資源,英文文件使用 WordNet,而中 文文件則使用同義詞詞林。2.2.3 說明一個混合英文 WordNet 以及中文同義詞詞 林,建立中英對照的WordNet,並且用來解析詞鍵歧義。2.2.4 則說明語彙鏈結 解析詞鍵歧義的方法。

2.2.1 建構中英對照的WordNet解析詞鍵歧義性

判斷詞鍵語意的問題稱為詞鍵歧義性解析(Word Sense Disambiguation, 簡 寫為WSD),主要是針對一個具有歧義性的詞,從這個詞(Word Form)可能擁有 的所有詞義(Word Meanings)類別中,分辨出它目前在文章中所表現的詞義。解 決詞義歧義性的方法分為三種,一種是直接利用字典或同義詞典所提供的詞義資 訊。第二種方法是監督式(Supervised)的訓練方法,利用已標定好詞義標記的語 料庫,訓練出每個詞義的語境,比較語境間相似度後辨別出正確的詞義。這種方 法需要有規模夠大的語料庫,且在語料庫的標定工作上,通常需要大量的人力介

入,因此,語料庫的取得是這個方法的一大瓶頸。第三種方法是,由未經任何標 定處理的語料庫raw corpus)中,訓練出可用來區辨詞義的資訊,此種方法是非 監督式(unsupervised)的訓練方法。本節介紹的兩個相關研究都是屬於第一種,也 就是利用同義詞典提供的詞義資訊。

解決詞義歧義性的問題,同義詞典即提供一個方便而完整的詞義分類資訊 來源,它將所有同義的字或詞集合在一起,成為一個詞義類別,這個詞義類別 的定義以及所涵蓋的詞義範圍,就可由集合中這些同義字或詞的共同性得知。

當然,不同的同義詞典間,其所定義的詞義類別個數與範圍可能會有所出入。

先前做過的許多研究,通常都是藉由同義詞典來提供詞義的分類項目及詞義資 訊。例如在中文方面的同義詞典有「同義詞詞林」。在英文解決詞義歧義性問 題的研究上是利用Roget’s International Thesaurus [Kipfer01]或是 WordNet [Miller95]。

2.2.2 WordNet 以及同義詞詞林簡介

WordNet [Miller95]是在 1990 年由 George A. Miller 等人所提出,是普林斯 頓大學的一個計畫,該計畫被稱為「英語詞彙資料庫」(WordNet),屬於同義詞 典(Thesaurus)的一種。它使用同義詞集合(Synonym Sets,或稱 Synsets)來描述和 分類詞鍵及概念。它和一般同義詞典的不同處在於,它比同義詞典增加了更多 的訊息和知識,在WordNet 每個同義詞集合間,都有一些關聯性指標(Relational Pointers)以同義詞集為節點,透過語意關係建立節點間的連結,就形成了詞彙 語意的關係網絡。「關聯性指標」是指如「上下位」關係(Hyperonymy-

Hyponymy),例如圖 7 中「非洲國家」(African Country)是一種「國家」(Country),

所以國家是非洲國家的上位詞;同理,英格蘭是歐洲國家的下位詞。其他還有

「反義」(Antonym)關係、「導致」(Cause)關係等多達數十種語意關係。在 WordNet 架構中,依照詞性分成名詞(noun)、動詞(verb)、形容詞(adj)、副詞(adv)等四類,

每一類各有其關聯性指標,但這些指標都只指向同一詞性的同義詞集合,而不 指到屬於不同詞性的同義詞集合。WordNet 針對這四個詞性,共分成四十四個 大類,將近十萬個同義詞集合。

Country

Kingdom United Kingdom

European Country

African Country

Scandinavian Country

Sweden

Norway

Denmark England

圖 7: WordNet 結構的範例[Miller95]

以WordNet 為例,可利用每個詞義集合(Synset)中所包含的詞,及這些詞在 這個詞義集合中的定義(Definitions)和例句(Glosses)等,來區別詞義集合間的差 異。此外,WordNet 中由上位詞、下位詞等關聯性指標所建立起之階層式架構,

可用來計算兩個詞彙之間的概念距離(Conceptual Distance)或者概念密度

(conceptual density),利用這些計算方式,可以比較詞義間的相似度,進而對 這些詞彙進行解決詞義歧義性的工作。

「同義詞詞林」是由大陸學者編輯,收錄了近七萬的詞彙,全部按詞義編排。

本書除了以詞義為分類原則,也兼顧詞類。它把詞語分為大、中、小類三級,共 分12 個大類,94 個中類,1428 個小類,小類下再依同義原則劃分詞群,分成 3925 個詞群。圖 8的例子中「人」是大類,「男女老少」是中類,「老人」是小 類別,而小類之下還會有詞群。[Chen02]的研究對中研院平衡語料庫標定詞義標 記是以1428 個小類做為詞義標定時的詞義標記。同義詞詞林中對詞類的分類大 致是:屬於為A 和D 大類的詞大部份是名詞,屬於E大類的大部份是形容詞,屬 於F和J 大類的大部份為動詞,屬於K 大類的為助語,L 大類則為敬語及問候語。

泛稱 人民、眾人

我、我們 他、他們

自己、別人

男女老少

男人、女人

老人

青少年 嬰兒

兒童 體態

高個子、矮子

胖子、瘦子 美女、美男子

圖 8: 同義詞詞林的例子[Chen02]

2.2.3 建構中英對照的WordNet解析詞鍵歧義性

[Chen02] 使用了五個資源,包括「WordNet」、「同義詞詞林」、「中研院平 衡語料庫」、「SemCor」語料庫以及中英字典。整合這五個語言學資源建立一個 中英文對照的WordNet,可以用來解析詞鍵歧義性。除了 2.2.2 節介紹的 WordNet 和同義詞詞林外,以下先說明另外兩個語言學資源「中研院平衡語料庫」以及

「SemCor」語料庫。

「中央研究院平衡語料庫」 (簡稱「研究院語料庫」,Sinica Corpus)它 是世界上第一個具有完整詞類標記的中文語料庫,由中央研究院資訊所、語言 所詞庫小組完成的。1997 年中研院所開放的版本已具有五百萬詞的規模。此語 料庫專門針對語言分析而設計的,每個文句都依詞斷開,並標示詞類。語料的 蒐集也盡量做到現代漢語分配在不同的主題和語式上,分為六大類,「哲學」

(10%)、「科學」(10%)、「社會」(35%)、「藝術」(5%)、「生活」

(20%)「文學」(20%)。[Chen02] 以自動的方式為其加標詞義標記。

SemCor(Semantic Concordance) 是一部具有詞類和詞義標記的小規模語料 庫,其來源是從知名的布朗語料庫(Brown Corpus)中擷取出一小部份,以 WordNet 的同義詞集合為標記,為每個字加標上詞義標記。由於布朗語料庫本

身已標有詞類標記,再加上人工為其所標定的詞義標記,因此,所建構出的

3. 建立同義詞詞林之詞義標記與WordNet之synsets間的對應關係表。

4. 建立中文部份的詞彙知識庫,並進而與英文的WordNet連結,建構成一部可

Chinese English WordNet Set up

WordNet synset vectors

SemCor WordNet

CE Dict

Chinese Chinese

words with Cilin sense

Sense vectors

Chinese English WordNet

圖 9: 建立中英對照 WordNet 的流程圖[Chen02]

[Chen02]也是使用語境向量代表語意,但是和[Fung98]不同的是語境向量 由WordNet 的同義詞集合定義和例句計算得來,而不是來自語料庫。WordNet 中的定義和例句,是用來解釋每一個同義詞集合所代表的含義,以及某英文詞 在此同義詞集合時的用法與例句,再加上每個同義詞集合中均列出了屬於此集 合詞義的所有英文詞。因此,剛好可藉由這些資訊建立起每個同義詞集合之語 境向量。除了把定義和例句中的Stopwords 去除之外,剩下的字全部當作此同 義詞集合的上下文資訊(Contexts)。把從 SemCor 和 WordNet 中訓練所得的上

下文資訊集合起來,所產生的每個synset 之語境向量,就同時包含了這兩個資 出現在syn22 中,「犯罪」的最高MI 值3.899 出現在syn31 中,因此對這兩個 詞就分別選擇syn22 與syn31 作為語意。

syn11 syn12 syn21 syn22 syn31 syn32 syn33

syn11 1.517 4.394 1.233 0.444 1.583

syn12 0 0 0 0 0

syn21 1.517 0 -0.061 0.028 -0.536

syn22 4.394 0 3.899 0.417

syn31 1.233 0 -0.061 3.899

syn32 0.444 0 0.028 0

syn33 1.583 0 -0.536 0.417

犯罪 國際 組織

國際 組織 犯罪

表 5: 解析「國際組織犯罪」語意的例子[Chen02]

2.2.4 利用語彙鍵結解析語意歧義性

語彙鏈結(Lexical Chain) [Barzilay97]是文章中具有相同意義或是直接、間 接關係的字詞所組成的集合,每個語彙鏈結代表文章中所描述的一個概念 (Concept)。建立語彙鏈結的主要步驟如下:

1. 挑選候選的名詞。

2. 對於每個候選的詞鍵,針對每個語彙鏈結,衡量該詞鍵所代表的語意與 語彙鏈結中每個詞鍵的語意關聯度,藉此找出相關聯的語彙鏈結。

3. 如果找到適當的語彙鏈結,便將該詞鍵加入該語彙鏈結中;如果沒有找 到的話,便建構新的語彙鏈結。

[Barzilay97]根據WordNet中詞鍵之間的關聯結構來衡量關聯強度,若某鏈結 為同義詞關係,則給予10 分;完全關係(Holonym)給予7 分;上位詞關係則給予 4 分。

以下說明如何建構語彙鏈結。

Mr. Kenny is the person that invented an anesthetic machine which uses

micro-computers to control the rate at which an anesthetic is pumped into blood.

Such machines are nothing new. But his device uses two micro-computers to achieve much closer monitoring of the pump feed the anesthetic into

表 6: 建立語彙鏈結的原始文章[Barzilay97]

語彙鏈結只考慮名詞,以表 6 文章為例,對於第一個名詞「Mr.」建構一個獨 立的語彙鏈結,接著考慮第二個字詞「person」。由 WordNet 中可知該字具有 三種不同的涵義:(1)人類(human being);(2)人的身體(a person's body)以 及(3)人稱,文法上的分類(grammatical category of pronouns and verb forms)。考慮所有可能的鏈結組合,如

10會產生三種可能。

Mr.

Person

mister

individual

Mr.

Person

mister

a person’s body

Mr.

Person

mister

grammatical category 4

圖 10: Mr.和 Person 的三種可能語意組合[Barzilay97]

其中,「person」語意為人類(human being)時是「Mr.」的上位詞,因此它 們之間的關聯強度為4 分,person的另外兩種語意和Mr.沒有任何關係,因此沒 有分數。再接著考慮第三個字「machine」,它在WordNet中有五種語意:(1)有 效率的人(an efficient person),例如這個拳擊手是一種專長打鬥的人,英文 是:The boxer was a magnificent fighting machine。這句的「machine」指 的是人而不是機器;(2)機械或電子裝置;(3)很有效率的機構或是組織;(4)控制 政黨的幾個人,黨機器之意;(5)裝置。由WordNet可知「machine」作為有效率 的人時和「person」之間有包含關係,也就是說「machine」和「Mr.」也有間接 關係。所以可能的關係如

圖 11。

Mr.

Person

mister

individual

Machine an efficient

Mr.

Person

mister

a person’s body

Machine an efficient personl

Mr.

Person

mister

individual

Machine electrical device

Machine electrical device

Machine 1. an efficient person - holonym of person 2. electrical device

4

圖 11: 「machine」、「person」和「Mr.」 之間的可能關係[Barzilay97]

上例中最後建構出的語彙鏈結有兩種可能,如圖 12所示,衡量

「machine」 在上圖的鍵結強度為11 分,下圖的強度是30 分。因此以下圖作為 語彙鍵結結果。圖 12中清楚地看到「Mr.」與「person」在同一個鏈結,「machine」、

「micro-computer」、「device」以及「pump」則在另一個鏈結,可知語彙鏈結可

Machine an efficient personl

instrumentality

mechanical device

an efficient personl

instrumentality

mechanical device

圖 12: 語彙鏈結的結果[Barzilay97]