• 沒有找到結果。

語意歧異解析

第二章 文獻管理系統之相關研究工作

第一節 語意歧異解析

選取關鍵字詞來作為文件索引是分析文件的第一個步驟,本篇論文也不例 外。關鍵字詞的選取是非常重要的,它關係著這些字詞是否能正確代表某篇文 件。傳統純粹經由資訊擷取過程計算字詞頻率(Term Frequency)和該字詞出現文 件數的反轉頻率(Inverse Document Frequency)所得到的關鍵字詞並不具有任何語 意[1]。為了解加入語意的分群結果是否比傳統不具語意的分群結果為佳,本篇 論文將比較兩者的分群結果且著重於具語意的關鍵字詞選取。

判斷字詞語意的問題稱為語意歧異解析(Word Sense Disambiguation, 簡寫為 WSD),如何達成語意歧異解析是在處理自然語言時的一個常見問題,也是尚待 解決的難題[3]。目前為止解決這個問題的方法主要分為四種類型:

1. 字典導向方法(Dictionary-Based Method) :這種方法又稱為知識導向

詞彙及語意的字典(Dictionary),常見的字典如 WordNet[28],再藉由該字 典 所 組 織 的 相 關 詞 彙 語 意 集 合 找 出 某 字 詞 的 可 能 語 意 , 如 [3][4][5][6][7][8][19]。

2. 監督式方法(Supervised Method):限定某類主題的文件集,且關於這類主 題中的字詞已經訓練好語意。之後蒐集到的該類主題文件則依據已訓練 好的字詞決定其語意,如[9][10][11]。

3. 非監督式方法(Unsupervised Method):沒有採用任何資訊或知識,純粹由 蒐集的文件去判斷字詞語意,如[12][13][14][15]。

4. 混合型方法(Hybrid Method):任意結合上述三種類型的方法,例如結合 某類文件集與字典的方法,如[9][10][16][17][18]。

我們依照年份及類型整理了關於語意歧異解析的相關研究工作,如圖 1:

圖 1:語意歧異解析(WSD)的相關研究工作

混合型 方法

字典導 向方法

監督式 方法

非監督 式方法

由圖 1 可知字典導向方法是解決語意歧異解析最常用的方法,且最常被用 來對照使用的字典是 WordNet,因此本篇論文也採用對照 WordNet 的方式。在對 照 WordNet 的相關研究工作中,其技術包含:(1)語彙鍵結(Lexical Chains) [6];

(2)語意密度(Semantic Density) [3]。下面將依序介紹 WordNet 及利用 WordNet 解 決語意歧異解析的技術。

2.1.1 WordNet

WordNet [2]是一個線上詞彙參考資料庫,它的設計靈感是從人類詞彙記憶中 的心理語言學(Psycholinguistics)而來。在 WordNet 中,英文名詞、動詞以及形容 詞組織成同義字集合(Synonym Sets, Synsets),每個集合代表一個基本的詞彙概 念,同義字集合間會以不同的關係串聯。

以英文名詞來說,在 WordNet 中定義了四種關係:

1. Synonym / Antonym 同義詞 / 反義詞關係

2. Hypernym / Hyponym (relation is a kind of) 上位詞 / 下位詞關係 3. Holonym (relation is part of) 完全關係

4. Meronym (relation parts of) 附屬關係

舉例而言,“car”這個英文名詞在 WordNet 中有五種語意,每種語意代表一 種 synset,這五種語意及其相關解釋分別代表(1) auto 汽車;(2) railcar 火車車廂;

(3) cable car 纜車;(4) gondola 氣球、氣船;(5) elevator car 升降廂,如下圖所示:

圖 2:car 在 WordNet 中定義的五種語意

“car”在 WordNet 中定義的四種相關語意關係如圖 3 所示:

圖 3:名詞 “car” 的語意關係[10]

由圖 3 中可以看出名詞 “car” 與其他字詞間的關係,例如

Ø Limousine is a kind of car, limousine 是 car 的下位詞(Hyponym)。

Ø Car is a kind of Motor vehicle, motor vehicle 是 car 的上位詞(Hypernym)。

The noun "car" has 5 senses in WordNet.

1. car, auto, automobile, machine, motorcar -- (4-wheeled motor vehicle; usually propelled by an internal combustion engine; "he needs a car to get to work") 2. car, railcar, railway car, railroad car -- (a wheeled vehicle adapted to the rails of railroad; "three cars had jumped the rails")

3. cable car, car -- (a conveyance for passengers or freight on a cable railway;

"they took a cable car to the top of the mountain")

4. car, gondola -- (car suspended from an airship and carrying personnel and cargo and power plant)

5. car, elevator car -- (where passengers ride up and down; "the car was on the top floor")

Ø Car is part of train, train 和 car 屬於完全關係(Holonym),且是部份完全關 係(Member Holonym)。

Ø Airbag, door, accelerator 都是 car 的附屬物件,所以它們和 car 屬於附屬 關係(Meronym)。

由於 WordNet 具備豐富的詞彙語意集合及關係,因此它是最常用來判斷字 詞語意,解決語意歧異解析的工具。接下來的兩個小節介紹利用 WordNet 解決 語意歧異解析的技術。

2.1.2 語彙鍵結(Lexical Chain)

語彙鏈結(Lexical Chain) [6]是文章中具有相同意義的字詞所構成的集合,每 個語彙鏈結代表文章中所描述的一個概念(Concept)。一般來說,建構語彙鏈結的 程序可分為下列三個步驟:

1. 挑選候選的字詞。

2. 對於每個候選的字詞,針對每個語彙鏈結,衡量該字詞所代表的語意與 語彙鏈結中每個字詞的語意關聯度,藉此找出相關聯的語彙鏈結。

3. 如果找到適當的語彙鏈結,便將該字詞加入語彙鏈結中;如果沒有找到 的話,便建構新的語彙鏈結。

上述步驟中,用來衡量語意相關的方法,乃是利用 WordNet 來判斷字詞間 的關係。主要的關係定義有三種:(1) Extra-strong (定義字詞與其同義字詞間的關 係 ) , (2) Strong ( 定 義 兩 個 字 詞 在 WordNet 中 存 在 直 接 關 聯 的 關 係 ) , (3) Medium-strong (定義兩個字詞在 WordNet 中存在間接關聯的關係)。

在建構過程中,給予鍵結一強度值,用來表示字詞語意關聯的程度:若某鍵 結為同義詞關係(Synonym),則給予 10 分;鍵結為完全關係(Holonym),則給予

7 分;鍵結為上位詞關係(Hypernym),則給予 4 分。語彙鍵結的強度值是衡量一 個字詞語意的主要指標。

以下例說明如何建構語彙鏈結。其中,粗體字型為挑選出的候選字詞,注意 挑選出的候選字詞以名詞為主。

Mr. Kenny is the person that invented an anesthetic machine which uses

micro-computers to control the rate at which an anesthetic is pumped into blood.

Such machines are nothing new. But his device uses two micro-computers to achieve much closer monitoring of the pump feed the anesthetic into patient.

對於第一個字詞 “Mr.”,首先建構語彙鏈結 [lex “Mr.”, sense {mister, Mr.}]。

接著,考慮第二個字詞 “person”,由 WordNet 中可知 person 具有三種不同的涵 義,分別為(1)“human being”;(2)“a person's body”及(3)“grammatical category of pronouns and verb forms”。為了正確地選擇區別字詞的真正涵義,建構過程便需 考慮所有可能的鏈結組合,如圖 4 所示,Mr.及 person 會產生三種不同的語彙鏈 結組合。

圖 4:考慮 Mr.及 person 所產生的不同語彙鏈結組合

其中,涵義為 “human being”的 person 是 Mr.的上位詞,因此它們之間的鍵 結強度為 4 分。再接著考慮第三個字詞 “machine”,由 WordNet 中可知 machine 具有五種不同的涵義,第 1 種涵義為 “an efficient person”,以 machine1表示,此

種涵意是 holonym of person。因此 machine1和 person 之間的鍵結強度為 7 分。而 machine 的其他四種語意 machine2∼machine5和 Mr.以及 person都沒有其他關係。

Mr., person 及 machine 產生的所有可能的語彙鏈結組合如圖 5 所示。

圖 5:Mr., person 及 machine 所產生的不同語彙鏈結組合

上述這樣的作法保留所有可能的鏈結組合,相對地,在建構過程中便產生許 多無意義的語彙鏈結;因此必須衡量每個語彙鏈結的重要性,以刪去無用的語彙 鏈結。計算語彙鏈結中所有字詞間的相關連結及程度來衡量該語彙鏈結的重要 性,便可以將不具代表意義的語彙鏈結刪除,以便有效且快速地建構語彙鏈結。

上例中最後建構出的語彙鏈結有兩種可能,如圖 6 及圖 7 所示,衡量 machine 在兩圖中的鍵結強度:11 分及 30 分,因此選擇圖 7 為語彙鍵結結果。

圖 7 中清楚地看到 Mr.與 person 被歸類在相同的語彙鏈結,其所要表達的概念為

『人』;Machine,Micro-computer,Device 以及 Pump 則被歸類在另一個語彙鏈 結中,其所要表達的概念為『機器』。由此可知,語彙鏈結確實可以反映出某字 詞在文件中的語意。

圖 6:語彙鏈結的第一種可能建構結果

圖 7:語彙鏈結的第二種可能建構結果

美中不足的是,藉助 WordNet 以衡量兩兩語詞間語意的關聯程度,可能因 為某個語詞的語意辨認錯誤,而產生錯誤的語彙鏈結;如此,該語彙鏈結所要表 達的知識概念便可能偏離原文所要表達的涵義。

2.1.3 語意密度(Semantic Density)

語意密度(Semantic Density) [3]的定義為:兩個或多個字詞間的語意距離 內,相同字詞出現的個數。若兩個字詞的語意關係愈接近,其語意密度愈高。在 上述定義中,有關度量語意密度時所採用的字詞詞性必須先解釋清楚:

語意密度度量的是一對動詞-名詞(Verb-noun Pair)間的語意距離,語意距離通 常以一個句子(Sentence)為單位,因為一個句子一般而言都可以簡短地用動作與 物體(Action-object Pair)來表示。舉例而言:He has to investigate all the reports 可 以簡短地用 investigate-report 這個動作-物體對來描述。

在度量語意密度時,首先利用判斷詞性的演算法,如 Part-of-speech Tagging,

標示出字的動詞、名詞等詞性,然後考慮一個句子中的動詞-名詞配對,再利用

對動詞 vi的階層而言,wk代表與該動詞有關的名詞 svk 在階層中的 權重(Weight),在這裡權重用階層的高度(Level)來計算。

cdij是在動詞階層與名詞階層中,相同概念出現的個數。

descj是名詞 nj的階層中的總個數。

計算所有 vi和 nj所形成的 Cij之後,最大的 Cij即代表動詞最可能的語意 i 與 名詞最可能的語意 j,因此決定了字詞的語意。

相關文件