• 沒有找到結果。

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

3.2

詞彙資料庫:WordNet

WordNet 是一個詞彙的資料庫,收入動詞、名詞、形容詞和副詞四種詞性的詞彙,並 以階層式的架構描述詞彙語義的關係,我們使用的版本是 WordNet3.0。對於 WordNet 我們所關心的詞性是動詞和名詞,以及 WordNet 描述詞彙之間的二種關係。這二種 關係的概念分別是:(一)上下位詞關係或 IS A ,越在上位的詞彙表示越是越抽象的 概念,越下位則是越具體的概念;(二)種類(lexicographic),其中動詞有 25 種種類,

名詞則有 15 種種類,可參考附錄 I。圖 3.3是一個 WordNet 的名詞結構範例,每一個 節點可以分為上下二部分:上半部分表示同義詞集(synset),在 WordNet 收入的名詞 與動詞的同義詞集共有 171359 個3。若一個節點有二個以上的詞彙,表示這些詞彙 互為同義詞,可以互相替換,例如“cutlery”和“eating utensil”互為同義詞而我們以 {cutlery, eating utensil} 來表示一個同義詞集。樹狀結構的父母與小孩的關係是上下位 詞或 IS A 的概念,例如,“spoon”的下位詞是“wooden spoon”,上位詞是“cutlery”或

“eating utensil”,我們以{wooden spoon} − {spoon} − {cutlery, eating utensil} 來表示這 種關係。從這個例子我們可以看到上位詞的概念比下位詞抽象,因此我們定義同義詞集 的抽象化是以該同義詞集的上位詞表示;圖 3.3中一個節點下半部表示的是這個同義詞 集的種類,各種種類之間也是有階層式的關係。

許多研究都把 WordNet 解釋為是一個樹狀結構的辭典,我們這邊也是如此。一旦 將 WordNet 簡化當成樹狀結構,我們定義越在上位的詞彙稱為越高層,反之越下位的 詞彙稱為越低層。由上下位詞的觀點來看,{entity} 是所有名詞的最抽象化的詞,也就 是根節點(root);從種類的觀點來看,{entity} 是屬於 noun.Tops 種類。noun.Tops 位於 種類的最上層,也被稱為唯一始點(unique beginners)4。同樣都是種類的始點還有 11 個抽象概念的同義詞集;動詞不同於名詞的結構,動詞並不具有一個共通的根節點,它

3http://wordnet.princeton.edu/wordnet/man/wnstats.7WN.html

4http://wordnet.princeton.edu/wordnet/man/uniqbeg.7WN.html

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

是一個森林結構。不過有時在某些研究上為了某些原因,會再在森林的結構上再多加一 個虛擬的根節點{∗ ∗ root ∗ ∗},使森林變為樹狀結構。

雖然簡化成樹狀結構會有利於我們使用以及解釋 WordNet,但 WordNet 實質上並 不是樹狀結構,例如說在圖 3.3右下角的同義詞集{wooden spoon} 有 {woodenware} 和 {spoon} 二個上位詞。所以在本研究中,我們不將它簡化為樹狀結構,而是將它視為是 一個單向網路結構。

在現實的生活中,一個詞彙可能會有多個意思,而透過 WordNet 我們也可以將 這些意思都找出,這些不同的意思在 WordNet 裡,稱之為詞義(sense)。例如“spoon”

這個詞彙作“湯匙”解釋時,對應到 WordNet 是同義詞集{spoon};而當“spoon”作

“一匙的量”解釋時,對應到 WordNet 則是同樣詞集 {spoon, spoonful},而這二個由

“spoon”所查詢的同義詞集的上位詞也不一樣。像這樣一個詞彙可以有多個意義的問題 被稱為語義歧義,在本研究中,我們不解決語義歧義問題。

除了詞彙的語義查詢之外,WordNet 還提供我們一個詞彙當作某一個詞義的頻率。

以“spoon”為例,若表示{spoon} 同義詞集,則頻率是 1。若表示 {spoon, spoonful} 這 個同義詞集,則頻率也是 1。若以“spoonful”查詢 WordNet,則{spoon, spoonful} 頻 率是 0。

本研究使用 WordNet 的目的是用以將詞彙抽象化,也就是我們使用 WordNet 將詞 彙的概念作更概括性的解釋。在這裡,我們透過查詢同義詞集的上位詞來達到抽象化的 目的。比較句 9的“a spoon”和句 10的“a fork”,“a spoon”和“a fork”都是屬於動詞 片語中的名詞片語二。這二句看起來是相似的句子,在介系詞片語定位的問題裡,一般 直覺上,比較容易想像這二個句子的介系詞片語定位於動詞“ate”。因為對於“ate”這 個動詞而言,“spoon”和“fork”都是一種進食的工具,所以如果我們同樣把名詞二代 換為任何種類進食的工具,如圖 3.3下方的虛框中的詞彙“table knife”、“wooden spoon”

和“tablespoon”等,那麼我們應該也可以很大膽的推測在一般情況下這樣的例句皆是

圖 3.3: WordNet

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

定位於動詞。在介系詞推薦的問題裡,同樣的不管把名詞二代換成何種進食工具,都不 影響介系詞是使用“with”。在這個例子中,這些可互相代換的名詞二,它們的共同點 是在逐步抽象化的過程中擁有共同的上位詞{cutlery, eatingutensil},透過這樣的抽象 化,我們便有機會解決這二個介系詞的問題。圖 3.3右上的虛框中的“here”與“there”

這二個詞彙在語義上也有相似的部分,因此,透過抽象化的過程,我們就會找出這兩個 詞彙共有的上位詞{location}。

句 9. The children ate the cake with a spoon.

句 10. The children ate the cake with a fork.

3.3

前處理

前處理的部分包含了句子的斷句與剖析、中心詞抽取、雜訊過濾以及挑選有挑戰性的介 系詞等工作。流程圖可參考圖 3.4,圖中上半部是前處理的流程,下半部表示的是語料 庫進入前處理的階段。使用華爾街日報與紐約時報需要從斷句與剖析句子的流程開始 處理;使用 PTB3 語料庫,則是從結構樹中抽取中心詞的流程開始處理;使用 RRR 語 料庫直接從雜訊過濾開始處理。最後所有語料彙整成 RRR 的資料格式,再統一處理雜 訊。雜訊過濾是一件重要的工作,雜訊包含了中心詞是定冠詞、代名詞等情況或是碰撞 問題等情況。對於介系詞片語定位問題,挑選挑戰性介系詞是找出修飾動詞與修飾名詞 機率相近的介系詞。每個語料庫介系詞分布情況大致上差不多,但仍有些許差異,因此 我們以 RRR 語料庫為主。對於介系詞推薦的問題,則是找到數量較多或是差不多的介 系詞。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

.. .

斷句和剖析. 中心詞抽取.. 雜訊過濾.. 挑選具挑戰.. 性介系詞

.. .. ..

. 華爾街日報.

紐約時報 PTB3.. RRR..

圖 3.4: 前處理流程圖

3.3.1

句子剖析與斷句

我們從華爾街日報與紐約時報的網站上蒐集大量的文章報導,並將文章斷句與剖析 成結構樹。我們先利用 Stanford 剖析器5與 Lingpipe6將所搜集的語料斷句,僅留下二 者斷句結果有共識的句子。接著再利用 Stanford 剖析器剖析留下的句子,使用的文法

(grammar)是 wsjFactored.ser.gz,並將 MAX_ITEMS 參數設為 500000,剖析後可得到 結構樹。

3.3.2

中心詞抽取

我們的目標是從結構樹抽出動詞片語的四個中心詞,圖 3.5和圖 3.6表示二種的動詞片 語的結構,以 Penn Treebank 風格表示,二圖分別表示介系詞片語修飾對象是名詞和動 詞。圖 3.5和圖 3.6裡 VP 下方最左邊的節點表示是不同形態的動詞,如過去式、過去分 詞等;IN 表示的是介系詞;而在 Penn Treebank 風格的語法標記下,“to”這個介系詞會 另外被表示成 TO。圖 3.5與圖 3.6這二個結構最大的不同點在於 PP 這個節點是掛在 NP 或是 VP 之下。我們以圖 3.1中的結構樹作為中心詞抽取的例子,句 11是將圖 3.1平面化 之後的結果,底線是我們要抽取的目標,它符合圖 3.6結構。

5Stanford Parser 2.0 版(2012 年 2 月 3 日),http://nlp.stanford.edu/software/lex-parser.shtml

6http://alias-i.com/lingpipe/

的 SemanticHeadFinder8類別將動詞片語的四個主要詞組結構的中心詞找出,最後得到 的結果如表 3.2裡中心詞一欄所示。

句 11. ( ( S (NP-SBJ (DT The) (JJ Venezuelan) (JJ central) (NN bank) )

(VP (VBD set) (NP (PP (NP (DT a)(ADJP (CD 30) (NN %) )(NN floor) ) (IN on)(NP (DT the) (NN bidding) ))))(. .) ))

7Stanford Tregrex 2.0.1 版(2012 年 1 月 6 日),http://nlp.stanford.edu/software/tregex.shtml

8http://nlp.stanford.edu/nlp/javadoc/javanlp/edu/stanford/nlp/trees/SemanticHeadFinder.html

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

"@/VP.?/["+ "<(VB=verb$++(NP<(@/NP.?/=np1$++(@/PP.?/=pp<(IN=prep<PREP$++@/NP.?/=np2)))))|"+ "<(VBD=verb$++(NP<(@/NP.?/=np1$++(@/PP.?/=pp<(IN=prep<PREP$++@/NP.?/=np2)))))|"+ "<(VBG=verb$++(NP<(@/NP.?/=np1$++(@/PP.?/=pp<(IN=prep<PREP$++@/NP.?/=np2)))))|"+ "<(VBN=verb$++(NP<(@/NP.?/=np1$++(@/PP.?/=pp<(IN=prep<PREP$++@/NP.?/=np2)))))|"+ "<(VBP=verb$++(NP<(@/NP.?/=np1$++(@/PP.?/=pp<(IN=prep<PREP$++@/NP.?/=np2)))))|"+ "<(VBZ=verb$++(NP<(@/NP.?/=np1$++(@/PP.?/=pp<(IN=prep<PREP$++@/NP.?/=np2)))))|"+ "<(VB=verb$++(NP<(@/NP.?/=np1$++(@/PP.?/=pp<(TO=prep<PREP$++@/NP.?/=np2)))))|"+ "<(VBD=verb$++(NP<(@/NP.?/=np1$++(@/PP.?/=pp<(TO=prep<PREP$++@/NP.?/=np2)))))|"+ "<(VBG=verb$++(NP<(@/NP.?/=np1$++(@/PP.?/=pp<(TO=prep<PREP$++@/NP.?/=np2)))))|"+ "<(VBN=verb$++(NP<(@/NP.?/=np1$++(@/PP.?/=pp<(TO=prep<PREP$++@/NP.?/=np2)))))|"+ "<(VBP=verb$++(NP<(@/NP.?/=np1$++(@/PP.?/=pp<(TO=prep<PREP$++@/NP.?/=np2)))))|"+ "<(VBZ=verb$++(NP<(@/NP.?/=np1$++(@/PP.?/=pp<(TO=prep<PREP$++@/NP.?/=np2)))))"+ "]" 圖3.7:修飾名詞樣式 "@/VP.?/["+ "<(VB=verb$++(@/NP.?/=np1$++(@/PP.?/=pp<(IN=prep<PREP$++@/NP.?/=np2))))|"+ "<(VBD=verb$++(@/NP.?/=np1$++(@/PP.?/=pp<(IN=prep<PREP$++@/NP.?/=np2))))|"+ "<(VBG=verb$++(@/NP.?/=np1$++(@/PP.?/=pp<(IN=prep<PREP$++@/NP.?/=np2))))|"+ "<(VBN=verb$++(@/NP.?/=np1$++(@/PP.?/=pp<(IN=prep<PREP$++@/NP.?/=np2))))|"+ "<(VBP=verb$++(@/NP.?/=np1$++(@/PP.?/=pp<(IN=prep<PREP$++@/NP.?/=np2))))|"+ "<(VBZ=verb$++(@/NP.?/=np1$++(@/PP.?/=pp<(TO=prep<PREP$++@/NP.?/=np2))))|"+ "<(VB=verb$++(@/NP.?/=np1$++(@/PP.?/=pp<(TO=prep<PREP$++@/NP.?/=np2))))|"+ "<(VBD=verb$++(@/NP.?/=np1$++(@/PP.?/=pp<(TO=prep<PREP$++@/NP.?/=np2))))|"+ "<(VBG=verb$++(@/NP.?/=np1$++(@/PP.?/=pp<(TO=prep<PREP$++@/NP.?/=np2))))|"+ "<(VBN=verb$++(@/NP.?/=np1$++(@/PP.?/=pp<(TO=prep<PREP$++@/NP.?/=np2))))|"+ "<(VBP=verb$++(@/NP.?/=np1$++(@/PP.?/=pp<(TO=prep<PREP$++@/NP.?/=np2))))|"+ "<(VBZ=verb$++(@/NP.?/=np1$++(@/PP.?/=pp<(TO=prep<PREP$++@/NP.?/=np2))))"+ "]" 圖3.8:修飾動詞樣式

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

表 3.2: 中心詞抽取

片語 中心詞

動詞 (VBD set) set

名詞片語一 (NP (NP (DT a) (ADJP (CD 30) (NN %) ) (NN floor))) floor

介系詞 (IN for) for

名詞片語二 (NP (DT the) (NN bidding) ) bidding

3.3.3

雜訊過濾

雜訊過濾的目的是為了提升語料的品質,增進實驗的可靠度。底下我們將一一介紹在本 研究中被視為雜訊的情況。

通常我們會認為詞彙有一些固定的用法,因此通常我們假設詞彙有固定的語義與 詞性。舉個例子,“google”在一般的認知中,很直覺地會被認定是名詞,因為這是一 個公司的名稱。然而“google”在目前可以說是國際上知名度最高的搜尋引擎9,因此不 僅成了搜尋引擎的代名詞,更成了搜尋的別稱,“google”一詞也因此出現了新的用法,

例如我們有時可能會聽到“Have you ever googled that?”,在這個例句中“google”已經 被當成是動詞在使用了,然而“google”作為動詞的用法在以前的辭典中是不會被記 載。

在我們的語料庫裡,也有不少句子因為語法上的關係,可能會有一些特殊的符號 和數字被當成是中心詞,例如:“%”可能會出在名詞的位置。然而這些符號和數字在 我們的方法中是很難抽象化的,因此我們會事先將這些符號和數字過濾。

除了上述情況之外,我們也發現雖然 RRR 的語料庫經由 Ratnaparkhi 等人整理過,

但 Pantel 和 Lin[18] 在 RRR 語料庫裡找到 133 筆名詞一或名詞二為“the”,PTB3 裡也 有出現“the”的被當成是名詞的案例。另外在 RRR 與 PTB3 語料庫也均有一些名詞是

“a”或“an”的情況。類似的情況,我們亦將之視為雜訊。

此外,我們會先利用 WordNet 做詞幹還原。接著,再給定還原後的詞彙和詞性,

92012 年 9 月 5 日

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

如果 WordNet 沒有查詢任何同義詞集,那麼也會被過濾。

Coppola 等人 [5] 曾提到,如果名詞一是代名詞,則介系詞片語有較高的機率是定 位於動詞。另一方面,代名詞不被收入於 WordNet 內,因此當名詞是代名詞的情況在 我們的二個研究問題中也會過濾。

對於介系詞定位問題,碰撞是指當有二個以上的動詞片語具有四個相同的中心詞 但介系詞定位卻不相同的情況。對於介系詞推薦問題,碰撞是指當動詞、名詞一和名詞 二相同,但介系詞有二個以上的情況。上述這二類的案例,目前在本研究中暫不處理,

因此也將之視為雜訊。

當我們處理 PTB3 的語料時,會發現某些句子因為語境等因素而使得名詞一被省 略而標記成“-NONE- *”,此時若使用圖 3.7和圖 3.8的樣式比對,這類的語料也會被我 們比對到。然而這類的語料實際上我們無從得知本來的名詞一,因此這類的情況也被我 們過濾。

3.3.4

挑選具挑戰性的介系詞

挑選具挑戰性的介系詞的目的是希望可以挑選出較值得做實驗的介系詞。而挑戰性的

挑選具挑戰性的介系詞的目的是希望可以挑選出較值得做實驗的介系詞。而挑戰性的

相關文件