• 沒有找到結果。

指代消解相關研究

抽象指代的回指對象可以是名詞片語或者是語篇上所指的命題、概念、事實或事件 [8]。要消解這些抽象指代現象,首先需要知道有幾種指代詞可以用於回指抽象實體。我 們可以藉由一些線索,如英語中「it」、「this/that」、「this/that+名詞片語」或「the+名詞 片語」四種形式來判斷。至於中文文本裡常見的線索是「這/那」、「這/那+名詞片語」。

研究漢語抽象指代的語言學者們都專注於探討指代詞與參照對象之間的關聯性與 現象。其中王道英等人[6]將關聯性分為「包括型隱性回指」、「聯想型隱性回指」與「總 括型隱性回指」三種類型。包括型隱性回指,如「

天然氣

這項乾淨的能源」,例子中的 指代詞「能源」與參照對象「天然氣」之間存在著整體與部件關係;聯想型隱性回指,

如「

天下沒有白吃的午餐

,這一句右派經濟學家所說出的格言」,例子中的指代詞「格 言」與參照對象「天下沒有白吃的午餐」是根據常識產生關聯;總括型隱性回指,如「

果以色列從約旦河西岸及加薩走廊撤離以及敘利亞從黎巴嫩撤軍,他將願意從科威特撤

軍。

這項計劃已被西方領袖拒絕」,例子中指代詞「計劃」是對先前提及事情做總結或 者評論。

熊學亮等人[4]統計漢語抽象回指的指代詞與參照對象類型分佈情形,如表 2。其中 語料是來自《魯迅文集》和報導評論共計 31059 個字,包含 108 個抽象回指。這些抽象 回指的參照對象裡面,有 51%的參照對象出現在指代詞的前一個長句,37%的參照對象 與指代詞在同一長句,12%的參照對象與指代詞是在同一段落或者跨段。

表 2 漢語指示語與參照對象分佈表[4]

指代詞類型

參照對象類型

句群 長句 小句 動詞片語 這 17 14 32 1 這+名詞片語 1 12 19 3

那 1 4 3 1

總計 19 30 54 5

至於英文的隱性回指消解分為二個方向,一種是名詞指代消解[9][10][11][12][13]。

另一種是在消解代名詞指代時,將指示詞回指抽象參照納入處理範圍[7][14][15]。

Poesio et al.[9]利用 corpus-based 方法消解參照對象與指代詞是屬於同義關係和整體 -部件關係。同義字是來自 WordNet,整體-部件關係是使用句法結構來擷取成對的名詞 組,再計算每個名詞組的 mutual information 數值做為參考依據。句法結構包括「the NP of NP」、「NP of NP」、「NP’s NP」和「NP N」四種,只對每一個名詞片語的中心語進行 處理。測試語料是 38 個同義或整體-部件關係的實例,recall 是 66.7%,precision 是 72.7%。

Strube et al.[10]是利用決策樹分類器來消解限定性名詞指代、專有名詞指代與代名 詞指代回指名詞片語的情形。分類的特徵有 14 個,包含語義角色特徵(主詞或受詞)、詞 彙類型特徵(代名詞或專有名詞..等)、性別數量一致特徵、語義類別特徵(實體詞或抽象 詞)、距離特徵、字串完全一致特徵和字串部分符合特徵。語料是 242 篇有關於歷史事 件與人物相關的德文短篇,共 36924 個字。使用 10-fold 交叉驗証方法得到的 recall 是

56.65%,precision 是 84.96%。其中只單純消解限定性名詞指代所得到的 recall 是 22.47%,

precision 是 69.26%。

Bunescu[11]利用 Web-based 的方法消解隱性回指和聯想型隱性回指,如森林和樹木。

以指代詞、參照對象和二個詞彙做為搜尋關鍵字,擷取出回傳的文件數量再計算 mutual information。Recall 是 22.7%,precision 是 53%。

Gasperin and Vieira[12]消解葡萄牙文的隱性回指名詞指代,方法是先從語料庫中產 生指代詞的相似詞詞群,以這個詞群做為參照對象的候選詞。相似詞的判斷方法是依據 三種句法樣式,分別是「subject/verb」表示兩個詞彙是相同動詞的主詞、「verb/object」

表示兩個詞彙都是相同動詞的受詞和「modifier/noun」表示兩個詞彙的修飾詞相同,只 要符合其中一種即視為相似詞。測試語料是 95 個隱性回指實例,recall 是 33.3%,

precision 是 52.7%。

Poesio et al.[13]利用多層感知器來消解整體-部件關係的限定性名詞指代。分類器使 用距離和權重二種類型的特徵。距離特徵指的是詞彙相似度,計算方式有二種,一種是 將指代詞和參照對象組合成關鍵字,如「the wheel of the car」,送到 Google 搜尋引擎,

擷取出回傳的網頁數量。另一種是尋找指代詞和參照對象在 WordNet 的共同上位詞,再 計算這兩個詞彙到共同上位詞所需要的連結次數。權重特徵包括二個部分,第一部分是 候選參照對象與指代詞的長句距離,第二部分是考慮候選參照對象是否在指代詞前五個 長句內第一次出現或者在整篇文章第一次出現。語料庫是來自 GNOME 裡面的 153 個整 體-部件關係的隱性指代實例,使用 10-fold 交叉驗証方法進行實驗。實驗分別使用 Google 和 WordNet 進行比較,前者得到的 F-measure 是 76.3%,後者是 75.8%。

Byron[16]針對 TRAIN93 對話語料庫的「It」和「That」指代詞進行特徵標記與統計 分析。此語料一共出現 376 個指代詞,其中 50%參照對象是名詞片語和代名詞,21%參 照對象是抽象參照,29%的指代詞沒有參照對象。這些特徵包含指代詞、指代詞是否為 重心、指代詞是否為主詞、指代詞的位置(主要子句或者附屬子句)、參照對象、參照對 象是否為主詞、參照對象的位置和參照對象與指代詞之間的距離。記錄每個指代詞的特 徵後,再以特徵的組合計算出現機率,例如對指代詞「it」而言,它出現在主要子句,

它的語法角色不是主詞,它的參照對象是名詞片語,它的參照對象在主要子句,這四種 特徵同時出現的機率是 97.7%。

Byron[7]更進一步將語義規則納入消解的方法。語義規則是根據指代詞所連接的動 詞來選擇適當參照對象,例如指代詞出現在動詞「load」的受詞位置時,指代詞的屬性 須是「可移動的目標」,因此候選參照對象也必須是「可移動屬性的物體」。語義規則所 參考到的屬性是建立於特定的語料之下,語料內容都是「貨運工作」相關的對話記錄。

消解的方法是先利用語義規則過濾不適合的候選詞,當有多個候選詞時,則選擇距離指 代詞最近的候選詞為參照對象。實驗語料共 10 篇包含 180 個指代現象,加入語義規則 進行消解的正確率為 72%,未使用語義規則的正確率為 51%。

Navarretta[15]利用 Byron[7]所提及的語義規則與 Eckert and Strube[17]所提出的文章 結構分析來消解指示詞指代。文章結構分析是經由人工進行標記,標記過的文章結構如 同一個樹狀圖。其中父節點是文章的主體,子節點是文章的次主題。結構標記目的是用 於減少候選參照對象的個數。語料庫中有 277 個實例,precision 是 71.84%,在不使用文 章結構分析的情況下,precision 是 39.3%。

Strube and Muller[14]利用決策樹分類器消解代名詞指代和指示詞指代。分類是依據 25 個特徵,其中 16 個特徵是 Strube et al.[10]和 Muller et al.[19]所建立的名詞指代消解 與代名詞指代消解。另外 9 個特徵是為了處理抽象參照而產生的,分別是參照對象類型 特徵(名詞片語、動詞片語或者長句)、指代詞的參照對象是否傾向於名詞片語、指代詞 的參照對象是否傾向於動詞片語、指代詞的參照對象是否傾向於長句、指代詞是否較有 可能是名詞片語距離特徵和詞頻特徵。語料是使用 20 篇對話記錄共 3275 個長句有 1250 個實例,recall 是 40.72%,precision 是 56.74%,F-measure 是 47.72%。

第二章 第二章 第二章

第二章 語料建立與分析 語料建立與分析 語料建立與分析 語料建立與分析

我們使用的語料是來自於中研院平衡語料庫,以報導記敘類型的文章為主要處理對 象。接下來的 2.1 小節描述語料蒐集細節與標記原則;2.2 小節是標記的結果與分析。

相關文件