• 沒有找到結果。

第四章、 中文詞詞間結構自動擷取

4.5 語料分析

4.5.2. 依存關係分析

4.5.2.1. 依存關係轉換方法

在依存關係樹已知的情況下,欲將標記結果轉換為依存關係,需經三個步驟。

以下將以賓大樹庫之一句正面意見句:「並投資一千三百多個億,加強基礎設施和 基礎產業建設,為擴大對外開放創造強好環境。」(FID:008;SID:87)為例,

說明並示範轉換方法。

首先,對任一三角單位而言,先列出兩腳點各自涵蓋之所有詞彙(頂點於此 處略去不計)。以圖 4-8(見 61 頁)為例,該語法分析樹上共有四處標記,對每 一個標記單位而言,均先找出其左右腳點所涵蓋之詞彙:

(1) {加強},{基礎,設施,和,基礎,產業,建設}

(2) {創造},{良好,環境}

(3) {良好},{環境}

(4) {擴大},{對,外,開放}

找出詞彙後,對照該句之所有依存關係,找出所有「構成依存關係之兩詞彙 分別屬於左腳點詞彙集與右腳點詞彙集」的關係,作為該標記單元轉換後之候選 關係。本例中,至此步驟時四個標記單元均僅有一條候選關係,則直接選擇該關 係即可。

最後,若候選關係數非一,則需進入第三步:

若候選關係數為零,即可能左腳點詞彙集與右腳點詞彙於語法分析樹中相隔 過遠,造成其間沒有直接連結,而是透過其他詞彙間接連接。此情況下,為使轉 換結果明確表現出結構特性,則捨棄該標記單元,不將之轉換為依存關係。

若候選關係數大於一,則代表標記的位置較高,左腳點詞彙集與右腳點詞彙

集均含有大量詞彙,而產生多條依存關係。於此情況下,則於候選關係中選出「距 離根節點最近」的關係作為轉換的結果。依存關係樹以根節點為該句最重要之語 義核心,而距離根節點越近,則該關係越形重要。亦即本研究假設:每一標記單 元均僅指涉一條最主要的依存關係。為嚴格起見,並不允許「一變多」的情況發 生。

圖 4-8 的四個標記單元經轉換後,可對照至圖 4-9(見 62 頁)的四個關係。

圖 4-8 標記語料轉換為依存關係範例(轉換前)

圖 4-9 標記語料轉換為依存關係範例(轉換後)

4.5.2.2. 轉換結果統計及分析

經上述步驟轉換後,我們將所有標記結果均轉為依存關係,便可計算每種依 存關係實際用於意見表達之比例。

統計結果如表 4-3:

表 4-3 意見句中表達意見之依存關係比例

類型 總數 意見數 意見比例 總量比例 dvpmod 463 378 81.64% 0.18%

dobj 22015 11666 52.99% 8.55%

pass 361 191 52.91% 0.14%

npsubj 78 37 47.44% 0.03%

top 1290 551 42.71% 0.50%

ba 521 221 42.42% 0.20%

neg 2406 987 41.02% 0.93%

nsubj 23671 9657 40.80% 9.20%

amod 7498 3024 40.33% 2.91%

rcmod 9375 3565 38.03% 3.64%

rcomp 843 248 29.42% 0.33%

advmod 23509 6660 28.33% 9.13%

類型 總數 意見數 意見比例 總量比例

我們可首先注意到,對所有類型之依存關係而言,平均僅有 18.5%的場合用 於意見表達。以此為基準,可發現共有 14 種依存關係用於意見表達之比例超過平 均值,由高而低依序為:dvpmod(副詞語尾「地」)、dobj(直接受詞)、pass、npsubj、

top(主題)、ba(把)、neg(否定子)、nsubj(nominal subject,名詞性主詞)、amod

(adjectival modifier,形容詞性修飾子)、rcmod(relative clause modifier,關係子 句 修 飾 子 )、 rcomp( resultative complement ,結果補語)、advmod(adverbial modifier,副詞性修飾子)、range(dative object that is a quantifier phrase,數量的 語格受詞)、mmod(modal verb modifier,情態動詞修飾子)。其中以 dvpmod(副 詞語尾「地」)意見表達比較最高,遠超過第二順序之意見比例;同時我們亦可發 現,除 dvpmod 外,即便為表達意見比例較高之 14 種關係,其表達意見之比例大 致不會超過 50%。此結果固可直接施用於意見分析中(作為特徵值或設計公式之 依據,不失為一簡易且成本低廉之方法),但其雜訊亦非常多,因此需要更深入、

精確的預測。此將於次節中討論。