實驗結果與分析

第四章實驗過程語實驗結果

第三節實驗結果與分析

3. F-度量

F-度量是一種可以同時兼顧精確度和回收率的評估標準，如公式(10)所示：

𝐹 − 𝑚𝑒𝑎𝑠𝑢𝑟𝑒 = 2 × 𝑅𝑒𝑐𝑎𝑙𝑙 × 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛

𝑅𝑒𝑐𝑎𝑙𝑙 + 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 × 100%

(10)

第三節實驗結果與分析

本研究的實驗在對四篇文章(文章編號為 PMID22506010、PMID22509294、

PMID22523685 和 PMID22529981)進行處理後，得到具有指代關係的名詞片語，

總共有 1910 個，在各篇文章之分佈如圖 8 所示，其中定名詞片語 642 個、指示名詞片語 190 個、不定名詞片語 264 個、量詞片語 814 個。

經由加總各篇文章的指代結果文件，系統識別需要進行消解的名詞片語總共有 1729 個，其中文章 22506010 有 368 個、文章 22509294 有 320 個、文章 22523685 有 461 個，和文章 22529981 有 580 個。

MUC¹⁰(Message Understanding Conference)是美國的國防高級研究計畫局一個研究文本理解的會議，從 MUC-6 起成立了指代消解的評測機構，負責計畫任

10 http://www.cs.nyu.edu/cs/faculty/grishman/muc6.html 0

22506010 22509294 22523685 22529981

defnp demnp indefnp quantnp

的距離特徵為 0)的候選先行詞當作指代對象進行消解。

另外，因為經由機率模型計算出來的候選先行詞會有同分的情況，為此使用以下的步驟進行處理：

1. 句子所在位置是一項很重要的特徵，離指代詞越近的先行詞越有可能是正確

的指代對象，所以先判斷先行詞所在的句子位置，依照位置給予權重，如下表所示：

表 6：距離權重

先行詞與指代詞的距離權重

0 1

1,-1 0.9

2,-2 0.8

2. 經過以上步驟如果還是有同分的情況，則利用目前可以使用的資訊，比對每

個先行詞與指代詞之間的實體數量，數量越少表示先行詞和指代詞之間的候選先行詞越少，進行消解的正確率越高，最後選擇前文中指代詞與先行詞間實體個數最少的先行詞當作指代對象，因為指代詞的指代對象通常是指代前面敘述出現過的實體。

下圖為判斷同分情況的流程圖：

圖 9：計算結果同分處理流程圖

本研究統計四篇文章在上述各個步驟所需要進行同分判斷的名詞片語個數，

如下表所示，不需要進行同分處理的名詞片語有 432 個，需要進行給予權重處理的名詞片語有 476 個和需要比對實體數量選擇前文中最近先行詞的名詞片語有 821 個，在這四篇文章中需要進行同分處理的名詞片語數目佔了 75%。

是否同分同分情形

否給予權重

結束

比對實體數量選擇前文中最近的

先行詞

結束是

表 7：各步驟需要同分處理的名詞片語數目

Text Number 不需要同分處理給予權重比對實體數量選擇最近的先行詞

22506010 79 90 199

22509294 105 88 127

22523685 116 124 221

22529981 132 174 274

Total 432 476 821

在實驗中，指代詞的過濾也是指代消解任務(anaphora resolution)中很重要的一環，除了之前將名詞片語屬於專有名詞和其他名詞片語的過濾外，本研究也發現在指代詞中還有許多不需要解的名詞片語出現像是一些數字、單位和符號等，

如圖 10 所示每一欄代表的意義與表 5 相同，第一欄為過濾的名詞片語，在此本篇論文提出的方法為使用 ASCII 碼和一些規則進行過濾。

圖 10：文章 22506010 過濾的名詞片語

經過上述的處理，可以得到四篇文章的 Precision、Recall 和 F-measure，結果如表 8 及圖 11：

表 8: 四篇文章的效能評測

Text Number Precision Recall F-measure 22506010 77.45% 73.45% 75.40%

22509294 74.06% 70.75% 72.37%

22523685 75.71% 60.91% 67.51%

22529981 68.10% 64.33% 66.16%

圖 11：四篇文章的效能評測

由上圖結果可以得知在 Precision 方面除了文章 22529981 得到 68%以外，其他文章皆達到 74%以上，而在 Recall 方面與 Precision 相比除了文章 22523685 下

22506010 22509294 22523685 22529981

Precision Recall F-measure

降了 15%，其他文章只下降了 3%-4%，在 F-measure 方面皆達到 66%以上。

最後將四篇文章的 Precision、Recall 和 F-measure 加總後平均，得到 Precision 為 73.83%、Recall 為 67.36%和 F-measure 為 70.36%，結果如下圖：

圖 12：四篇文章的平均效能

本研究目的在於應用統計模型進行回指消解，實驗所得到的結果與 Gasperin (2008)等人和 D'Souza (2012)等人做的共指消解無法互相比較，經由實驗結果顯示，

將統計模型應用在回指消解可以得到不錯的結果。

表 9 為刪除主要名詞片語ℎ𝑚_a,A所得到的效能，由下表可以知道文章 22506010 和文章 22509294 皆沒有受到影響，文章 22523685 的效能稍微下降，但是文章 22529981 的 Precision 下降了 2.24%，Recall 下降了 2.12%和 F-measure 下降了 2.18%

，由結果顯示使用主要名詞片語ℎ𝑚_a,A是可以增加效能的。

表 9：刪除主要名詞片語特徵的效能

Text Number Precision Recall F-measure 22506010 77.45% 73.45% 75.40%

22509294 74.06% 70.75% 72.37%

22523685 75.49% 60.73% 67.31%

22529981 65.86 62.21% 63.98%

表 10 為刪除前位修飾詞ℎ𝑚𝑚_a,A所得到的效能，由結果可以知道在四篇文章中 Precision、Recall 和 F-measure 的效能皆下降了 1%到 6%，表示前位修飾詞 ℎ𝑚𝑚_a,A在本研究中是很重要的特徵。

表 10：刪除前位修飾詞特徵的效能

Text Number Precision Recall F-measure 22506010 72.28% 68.56% 70.37%

22509294 72.19% 68.96% 70.54%

22523685 73.75% 59.34% 65.76%

22529981 62.41% 58.96% 60.64%

表 11 為將數量特徵 𝑛𝑢𝑚_a,A刪除後進行實驗的效能，可以知道在四篇文章中 Precision、Recall 和 F-measure 的效能都降低 1%到 4%，表示數量特徵 𝑛𝑢𝑚_a,A，在本研究也是很重要的特徵。

表 11：刪除數量特徵的效能

Text Number Precision Recall F-measure 22506010 75.54% 71.65% 73.54%

22509294 70.31% 67.16% 68.70%

22523685 73.54% 59.16% 65.57%

22529981 66.55% 62.87% 64.66%

在文檔中以機率模型為基礎之生醫文件指代消解方法 (頁 40-48)

第四章 實驗過程語實驗結果

第三節 實驗結果與分析

第三節 實驗結果與分析

第四章實驗過程語實驗結果

第三節實驗結果與分析

第三節實驗結果與分析