以遠程監督式學習從中文文本進行關係自動擷取

全文

(1)國立臺灣師範大學資訊工程研究所碩士論文. 指導教授：. 柯佳伶. 博士. 以遠程監督式學習從中文文本進行關係自動擷取 Automatic Relation Extraction from a Chinese Corpus through Distant-supervised Learning. 研究生：. 中華民國. 江明潔. 一零九. 年. 撰. 一. 月.

(2) 摘要以遠程監督式學習從中文文本進行關係自動擷取江明潔. 本論文研究從中文文本進行關係擷取，以類神經網路架構為基礎，採用遠程監督式學習的概念，預測文本句子中是否具有特定關係，並擷取出句子中具有此特定關係的實體詞配對。本論文將詞嵌入向量和詞性嵌入向量作為模型輸入特徵，分別訓練關係偵測模型和鑑別模型，前者使用具有時序性的雙向長短期記憶網路模型，用來預測文本句子中是否具有特定關係，並在模型中使用多維注意力機制，針對符合某特定關係的句子們找出句子中相對重要的字作為候選實體詞；後者使用實體詞配對之向量差，利用鑑別模型輸出該實體詞配對是否具有某特定關係。經過上述兩個模型得到的結果，透過回饋學習機制，增加關係偵測模型的訓練資料，並調整關係偵測模型的訓練參數以提升關係分類效果。. 關鍵字：關係擷取、雙向長短期記憶模型、多維注意力機制、回饋學習機制 i.

(3) ABSTRACT Automatic Relation Extraction from a Chinese Corpus through Distant-supervised Learning by Ming-Chieh, Chiang. In this paper, we study the problem of relation extraction from a Chinese corpus through distant-supervised learning. We constructed two models based on the recurrent neural networks to solve the problem. The two models use the word embedding and POS embedding as inputs. The first one is the relation detection model, which detects the relation of a sentence and selects the candidate entity words with multi-level structured (2-D matrix) attention mechanism. The candidate entity words will be combined to be entity pairs, which are inputted to the discriminative model. The second one is the discriminative model, which uses the vector difference of an entity pair to determine if an entity pair satisfies a relation. The results of the discriminative model can find more entity pairs of relations. These pairs can be used as additional training data of the relation detection model to improve the performance of the relation detection model through the feedback for learning.. Keywords: relation extraction, bi-LSTM model, multi-level structured attention, feedback for learning ii.

(4) 目錄第一章. 緒論 ............................................................................................1. 1.1. 研究動機 ............................................................................................................. 1. 1.2. 研究目的 ............................................................................................................. 2. 1.3. 研究限制與範圍 ................................................................................................. 2. 1.4. 研究方法 ............................................................................................................. 4. 1.5. 論文架構 ............................................................................................................. 6. 第二章. 文獻探討 ....................................................................................7. 2.1 關係擷取(Relation Extraction) ........................................................................... 7 2.1.1 使用語法結構特徵的關係分類方法 ............................................................. 7 2.1.2 使用語意表示特徵的關係分類方法 ............................................................. 8 2.1.3 實體詞配對擷取方法 ................................................................................... 11 2.2. 遠程監督式學習(Distant-Supervised Learning) .............................................. 12. 2.3. 生成模型(Generative Model) ........................................................................... 13. 第三章. 問題定義與系統架構 ..............................................................14. 3.1. 問題定義 ........................................................................................................... 14. 3.2. 系統架構與流程 ............................................................................................... 15. 第四章. 資料前處理與特徵產生 ..........................................................18. 4.1. 資料前處理 ....................................................................................................... 18. 4.2. 特徵產生 ........................................................................................................... 19. iii.

(5) 第五章. 關係分類與實體詞擷取 ..........................................................20. 5.1. 關係偵測模型 ................................................................................................... 21. 5.2. 鑑別模型 ........................................................................................................... 28. 5.3. 回饋學習機制 ................................................................................................... 33. 第六章. 實驗結果與探討 ......................................................................34. 6.1. 資料來源與討論 ............................................................................................... 35. 6.2. 評估指標 ........................................................................................................... 37. 6.3. 增加實體詞配對的分類效果評估 ................................................................... 39. 6.4 關係偵測模型的分類效果 ............................................................................... 41 6.4.1 關係偵測模型方法之分類效果比較 ........................................................... 41 6.4.2 注意力權重詞語數量影響模型分類之效果評估 ....................................... 49 6.5 鑑別模型之分類效果評估 ............................................................................... 52 6.5.1 未限制候選實體詞數量的訓練資料對鑑別模型之效果 ........................... 53 6.5.2 限制候選實體詞數量的訓練資料對鑑別模型之效果評估 ....................... 55 6.6. 關係偵測模型結合鑑別模型的整體效果評估 ............................................... 57. 第七章. 結論與未來研究方向 ..............................................................62. 參考文獻 63. iv.

(6) 附圖目錄圖 1. 1 遠程監督式學習關係擷取之架構..................................................................... 4. 圖 2. 1 基於 CNN 的文本分類架構[4] ....................................................................... 10 圖 2. 2 多維注意力機制的 RNN 模型架構[9] ........................................................... 11. 圖 3. 1 遠程監督式學習關係擷取系統之訓練架構................................................... 15. 圖 4. 1 斷詞及詞性標記的結果................................................................................... 18. 圖 5. 1 關係偵測模型架構........................................................................................... 21 圖 5. 2 嵌入層與雙向長短記憶層處理....................................................................... 23 圖 5. 3 長短期記憶架構流程....................................................................................... 24 圖 5. 4 鑑別模型架構................................................................................................... 28 圖 5. 5 回饋學習機制架構........................................................................................... 33. 圖 6. 1 「具有」類別增加訓練資料後的關係分類效果........................................... 39 圖 6. 2 「產生」類別增加訓練資料後的關係分類效果........................................... 40 圖 6. 3 「具有」類別的分類效果............................................................................... 42 圖 6. 4 「產生」類別的分類效果............................................................................... 44 圖 6. 5 「組成」類別的分類效果............................................................................... 46 圖 6. 6 「缺乏」類別的分類效果............................................................................... 48 圖 6. 7 四個類別設定不同候選實體詞數量之分類效果........................................... 50 圖 6. 8 「具有」類別加入新實體詞配對句子後的分類效果(EPOCH = 50) ............. 58 圖 6. 9 「產生」類別加入新實體詞配對句子後的分類效果(EPOCH = 50) ............. 60. v.

(7) 附表目錄表 1. 1 文本之關係擷取 ............................................................................................................. 3 表 1. 2 考慮之關係類別 ............................................................................................................. 3. 表 6. 1 四個類別所有訓練資料正面樣本數 ........................................................................... 35 表 6. 2 第一部分實驗採用的正面樣本的訓練句子數量 ....................................................... 36 表 6. 3 「具有」類別在未限制候選實體詞數量時鑑別模型正確性(EPOCH = 100) ........... 53 表 6. 4 「具有」類別在未限制候選實體詞數量時鑑別模型正確性(EPOCH = 150) ........... 53 表 6. 5 「產生」類別在未限制候選實體詞數量時鑑別模型正確性(EPOCH = 100) ........... 54 表 6. 6 「產生」類別在未限制候選實體詞數量時鑑別模型正確性(EPOCH = 150) ........... 54 表 6. 7 「具有」類別在限制候選實體詞數量時鑑別模型的正確性(EPOCH = 100) ........... 55 表 6. 8 「具有」類別在限制候選實體詞數量時鑑別模型的正確性(EPOCH = 150) ........... 55 表 6. 9 「產生」類別在限制候選實體詞數量時鑑別模型的正確性(EPOCH = 100) ........... 56 表 6. 10 「產生」類別在限制候選實體詞數量時鑑別模型的正確性(EPOCH = 150) ......... 56 表 6. 11 新實體詞配對及句子數量 ......................................................................................... 57. vi.

(8) 第一章緒論 1.1 研究動機在文本探勘的領域中，關係擷取(Relation Extraction)是一個很重要的研究議題。給予一個文本，自動判斷其中的句子是否描述某種關係，並擷取出句子中與關係相關的兩個實體詞，這樣的過程稱為「關係擷取」。舉例來說，文本內容中的一個句子：「菌物界的生物通稱真菌，具有細胞壁，缺乏葉綠素，須從外界獲得養分。」，可以擷取出「真菌」和「細胞壁」之間有「具有」的關係。關係擷取的應用範圍很廣，例如可以將一篇文章轉換成概念圖的形式，使讀者可以快速抓取到文章重點，並理解文章內容等，因此近來文本探勘及自然語言處理領域對於關係擷取的問題相當重視。. 特定關係的一組實體詞配對(Entity Pair)是由兩個有此關係的專有名詞組成，且每一組實體詞配對都具有順序性，前實體詞與後實體詞不可交換。以前段落所提的「具有」關係句子為例，「真菌」是前實體詞，而「細胞壁」是後實體詞。. 在以監督式學習(Supervised Learning)方法建立關係擷取模型時非常依賴訓練資料，常需要先將不同領域主題的文本語料庫進行人工標記當作訓練資料，但這相當耗費人力與時間成本，且發生錯誤標記的機率隨著文本數量增加而逐漸提高。此外，關係擷取模型的學習效果往往取決於人工標示訓練資料的規模，當訓練資料數量不足時，關係擷取的正確率也可能隨之下降。. 1.

(9) 1.2 研究目的關於以遠程監督式學習方式進行關係擷取的方法，論文[13]提出的方式，是根據一些人工標示已知的實體詞配對，比對出包含這些配對的句子當作訓練資料，但若這些標記好的實體詞配對數量不足，會影響訓練資料的數量。論文[14]則使用一些已知具有特定關係的實體詞配對，利用兩個模組產生一些有相同關係的候選實體詞配對，並以相互訓練(Co-training)的方法選出不同於原實體詞配對，但很可能符合此關係的實體詞配對。論文[14]中採用的兩個模組，從出現實體詞配對的句子前後文中學習出重要句型，並結合實體詞嵌入向量的學習，用來預測出其他實體詞配對。. 本論文的研究目的，是想運用類神經網路架構提出一個關係擷取方法，利用包含已知實體詞配對的句子，提升訓練資料的數量，並考慮出現實體詞配對句子的整體語意特徵建構偵測模型，用來偵測文本句子中是否具有特定關係，並擷取出句子中具有此特定關係的實體詞配對。. 1.3 研究限制與範圍本論文將(前實體詞, 後實體詞, 關係)稱為一個事實三元詞組，以表 1. 1 為例，第一個句子 S1 中說明了真菌的特性，其中細胞壁為真菌的組成之一，因此可以擷取出(真菌, 細胞壁, 具有)的事實三元詞組。表 1. 1 的第二個句子 S2 則說明雄蕊的特性，而花粉是雄蕊的產物之一，所以可擷取出(雄蕊, 花粉, 產生)的事實三. 2.

(10) 元詞組。表 1. 1 文本之關係擷取. 文本. S1. 關係三元詞組. 菌物界的生物通稱真菌，具有細胞壁，缺乏葉. (真菌, 細胞壁, 具有). 綠素，須從外界獲得養分。 S2. 雄蕊上的花藥可以產生花粉，花粉落到雌蕊的. (雄蕊, 花粉, 產生). 柱頭上便萌發成花粉管，進入雌蕊的子房。. 本論文以國中自然科課本為主要考慮的文本語料庫，研究文本的語言為繁體中文。當給定文本中的一個句子，目標為預測該句子中是否包含特定關係的描述，並進一步輸出句子中所包含的事實三元詞組。本論文主要考慮以詞性為動詞的詞語當作關係詞語，根據所考慮文本中的常見動詞及其相似詞，將考慮以下四種關係，如表 1. 2 所示。表 1. 2 考慮之關係類別關係. 關係概念詞. 具有. 含有包含包括有. 產生. 製造分泌排出導致繁殖造成釋出. 組成. 形成構成合成. 缺乏. 缺少不能不具沒有無. 3.

(11) 1.4 研究方法為了擷取出文章中的事實三元詞組，本論文結合兩個模組，第一個模組為關係偵測模型(Relation Detection Model)，以遠程監督(Distant Supervision)的概念為基礎，利用遞迴類神經網路學習出一個分類模型。除了用來預測一個句子是否具有某種特定關係，並擷取出句子的候選實體詞詞語，採用這些候選實體詞詞語作為鑑別模型的輸入。另一個模組為鑑別模型(Discriminative Model)，採用已知給定的事實實體詞配對當作訓練資料，學習判定一組實體詞配對是否是一個句子中最可能具有此特定關係的配對。最後利用鑑別模型找出的實體詞配對，再以遠程監督的概念增加訓練資料數量，以進一步提升關係偵測模型的關係擷取效果，研究方法架構如圖 1. 1 所示。. 圖 1. 1 遠程監督式學習關係擷取之架構. 4.

(12) 首先，本論文將以國中生物課本內容作為文本語料庫及其課本附錄索引詞作為實體詞辭典，將文本中每個句子進行前處理 (Pre-processing) ，包含斷詞 (Segmentation)及詞性(Part-Of-Speech Tags)分析，接著將每個詞及對應詞性透過 Word2Vec 轉成嵌入向量表示(Embedding)。. 本論文參考[9]架構提出關係偵測模型(Relation Detection Model)，以句子為單位從訓練資料學習出一個句子是否具有某種關係的預測模型。此模型透過遞迴類神經網路(Recurrent Neural Networks, RNN)模型進行特徵提取，以句子中是否包含特定關係的機率值作為輸出，表示此句子中具有此關係的可能性。此外，本研究進一步採用注意力機制(Attention Mechanism)，對句子所有詞語計算出其對預測關係結果的重要程度值，用來擷取出句子中的候選實體詞配對，再以鑑別模型判斷與該關係最相關的一組實體詞配對。. 鑑別模型(Discriminative Model)中，將一組實體詞配對之實體詞向量和出現這組實體詞配對的一個句子作為模型的輸入，判斷該實體詞配對是否包含特定關係類型的程度值作為輸出。對同一個句子將以程度值最高的後選實體詞配對作為擷取出的實體詞配對。. 利用鑑別模型找出新的實體詞配對後，同樣利用遠程監督的概念，增加關係偵測模型的訓練資料量，再重新調整關係偵測模型，可繼續上述兩個步驟，對文本中的句子進行關係預測和實體詞配對擷取。. 5.

(13) 實驗將分成四個部份進行評估：第一部份，比較增加實體詞配對後，增加訓練資料數量的分類效果；第二部分，比較本論文提出的關係偵測模型與其他類神經網路為基礎的關係預測模型，以句子關係預測的精確率作為評估方式；第三部份，對鑑別模型進行實體詞配對擷取之正確性評估；第四部份，評估關係偵測模型加上鑑別模型共同學習後用來預測關係的效果。. 1.5 論文架構本論文以下章節內容簡介如下：第二章說明相關文獻探討。第三章說明本論文之問題定義及系統架構。第四章說明資料前處理及特徵產生方式。第五章詳細說明關係偵測模型和鑑別模型，以及回饋學習機制。第六章將呈現本論文方法的實驗結果評估與討論，最後在第七章提出總結並探討未來研究方向。. 6.

(14) 第二章文獻探討關係擷取是自然語言領域中一個重要的研究議題，有許多論文在探討相關問題，近來的研究趨勢是採用遠程監督方法[13]進行關係擷取。以下將介紹關係擷取相關的研究，以及近年來如何將弱監督式學習概念運用於關係擷取，並在最後介紹可用於增加訓練資料的生成模型相關研究。. 2.1 關係擷取(Relation Extraction) 以往研究提出的文本關係擷取方法，主要分成對文本中的句子判斷具有何種關係，相當於對句子進行「出現關係」的分類；以及擷取出有特定關係的實體詞配對。而用於訓練關係分類模型，又可分成運用文本句子的用字和語法結構特徵來訓練模型，或考慮文本句子中的語意表示作為特徵，並利用類神經網路技術進行分類。本小節將分別介紹從語法結構和語意表示兩種特徵擷取方式進行關係分類的研究，最後再介紹擷取實體詞配對的相關研究。. 2.1.1 使用語法結構特徵的關係分類方法. 過去用於解決關係擷取問題的傳統方法[16][21]，主要需要人工設計及挑選用於訓練模型的語法特徵，例如以文字為基礎的詞袋(Bag Of Words, BOW)、N 元字詞(N-gram)，或是以文本句子中的實體詞為基礎的命名實體詞類型(Named Entity Type)，以及以自然語言分析結果為基礎的詞性(Part Of Speech, POS)、句法剖析 (Parsing)等。取得特徵後，再使用監督式概念的分類器如支援向量機(Support Vector 7.

(15) Machine, SVM)或邏輯回歸(Logistic Regression, LR)訓練出一個關係分類模型，判斷輸入的句子描述中是否具有某特定關係。然而，此類方法僅使用文本內容的文字比對和語法結構作為特徵，受限於特徵擷取方法的效果及處理耗費時間，當句子長度增加時，容易導致語法分析的精確度降低，使訓練模型的效果受到影響。另外此類特徵未考慮文本句子之語意表示，例如句子中出現「蘋果」，有可能是指蘋果電腦公司或是常見的水果，這必須根據「蘋果」在句子中的前後文才能判斷出所代表的語意，然而語法結構特徵無法解決此問題。. 2.1.2 使用語意表示特徵的關係分類方法. 為了考慮文本句子中的語意表示，論文[12]提出將文字轉換成對應的語意向量形式來表示詞的語意。其目的是透過找到一個詞嵌入向量空間表示法，使得語意上愈相似的單詞在該空間內距離愈接近，這樣的過程稱為詞嵌入 (Word Embedding)學習。例如：新加坡、美國都是代表一個國家的詞彙，因此希望得到兩個詞在向量空間表示的向量間有高度餘弦相似度值。在 Word2Vec 模型中的 Skip-Gram 模型，是透過建構一個 MLP 神經網路，以給定單詞作為模型輸入，該單詞在句子的前後文內容作為模型輸出目標，訓練網路模型中的參數，再將模型中學習到的隱藏層(Hidden Layer)權重值作為此單詞的嵌入向量表示。. 最近許多研究採用上述的詞嵌入向量作為模型特徵，並結合卷積類神經網路 (CNN)的技術進行文本分類。論文[6][7]皆採用 CNN 架構的文本分類模型，以句子為單位，將句子中的單詞以詞嵌入向量作為模型輸入，根據不同範圍的資料集， 8.

(16) 預測一個句子描述實體概念的分類，例如電影評論的評價分類（非常好、好、中等、差、非常差）或是問句的主題分類（縮寫、實體、敘述、人物、地點、數值）。而論文[17]以基本 CNN 架構為基礎，將 CNN 模型使用於關係分類。不同於基本 CNN 架構的是，[17]所提出的 PCNN(Piecewise CNN)方法除了考慮單詞的詞嵌入向量以外，也將實體詞在句子中與關係詞的距離當作特徵，並以實體詞的位置為基準，將句子分成三個部分做最大池化計算(Piecewise Max Pooling)，以利於抓取實體詞之間的語意資訊。論文[10]則以論文[17]提出的 PCNN 模型為基礎，針對同一組實體詞配對擷取出來的所有句子作為輸入，並結合注意力機制，計算每個句子在特定關係裡的重要程度值，若權重值愈高，表示該句子愈接近此特定關係所包含的概念。. 論文[4]以 CNN 架構為基礎，建立一個使用者提問文本之意圖類型偵測系統。 [4]提出三種類型的特徵資料：第一種是由詞嵌入向量產生向量維度之間的關聯性特徵資料，第二種是每個單詞與醫療概念關鍵字計算出的相似度特徵資料，第三種是詞性嵌入向量特徵資料。該論文提出兩種基於 CNN 的學習模型，第一種是 CNN Joint Model，如圖 2. 1 所示，利用多種特徵資料的特徵向量，學習預測提問文本之意圖類型；第二種是 Ensemble CNN Model，採用每種特徵資料獨立預測提問文本之意圖類型程度值，再以 Ensemble 參數學習每種特徵模型的組合比重，最後將每個特徵資料所建立模型之預測結果進行比重加總，取出機率值最高的類型作為預測結果。 9.

(17) 圖 2. 1 基於 CNN 的文本分類架構[4]. CNN 模型在擷取語意特徵時只考慮鄰近的字詞，利於找出語意資訊距離較近的情況，但不適合用於取出位置間距離較長的語意資訊；反之，若增加 CNN 模型的視窗大小(Window Sizes)，則失去 CNN 模型尋找短距離語意資訊的能力；因此後續的研究提出以循環類神經網路(RNN)模型用來處理文本分類[19]和關係擷取問題[20]。[19]提出一個 RNN 模型來進行文本分類，改善擷取長距離語意特徵的效果。[9]則基於[19]提出的 RNN 模型來進行關係分類，以 RNN 中的雙向長短期記憶(Bidirectional Long Short-Term Memory, Bi-LSTM)加上注意力(Attention)機制進行句子關係分類預測，[9]並提出採用多維度的注意力機制，可達到更好的句子關係分類效果，模型架構如圖 2. 2 所示。. 10.

(18) 圖 2. 2 多維注意力機制的 RNN 模型架構[9]. 2.1.3 實體詞配對擷取方法. 論文[13]提出的關係擷取方法，除了可以進行句子的關係分類，也會計算該句子裡的實體詞配對具有此特定關係的信心分數，再從此特定關係排名找出信心分數前𝑘名的實體詞配對。論文[14]提出擷取實體詞配對的方法，是使用一些已知具有特定關係的事實實體詞配對，利用兩個模組產生更多有此關係的候選實體詞配對，其中兩個模組分別是語法結構特徵模組和語意表示特徵模組，兩個模組進行相互訓練(Co-training)，得到新的實體詞配對。. 根據上述論文可發現，以語意嵌入向量作為特徵已被廣泛運用於訓練關係分類模型，結合類神經網路技術更可改善模型預測效果。因此本論文以論文[9]提出之方法為基礎，使用一個句子中各個詞語及詞性的嵌入向量表示作為模型輸入的特徵，並採用類神經網路的模型對文本內容的句子進行關係分類。 11.

(19) 2.2 遠程監督式學習(Distant-Supervised Learning) 論文[16][21]以監督式學習的方式訓練關係分類模型，需要手動標記訓練資料，但當訓練資料量龐大時，非常耗費人力和時間成本。因此論文[1][3]首先提出自我調整式學習(Bootstrapping Learning)，先蒐集少量具有特定關係的事實實體詞配對作為種子，找到包含這組實體詞配對的句子。接下來從這些句子產生句型模板 (Patterns)，用來找出符合這些句型模板的新實體詞配對，並將這些新實體詞配對加入事實實體詞配對中，以迭代方式擷取出更多句型模板和實體詞配對。但使用句型模板比對容易造成準確度降低，且在迭代過程中會產生一些與種子不相關的實例(Noise instances)，若以這些不相關實例代入迭代訓練，可能頻繁產生更多不相關實例，導致預測效果變差。. 為了改善此問題，論文[13]結合監督式學習和自助式學習的概念，提出遠程監督式學習。對一個特定關係，若知識庫中有一些已知的事實實體詞配對，當一個句子包含其中任一組事實實體詞配對時，遠程監督式學習便假設這個句子的文字內容應該隱含這個實體詞配對間具有的特定關係。因此可以將這個句子作為此關係的訓練資料，自動將這些訓練資料標記為真，並用來學習一個分類器模型，偵測輸入的句子是否具有此特定關係。論文[5][15]以及章節 2.1 中提及的[10][17]皆採用此學習方式來建立關係分類模型，因此本論文也將嘗試以遠程監督式學習的概念來進行關係分類。. 12.

(20) 2.3 生成模型(Generative Model) 基於遠程監督式學習概念的關係分類模型，雖然可以節省人力標記的時間和成本，但若知識庫中的事實實體詞配對數量不足時，會導致訓練資料數量不足，使模型訓練效果不佳。論文[8]提出以生成模型為基礎的變分自動編碼模型 (Variational Autoencoder, VAE)，以自動編碼器架構為基礎，輸入和輸出為原有的訓練資料，訓練模型中編碼器和解碼器的參數，並在編碼過程中增加限制，迫使其生成的隱含向量(Latent Variable)能遵循標準高斯機率分布，接著使用標準高斯機率分布所產生的隨機隱含向量輸入解碼器，即可產生出不同於原訓練資料的候選訓練資料。論文[18]以上述的 VAE 模型為基礎，設計一個 CRVAE(Conditional Relationship VAE)模型，在特定關係下跳脫句型結構限制，只考慮詞嵌入向量，並產生新的實體詞配對。. 然而建立 VAE 模型需要的訓練資料量非常龐大，例如論文[18]中使用的訓練資料量超過兩萬組實體詞配對。當已知的實體詞配對數量不足，則無法達成生成模型的效果。. 生成對抗網路(Generative Adversarial Network, GAN)模型利用生成模型和鑑別模型自動生成訓練資料，使用生成模型產生新的資料，再以鑑別模型判別生成資料的真偽。因此本論文參考生成對抗網路模型中的鑑別模型概念，結合上述的關係偵測模型，將候選實體詞配對進行分類，判斷一組實體詞配對是否具有特定關係，達到找出新實體詞配對的效果。 13.

(21) 第三章問題定義與系統架構 3.1. 問題定義. [定義 1] 實體詞(Entity)：文本語料庫中，根據不同背景知識而擷取出來的專有名詞。本論文主要以國中生物課本內容作為文本語料庫，因此實體詞為課本中標示出的關鍵索引詞。. [定義 2] 事實關係三元詞組：兩個實體詞 𝒆𝒉 和 𝒆𝒕 之間具有某種關係 𝒓，本論文將以(前實體詞，後實體詞，關係)表示為一個事實關係三元詞組 (𝒆𝒉 , 𝒆𝒕 , 𝒓)。. 例如：「細胞」為前實體詞𝒆𝒉，「細胞核」為後實體詞𝒆𝒕，兩者之間的關係𝒓為「具有」，即可表示為(細胞,細胞核,具有)，也就是「細胞具有細胞核」。. [問題定義] 給定一個文本語料庫(Text Database)和知識庫(Knowledge Database)，語料庫中每個句子由多個中文字組成，而知識庫裡則提供事先已知具有某關係 𝒓 的事實關係三元詞組所形成的集合𝑹。本論文的研究目標是由𝑹中的事實關係三元詞組，以遠程監督的方式從文本語料庫中進行關係預測模型的學習，並用來預測語料庫中其他句子是否具有此關係 𝒓，並從預測包含此關係的句子中，擷取出新的事實關係三元詞組。. 14.

(22) 3.2. 系統架構與流程本論文提出的關係擷取系統架構及訓練流程可分為三部分：（一）資料前處理、. （二）基於類神經網路的關係偵測模型與鑑別模型、（三）回饋學習機制，如圖 3. 1 所示。. （一）. 資料前處理：包含斷詞(Segmentation)、詞性標記(Part-Of-Speech Tagging,. POS Tagging)，以及產生輸入特徵表示法的詞嵌入(Word Embedding)和詞性嵌入(POS Embedding)預訓練。. （二）. 建立類神經網路模型：主要分為關係偵測模型(Relation Detection Model). 和鑑別模型(Discriminative Model)的建立。. （三）. 回饋學習機制：上述兩個模型輸出後，以回饋學習機制調整兩個模型的. 效果。. 圖 3. 1 遠程監督式學習關係擷取系統之訓練架構 15.

(23) 整體架構的處理流程簡述如下：. （一）資料前處理. 首先，本論文使用國中生物課本文本內容作為研究實驗語料庫，因此必須對語料庫的文本內容進行斷詞和詞性標記等自然語言處理，獲得表示每個文本句子內容的詞語以及每個單詞對應的詞性。. 此外，本論文透過語料庫文本預訓練出單詞和詞性的嵌入表示法(Embedding Representation)，用來將單詞轉換成單詞嵌入向量，也對詞性轉換成詞性嵌入向量，將兩者接合後作為關係偵測模型中每個單詞的輸入特徵；而僅用詞嵌入向量作為鑑別模型的輸入特徵。. （二）類神經網路學習架構. 本論文提出關係偵測模型和鑑別模型，前者用以預測文本中的一個句子是否具有特定關係，並擷取出候選實體詞；後者用以鑑別一個關係三元詞組，兩者皆是二分類模型。. 關係偵測模型(Relation Detection Model)：採用遞迴類神經網路(Recurrent Neural Network, RNN)學習架構，輸入一個句子中的所有詞嵌入和詞性嵌入向量，經過雙向長短期記憶網路(Bidirectional Long Short Term Memory Network, BiLSTM)層，將輸出之隱藏特徵向量經過全連接層後，預測該句子具有特定關係的. 16.

(24) 機率值。另外本方法採用以注意力機制，擷取出句子中可能包含此特定關係的候選實體詞。. 鑑別模型(Discriminative Model)：輸入兩個實體詞的詞嵌入向量，四個不同關係的代表動詞（具有、產生、組成、缺乏）之詞嵌入向量，以及兩個實體詞同時出現的一個句子。此模型以前實體詞之詞嵌入向量和後實體詞之詞嵌入向量的向量差來表示兩者的關係特徵，以此向量差分別與四個關係動詞和句子中所有詞語的詞嵌入向量計算注意力權重值，用來產生前後文特徵(Context Features)，以預測此實體詞配對具有特定關係的程度值。. （三）回饋學習機制. 經過上述兩個訓練模型後，可以得到新的事實實體詞配對，利用這些新的事實實體詞配對，使用遠程監督式學習的概念，再從文本語料庫中選取同時包含新實體詞配對的句子，並加入訓練資料，調整關係偵測模型以提升模型的效果。. 17.

(25) 第四章資料前處理與特徵產生本章將介紹本論文進行斷詞及詞性標記等資料前處理方法，以及如何將詞語和詞性標記轉換成嵌入表示法作為模型輸入。. 4.1 資料前處理本論文採用的文本語料庫為多個書局的國中生物課本，以句號作為一個句子的基本切割依據，但若一個句子中的字數超過 100 個字，則以中間的逗號作為分界點，再分成兩個句子。. 此外，中文不像英文詞語可以直接以空格區隔，因此必須先對文本進行斷詞處理，本論文採用中文斷詞工具 Jieba (http://github.com/fxsjy/jieba)進行斷詞。. 圖 4. 1 斷詞及詞性標記的結果 Jieba 工具進行斷詞處理後會同時提供詞性標記，為每一個單詞標記出詞性。圖 4. 1 所示為一個句子斷詞後，標記出每個單詞的詞性標記結果。Jieba 的標注詞性種類採用和 ICTCLAS 兼容的 POS(Part-Of-Speech) Tagging 詞性標記方式，如： n(名詞)、v(動詞)、m(數量詞)等，表示單詞在句子中的語法詞性。. 18.

(26) Jieba 工具能自訂擴充詞庫，由於課文內容裡經常出現一些專有名詞，例如：囊狀消化腔、管狀消化系統、含氮物質等等，因此採用自訂擴充詞庫的方式可讓斷詞的效果提升。. 為了方便學生快速找出課文中重要的名詞解釋和定義，課本後方常會附上課本內容中的所有專有名詞及其出現的頁碼，因此本論文自訂擴充詞庫的範圍，主要是以課本附錄中的索引詞進行擴充。. 4.2 特徵產生本論文使用 Python 主題函式庫 Gensim 所提供的 Word2vec 工具，並採用 SkipGram 模組進行中文的詞嵌入向量表示學習。本論文使用的訓練語料庫為多版本國中生物課本所有課文內容，語料庫中共有 3908 個單字、28541 個詞彙和 50 種詞性，訓練詞嵌入向量的視窗大小設定為 8、最小出現次數設定為 2。. 將語料庫透過章節 4.1 說明的文字前處理後，將所有文本中出現的詞預訓練出其詞嵌入向量表示法，並以相同方式預訓練出詞性嵌入向量表示法。每個詞嵌入向量的維度設為 250，而每個詞性嵌入向量的維度為 10。. 19.

(27) 第五章關係分類與實體詞擷取本論文使用機器學習系統 Tensorflow 與 Keras 工具進行關係擷取實作，透過 Tensorflow 與 Keras 工具建構兩個基於類神經網路的模型，關係偵測模型進行句子的關係分類，而鑑別模型則判斷某實體詞配對是否具有特定關係。以下將詳細說明兩個模型的架構及回饋學習機制。本章將在章節 5.1 詳細說明關係偵測模型整體架構；在章節 5.2 說明鑑別模型整體架構，並針對與關係偵測模型不同處進行詳細說明；並將在章節 5.3 說明結合上述兩個模型輸出結果的回饋學習機制。. 20.

(28) 圖 5. 1 關係偵測模型架構. 5.1 關係偵測模型如圖 5. 1 所示，首先本模型會將訓練資料中每個句子𝑠中的所有詞𝑤- 和詞性 𝑝- 各自轉換成編號作為輸入。嵌入層(Embedding Layer). 使用在第四章所提到，從文本語料庫預訓練的嵌入表示法特徵作為嵌入層的權重初始值。詞和詞性編號經過嵌入層轉成詞嵌入向量和詞性嵌入向量，將這兩個輸出向量接合作為每個詞語的特徵輸入。雙向長短記憶層(Bi-LSTM Layer). 經過雙向長短記憶層得到各詞語的隱藏特徵向量。 21.

(29) 注意力層(Attention Layer). 各隱藏特徵向量𝐻 = [ℎ3 , ℎ4 , … , ℎ6 ]會用來相互計算出二維注意力矩陣，表示各詞語在不同概念上所佔的權重值。前後文表示層(Context Representation Layer). 將各詞語的隱藏特徵向量乘上權重值得到前後文特徵矩陣。平坦層(Flattened Layer). 經過平坦層轉成一個特徵向量。全連接層(Fully Connected Layer). 透過一層全連接層用來學習特徵向量中每個特徵的權重，使用 Sigmoid 函式讓數值範圍介於 0 到 1 之間，預測句子具有此特定關係的機率值。. 22.

(30) 圖 5. 2 嵌入層與雙向長短記憶層處理. 以下將說明利用這些網絡層建立關係偵測模型的細節。 (1) 嵌入層如圖 5. 1 所示，句子中有𝑛個詞語𝑤3 , 𝑤4 , … , 𝑤6 以及相對應的詞性𝑝3 , 𝑝4 , … , 𝑝6，且皆以編號表示作為輸入。接著經過嵌入層，使用預訓練的嵌入向量作為嵌入層的初始權重值，分別得到句子中𝑛個 𝑅4:; 詞語嵌入向量，以𝑒=> , 𝑒=? , … , 𝑒=@ 表示，以及𝑛個𝑅3; 詞性嵌入向量，以𝑒A> , 𝑒A? , … , 𝑒A@ 表示。嵌入層輸出後，將各個字𝑤- 的詞語嵌入向量𝑒=B 與各個詞性𝑝- 的詞性嵌入向量𝑒AB 接合成一個𝑅4C; 向量，作為每個詞語的特徵向量，輸入雙向長短期記憶層。. 23.

(31) (2) 雙向長短期記憶層長短期記憶是遞迴類神經網路的一種，本論文採用雙向長短期記憶架構，其考慮詞語在句子中的向前及向後累積資訊，可以更完整地捕捉到較長距離且雙向的語意關係。. 圖 5. 3 長短期記憶架構流程一個長短期記憶層中的神經單元如圖 5. 3 所示，對應到本問題中，𝑥E 表示句子中第𝑡個詞語輸入的特徵向量，ℎEG3 為前一個詞語特徵經過長短期記憶後的輸出結果，ℎE 則表示目前詞語經過長短期記憶後的累積隱藏向量。長短期記憶透過控制閘門來調整向量訊息的去留程度，包含輸入閥(Input Gate)、遺忘閥(Forget Gate)、輸出閥(Output Gate)，而上述閘門的輸出計算方式分別如公式 1、公式 2 和公式 3 所示，當時記憶單元內容𝐶IE 的計算方式則如公式 4 所示。 𝑖E = 𝜎L𝑥E 𝑈 - + ℎEG3 𝑊 - P. (公式 1). 𝑓E = 𝜎(𝑥E 𝑈R + ℎEG3 𝑊 R ) (公式 2) 𝑜E = 𝜎(𝑥E 𝑈 T + ℎEG3 𝑊 T ) (公式 3) 𝐶IE = 𝑡𝑎𝑛ℎ(𝑥E 𝑈V + ℎEG3 𝑊 V ) 24. (公式 4).

(32) 輸入閥決定當前產生的記憶單元內容𝐶IE 加入長期記憶的比重；遺忘閥會將之前的記憶𝐶EG3 進行部分過濾；輸出閥決定當前的詞語內容加入輸出的比重。最後綜合以上三個閥計算出目前的長期記憶𝐶E ，如公式 5 所示，並得到當前詞語的隱藏輸出特徵向量ℎE ，如公式 6 所示。 𝐶E = 𝜎L𝑓E ∗ 𝐶EG3 + 𝑖E ∗ 𝐶IE P (公式 5) ℎE = 𝑡𝑎𝑛ℎ(𝐶E ) ∗ 𝑜E. (公式 6). 將𝑛個詞語從嵌入層得到的特徵向量輸入雙向長短期記憶層，如圖 5. 2 所示。接下來將雙向長短期記憶層的隱藏向量特徵輸出設定為 32 維度，並將雙向的結果接合，得到一個𝑅CX 隱藏向量。 (3) 注意力層與前後文表示層本論文想透過注意力機制找出句子中影響關係判斷較重要的資訊，以提升模型的關係預測效果。注意力機制常用在 sequence to sequence 模型中，在解碼時根據解碼器的輸入特徵，對編碼器的各隱藏向量計算其對解碼的重要程度。在本問題中並沒有解碼器的輸入向量，所以由編碼器的各隱藏向量自己進行注意力權重學習。注意力權重針對句子中各詞語分別計算出一個相對重要的權重值，代表該詞語在句子中的重要性。. 以往在計算注意力權重值時只以單一純量表示一個詞語的權重，但這樣會壓縮部分資訊，無法表示一個詞語在表示不同資訊面向的重要性。因此本論文採用類似論文[11]中 concat 注意力計算公式，並參考論文[9]將注意力轉換為二維度的 25.

(33) 方式，以雙向長短期記憶層所得到的隱藏特徵矩陣𝐻 = [ℎ3 , ℎ4 , … , ℎ6 ]，依照公式 7 計算出個詞語在𝑟個不同面向上的重要性。. 最後經過 Softmax 函式，以機率值的概念表示每個詞語在𝑟個不同面向上的權重值，得到一個𝑅Z∗6 的注意力矩陣 𝐴。其中𝑊3 及𝑊4 分別為𝑅\4∗CX 及𝑅]∗\4 的學習參數矩陣，並將𝑟設定為 9。. 𝐴 = 𝑠𝑜𝑓𝑡𝑚𝑎𝑥L𝑊4 𝑡𝑎𝑛ℎ(𝑊3 𝐻)P. (公式 7). 將注意力矩陣與雙向長短記憶層的隱藏特徵矩陣進行矩陣相乘後，得到表示一個句子的前後文特徵資訊矩陣𝑀，如公式 8 所示。 𝑀 = 𝐴𝐻`. (公式 8). 本方法希望同時能利用注意力矩陣來選取出候選實體詞，作為 5.2 節鑑別模型的輸入。因此我們採用公式 9 的計算方式，將公式 7 得到的注意力矩陣 𝐴中以行為單位進行相加，得到一個注意力向量𝑅3∗6，𝑎- 表示句子中第𝑖個字在句子中的重要性權重值，用來選取權重值最高的前五名作為候選實體詞。 𝑎- = ∑Zbc3 𝐴b-. (公式 9). (4) 平坦層、全連接層與輸出在進入全連接層前，前後文特徵資訊矩陣𝑀需要利用平坦層進行平坦化，得到一個𝑅3∗(CX∗]) 的特徵向量。. 26.

(34) 本論文在架構中採用一層 50 個神經元的全連接層，與平坦層輸出的𝑅3∗(CX∗]) 特徵向量接上，全連接層的輸出結果用來預測句子具有特定關係的程度值，並透過 Sigmoid 激活函數處理，得到一個[0,1]範圍的預測結果。. 本論文訓練模型時，將模型的損失函數設定為常用於解決二分類問題的 Binary Cross-entropy，亦稱做對數損失(Logloss)，如公式 10 所示。其中𝑦- 表示訓練資料中給定的資料是否具有此關係，𝑦hg 表示系統預測句子中具有此關係類別的機率值， 𝑛表示訓練資料的樣本數。 3. 𝐿𝑜𝑔𝑙𝑜𝑠𝑠 = − 6 ∑6-L𝑦- 𝑙𝑜𝑔(𝑦h) h)P g + (1 − 𝑦- )𝑙𝑜𝑔(1 − 𝑦 g. 27. (公式 10).

(35) 圖 5. 4 鑑別模型架構. 5.2 鑑別模型如圖 5. 4 所示，鑑別模型的整體架構與關係偵測模型相似，但模型輸入分成三個部分：（一）一組實體詞配對、（二）四個關係的代表動詞、（三）出現這組實體詞配對的句子。三者皆以詞語編號的方式輸入模型。嵌入層(Embedding Layer). 使用預訓練的詞嵌入向量作為嵌入層的權重初始值，詞編號經過嵌入層轉成詞嵌入向量，再以實體詞配對的向量差𝑒m-RR 作為後續處理的特徵輸入。雙向長短期記憶層(Bi-LSTM Layer). 採用與關係偵測模型相同的雙向長短期記憶層，計算出句子中各詞語的隱藏特徵向量。. 28.

(36) 注意力層(Attention Layer). 以實體詞配對的向量差𝑒m-RR 分別與四個代表動詞的詞嵌入向量𝑒n>、𝑒n?、𝑒no、 𝑒np 和句子中各詞語的隱藏特徵向量進行注意力權重計算。前後文表示層(Context Representation Layer). 將四個代表動詞的詞嵌入向量，以及句子各詞語的隱藏特徵向量分別乘上注意力權重，得到關係特徵資訊和句子前後文特徵資訊。接合層(Concatenated Layer). 將實體詞配對的向量差、關係特徵資訊及句子前後文特徵資訊三種特徵向量接合起來，作為全連接層的輸入。全連接層(Fully Connected Layer). 透過三層全連接層學習特徵向量中各種特徵的權重，使用 tanh 激活函式讓數值範圍介於-1 到 1 之間，最後預測該組實體詞配對具有此關係的程度值。. 29.

(37) 以下將說明利用這些網絡層建立鑑別模型的細節，以及使用於本模型的訓練資料產生方式。 (1) 嵌入層如圖 5. 4 所示，與關係偵測模型類似的概念，將一組實體詞配對𝑒q 和𝑒E、四個關係的代表動詞𝑣3 、𝑣4 、𝑣\ 、𝑣X 及出現該組實體詞配對的句子𝑠 = [𝑤3 , 𝑤4 , … , 𝑤6 ] 皆以編號的方式輸入，透過預訓練的詞嵌入向量作為嵌入層的初始權重，得到對應的𝑅4:; 詞嵌入向量，並參考論文[2]的概念，將前實體詞𝑒q 與後實體詞𝑒E 的向量差𝑒m-RR 代表兩者之間的關係𝑟，如公式 11 所示。 𝑒m-RR = 𝑒E − 𝑒q. (公式 11). (2) 雙向長短期記憶層句子中的𝑛個詞語參考章節 5.1 提出的關係偵測模型，經過雙向長短記憶層得到隱藏特徵矩陣𝐻 ∈ 𝑅6∗CX 。 (3) 注意力層與前後文表示層本論文採用論文[11]的 general 注意力權重計算方式。以下分別介紹對關係代表動詞與句子的注意力權重計算方式。關係代表動詞經過嵌入層後得到𝑅4:;∗X 動詞詞嵌入矩陣𝐸n，並與實體詞配對向量差𝑒m-RR，利用公式 12 計算注意力權重，得到一個注意力向量𝑎n ∈ 𝑅X，並將各權重值乘上四個關係代表動詞的注意力權重值後相加，得到關係特徵向量𝑚n ∈ 𝑅4:; ，如公式 13 所示。其中𝑊n 為𝑅4:;∗4:; 的學習參數矩陣。 30.

(38) 𝑎n = 𝑠𝑜𝑓𝑡𝑚𝑎𝑥L𝑒m-RR 𝑊n 𝐸n P 𝑚nB = ∑Xbc3 𝑎nu 𝐸nBu. (公式 12). (公式 13). 句子隱藏特徵矩陣經過雙向長短期記憶層後得到的隱藏特徵矩陣𝐻 ∈ 𝑅CX∗6 ，另外將向量差𝑒m-RR 經過一層全連接層得到向量差的隱藏特徵向量ℎm-RR ∈ 𝑅CX ，將此隱藏特徵向量與句子的隱藏特徵矩陣進行注意力權重計算，如公式 14 所示，得到注意力向量𝑎v ∈ 𝑅6。接著將𝑛個注意力權重值個別與隱藏特徵矩陣進行公式 15 的計算，得到句子的前後文表示向量𝑚v ∈ 𝑅CX。其中𝑊v 是𝑅CX∗CX 的學習參數矩陣。 𝑎v = 𝑠𝑜𝑓𝑡𝑚𝑎𝑥Lℎm-RR 𝑊v 𝐻P 𝑚vB = ∑6bc3 𝑎vu 𝐻-b. (公式 14). (公式 15). (4) 接合層與全連接層進入全連接層之前，必須利用接合層將實體詞配對向量差、關係特徵表示向量及句子前後文表示向量進行接合，形成一個𝑅4:;w4:;wCX 的向量，並輸入全連接層。. 本論文在架構中採用三層全連接層，第一層全連接層設定為 141 個神經元，與接合層相接；第二層全連接層設定為 35 個神經元，與第一層全連接層相接；第三層全連接層設定為 8 個神經元，與第二層全連階層相接。全連接層的輸出結果用來預測該組實體詞配對是否具有此特定關係，並透過 tanh 激活函數，將程度值以 -1 到 1 來呈現。 ℓ(𝑦- ) = 𝑚𝑎𝑥(0,1 − 𝑦- ∙ 𝑦h) g 31. (公式 16).

(39) 本論文訓練此模型時，損失函數的設定使用 Keras 所提供的 Hinge Loss，如公式 16 所示，其中𝑦- 表示訓練資料中給定的資料是否具有此關係，𝑦h表示系統預測 g 句子中具有此關係類別的程度值，預測結果愈接近 1，表示輸入的實體詞配對愈可能有此關係；預測結果愈接近-1，表示輸入的實體詞配對愈可能不具有此關係。. (5) 訓練資料產生鑑別模型的訓練資料是將一個句子經過關係偵測模型後，利用計算注意力權重找出前五名候選實體詞，將所有不同的候選實體詞進行排列組合，共產生 20 組候選實體詞配對。若其中一組為正確實體詞配對，則將其餘 19 組實體詞配對皆當作負面樣本；若沒有找出知識庫裡的實體詞配對，則將 20 組候選實體詞配對皆當作負面樣本。其中負面樣本的標籤為-1，正面樣本的標籤為 1。此做法會導致正、負面樣本的比例懸殊過大，影響模型訓練效果，因此本模型在進行關係分類時，將正面樣本的分類權重和負面樣本的分類權重分別設定為 100 比 1，在計算損失函數時才不會被過多負面樣本影響。. 32.

(40) 5.3 回饋學習機制經過上述兩個模型後，統計擷取出來的事實關係三元詞組的次數後，可以找出多個新的事實關係三元詞組，本論文使用次數大於𝑛次的事實關係三元詞組，利用遠程監督的概念，再從語料庫中抓取同時包含這些實體詞配對的句子，增加上述兩個模型的正面訓練資料量，並調整訓練關係擷取模型，以達到較好的效果，如圖 5. 5 所示。次數𝑛的設定將在實驗討論比較。. 圖 5. 5 回饋學習機制架構. 33.

(41) 第六章實驗結果與探討本論文依系統主要的處理步驟，將實驗分為四部分呈現：. （一）增加事實三元詞組對訓練分類效果之影響評估. 針對資料量較多的「具有」和「產生」兩個類別，增加固定數目的已知實體詞配對數後，進行分類模型訓練的分類效果評估。. （二）關係偵測模型之分類效果評估. 針對四個類別中所有已知實體詞配對，利用遠程監督概念，找出所有句子作為訓練資料，分別比較以 CNN+Similarity 與 BiLSTM+Attention 模型對句子關係之分類效果。另外比較加上找出候選實體詞的數量限制，觀察是否影響模型之分類效果。. （三）鑑別模型之分類效果評估. 針對「具有」和「產生」兩個類別，使用各 50 個已知具有實體詞配對的句子作為訓練資料，評估所建立之鑑別模型，找出新實體詞配對的正確性。. （四）關係偵測模型結合鑑別模型後的整體效果評估. 利用鑑別模型找出新的實體詞配對，以包含這些配對的句子加入訓練資料，再評估其對句子分類效果及擷取實體詞配對的正確性影響。. 34.

(42) 6.1 資料來源與討論本論文使用民國 92 年至 104 年多個書局的國中生物課本電子書內容作為文本語料庫，其中共包含 283,605 個句子。表 6. 1 四個類別所有訓練資料正面樣本數具有. 產生. 組成. 缺乏. Training entity pairs. 155. 65. 15. 10. Training sentences. 1004. 579. 214. 66. Testing entity pairs. 32. 12. 4. 2. Testing sentences. 105. 70. 30. 10. 以下四個部分的實驗，我們皆將訓練資料的句子數量之正面樣本數與負面樣本數比例設定為 1:1。在測試資料的句子數量，正面樣本數與負面樣本數的比例則設定為 1:3。負面樣本是從語料庫中，對不具以上四種關係的所有句子進行隨機取樣。. 除了第二部分以外的其他實驗，考慮到「組成」和「缺乏」類別的資料不足，所以僅針對「具有」和「產生」類別進行分析與討論。. 第一部分的實驗選取 50 個事實關係三元詞組，以 10 個為單位分成五份D1 到 D5 ，並以每次增加 10 個事實關係三元詞組的方式增加訓練資料的句子數，評估所建立分類模型之句子關係分類效果，每份訓練資料中對應增加的訓練句子正面樣本數量分別如表 6. 2 所列。 35.

(43) 第三部分的實驗使用表 6. 1 所列的「具有」和「產生」類別訓練資料，並對測試資料進行鑑別模型的分類評估。. 第四部分的實驗將使用第一部分實驗的資料集D1 到D5 ，共 50 個事實關係三元詞組作為訓練資料，並對DA 資料集進行鑑別模型的實體詞配對鑑別，找出新的實體詞配對，並觀察關係偵測模型在加入額外訓練句子前後的效果評估。DA 資料集中有 10 個事實關係三元詞組，對應之句子正面樣本數量如表 6. 2 所示。表 6. 2 第一部分實驗採用的正面樣本的訓練句子數量 Dataset. D𝟏. D𝟐. D𝟑. D𝟒. D𝟓. DA. 具有. 110. 61. 158. 40. 80. 57. 產生. 202. 86. 104. 65. 52. 114. 36.

(44) 6.2 評估指標本論文採用二分類任務常用的精確率(Precision)、召回率(Recall)和綜合評價指標(F1-Measure)作為關係偵測模型的評估指標，鑑別模型則採用正確率作為評估指標，以下分別說明四種評估指標的計算公式。. （一）精確率(Precision). 測試資料中每筆資料經過關係偵測模型最後一層 Sigmoid 激活函數後，透過門檻設置，會將預測值判斷為 0 或 1。接下來將測試資料之預測結果與實際答案計算精確度，如公式 17 所示。 `„. 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 = `„w…„. (公式 17). 其中，𝑇𝑃(True Positive)為預測值為 1 且實際值為 1 的測試資料筆數； 𝐹𝑃(False Positive)為預測值為 1 但實際值為 0 的測試資料筆數。. （二）召回率(Recall). 公式 18 可計算出關係分類之召回率，其中𝐹𝑁(False Negative)為預測值為 0 但實際值為 1 的測試資料筆數。 `„. 𝑅𝑒𝑐𝑎𝑙𝑙 = `„w…‰. (公式 18). （三）綜合評估指標(F1-Measure). F1-Measure 是精確率和召回率的調和均值，計算方式如公式 19 所示。 37.

(45) „ZŒ•-v-T6 ∙ŽŒ••••. 𝐹1 − 𝑀𝑒𝑎𝑠𝑢𝑟𝑒 = 2 ∙ „ZŒ•-v-T6wŽŒ••••. (公式 19). （四）正確性(Correctness). 每一組實體詞配對經過鑑別模型最後一層 tanh 激活函數，得到-1 到 1 的程度值。本論文將門檻值設定為 0，大於門檻值的實體詞配對才判定具有此特定關係，並統計各實體詞配對的出現次數，以人工標記方式計算其正確性，如公式 20 所示。 # TR •TZZŒ•E Œ6E-E’ A•-Zv. 𝐶𝑜𝑟𝑟𝑒𝑐𝑡𝑛𝑒𝑠𝑠 = # TR ••• Œ“EZ••EŒm Œ6E-E’ A•-Zv. 38. (公式 20).

(46) 6.3 增加實體詞配對的分類效果評估本實驗呈現增加已知實體詞配對對訓練關係偵測模型的分類效果評估。其中本實驗的模型訓練回合數(Epochs)設定為 50，批次大小(Batch size)設定為 16，輸出門檻值設定為 0.9。批次是用來優化深度學習時調整梯度下降的單位，每一次訓練回合中，會以批次大小的設定整批更新參數。. 具有 0.7 0.6 0.5 0.4 0.3 0.2 0.1 Precision D1. Recall D1~D2. D1~D3. F1 D1~D4. D1~D5. 圖 6. 1 「具有」類別增加訓練資料後的關係分類效果. 在「具有」類別關係分類效果中，由D1 資料集依序增加D2 到D5 資料集。由圖 6. 1 所示，當增加實體詞配對時，利用遠程監督的概念增加訓練資料量，可使關係偵測模型的效果逐漸提升，尤其是在精確率的提升幅度可以從 0.28 提升到接近 0.6。. 39.

(47) 產生 0.8 0.7 0.6 0.5 0.4 0.3 Precision. Recall D1. D1~D2. D1~D3. F1 D1~D4. D1~D5. 圖 6. 2 「產生」類別增加訓練資料後的關係分類效果. 在「產生」類別關係分類效果中，從D1 資料集依序增加D2 到D5 資料集。由圖 6. 2 所示，整體而言，召回率和綜合評估指標在增加訓練資料量上並沒有明顯的提升，但增加訓練資料量卻可以提升精確率。此外，在增加D3 資料集後的效果反而降低。. 40.

(48) 6.4 關係偵測模型的分類效果本實驗使用四個類別的所有訓練資料，並分成兩個實驗部分：第一部分比較論文[4]的基本模型 CNN+Similarity 和本篇採用的 Bi-LSTM+Attention 模型在設定不同訓練回合下，設定不同門檻值的關係分類效果；第二部分針對 BiLSTM+Attention 模型，設定模型輸出的注意力權重詞語數量限制，比較設定不同候選實體詞數量限制，對模型分類效果之影響。. 6.4.1 關係偵測模型方法之分類效果比較. 本實驗的目的是比較 CNN+Similarity 模型和 Bi-LSTM+Attention 模型在句子關係分類上的效果。. 由於「具有」和「產生」類別的訓練資料量較多，所以將批次大小設定為 32；「組成」和「缺乏」類別的訓練資料量較少，因此將批次大小設定為 16。. (1) CNN+Similarity Model：論文[4]中採用 CNN 基本架構，以句子詞語之間的詞嵌入向量兩兩計算相關性作為模型輸入，再經過兩層卷積層擷取特徵，並預測該句子是否具有特定關係。. (2) Bi-LSTM+Attention Model：本篇採用的模型架構。. 圖 6.3 到圖 6.6 分別為「具有」、「產生」、「組成」和「缺乏」的在 CNN+Similarity 模型及 Bi-LSTM+Attention 模型的分類效果比較，其中(a)、(b)、(c)分別為訓練回合數 50、75 和 100。 41.

(49) (a). (b). (c) 圖 6. 3 「具有」類別的分類效果. 42.

(50) 由圖 6. 3 可得知，在「具有」類別中，兩個模型在精確率上效果接近，都可達到 0.5 到 0.6，但 Bi-LSTM+Attention 模型在召回率上可以優於 CNN+Similarity 大約 0.05 至 0.1。. 43.

(51) (a). (b). (c) 圖 6. 4 「產生」類別的分類效果. 44.

(52) 觀察圖 6. 4，「產生」類別在比較召回率時，Bi-LSTM+Attention 模型表現皆優於 CNN+Similarity 模型，且穩定性較好。而在精確率方面，在訓練回合數較少時，Bi-LSTM+Attention 模型的精確率比 CNN+Similarity 模型較差，尤其是在訓練回合數為 75 時，CNN+Similarity 模型的精確率可以達到大約 0.8，如圖 6. 4。但整體來說，Bi-LSTM+Attention 模型的效果要比 CNN+Similarity 模型穩定。. 45.

(53) (a). (b). (c) 圖 6. 5 「組成」類別的分類效果. 46.

(54) 「組成」類別比較精確率時，在訓練回合數為 50 時，Bi-LSTM+Attention 模型的精確率優於 CNN+Similarity 模型，但當訓練回合數增加，CNN+Similarity 模型效果則逐漸提升，如圖 6. 5 所示。. 47.

(55) (a). (b). (c) 圖 6. 6 「缺乏」類別的分類效果. 48.

(56) 「缺乏」類別在精確率、召回率和綜合評估指標中，Bi-LSTM+Attention 模型皆優於 CNN+Similarity 模型，如圖 6. 6 所示。. 綜合上述結果顯示，CNN+Similarity 模型雖然可以提供不錯的精確率，但整體模型的穩定性較差；反觀 Bi-LSTM+Attention 模型除了可以提供較好的召回率，模型表現的穩定性也相對較好。此外，Bi-LSTM+Attention 模型可以利用注意力機制找出候選實體詞，以進行接下來鑑別模型判斷實體詞配對；而 CNN+Similarity 模型則無法找出候選實體詞，因此本論文採取 Bi-LSTM+Attention 模型。. 6.4.2 注意力權重詞語數量影響模型分類之效果評估經過章節 6.4.1 的實驗觀察後，發現 Bi-LSTM+Attention 模型的預測錯誤多發生在將負面樣本誤判為正面，且大部分被誤判的負面樣本，經過注意力計算後，找不到有五個候選實體詞語，因此在本實驗將加上所找出不同候選實體詞語的數量門檻值限制，判斷一個句子是否具有該關係，並評估設定不同數量門檻值對最後分類效果的影響。由於章節 6.4.1 中的實驗結果顯示設定訓練回合數 100 的效果較為穩定，因此將本實驗將訓練回合數設定為 100，並與章節 6.4.1 相同，將「具有」和「產. 49.

(57) 生」類別的批次大小設定為 32，將「組成」和「缺乏」類別的批次大小設定為 16，模型輸出的機率門檻值設定為 0.9。. 具有. 產生. 0.8. 0.9 0.8 0.7 0.6 0.5. 0.7 0.6 0.5 0.4. 0.4 0.3. 0.3 Precision Att>=0. Recall Att>=3. F1. Precision. Att>=5. Att>=0. 組成. Recall Att>=3. F1 Att>=5. 缺乏. 0.9. 1.2. 0.8. 1. 0.7. 0.8. 0.6. 0.6. 0.5. 0.4. 0.4. 0.2 0. 0.3 Precision Att>=0. Recall Att>=3. F1. Precision Att>=0. Att>=5. Recall Att>=3. F1 Att>=5. 圖 6. 7 四個類別設定不同候選實體詞數量之分類效果. 從圖 6. 7 可觀察到，若沒有限制所找出候選實體詞的數量（圖中以 Att>=0 表示），也就是把所有預測機率值大於門檻值的句子皆預測為具有此關係，在精確率上效果最差。當對候選實體詞數量進行限制，一個句子必須輸出超過 3 個候選實體詞語以上（圖中以 Att>=3 表示）才判斷該句子具有此關係，則發現除了「缺乏」類別以外的三個類別皆在精確率上有明顯提升，但召回率皆會有下降的情況，在綜合評估指標上有提升，可見整體效果是提升的。若僅考慮候選實體詞數量必須 50.

(58) 超過 5 個以上（圖中以 Att>=5 表示）的句子，則可以發現所有類別在精確率的提升幅度更多，但綜合評估指標卻下降，可見召回率的下降幅度較多。當候選實體詞數量設定為 5 時，由於條件過於嚴謹，導致較多正確的句子被判斷錯誤。由圖 6. 7 可得知，除了「缺乏」類別以外的其他類別，在限制候選實體詞數量設定為 3 時效果最佳。由此實驗可得知，候選實體詞數量對於關係偵測模型的分類效果是有影響的，因此在章節 6.5 的實驗會接續此實驗，對不限制候選實體詞數量的所有訓練資料和將候選實體詞數量需到達 5 個的訓練資料句子分別來評估鑑別模型的效果。. 51.

(59) 6.5 鑑別模型之分類效果評估本實驗將以不同參數設定進行鑑別模型之分類效果評估，考慮「組成」和「缺乏」類別的實體詞配對較少，本實驗僅使用「具有」和「產生」類別的訓練資料。鑑別模型會對所有實體詞配對輸出-1 到 1 的程度值，根據所有擷取出來的實體詞配對統計程度值大於 0 的配對次數，並考慮次數𝑛以上的配對計算正確性，如公式 20 所示。此外，本實驗延續章節 6.4.2 的觀察，分別比較不限制候選實體詞數量的訓練資料和限制候選實體詞數量超過 5 個以上的訓練資料，進行鑑別模型的效果評估。. 52.

(60) 6.5.1 未限制候選實體詞數量的訓練資料對鑑別模型之效果表 6. 3 「具有」類別在未限制候選實體詞數量時鑑別模型正確性(Epoch = 100) Batch Size. Extracted Pairs. Correct Pairs. Correctness. 𝒏. 1. 2. 1. 2. 1. 2. 16. 76. 17. 14. 5. 0.184. 0.294. 32. 40. 14. 20. 8. 0.5. 0.571. 64. 16. 2. 9. 1. 0.562. 0.5. 表 6. 4 「具有」類別在未限制候選實體詞數量時鑑別模型正確性(Epoch = 150) Batch Size. Extracted Pairs. Correct Pairs. Correctness. 𝒏. 1. 2. 1. 2. 1. 2. 16. 43. 15. 21. 10. 0.466. 0.666. 32. 58. 19. 22. 10. 0.379. 0.526. 64. 4. 1. 2. 0. 0.5. 0. 表 6. 3 和表 6. 4 分別列出「具有」類別，在不同批次大小訓練出的鑑別模型分類效果。在批次大小為 16 和 32 時，可擷取出新實體詞配對的個數較多，反之設批次大小為 64 時所建立模型，在預測實體詞配對的程度值普遍偏低。但以正確率來看，兩種訓練回合次數的結果皆顯示，有較高比例找出出現次數多於 2 次以上的實體詞配對，尤其訓練回合次數為 150 在𝑛 = 2時的正確率比較高。. 53.

(61) 表 6. 5 「產生」類別在未限制候選實體詞數量時鑑別模型正確性(Epoch = 100) Batch Size. Extracted Pairs. Correct Pairs. Correctness. 𝒏. 1. 2. 1. 2. 1. 2. 16. 54. 10. 10. 3. 0.185. 0.3. 32. 43. 10. 20. 2. 0.465. 0.2. 64. 4. 0. 1. 0. 0.25. 0. 表 6. 6 「產生」類別在未限制候選實體詞數量時鑑別模型正確性(Epoch = 150) Batch Size. Extracted Pairs. Correct Pairs. Correctness. 𝒏. 1. 2. 1. 2. 1. 2. 16. 48. 9. 13. 4. 0.27. 0.444. 32. 55. 10. 9. 2. 0.163. 0.2. 64. 10. 1. 5. 0. 0.5. 0. 表 6. 5 和表 6. 6 分別列出「產生」類別中，在不同批次大小訓練出的鑑別模型分類效果。在批次大小設為 16 時，不同訓練回合次數對分類的效果差異不大。而當批次大小設為 32、訓練回合次數為 100 時，可擷取出較多新的實體詞配對，正確率甚至可以達到將近 0.5。另外，和「具有」類別有相同情況，在批次大小為 64 建立的模型，擷取出新實體詞配對的數量較少。. 從表 6.3 到表 6.6 可得知，兩個類別所找出正確的實體詞配對，皆較集中在出現次數 2 次以上的配對。因此在章節 6.6 的實驗，我們將模型的批次大小設定為 16，且只考慮次數 2 次以上的實體詞配對來增加訓練資料，進行回饋學習後的效果評估。. 54.

(62) 6.5.2 限制候選實體詞數量的訓練資料對鑑別模型之效果評估. 觀察章節 6.4.2 的實驗結果，可發現加上候選實體詞的擷取數量限制確實會影響關係偵測模型的效果，因此本實驗將對關係偵測模型輸出的候選實體詞數量進行限制，由偵測出的正面句子產生訓練資料數量，並觀察對鑑別模型的分類效果影響。由於章節 6.5.1 的實驗中顯示批次大小設定為 64 的效果不佳，因此本實驗只比較批次大小分別設定為 16 和 32 的模型效果。. 表 6. 7 「具有」類別在限制候選實體詞數量時鑑別模型的正確性(Epoch = 100) Batch Size. Extracted Pairs. Correct Pairs. Correctness. 𝒏. 1. 2. 1. 2. 1. 2. 16. 38. 5. 10. 2. 0.263. 0.4. 32. 40. 8. 11. 2. 0.275. 0.25. 表 6. 8 「具有」類別在限制候選實體詞數量時鑑別模型的正確性(Epoch = 150) Batch Size. Extracted Pairs. Correct Pairs. Correctness. 𝒏. 1. 2. 1. 2. 1. 2. 16. 41. 7. 7. 1. 0.171. 0.142. 32. 39. 8. 8. 1. 0.205. 0.125. 表 6. 7 和表 6. 8 分別列出「具有」類別，在不同批次大小訓練出的鑑別模型分類效果。無論批次大小設定為 16 或 32，可擷取出來的新實體詞配對數量大約. 55.

(63) 是 40 個，但在正確性上，正確的實體詞配對並沒有集中在配對出現次數𝑛 = 2的情況。. 表 6. 9 「產生」類別在限制候選實體詞數量時鑑別模型的正確性(Epoch = 100) Batch Size. Extracted Pairs. Correct Pairs. Correctness. 𝒏. 1. 2. 1. 2. 1. 2. 16. 46. 7. 11. 3. 0.239. 0.428. 32. 33. 9. 10. 2. 0.303. 0.222. 表 6. 10 「產生」類別在限制候選實體詞數量時鑑別模型的正確性(Epoch = 150) Batch Size. Extracted Pairs. Correct Pairs. Correctness. 𝒏. 1. 2. 1. 2. 1. 2. 16. 41. 7. 13. 2. 0.317. 0.285. 32. 45. 7. 12. 3. 0.266. 0.428. 表 6. 9 和表 6. 10 分別列出「產生」類別在不同批次大小訓練出的鑑別模型分類效果。比較鑑別模型將批次大小為 16 和 32，可以發現批次大小設定為 32 的正確性效果較好，此外鑑別模型在「產生」類別上，正確實體詞配對的集中性較不穩定。. 根據上述實驗結果的原因，推測是因為加上限制候選實體詞數量的限制，雖然可以提高關係偵測模型的分類效果，但能進行訓練的句子卻減少，影響鑑別模型的預測效果。而測試資料中判斷為具有此特定關係的句子也減少，造成出現次數超過 2 次的實體詞配對數量也隨之降低，使模型正確性不穩定。 56.

(64) 6.6 關係偵測模型結合鑑別模型的整體效果評估本實驗採取章節 6.5 中「出現次數 2 次以上」的新實體詞配對，使用遠程監督的概念，再從文本語料庫抓取額外的句子，加入訓練資料集，調整關係偵測模型的參數。本實驗比較回饋學習機制前後的模型分類效果，其中關係偵測模型的輸出門檻值設定為 0.9，並比較不同參數設定。此外，由於本實驗使用的資料集規模不足，無法達到多次回饋學習，因此本實驗僅進行一次回饋學習機制，並討論實驗結果。表 6. 11 新實體詞配對及句子數量 New Entity Pairs. New Sentences. 具有. 2. 17. 產生. 11. 90. 本實驗使用表 6. 2 的資料集D1 到D5 (以 Original 表示)，進行關係偵測模型得到的分類效果。接著使用鑑別模型，找出新的實體詞配對，「具有」類別和「產生」類別分別為 2 個和 11 個新實體詞配對，從文本語料庫中找到的句子數量分別為 17 句和 90 句，將這些句子加入關係偵測模型的訓練資料(以 New 表示)，如表 6. 11 所列。圖 6. 8 和圖 6. 9 分別是「具有」和「產生」在訓練回合 50 時，增加訓練資料前後的效果比較，其中(a)、(b)、(c)分別是批次大小設為 8、16、32 所建立模型之分類效果，其中關係偵測模型輸出的門檻值設定為 0.9。. 57.

(65) (a). (b). (c) 圖 6. 8 「具有」類別加入新實體詞配對句子後的分類效果(Epoch = 50) 58.

(66) 由圖 6. 8 可以得知，「具有」類別在不同批次大小的情況下，加入新的訓練資料後，在精確率的效果都有提升，尤其是在批次大小設為 32 時，整個訓練模型的效果都有明顯提升；然而，在批次大小 8 時，僅只有精確率有小幅提升，召回率和綜合評估指標都降低。. 59.

(67) (a). (b). (c) 圖 6. 9 「產生」類別加入新實體詞配對句子後的分類效果(Epoch = 50) 60.

(68) 而由圖 6. 9 得知，「產生」類別在批次大小為 8 時，加入新訓練資料後的效果反而降低模型的分類效果，但批次大小為 16 時無明顯影響，在批次大小為 32 時，整體效果提升。. 上述結果顯示，回饋學習機制的確可能提升關係模型的分類效果。但批次大小的設定可能有關鍵性的影響。. 61.

(69) 第七章結論與未來研究方向本論文研究從中文文本進行關係自動擷取，提出以關係偵測模型和鑑別模型進行關係分類和實體詞配對擷取。關係偵測模型以相關研究[9]所提出的二維度注意力機制句子關係分類模型為基礎，進行關係分類與找出候選實體詞配對；鑑別模型以 GAN 模型中的鑑別模型為概念，將關係偵測模型產生的候選實體詞配對，判斷該實體詞配對是否具有此特定關係。最後將兩者進行回饋學習機制，提升關係分類效果。本論文驗證當增加實體詞配對和句子數量時，可讓模型達到比較好的分類效果；另外比較關係偵測模型使用不同方法的關係分類效果，其中本篇的 Bi-LSTM+Attention 模型效果較為穩定，且可用於取出候選實體詞配對；本論文並利用固定數量的實體詞配對作為訓練資料，來評估鑑別模型對候選實體詞配對的分類效果；最後將兩個模型的輸出進行回饋學習機制，增加訓練資料數量，成功提升關係偵測模型的效果。. 本研究未來可蒐集更多事實關係三元詞組，並擴大文本語料庫，使兩個模型可以進行多次回饋學習機制，讓模型達到效果最佳化。. 62.

(70) 參考文獻 [1] E. Agichtein, L. Gravano. (2000). Snowball: Extracting Relations from Large Plain-Text Collections. In Proceedings of the 5th ACM International Conference on Digital Libraries.. [2] A. Bordes, N. Usunier, A. Garcia-Dur´an. (2013). Translating Embeddings for Modeling Multi-relational Data. In Proceedings of the 2013 Neural Information Processing Systems Conference. (NIPS 2013). [3] S. Brin. (1998). Extracting patterns and relations from the World-Wide Web. In Proceedings of the 1998 International Workshop on the Web and Databases (WebDB’98). [4] B. Chiang. (2018). Automatic Detection of User’s Query Intentions for Community Question Answering. In Department of Computer Science and Information Engineering, National Taiwan Normal University.. [5] R. Hoffmann, C. Zhang, X. Ling, L. Zettlemoyer, and D.S. Weld. (2011). Knowledge-Based Weak Supervision for Information Extraction of Overlapping Relations. In Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics.. 63.

(71) [6] N. Kalchbrenner, E. Grefenstette, and P. Blunsom. (2014). A Convolutional Neural Network for Modelling Sentences. In Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics.. [7] Y. Kim. (2014). Convolutional Neural Networks for Sentence Classification. In Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP).. [8] D. P. Kingma, and M. Welling. (2014). Stochastic Gradient VB and the Variational Auto-encoder. In Proceedings of the 2nd International Conference on Learning Representations (ICLR).. [9] Z. Linz, M. Feng, C. Nogueira dos Santos, M. Yu, B. Xiang, B. Zhou & Y. Bengiozy. (2017). A Structured Self-Attentive Sentence Embedding. In Proceedings of the 5th International Conference on Learning Representations (ICLR).. [10] Y. Lin, S. Shen, Z. Liu, H. Luan, M. Sun. (2016). Neural Relation Extraction with Selective Attention over Instances. In Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics.. [11] M.Luong, H.Pham, and C.Manning. (2015). Effective Approach to Attention-based Neural Machine. In Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing (EMNLP). 64.

(72) [12] T. Mikolov, K. Chen, G. Corrado, J. Dean. (2013). Efficient Estimation of Word Representations in Vector Space. In arXiv:1301.3781 [cs.CL].. [13] M. Mintz, S. Bills, R. Snow, and D. Jurafsky. (2009). Distant supervision for relation extraction without labeled data. In Proceedings of the 47th Annual Meeting of the ACL and the 4th IJCNLP of the AFNLP.. [14] M. Qu, X. Ren, Y. Zhang , and J. Han. (2018). Weakly-supervised Relation Extraction by Pattern-enhanced Embedding Learning. In Proceedings of the 27th International Conference on World Wide Web (WWW).. [15] S. Riedel, L. Yao, and A. McCallum. (2010). Modeling Relations and Their Mentions without Labeled Text. In Proceedings of ECML PKDD.. [16] D. Zelenko, C. Aone, A. Richardella. (2003). Kernel Methods for Relation Extraction. In the Journal of Machine Learning Research.. [17] D. Zeng, K. Liu, Y. Chen, and J. Zhao. (2015). Distant Supervision for Relation Extraction via Piecewise Convolutional Neural Networks. In Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing (EMNLP).. [18] C. Zhang, Y. Li, N. Du, W. Fan, P. S. Yu. (2018). On the Generative Discovery of Structured Medical Knowledge. In Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD). 65.