緒論 - 以遠程監督式學習從中文文本進行關係自動擷取

特定關係的一組實體詞配對(Entity Pair)是由兩個有此關係的專有名詞組成，

且每一組實體詞配對都具有順序性，前實體詞與後實體詞不可交換。以前段落所

1.4 研究方法

為了擷取出文章中的事實三元詞組，本論文結合兩個模組，第一個模組為關係偵測模型(Relation Detection Model)，以遠程監督(Distant Supervision)的概念為基礎，利用遞迴類神經網路學習出一個分類模型。除了用來預測一個句子是否具有某種特定關係，並擷取出句子的候選實體詞詞語，採用這些候選實體詞詞語作為鑑別模型的輸入。另一個模組為鑑別模型(Discriminative Model)，採用已知給定的事實實體詞配對當作訓練資料，學習判定一組實體詞配對是否是一個句子中最可能具有此特定關係的配對。最後利用鑑別模型找出的實體詞配對，再以遠程監督的概念增加訓練資料數量，以進一步提升關係偵測模型的關係擷取效果，研究方法架構如圖1. 1 所示。

圖1. 1 遠程監督式學習關係擷取之架構

首先，本論文將以國中生物課本內容作為文本語料庫及其課本附錄索引詞作為實體詞辭典，將文本中每個句子進行前處理(Pre-processing) ，包含斷詞 (Segmentation)及詞性(Part-Of-Speech Tags)分析，接著將每個詞及對應詞性透過 Word2Vec 轉成嵌入向量表示(Embedding)。

本論文參考[9]架構提出關係偵測模型(Relation Detection Model)，以句子為單

位從訓練資料學習出一個句子是否具有某種關係的預測模型。此模型透過遞迴類神經網路(Recurrent Neural Networks, RNN)模型進行特徵提取，以句子中是否包含

特定關係的機率值作為輸出，表示此句子中具有此關係的可能性。此外，本研究

實驗將分成四個部份進行評估：第一部份，比較增加實體詞配對後，增加訓練資料數量的分類效果；第二部分，比較本論文提出的關係偵測模型與其他類神經網路為基礎的關係預測模型，以句子關係預測的精確率作為評估方式；第三部份，對鑑別模型進行實體詞配對擷取之正確性評估；第四部份，評估關係偵測模型加上鑑別模型共同學習後用來預測關係的效果。

1.5 論文架構

本論文以下章節內容簡介如下：第二章說明相關文獻探討。第三章說明本論文之問題定義及系統架構。第四章說明資料前處理及特徵產生方式。第五章詳細說明關係偵測模型和鑑別模型，以及回饋學習機制。第六章將呈現本論文方法的實驗結果評估與討論，最後在第七章提出總結並探討未來研究方向。

2.1 關係擷取(Relation Extraction)

以往研究提出的文本關係擷取方法，主要分成對文本中的句子判斷具有何種詞(N-gram)，或是以文本句子中的實體詞為基礎的命名實體詞類型(Named Entity Type)，以及以自然語言分析結果為基礎的詞性(Part Of Speech, POS)、句法剖析 (Parsing)等。取得特徵後，再使用監督式概念的分類器如支援向量機(Support Vector

在文檔中以遠程監督式學習從中文文本進行關係自動擷取 (頁 8-14)