問題定義與系統架構 - 以遠程監督式學習從中文文本進行關係自動擷取

3.1 問題定義

[定義 1] 實體詞(Entity)：文本語料庫中，根據不同背景知識而擷取出來的專有名

詞。本論文主要以國中生物課本內容作為文本語料庫，因此實體詞為課本中標示出的關鍵索引詞。

[定義 2] 事實關係三元詞組：兩個實體詞 𝒆_𝒉 和 𝒆_𝒕 之間具有某種關係 𝒓，本論文將以(前實體詞，後實體詞，關係)表示為一個事實關係三元詞組 (𝒆_𝒉, 𝒆_𝒕, 𝒓)。

例如：「細胞」為前實體詞𝒆_𝒉，「細胞核」為後實體詞𝒆_𝒕，兩者之間的關係𝒓為「具有」，即可表示為(細胞,細胞核,具有)，也就是「細胞具有細胞核」。

[問題定義] 給定一個文本語料庫(Text Database)和知識庫(Knowledge Database)，

語料庫中每個句子由多個中文字組成，而知識庫裡則提供事先已知具有某關係 𝒓 的事實關係三元詞組所形成的集合𝑹。本論文的研究目標是由𝑹中的事實關係三元

詞組，以遠程監督的方式從文本語料庫中進行關係預測模型的學習，並用來預測語料庫中其他句子是否具有此關係 𝒓，並從預測包含此關係的句子中，擷取出新的事實關係三元詞組。

3.2 系統架構與流程

本論文提出的關係擷取系統架構及訓練流程可分為三部分：（一）資料前處理、

（二）基於類神經網路的關係偵測模型與鑑別模型、（三）回饋學習機制，如圖 3. 1 所示。

（一）資料前處理：包含斷詞(Segmentation)、詞性標記(Part-Of-Speech Tagging, POS Tagging)，以及產生輸入特徵表示法的詞嵌入(Word Embedding)和詞性嵌入(POS Embedding)預訓練。

（二）建立類神經網路模型：主要分為關係偵測模型(Relation Detection Model) 和鑑別模型(Discriminative Model)的建立。

（三）回饋學習機制：上述兩個模型輸出後，以回饋學習機制調整兩個模型的效果。

圖3. 1 遠程監督式學習關係擷取系統之訓練架構

關係偵測模型(Relation Detection Model)：採用遞迴類神經網路(Recurrent Neural Network, RNN)學習架構，輸入一個句子中的所有詞嵌入和詞性嵌入向量，

經過雙向長短期記憶網路(Bidirectional Long Short Term Memory Network, Bi-LSTM)層，將輸出之隱藏特徵向量經過全連接層後，預測該句子具有特定關係的

機率值。另外本方法採用以注意力機制，擷取出句子中可能包含此特定關係的候選實體詞。

鑑別模型(Discriminative Model)：輸入兩個實體詞的詞嵌入向量，四個不同關係的代表動詞（具有、產生、組成、缺乏）之詞嵌入向量，以及兩個實體詞同時出現的一個句子。此模型以前實體詞之詞嵌入向量和後實體詞之詞嵌入向量的向量差來表示兩者的關係特徵，以此向量差分別與四個關係動詞和句子中所有詞語的詞嵌入向量計算注意力權重值，用來產生前後文特徵(Context Features)，以預測此實體詞配對具有特定關係的程度值。

（三）回饋學習機制

經過上述兩個訓練模型後，可以得到新的事實實體詞配對，利用這些新的事實實體詞配對，使用遠程監督式學習的概念，再從文本語料庫中選取同時包含新實體詞配對的句子，並加入訓練資料，調整關係偵測模型以提升模型的效果。

在文檔中以遠程監督式學習從中文文本進行關係自動擷取 (頁 21-25)