3.1 問題定義
[定義 1] 實體詞(Entity):文本語料庫中,根據不同背景知識而擷取出來的專有名
詞。本論文主要以國中生物課本內容作為文本語料庫,因此實體詞為課本中標示 出的關鍵索引詞。
[定義 2] 事實關係三元詞組:兩個實體詞 𝒆𝒉 和 𝒆𝒕 之間具有某種關係 𝒓,本論 文將以(前實體詞,後實體詞,關係)表示為一個事實關係三元詞組 (𝒆𝒉, 𝒆𝒕, 𝒓)。
例如:「細胞」為前實體詞𝒆𝒉,「細胞核」為後實體詞𝒆𝒕,兩者之間的關係𝒓為「具 有」,即可表示為(細胞,細胞核,具有),也就是「細胞具有細胞核」。
[問題定義] 給定一個文本語料庫(Text Database)和知識庫(Knowledge Database),
語料庫中每個句子由多個中文字組成,而知識庫裡則提供事先已知具有某關係 𝒓 的事實關係三元詞組所形成的集合𝑹。本論文的研究目標是由𝑹中的事實關係三元
詞組,以遠程監督的方式從文本語料庫中進行關係預測模型的學習,並用來預測 語料庫中其他句子是否具有此關係 𝒓,並從預測包含此關係的句子中,擷取出新 的事實關係三元詞組。
15
3.2 系統架構與流程
本論文提出的關係擷取系統架構及訓練流程可分為三部分:(一)資料前處理、
(二)基於類神經網路的關係偵測模型與鑑別模型、(三)回饋學習機制,如 圖 3. 1 所示。
(一) 資料前處理:包含斷詞(Segmentation)、詞性標記(Part-Of-Speech Tagging, POS Tagging),以及產生輸入特徵表示法的詞嵌入(Word Embedding)和詞性嵌 入(POS Embedding)預訓練。
(二) 建立類神經網路模型:主要分為關係偵測模型(Relation Detection Model) 和鑑別模型(Discriminative Model)的建立。
(三) 回饋學習機制:上述兩個模型輸出後,以回饋學習機制調整兩個模型的 效果。
圖3. 1 遠程監督式學習關係擷取系統之訓練架構
16
關係偵測模型(Relation Detection Model):採用遞迴類神經網路(Recurrent Neural Network, RNN)學習架構,輸入一個句子中的所有詞嵌入和詞性嵌入向量,
經過雙向長短期記憶網路(Bidirectional Long Short Term Memory Network, Bi-LSTM)層,將輸出之隱藏特徵向量經過全連接層後,預測該句子具有特定關係的
17
機率值。另外本方法採用以注意力機制,擷取出句子中可能包含此特定關係的候 選實體詞。
鑑別模型(Discriminative Model):輸入兩個實體詞的詞嵌入向量,四個不同關 係的代表動詞(具有、產生、組成、缺乏)之詞嵌入向量,以及兩個實體詞同時 出現的一個句子。此模型以前實體詞之詞嵌入向量和後實體詞之詞嵌入向量的向 量差來表示兩者的關係特徵,以此向量差分別與四個關係動詞和句子中所有詞語 的詞嵌入向量計算注意力權重值,用來產生前後文特徵(Context Features),以預測 此實體詞配對具有特定關係的程度值。
(三)回饋學習機制
經過上述兩個訓練模型後,可以得到新的事實實體詞配對,利用這些新的事 實實體詞配對,使用遠程監督式學習的概念,再從文本語料庫中選取同時包含新 實體詞配對的句子,並加入訓練資料,調整關係偵測模型以提升模型的效果。
18