第三章 系統架構與資料前處理
3.1 系統架構與流程
本論文提出一個提問意圖的自動偵測系統,以使用者在有問必答網的提問作 為資料。系統的架構可分為三大部分:(一)資料前處理、(二)產生輸入特徵、以及 (三)基於卷積神經網絡的學習網路(CNN based Learning Network),如圖 3.1 所示。
(一)、 資料前處理: 包含斷詞和詞性標記(Segmentation and POS Tagging)及零 填充(Zero Padding)。
(二)、 產 生 輸 入 特 徵 : 包 含 詞 嵌 入 (Word Embedding) 、 詞 性 嵌 入 (POS Embedding)、詞向量維度關聯特徵計算(Pairwise Feature Correlation)、及概念 關鍵字相似度計算(Concept Keyword Similarity)。
(三)、 基於卷積神經網絡的學習網路(CNN based Learning Network):本論文所 提出基於卷積神經網絡之使用者意圖檢測的主要處理模組。其中產生輸入特 徵的過程,還包括要進行詞嵌入與詞性嵌入學習所使用的外部知識來源 (External Knowledge)文件庫 Wikipedia 及 120ask。
圖3.1 使用者的提問意圖偵測之架構
整個架構的處理流程簡述如下:
(一)、 資料前處理
首先,從有問必答網(120ask)蒐集使用者的提問將每一則提問視為一則文本,
先進行自然語言處理。Segmentation and POS Tagging 模組會將文本進行斷詞和 詞性標記,獲得表示文本特徵的一組詞語(Words)以及一組單詞對應的詞性(POS)。
Zero Padding 模組則用來解決文本長度不一的問題。
(二)、 產生輸入特徵
事先透過維基百科(Wikipedia)的文件庫和有問必答網(120Ask)的問答文本,
分別預訓練出單詞和詞性的嵌入表示法(embedding representation),幫助單詞做單 詞嵌入(Word Embedding),並對詞性做詞性嵌入(POS Embedding)處理。使用者意 圖偵測的輸入特徵包括以下三種類型:
(1) Pairwise Feature Correlation Matrix
採用[18]提出的Pairwise Feature Correlation 計算方式,將提問文本的詞向量 矩陣的每一維度作為特徵,將特徵兩兩成對進行餘弦相似度計算,產生詞向量維 度關聯矩陣(Pairwise Feature Correlation Matrix),用以呈現文本中各個詞嵌入向 量上的語意一致性程度。
(2) Concept Keyword Similarity
文本中的單詞會與一組指定的醫療概念關鍵字計算餘弦相似度,產生的概念 關鍵字相似矩陣(Concept Keyword Similarity Matrix),表示單詞與各個醫學概念
(3) POS Embedding Matrix
將文本中各單詞的詞性,透過預訓練的詞性向量表示法轉換成詞性向量矩陣 (POS Embedding Matrix)表示。
(三)、 基於卷積神經網絡的學習網路(CNN based Learning Network)
本論文提出兩種基於卷積神經網絡的學習架構,進行使用者意圖偵測 :
(1) CNN Joint Model
圖3.2 CNN Joint Model (未標註各層參數)
第一種架構如圖3.2 所示,對每筆提問的 Pairwise Feature Correlation Matrix、
Concept Keyword Similarity Matrix 及 POS Embedding Matrix,各別經過兩回合卷 積層和池化層處理,再進行平坦層處理。然後將產生的特徵向量合併接合成一個 特徵向量,再經過兩回合全連接層學習特徵權重,以Sigmoid 函式計算出該提問 包含不同意圖類型(Intention Type)的程度值作為輸出結果。最後會將每種意圖類 型的程度值由大至小排序,以程度值大於門檻值θ作為模型預測的意圖類型,本 論文將此架構稱為CNN Joint Model。
(2) Ensemble CNN Model
第二種架構如圖 3.3 所示,先對每筆提問的三類特徵 Pairwise Feature Correlation Matrix、Concept Keyword Similarity Matrix 及 POS Embedding Matrix,
分別建立 CNN Model。特徵一樣經過兩回合的卷積層及池化層處理後,再進行 平坦層和全連接層處理,每類特徵會獨立訓練預測意圖類型的模型。再將這三類 特徵所產生的預測結果,透過Ensemble Parameter 學習每類特徵預測結果的組合 比重,用來計算最後意圖類型的預測結果。最後會將每種意圖類型的程度值由大 至小排序,取出程度值大於門檻值θ作為模型預測的意圖類型,本論文將此架構 稱為Ensemble CNN Model。