醫療社群問答系統提問意圖偵測之研究

全文

(1)國立台灣師範大學資訊工程研究所碩士論文. 指導教授：柯佳伶博士. 醫療社群問答系統提問意圖偵測之研究 Automatic Detection of User’s Query Intentions for Community Question Answering. 研究生：姜博文. 撰. 中華民國一百零七年八月.

(2) 摘要醫療社群問答系統提問意圖偵測之研究姜博文本論文建立一個使用者提問文本之意圖類型偵測系統，提出三種類型的特徵資料，第一種是詞嵌入向量產生向量維度之間的關聯性特徵資料﹐第二種是每個單詞與醫療概念關鍵字相似度特徵資料，第三種是詞性嵌入向量特徵資料。本論文並提出兩種基於卷積神經網路的學習網路，第一種是 CNN Joint Model，利用多種特徵資料的特徵向量，學習預測提問文本之意圖類型，第二種是 Ensemble CNN Model，每種特徵資料會先獨立預測提問文本之意圖類型程度值，並利用 Ensemble 參數學習每個特徵比重，再將每個特徵資料的預測結果與比重相乘後再相加，用以調整模型預測結果。實驗結果顯示，醫療概念關鍵字特徵與詞向量維度關聯特徵同時作為輸入特徵時，能更有效地預測提問文本的意圖類型，再與傳統的詞嵌入向量或詞性嵌入向量做為同時輸入的特徵資料時，可使模型分類效果提升。透過實驗綜合評估，當系統推薦程度值大於門檻值 0.3 的意圖類型時，可以實現最佳的意圖類型預測效果，F1 評估值可達到 0.75。. 關鍵字:意圖類型分類、醫療概念關鍵字特徵、基於卷積神經網路的學習網路 i.

(3) ABSTRACT Automatic Detection of User’s Query Intentions for Community Question Answering by Bo-Wen Chiang This paper aims to establish an intention type detection system for user questions. We propose three types of feature data. The first one is using the word embedding vector to generate the correlation features between the various vector dimensions. The second is the similarity features of each word with a set of pre-defined medical concept keywords. The third one is the embedded vector feature of the part-of-speech for each word. Then two frameworks of CNN-based learning models are proposed. The first one is CNN Joint Model, which concatenates CNN output results of various types of features to learn the intention types. The second one is Ensemble CNN Model. The feature data is used to predict the intention type degree value independently. Then the Ensemble parameters are used to learn the weight of each feature to combine the prediction results of various types of features. The results of experiments show that when the medical concept keyword feature and the word vector dimension association feature are combined as input features, the intent type of the question text can be predicted with high F1 measure. To combine with the traditional word embedding vector or part-of-speech embedding vector as the input feature data at the same time, the prediction result can be improved furthermore. Through the comprehensive evaluation on the experiments, when the predicted intention type degree value greater than a threshold value 0.3, the best result of intention types prediction can be achieved, whose F1 measure is at least 0.75.. Keywords: intention types classification, medical concept keyword feature, learning network based on CNN. ii.

(4) 誌謝碩士班的兩年中，能完成碩士學位與論文，首先感謝我的指導教授柯佳伶老師。感謝老師耐心與細心的指導，在論文研究時指引我方向，讓我能順利完成研究。在處事上也學習面對問題的態度與思考的方式，並且提醒自己審慎思考再做出回復，在面對任何問題時都能應對自如。在論文撰寫階段，感謝老師逐字批改並教導我論文寫作的技巧。由衷地感謝老師這些日子的包容與指導。. 感謝陳良弼教授、徐嘉連教授與吳宜鴻教授百忙之中擔任口試委員，給予我許多寶貴的建議與指導，讓我更清楚地了解自己不足的地方，使論文研究能更加完善，在此致上謝意。. 感謝謹安、修毅、家儀與仕翰，在論文研究上總是與我討論與指點，謝謝你們。感謝政穎與成聿，每個月一起開會討論，給予我許多的建議與幫助，謝謝你們。感謝實驗室的夥伴翊誠、盈翔、明潔與碩 0 的學弟妹們，在口試時，幫忙布置教室、記錄與攝影，謝謝你們。. 感謝我的父母親，這兩年來的支持與鼓勵，時常關心我的健康和論文的進度，對於我來說，有你們是讓我能持續研究的動力，我才能完成碩士學位。. 姜博文謹識於國立台灣師範大學資訊工程研究所 2018 年 8 月 iii.

(5) 目錄第一章. 緒論............................................................................................................ 1. 1.1. 研究動機.................................................................................................... 1. 1.2. 研究目的.................................................................................................... 2. 1.3. 研究限制與範圍 ....................................................................................... 4. 1.4. 論文方法.................................................................................................... 5. 1.5. 論文架構.................................................................................................... 6. 第二章. 文獻探討.................................................................................................... 7. 2.1. 關鍵字搜尋 ............................................................................................... 7. 2.2. 自然語言提問 ........................................................................................... 8. 2.3. 以類神經網路進行文本分類 ................................................................... 9. 第三章. 系統架構與資料前處理.......................................................................... 14. 3.1. 系統架構與流程 ..................................................................................... 14. 3.2. 資料前處理 ............................................................................................. 19. 第四章. 輸入特徵產生方式.................................................................................. 23. 4.1. 詞嵌入和詞性嵌入向量預訓練 ............................................................. 23. 4.2. 詞向量維度關聯特徵計算 ..................................................................... 24. 4.3. 概念關鍵字相似度計算 ......................................................................... 25. 4.4. 詞性嵌入向量特徵 ................................................................................. 27. 第五章. 使用者意圖偵測方法.............................................................................. 28. 5.1. CNN Joint Model ................................................................................... 29. 5.2. Ensemble CNN Model ........................................................................... 35. 第六章. 實驗結果及探討...................................................................................... 38. 6.1. 資料來源與討論 ..................................................................................... 39. 6.2. 評估指標.................................................................................................. 40 iv.

(6) 6.3. CNN Joint Model 之分類效果評估 ...................................................... 42. 6.4. Ensemble CNN Model 之分類效果評估 .............................................. 52. 6.5. 各架構綜合評估 ..................................................................................... 59. 第七章. 結論與未來研究方向.............................................................................. 65. 參考文獻...................................................................................................................... 66 附錄一詞嵌入向量特徵的 CNN Model 架構和參數設定...................................... 70 附錄二系統預測真實提問文本的意圖類型............................................................ 71. v.

(7) 附圖目錄圖 1.1 線上醫療問答網站 - 有問必答網(120ask) ............................................................. 1 圖 1.2 使用者在有問必答網發佈的問題 ............................................................................... 1 圖 1.3 概念圖包括所有使用者可能提出的概念以及意圖類型 ........................................... 4 圖 2.1 基於 CNN 的 Dynamic k-max pooling 方法[8] ......................................................... 10 圖 2.2 基於 CNN 的醫療提問文本分類架構[18] ................................................................ 11 圖 2.3 基於 RNN 的提問意圖分類簡要架構[19] ................................................................ 12 圖 3.1 使用者的提問意圖偵測之架構 ................................................................................. 15 圖 3.2 CNN Joint Model (未標註各層參數) .......................................................................... 17 圖 3.3 Ensemble CNN Model (未標註各層參數) ................................................................. 18 圖 3.4 斷詞及詞性標記的結果 ............................................................................................. 19 圖 4.1 詞向量維度關連特徵流程 ......................................................................................... 24 圖 4.2 詞向量維度關連矩陣 ................................................................................................. 24 圖 4.3 關鍵字相似度計算流程 ............................................................................................. 25 圖 4.4 概念關鍵字相似度矩陣 ............................................................................................. 27 圖 5.1 CNN Joint Model (標註各層參數) .............................................................................. 29 圖 5.2 全連接層處理 ............................................................................................................. 33 圖 5.3 Ensemble CNN Model (標註各層參數) ..................................................................... 35 圖 5.4 (a) MPFC 的 CNN Model (標註各層參數) .................................................................. 36 圖 5.4 (b) MCKS 的 CNN Model (標註各層參數)…………………………………………………36 圖 5.4 (c) MPE 的 CNN Model (標註各層參數) …………………………………………………..36 圖 6.1 意圖類型分佈 ............................................................................................................. 40 圖 6.2 四種特徵資料單獨採用的 F1 score .......................................................................... 42 圖 6.3 (a) 只有 1 種意圖類型的提問文本之採用單一種特徵之分類效果 ........................ 43. vi.

(8) 圖 6.3(b) 有 2 種意圖類型的提問文本採用單一種特徵之分類效果……………………..43 圖 6.4. CNN Joint Model 之 F1 score (兩種特徵組合) ..................................................... 45. 圖 6.5 (a) CNN Joint Model 之 F1 score (兩種特徵組合,只有 1 種意圖類型之提問) ........ 46 圖 6.5 (b) CNN Joint Model 之 F1 score (兩種特徵組合,有 2 種意圖類型之提問)……….46 圖 6.6. CNN Joint Model 之 F1 score (三種特徵組合) ..................................................... 48. 圖 6.7 (a) CNN Joint Model 之 F1 score (三種特徵組合,只有 1 種意圖類型之提問) ........ 48 圖 6.7 (b) CNN Joint Model 之 F1 score (三種特徵組合,有 2 種意圖類型之提問)……….49 圖 6.8. CNN Joint Model 之 F1 score (四種特徵組合) ..................................................... 50. 圖 6.9 (a) CNN Joint Model 之 F1 score (四種特徵組合,只有 1 種意圖類型之提問) ........ 50 圖 6.9 (b) CNN Joint Model 之 F1 score (四種特徵組合,有 2 種意圖類型之提問)……….51 圖 6.10. Ensemble CNN Model 之 F1 score (兩種特徵組合) ............................................. 53. 圖 6.11(a) Ensemble CNN Model 之 F1 score(兩種特徵組合,只有 1 種意圖類型之提問).53 圖 6.11(b) Ensemble CNN Model 之 F1 score (兩種特徵組合,有 2 種意圖類型之提問)....54 圖 6.12. Ensemble CNN Model 之 F1 score (三種特徵組合) ............................................. 55. 圖 6.13(a) Ensemble CNN Mode 之 F1 score(三種特徵組合,只有 1 種意圖類型之提問) . 55 圖 6.13(b) Ensemble CNN Model 之 F1 score (三種特徵組合,有 2 種意圖類型之提問)…56 圖 6.14. Ensemble CNN Model 之 F1 score (四種特徵組合) ............................................. 57. 圖 6.15(a) Ensemble CNN Mode 之 F1 score(四種特徵組合,只有 1 種意圖類型之提問) . 57 圖 6.15(b) Ensemble CNN Model 之 F1 score (四種特徵組合,有 2 種意圖類型之提問)…58 圖 6.16 最佳輸入特徵資料組合之分類效果比較 ............................................................... 59 圖 6.17 兩個架構之門檻值θ之設定 ..................................................................................... 60 圖 6.18(a) CNN Model (CKS) ................................................................................................ 61 圖 6.18(b) CNN Model (PFC)………………………………………………………………………………...61 圖 6.18(c) CNN Model (WE) ………………………………………………………………………………...62 圖 6.18(d) CNN Joint Model (CKS+PFC+WE)…….……………………………………………………62. vii.

(9) 圖 6.18(e) Ensemble CNN Model (CKS&PFC&WE)………………………………………………….63 圖 6.19 系統預測真實提問文本的意圖類型之例子 ........................................................... 64. viii.

(10) 附表目錄表 1.1 提問與意圖類型 1 ............................................................................................. 3 表 4.1 醫療概念的關鍵字表 ..................................................................................... 26 表 5.1 卷積層與最大池化層參數設定 ..................................................................... 30 表 6.1 真實提問文本之資訊 ..................................................................................... 39. ix.

(11) 第一章緒論 1.1. 研究動機現代社會人們對於健康問題日益重視，但可以獲得的醫療資訊有限。因此. 網路上出現了大量的線上醫療問答網站[15]，以滿足有醫療提問需求的民眾。. 圖 1.1 線上醫療問答網站 - 有問必答網(120ask) 圖 1.1 所示是一個線上醫療問答網站的例子 – 有問必答網(120ask)，使用者可以在問答網站依不同科別發佈醫療相關問題，而已註冊的醫生則可在線上公開提供專業意見和建議。. 圖 1.2 使用者在有問必答網發佈的問題一則使用者提問的實際範例，如圖 1.2 所示，提問內容中“因为抑郁症我对. 1.

(12) 洗漱、着衣等生活小事困难费劲，力不从心。”描述出使用者的目前情況，以及使用者想知道的是“有沒有抑鬱症好的治療辦法?”的醫療資訊，這兩個部分表達的概念即形成其提問意圖。. 然而使用者提問以自然語言描述方式，不容易由電腦自動取出提問意圖，尤其在表達相同的事情時，使用者可能使用不同的描述文字來呈現自己的想法。例如:鼻子不舒服、鼻子阻塞、鼻子塞住和鼻塞等，雖然都是描述鼻子的症狀，但描述的用字卻不一樣。此外，在使用者描述問題時，有時會明確描述自己的問題，例如:“憂鬱症要怎麼治療?”，有時則會以隱含的方式描述自己的問題。例如:“我得了憂鬱症，是不是應該看醫生?”，因此如何了解隱含的描述背後想表達的語意概念將會是一種挑戰。. 若能夠從這些醫療提問中，自動分析出使用者提問意圖，則醫療問答網站能主動查詢已有回覆的相似提問，或進一步從提問與醫生回覆中，自動分析並學習醫療詞彙間的關聯，建立醫療知識庫。因此提出一個能自動分析使用者提問意圖 (Query intentions)的技術是很重要的。. 1.2. 研究目的本論文的研究目的，是如何對一筆醫療提問，自動分析出使用者的提問意圖. 類型。參考過去研究對醫療提問之查詢意圖定義[18]，可以用兩個概念為一組 (tuple of concepts)形成提問意圖(Query Intentions)中的基本單位，包含:. 2.

(13) (1) 使用者提問中提供的資訊，例如表 1.1 第一則提問中，描述 “有死的念頭”、“想哭”和“失去了信心” (2) 對於醫療資訊的需求，例如表 1.1 第一則提問中，描述 “怎么可以判断自己得了抑郁症” 表 1.1 提問與意圖類型 1. Query. Intention type. 1.怎么可以判断自己得了抑郁症？最近心里一直有. <Symptom, Disease>. 死的念头，会动不动想哭，对人生失去了信心。. 2.有没有抑郁症好的治疗办法？因为抑郁症我对洗. < Disease, Treatment >. 漱、着衣等生活小事困难费劲，力不从心。. 3.去医院检查是否患有抑郁症需要多少钱？以及确. <Examine, Fee>. 诊后后期治疗需要多少元？. <Treatment, Fee>. 表 1.1 第一則提問中，使用者表示出現一些症狀(Symptom)，想知道是不是得了某一種疾病(Disease)，因此形成的一組概念配對<Symptom, Disease>來呈現其提問意圖。而表 1.1 第三則的提問則包含<Examine, Fee>及<Treatment, Fee>兩種類型的意圖，所以一則提問中可能包含一種以上的意圖類型。如何從使用者的一則提問中有效自動偵測出所包含的各種意圖類型，為本論文的研究目的。 1. http://www.120ask.com/list/yiyu/. 3.

(14) 1.3. 研究限制與範圍本研究使用的資料，是從有問必答網中心理健康科的抑鬱類別下蒐集的使用. 者提問資料，研究的語言限制為簡體中文。. 圖 1.3 概念圖包括所有使用者可能提出的概念以及意圖類型. 常出現在提問中的醫學概念有 : 藥物 (Medicine) 、疾病 (Disease) 、症狀 (Symptom)、檢查(Examine)與治療(Treatment) 5 種主要概念[1]，並可從這主要的概念擴展至共 11 種醫療相關的概念，如圖 1.3 所示。而由使用者提問中描述的資訊之概念 s，指向對另一個醫學概念 n 的資訊需求，這樣兩個概念可以用一個詞組<s, n>表示為一種意圖類型。將每一種意圖類型以一個從 s 到 n 的有向邊表示，則各種意圖類型如圖 1.3 中所示的 18 種有向邊的關係。此 18 種關係為本論文所考慮的意圖類型，且使用者提問中可包含一種以上的意圖類型。. 4.

(15) 1.4. 論文方法為了分析使用者的提問意圖，本論文提出的架構將分為三個部分。首先，本. 篇會從有問必答網(120ask)中蒐集使用者的提問，將每一則提問視為文本進行前處理，對提問文本進行斷詞與詞性標記，然而人在提問相同意圖時，不一定會使用相同的詞彙表達，甚至使用不意理解的詞彙，隱晦地描述自己的問題，因此本篇將會透過維基百科(Wikipedia)和有問必答網(120ask)的使用者的提問與醫生的回覆所包含的詞與詞性，各別預訓練 Word Embedding 和 POS Embedding，幫助單詞(Word)和詞性(POS)以向量表示(Vector Representation)，能使同意思的詞彙與不易理解的詞彙具有相似的向量表示。第二部，產生特徵資料之方法，透過文本的詞向量矩陣將分別做以下處理:(1)在[18]提出的產生考慮文本內容語意一致性計算、本篇提出(2)文本的單詞與醫療概念的關鍵字相似性計算，幫助後續方法捕捉提問意圖的概念資訊，以及(3)運用預訓練的 POS Embedding 產生文本的詞性向量矩陣的特徵資料。第三部，本論文提出基於類神經網路的使用者意圖偵測之方法，學習特徵的擷取並預測一個提問文本中屬於各種提問意圖類型 (Intention Type)的程度值作為輸出結果。. 5.

(16) 1.5. 論文架構本論文以下章節如下:第二章、說明相關文獻探討。第三章、簡述整體系統. 架構與流程，以及資料前處理。第四章、輸入特徵產生方式。第五章、說明使用者意圖偵測之方法。第六章、實驗結果與討論，並且以真實使用者提問為例，展示意圖偵測的效果。第七章、結論與未來研究方向。. 6.

(17) 第二章文獻探討近年來有越來越多論文在探討意圖偵測問題，對於不同的應用情境，有不同的方法被提出來解決此問題，以下將分別從關鍵字搜尋和自然語言提問兩種情境的處理方法進行探討。此外，有研究將提問意圖偵測問題視為一種文本分類問題，探討如何以類神經網路的學習方法進行文本分類。本章節在此一一介紹上述內容。. 2.1 關鍵字搜尋了解使用者查詢背後的意圖，可以讓搜索引擎回傳與查詢更相關的結果，從而提高使用者滿意度。有許多在搜尋引擎的情境上探討意圖偵測的研究[2][6][7]，使用者提供給搜尋引擎的查詢(Query)多是以關鍵字(Keyword)搜尋的方法。在此情境下，意圖偵測是要以這些查詢關鍵字以及使用者的瀏覽、點擊記錄等行為做為特徵，了解使用者想要的資訊，提出的查詢究竟想要知道什麼事情，以提供符合使用者意圖的搜尋結果。 [2]從使用者對網頁一連串滑鼠點擊、鍵盤輸入等互動中，探討如何推斷使用者意圖，以提供個人化搜尋服務。該篇論文提出了新方法，從使用者的行為特徵推斷出可能的意圖。輸入的文字可提取出兩種特徵:關鍵字和概念特徵，概念是指關鍵字的主題，例如:選舉、投票具有政治概念，可以透過關聯規則找到相對應關鍵字的主題，再透過這些字的前後文做為有關政治概念的特徵。該論文並利用 Naïve Bayes 分類器對意圖任務建模，預測使用者行為中表示的意圖。. 7.

(18) [7]對於使用者點擊搜索結果的行為，建立點擊模型來識別使用者的意圖。作者認為每個人會有認知偏差，導致使用者點擊搜尋結果的方式會不一樣。運用歷史點擊記錄對使用者點擊行為建模是一項具有挑戰的任務，因為使用者對於查詢回傳的結果，所有點擊的行為不一定代表與查詢具有相關性。而使用者可能在搜尋時輸入的關鍵字是一樣的，但具有不同結果需求的意圖。該論文提出新的意圖假設，認為使用者搜索意圖與查詢之間存在偏差。這個假設可以應用於大多數的點擊模型，比起未考慮查詢偏差性，所提供的查詢結果更能讓使用者滿意。. 目前預測使用者提問意圖的方法主要利用機器學習技術。然而使用機器學習通常需要大量人力進行資料標記。[6]提出可用於解決一般性(General)的意圖偵測問題，利用外部知識庫- 維基百科(Wikipedia)，只需要少許的人力，通過維基百科發現大量的概念，將發現的概念做為意圖表示空間，對每一個意圖表示為一組對應到維基百科的條目文章和類別，輸入的查詢會被映射到維基百科表示空間進行意圖標記。跟以前的方法相比，由於維基百科含有各種領域的知識，所以能提供更好的領域覆蓋性，可以應用到各種意圖領域，並且獲取語意相關的概念，來對意圖進行分類。. 2.2 自然語言提問社群問答系統(Community Question Answering)，例如:Yahoo 知識+，提供需要幫助的人們提出問題，並由其他使用者在線上回覆，使用者以自然語言敘述發表問題。社群問答系統中問題檢索的目的，是可由過去已獲得答案的提問中找到 8.

(19) 最相關的問題，希望根據其答覆內容來解決使用者的提問。然而，社群問答系統中大量問題描述的是主觀的觀點，而並不是客觀的事實，導致一般性的檢索模型效果下降。為了解決這個問題，[4]提出了結合幾種用於問題檢索的語言模型 (Language model):包括查詢相似性(Query-likelihood)語言模型、基於翻譯的 (Translation-based)語言模型，以及此篇提出的基於意圖語言模型。其中每個候選問題的使用者提問意圖，是利用文本特徵和元資料(Metadata)以機率模型分類器得出。該論文顯示，有考慮到使用者的提問意圖，能幫助使用者檢索到符合的問題，找到令人滿意的答案。. 2.3 以類神經網路進行文本分類最近許多研究開始採用類神經網路的技術進行文本分類[5][8][11][13][14] [17]，因為自從[3]提出將類神經技術應用在標記的相關應用，包括詞性標記、命名實體識別與語意角色標記，接得到比傳統方法難以突破的效果，使類神經網路之技術受到關注，也有越來越多研究探討是否可將類神經網路技術應用在不同的領域。文本分類任務，方法從完全忽略詞序關係的詞袋(bag of words、bag of Ngram)類神經網路模型，到能夠保持詞序的基於卷積神經網路(Convolutional Neural Networks, CNN)模型，在各種自然語言相關任務中，基於 CNN 的處理架構也顯示出其在文本分類效果的優越性。. 在許多基於卷積神經網路(CNN)的文本分類模型中，第一步是將文本的每一個單詞做詞嵌入(Word Embedding)處理，利用 Word2vec 的方法，將每一個單詞 9.

(20) 轉換為對應的向量表示，或者使用事先訓練好的詞嵌入向量模型查找單詞向量，這些詞嵌入向量表示法需要大型的語料庫來訓練模型。獲得單詞的詞嵌入向量表示，目的是在將具有相似語意詞語對應到相似的空間特性，例如:新加坡、美國都是國家詞彙，在向量空間表示時，希望得到兩個詞向量的餘弦相似度值要高。由一個句子中多個單詞的向量可以形成句子的向量矩陣表示，再將文本的句子視為圖片 2 維資料來處理[9]。然而文本是不固定長度，不像圖片分類[10]採用固定大小的圖片為輸入資料。為了解決文本長度不一的問題，不同的解決方法如下:. (1) 為了將文本調整為統一的長度，透過限制最大長度，將較短的文本填入數值 0 的向量，以獲得固定長度的文本。. 圖 2.1 基於 CNN 的 Dynamic k-max pooling 方法[8]. 10.

(21) (2) 設計可輸入不固定長度文本的類神經網路模型。[8]引用動態卷積神經網路 (DCNN)結構對不同長度的文本進行分類，DCNN 能處理可變長度的文本，透過將文本 s 的第 i 個單詞特徵 si 與 Convolutional layer 一維的 Filter 進行卷積運算並輸出 Feature Map，再透過 Dynamic k-max pooling 方法，傳回 k 组中最大值形成的子序列，這種動態 pooling 方式能解決不固定長度的文本輸入問題，如圖 2.1 所示。. 圖 2.2 基於 CNN 的醫療提問文本分類架構[18]. 在醫療提問文本之意圖分類任務中，現有基於 CNN 的文本分類方法大多採用一堆單詞向量所組成的詞向量矩陣作為輸入，並沒有考慮句子中詞語之間的語. 11.

(22) 意相關性。[18]將提問文本的單詞向量所組成的詞向量矩陣的每一維度作為特徵，將特徵兩兩成對進行餘弦相似度計算，能考慮文本內容的“語意一致性”關係值，並獲得一個固定大小的詞向量維度關聯矩陣，解決不固定長度的文本輸入問題。並結合詞性次數特徵，同時輸入類神經網路，預測使用者的提問意圖，如圖 2.2 所示。. 圖 2.3 基於 RNN 的提問意圖分類簡要架構[19]. 在醫療提問文本之意圖分類任務中，[19]提出基於遞歸神經網絡(Recurrent Neural Network, RNN)之方法，將提問文本以詞嵌入向量與詞性嵌入向量表示特徵，以遞歸神經網路分析其連續性詞語與詞性特徵，分類使用者的提問意圖，如圖 2.3 所示。. 12.

(23) 本論文將利用[18]醫療提問文本的語意一致性所獲得語意關聯矩陣作為基本輸入特徵資料，及[19]提出醫療提問文本的詞性特徵資料產生方法。並且本論文提出概念關鍵字相似度特徵資料產生方法，計算醫療提問文本中每個單詞與 11 種概念(圖 1.3)的相似度，表達使用者在提問文本中的醫療語意概念程度值作為輸入特徵資料，再運用類神經網路技術分類使用者的提問意圖。. 13.

(24) 第三章系統架構與資料前處理 3.1 系統架構與流程本論文提出一個提問意圖的自動偵測系統，以使用者在有問必答網的提問作為資料。系統的架構可分為三大部分:(一)資料前處理、(二)產生輸入特徵、以及 (三)基於卷積神經網絡的學習網路(CNN based Learning Network)，如圖 3.1 所示。. (一)、資料前處理: 包含斷詞和詞性標記(Segmentation and POS Tagging)及零填充(Zero Padding)。. (二)、產生輸入特徵 : 包含詞嵌入 (Word Embedding) 、詞性嵌入 (POS Embedding)、詞向量維度關聯特徵計算(Pairwise Feature Correlation)、及概念關鍵字相似度計算(Concept Keyword Similarity)。. (三)、基於卷積神經網絡的學習網路(CNN based Learning Network):本論文所提出基於卷積神經網絡之使用者意圖檢測的主要處理模組。其中產生輸入特徵的過程，還包括要進行詞嵌入與詞性嵌入學習所使用的外部知識來源 (External Knowledge)文件庫 Wikipedia 及 120ask。. 14.

(25) 圖 3.1 使用者的提問意圖偵測之架構. 整個架構的處理流程簡述如下:. (一)、資料前處理. 15.

(26) 首先，從有問必答網(120ask)蒐集使用者的提問將每一則提問視為一則文本，先進行自然語言處理。Segmentation and POS Tagging 模組會將文本進行斷詞和詞性標記，獲得表示文本特徵的一組詞語(Words)以及一組單詞對應的詞性(POS)。 Zero Padding 模組則用來解決文本長度不一的問題。. (二)、產生輸入特徵. 事先透過維基百科(Wikipedia)的文件庫和有問必答網(120Ask)的問答文本，分別預訓練出單詞和詞性的嵌入表示法(embedding representation)，幫助單詞做單詞嵌入(Word Embedding)，並對詞性做詞性嵌入(POS Embedding)處理。使用者意圖偵測的輸入特徵包括以下三種類型: (1) Pairwise Feature Correlation Matrix 採用[18]提出的 Pairwise Feature Correlation 計算方式，將提問文本的詞向量矩陣的每一維度作為特徵，將特徵兩兩成對進行餘弦相似度計算，產生詞向量維度關聯矩陣(Pairwise Feature Correlation Matrix)，用以呈現文本中各個詞嵌入向量上的語意一致性程度。 (2) Concept Keyword Similarity 文本中的單詞會與一組指定的醫療概念關鍵字計算餘弦相似度，產生的概念關鍵字相似矩陣(Concept Keyword Similarity Matrix)，表示單詞與各個醫學概念的相似程度。. 16.

(27) (3) POS Embedding Matrix 將文本中各單詞的詞性，透過預訓練的詞性向量表示法轉換成詞性向量矩陣 (POS Embedding Matrix)表示。 (三)、基於卷積神經網絡的學習網路(CNN based Learning Network) 本論文提出兩種基於卷積神經網絡的學習架構，進行使用者意圖偵測 : (1) CNN Joint Model. 圖 3.2 CNN Joint Model (未標註各層參數). 17.

(28) 第一種架構如圖 3.2 所示，對每筆提問的 Pairwise Feature Correlation Matrix、 Concept Keyword Similarity Matrix 及 POS Embedding Matrix，各別經過兩回合卷積層和池化層處理，再進行平坦層處理。然後將產生的特徵向量合併接合成一個特徵向量，再經過兩回合全連接層學習特徵權重，以 Sigmoid 函式計算出該提問包含不同意圖類型(Intention Type)的程度值作為輸出結果。最後會將每種意圖類型的程度值由大至小排序，以程度值大於門檻值θ作為模型預測的意圖類型，本論文將此架構稱為 CNN Joint Model。 (2). Ensemble CNN Model. 圖 3.3 Ensemble CNN Model (未標註各層參數) 18.

(29) 第二種架構如圖 3.3 所示，先對每筆提問的三類特徵 Pairwise Feature Correlation Matrix、Concept Keyword Similarity Matrix 及 POS Embedding Matrix，分別建立 CNN Model。特徵一樣經過兩回合的卷積層及池化層處理後，再進行平坦層和全連接層處理，每類特徵會獨立訓練預測意圖類型的模型。再將這三類特徵所產生的預測結果，透過 Ensemble Parameter 學習每類特徵預測結果的組合比重，用來計算最後意圖類型的預測結果。最後會將每種意圖類型的程度值由大至小排序，取出程度值大於門檻值θ作為模型預測的意圖類型，本論文將此架構稱為 Ensemble CNN Model。. 3.2 資料前處理本論文從有問必答網蒐集使用者的提問內容，每一筆提問文本必須先進行斷詞及詞性標記等前處理。. 3.2.1. 斷詞及詞性標記. 圖 3.4 斷詞及詞性標記的結果. 本論文採用的提問文本為中文，中文不像英文詞語間會以空格區隔，因此必須先進行斷詞處理。本論文採用中文斷詞工具 Jieba (https://github.com/fxsjy/jieba) 進行斷詞處理。. 19.

(30) Jieba 工具進行斷詞處理後會同時提供詞性標記，為每一個單詞標記詞性。圖 3.4 所示為一個提問文本斷詞後，標記每個單詞的詞性標記結果。詞性的種類採用和 ICTCLAS (http://ictclas.nlpir.org) 兼容的 POS(Part-Of-Speech) Tagging 詞性標記方式，如: r(代詞)、d(副詞)、v(動詞)、a(形容詞)及 y(語助詞)等，表示單詞在句子中的詞性，共計有 56 種不同詞性。. Jieba 工具能自定擴充詞庫，由於使用者提出醫療相關問題時常出現一些專有名詞，例如: 舍曲林、百优解、米氮平等藥物名稱，採用自定擴充詞庫能讓斷詞的效果更好。. 3.2.2. 否定字處理. 在斷詞處理後，有些否定字會發生被獨立斷開的問題，例如:“不舒服”會被斷開成“不”與“舒服”，“舒服”與“不舒服”在語意上是完全相反的意思，這些負面詞彙可提供具有症狀的語意資訊，應把否定字接上為“不舒服”，讓詞表達的意思更加完整。本論文在前處理中進行以下處理: 事先定義常見的否定字: "不","没","无","非","莫","弗","勿","毋","未","否","别","無","休"。檢查提問文本中是否出現否定字，若出現任一個否定字，檢查否定字後緊跟著的詞之詞性，若詞性是名詞、動詞或形容詞，就把否定字與該詞連接在一起，而新詞的詞性將設為否定字後續緊跟著的詞之詞性。. 20.

(31) 3.2.3. 零填充. 為了解決不同的提問用詞數量不同造成文本長度不一的問題，以往的方法常取最長的文本長度進行零填充(Zero Padding)。然而文本長度經常是極端值，造成文本做零填充(Zero Padding)後會有過多的 0，使得特徵值產生稀疏性問題。所以本論文採用百分等級(Percentile rank, Pr)為 99 的提問文本長度做零填充，表示 99% 的提問文本長度都在此範圍內，所以不會有過多文本內容必須被捨棄，也能避免 1%的極端長度的文本，使其他提問文本填充過多的 0。不但避免屬性值稀疏問題，也因提問文本長度縮小而加速計算。. 為了得到百分等級(Percentile rank)為 99 的提問文本長度，先將所有文本依照長度由小到大進行排名，再利用 Percentile rank 計算在所有 N 篇的提問文本中 Pr99 的排名 P，然後取在所有提問文本中第 P 名的文本長度，以 L 表示，作為零填充的長度基準。若每篇提問文本 Q 之長度以 len(Q)表示，零填充的處理方式分如下:. (1) 若 len(Q)小於 L，則從提問文本的結尾開始向後填入零值為特徵值，直到 len(Q)等於 L。. (2) 若 len(Q)大於 L，則會從提問開頭，開始刪除停用詞(Stop words)，本論文的停用詞是利用哈爾濱工業大學的 LTP(https://github.com/HIT-SCIR/ltp)所提供的停用詞清單建立停用詞表。將參照停用詞表依序刪除提問文本 Q 中的停. 21.

(32) 用詞，直到 len(Q)等於 L。若刪除提問文本 Q 中所有的停用詞後，len(L)仍然大於 L，則再從提問文本 Q 中的 1/4 len(Q)位置開始向後無條件刪除單詞，直到文本長度 len(L)等於 L。. 當 len(Q)大於 L 時，不直接從文本的開頭或結尾開始刪除單詞的原因，是根據觀察使用者提問文本，發現使用者提問時，經常在開頭會表示醫療資訊的需求，並在經過數個句子描述狀況，結尾再說明醫療資訊的需求，因此本方法採取提問的 1/4 len(Q)位置向後開始刪除單詞。. 22.

(33) 第四章輸入特徵產生方式本章將介紹輸入給卷積神經網路架構的特徵產生方式。本論文方法採用三種特徵資料:(1) 概念關鍵字相似特徵(Concept Keyword Similarity Matrix)、(2) 詞向量維度關連特徵(Pairwise Feature Correlation Matrix)、及(3) 詞性嵌入向量特徵(POS Embedding Matrix)。以下小節將分別說明詞嵌入和詞性嵌入向量的預訓練方法，以及三種特徵資料產生方式。. 4.1 詞嵌入和詞性嵌入向量預訓練本論文以 Python 的主題函示庫 Gensim 所提供的 Word2vec (https://radimrehurek.com/gensim/models/word2vec.html) Skip-Gram 模組，進行訓練中文的詞嵌入向量表示學習。本論文使用的訓練語料庫包括兩個資料來源(1) Wikipedia 文件庫(2)有問必答網中心理健康科的抑鬱類別下所有的問答文本，將每一則使用者提問和醫生的答覆視為各別的文本。. 語料庫(1)和(2)透過 3.2 節說明的文字前處理後，將所有文本中出現的詞 (word) 預訓練出其詞嵌入向量表示法。同樣的方式，並利用語料庫(1)和(2)中所有文本的詞性標籤(POS Tags)，使用 Gensim 預訓練出詞性嵌入向量表示法。. 23.

(34) 4.2 詞向量維度關聯特徵計算. 圖 4.1 詞向量維度關連特徵流程. sim(Mi,Mj) =. 𝑖˙. ||. 𝑖||. ||. 𝑗 𝑗| |. ∑. =. M𝑖,𝑘M𝑗,𝑘 2. M𝑖,𝑘. sim(M1, M1). sim(M1, M2). … sim(M1, Mm). sim(M2, M1). sim(M2, M2). … sim(M2, Mm). … sim(Mm, M1). … sim(Mm, M2). … … … sim(Mm, Mm). (公式 1) 2. M𝑗,𝑘. MPFC =. 圖 4.2 詞向量維度關連矩陣. 此種特徵資料是採用 Zhang C.[18]提出的詞向量維度關聯特徵計算(Pairwise Feature Correlation)，產生文本中每個詞語間，在各嵌入向量維度的一致性關係特徵。如圖 4.1 所示，各提問文本經過斷詞前處理後，文本長度為 L，將每個詞以預訓練之 m 維詞嵌入向量表示，形成一個詞嵌入向量矩陣 RLxm 表示。接下來是將詞嵌入向量矩陣的每一維度 i 在各詞的特徵值取出形成向量 Mi，因為詞嵌入. 24.

(35) 向量為 m 維，提問文本就有 m 個向量 Mi, i = 1, 2,…, m。再將這些向量兩兩配對，採用公式 1 Cosine Similarity 計算餘弦相似度，將可以得到如圖 4.2 所示的詞向量維度關連矩陣，以 MPFC 表示。不管提問長度為多少，此方法對於不同的文本都可產生固定大小的詞向量維度關連特徵(MPFC)，解決了文本長短不一的問題。. 4.3 概念關鍵字相似度計算. 圖 4.3 關鍵字相似度計算流程. 在標記提問文本的提問意圖類型時，本論文發現使用者在提出問題時，有些詞語與能明確表達出 11 種的醫療概念(圖 1.3)，這些詞語將作為這 11 種醫療概念對應的種子關鍵字，共計 40 個關鍵字。如表 4.1 所示，disease 概念的關鍵字有“疾病”和“抑郁症”，symptom 概念的關鍵字有 “症状”、 “悲伤”、“绝望”、“想死”和“反应”，cause 概念的關鍵字有 “原因”和 “為什麼”等。 25.

(36) 此特徵是希望透過計算提問文本中各個詞與這些關鍵字的相似度，顯示出詞中隱含的不同醫療概念程度值，幫助在分析使用者提問意圖類型時，能考慮提問中出現的詞所表達的醫療語意概念。. 表 4.1 醫療概念的關鍵字表. 概念. 關鍵字. disease. 疾病. 抑郁症. symptom. 症状. 悲伤. cause. 原因. 为什么. treatment. 治疗. 医治. diet. 饮食. 饮料. medicine. 药物. 药. 舍曲林. instruction. 指导. 几片. 吃法. examine. 检查. 检测. 测试. fee. 费用. 钱. 元. side effect. 副作用. 危害. sequela. 后遗症. 遗传. 绝望. 想死. 反应. 治好. 根治. 恢复. 注意. 调整. 消除. 抢救. 调理. 就医. 怎么办. 概念關鍵字相似特徵(Concept Keyword Similarity Matrix)的產生方法如下:將提問文本經過 3.1 節前處理後，根據表 4.1 所示之醫療概念關鍵字表，將提問文本中每一個單詞 wi 與醫療概念的每一個關鍵字 ki，轉換成對應的詞嵌入向量表示，如圖 4.3 所示。將每一個詞嵌入向量 Vwi 與每一個關鍵字嵌入向量 Vkj，以. 26. 治疗仪.

(37) 公式 1 做 Cosine Similarity 餘弦相似度計算，產生如圖 4.4 所示的概念關鍵字相似度矩陣，以 MCKS 表示，其中 MCKS 為一個 RLx40 的二維矩陣。. sim(Vw1, Vk1). sim(Vw1, Vk2) … sim(Vw1, Vk40). sim(Vw2, Vk1). sim(Vw2, Vk2) … sim(Vw2, Vk40). … sim(VwL, Vk1). … … … sim(VwL, Vk2) … sim(VwL, Vk40). MCKS =. 圖 4.4 概念關鍵字相似度矩陣. 4.4 詞性嵌入向量特徵本論文利用已預訓練的詞性嵌入向量表示法，透過查找提問文本中每個詞之詞性的詞性嵌入向量表示法，產生提問文本的詞性嵌入向量特徵(POS Embedding Matrix)，再以 3.2.3 所述方法，對 POS Embedding Matrix 進行零填充。詞性嵌入向量特徵以 MPE 表示，其中 MPE 為一個 RLx30 的二維矩陣。. 27.

(38) 第五章使用者意圖偵測方法關於使用者意圖偵測方法，本論文採用類神經網路技術，提出基於卷積神經網絡之學習網路，預測使用者提問的意圖類型，本章節將針對在 3.1 簡述中提到的兩個方法架構詳細說明。. (一) CNN Joint Model. 本章將在 5.1 詳細說明 CNN Joint Model 整體網路架構設計，再針對包含的各個層(Layer)進行說明: 包括所採用卷積層(Convolution Layer)、最大池化層(Max Pooling Layer)、平坦層(Flatten Layer)、合併層(Marge Layer)和全連接層(Fully Connected Layer)的設計，並且說明每層參數設定。. (二) Ensemble CNN Model. 本章將會在 5.2 說明 Ensemble CNN Model 整體網路架構設計與 CNN Joint Model 不同之處，並且架構中採用調和參數(Ensemble Parameter)的理念以及實作方法。. 28.

(39) 圖 5.1 CNN Joint Model (標註各層參數). 5.1 CNN Joint Model 如圖 5.1 所示，本架構首先會使用在第四章提到的三種計算方式，從提問文本產生的以下三種特徵資料做為輸入，分別是(1)詞向量維度關連特徵(Pairwise Feature Correlation Matrix)，(2)概念關鍵字相似特徵(Concept Keyword Similarity Matrix)，及(3)詞性嵌入向量特徵(POS Embedding Matrix)。以上提問文本的三種特徵資料都會分別經過兩回合的卷積層做特徵擷取產生特徵地圖，並以 Max Polling 池化層將特徵地圖以池化區域的最大值來挑選特徵，最後再經過平坦層 29.

(40) 將池化後的特徵地圖轉換為特徵向量表示。特徵資料(1)(2)(3)各別經過平坦層後產生各別的特徵向量，再透過合併層將三個特徵向量合併接合成一個特徵向量，最後兩回合的全連接層用來學習特徵向量中每個特徵的權重，預測提問文本涵蓋 18 種的意圖類型的程度值，並使用 Sigmoid function 讓所有意圖類型數值範圍從 0 到 1 表示。以下本論文將說明如何利用卷積層、最大池化層、平坦層、合併層和全連接層，建立 CNN Joint Model，並以輸入特徵資料 MPFC 為例講解各層參數設定。. 表 5.1 卷積層與最大池化層參數設定 Layer \ Data 卷積層. 第一回最大池化層. 卷積層. 第二回. 最大池化層. MPFC. MCKS. MPE. Filter: 23. Filter: 3. Filter: 3. Filter size: 5x5. Filter size: 5x5. Filter size: 3x3. Strides:1. Strides: 1. Strides:1. Polling size: 4x4. Polling size: 2x2. Polling size: 2x2. Strides: 4. Strides: 2. Strides: 2. Filter: 32. Filter: 5. Filter: 5. Filter size: 3x3. Filter size: 4x4. Filter size: 3x3. Strides:1. Strides: 1. Strides:1. Polling size: 5x5. Polling size: 4x4. Polling size: 3x3. Strides: 5. Strides: 4. Strides: 3. 30.

(41) 首先，本論文使用機器學習系統 Tensorflow 與 Keras 工具進行實作，透過基於 Tensorflow 的 Keras 工具提供卷積層、最大池化層、平坦層、合併層和全連接層模組，建立 CNN Joint Model，如圖 5.1 所示。. (1) 卷積層與最大池化層. 首先，以提問文本的輸入特徵資料 MPFC 進行說明。兩回合的卷積層與最大池化層處理，參數設定如表 5.1 所示。第一回的卷積層設定 23 個大小為 5x5 的 Filter，步進(Strides)為 1。意思是 Filter 在特徵資料矩陣上進行橫向與縱向移動的長度為 1，藉由橫向與縱向移動 Filter，與特徵資料矩陣上特定資料區域(Region) 進行卷積運算。本論文再利用激活函數 Rectified Linear Unit (Relu)處理，產生非線性的結果，可將所有卷積運算的負值轉為 0。如圖 5.1 所示，特徵資料 MPFC (R100x100)經過第一回的卷積層將輸出 23 個 R100x100 特徵地圖。第一回的最大池化層將 23 個 R100x100 特徵地圖輸入，設定池化尺寸(Polling size)為 4x4 池化區域及步進為 4。最大池化意思是在特徵地圖的池化區域中挑選最大值，橫向與縱向移動池化區域並重複執行最大池化，即產生池化的特徵地圖。池化層的目的是從特徵地圖(Feature Map)中挑選重要的特徵，間接也縮小特徵地圖，使得參數與計算量減少。如圖 5.1 所示，特徵資料 MPFC (R100x100)的 23 個 R100x100 特徵地圖經過第一回的最大池化層後輸出 23 個 R25x25 特徵地圖。. 31.

(42) 本論文利用表 5.1 的參數設定，再將特徵資料 MPFC 的 23 個 R25x25 特徵地圖輸入第二回的卷積層與最大池化層處理，產生的輸出為 32 個 R5x5 特徵地圖，如圖 5.1 所示。. (2) 平坦層. 三種特徵資料經過兩回合卷積層與池化層處理後，均會得到 2 維特徵地圖。在進入全連接層前，特徵地圖需要利用平坦層(Flatten Layer)進行平坦化，將所有特徵地圖轉換為特徵向量並接合，將得到一個特徵向量表示。特徵資料 MPFC 的 32 個 R5x5 特徵地圖利用平坦層進行平坦化後，將產生 R800x1 特徵向量。. 同上述方式，當提問文本經過 3.2.3 零填充處理後假設 L 為 120。特徵資料 MCKS (R120x40) ，根據表 5.1 的參數設定，透過兩回合的卷積層與池化層處理後，產生的輸出為 5 個 R15x5 特徵地圖，再經過平坦層處理，可產生 MCKS 的 R375x1 特徵向量，如圖 5.1 所示。特徵資料 MPE (R120x30)，根據表 5.1 的參數設定，透過兩回合的卷積層與池化層處理後，產生的輸出為 5 個 R20x5 特徵地圖，再經過平坦層處理，可產生 MPE 的 R500x1 特徵向量，如圖 5.1 所示. 32.

(43) (3) 合併層本論文將 MPFC、MCKS 和 MPE 各別的特徵向量使用合併層接合成一個 R1675x1 的特徵向量，如圖 5.1 所示。使用合併層的理念是透過接合所有資料的特徵向量，讓接下來的全連接層能全面性學習所有特徵的權重。. (4) 全連接層. 圖 5.2 全連接層處理. 本論文在架構中採用兩回合的全連接層，第一回合全連接層採用 200 個神經元，會與合併層輸出的 R1675x1 特徵向量接上。第二回合的全連接層則採用 18 個神經元將與第一回全連接層的 200 個神經元接上，如圖 5.2 所示。第二回合的全. 33.

(44) 連接層輸出結果用來預測提問文本的 18 種意圖類型程度值，並且透過激活函數 Sigmoid 處理後，將 18 種意圖類型程度值以 0 到 1 呈現。最後將程度值由大而小排序，取程度值大於門檻值θ作為提問文本的意圖類型預測結果。. logloss = −. (𝑦 log(𝑦 ) + (1 − 𝑦 )log(1 − 𝑦 )). (公式 2). 本論文訓練模型時，運用 Keras 所提供的 loss function 設定為 binary cross entropy，亦稱作對數損失(logloss)，如公式 2 所示，其中y 表示真實的意圖類型， y 表示系統預測的意圖類型，n 表示測試樣本數。將多標籤的分類問題視為多個二元分類問題。並且運用 Dropout 模組，避免過度擬合(overfitting)的問題，本論文在每一個最大池化層與第一個全連接層後應用 Dropout 模組，將每個神經元的輸出結果隨機設置為 0，本論文設定的機率值為 0.5。. 34.

(45) 5.2 Ensemble CNN Model. 圖 5.3 Ensemble CNN Model (標註各層參數). 35.

(46) 圖 5.4 (a) MPFC 的 CNN Model (標註各層參數). 圖 5.4 (b) MCKS 的 CNN Model (標註各層參數). 圖 5.4(c) MPE 的 CNN Model (標註各層參數). 36.

(47) Ensemble CNN Model 是本論文提出的第二種基於卷積神經網路之學習網路，從提問文本產生的三種特徵資料 (1) 詞向量維度關連特徵 (Pairwise Feature Correlation Matrix)，(2)概念關鍵字相似特徵(Concept Keyword Similarity Matrix)，及(3)詞性嵌入向量特徵(POS Embedding Matrix)，輸入各自的 CNN Model，各自建立預測 18 種意圖類型的預測模型，如圖 5.4(a)(b)(c)所示。Ensemble CNN Model 中各層參數設定與 CNN Joint Model 是一樣的。除了沒有合併層外，其餘層皆可根據 5.1 的各層說明實作出三種特徵資料各自獨立的 CNN 預測模型。. Ensemble CNN Model 的理念是設計調和參數(Ensemble Parameter)，以一個全連接層連到一個神經元，如圖 5.3 所示。將固定三個特徵資料透過 CNN Model 的已建立的預測模型，學習三個預測結果的調和比重參數值。三個調和參數學習完成後，再採用 Softmax 函式讓三個調和參數值總和為 1。. 在進行提問文本的意圖預測時，三種特徵資料 CNN 模型各自預測 18 種意圖類型的程度值，會與各自的調和參數相乘後加總，作為最後提問文本的 18 種意圖類型的程度值。最後將程度值由大而小排序，取出程度值大於門檻值θ作為提問文本的意圖類型預測結果。. 37.

(48) 第六章實驗結果及探討本論文依系統主要的處理步驟，將實驗分為三大部分呈現. (一) CNN Joint Model 之分類效果評估. (1) 評估單一特徵資料及其組合之分類效果。. (2) 對涵蓋不同數目意圖類型之提問文本，討論其各別分類效率。. (二) Ensemble CNN Model 之分類效果評估. (1) 特徵資料組合之分類效果。. (2) 對涵蓋不同數目意圖類型之提問文本，討論其各別分類效率。. (三) 各架構綜合評估. (1) 評估兩個架構之最佳輸入特徵資料組合與[18]所提出的詞向量維度關連特徵資料效果比較。. (2) 調整門檻值，觀察 F1 score。. (3) 觀察訓練學習網路所需要多少 Epoch，其 Validation Error 會收斂。. (4) 列舉系統預測真實提問文本的意圖類型之範例。. 38.

(49) 6.1 資料來源與討論本論文使用 Python 語言開發爬蟲程式(https://github.com/Bowen-Jiang/WebSpider)，從有問必答網(120ask)中心理健康科的抑鬱類別下，抓取 3006 筆使用者醫療提問文本和 11933 筆醫生的回覆內容，透過人為的方式標記使用者提問文本的 18 種意圖類型。並且使用 2018-05-01 的維基百科(Wikipedia)中文的語料庫共計 314510 筆(https://dumps.wikimedia.org/zhwiki/20180501/)。表 6.1 真實提問文本之資訊數量提問文本數. 3006. 最長提問文本的長度. 257 37.53. 平均提問文本長度. 122. Pr99 的提問文本長度最多意圖類型數. 4. 平均意圖類型數. 1.42. 只有 1 個意圖類型的提問文本. 1755. 只有 2 個意圖類型的提問文本. 1227. 只有 3 個意圖類型的提問文本. 23. 只有 4 個意圖類型的提問文本. 1. 本論文使用 3006 筆已標註 18 種意圖類型的提問文本，可以得知平均每筆提問文本有 1.42 種意圖類型，且提問文本中最多同時有 4 種意圖類型。只具有 1. 39.

(50) 個意圖類型的提問文本為 1755 筆，有 2 個意圖類型的提問文本為 1227 筆，如表. Intention type. 6.1 所示。在 3006 筆使用者提問文本中具有 2 個以下的意圖類型占大多數。. <examine,fee> <examine,disease> <medicine,side_effect> <medicine,disease> <medicine,instruction> <treatment,fee> <disease,sequela> <disease,diet> <disease,examine> <disease,cause> <disease,symptom> <disease,medicine> <disease,treatment> <symptom,medicine> <symptom,diet> <symptom,cause> <symptom,treatment> <symptom,disease>. 5 20 41 3 33 36 12 6 36 52 175 153 1823 26 1 48 1319 493 0. 200. 400. 600. 800. 1000. 1200. 1400. 1600. 1800. 2000. Counts. 圖 6.1 意圖類型分佈. 本論文使用 3006 筆提問文本，透過人為的方式標記的 18 種意圖類型，前 3 名最多的提問意圖類型是(1) <disease, treatment>， (2) <symptom, treatment> ，以及(3) <symptom, disease>。如圖 6.1 所示。. 6.2 評估指標 (公式 3). 40.

(51) (公式 4). (公式 5). 本論文評估指標採用[12]提出多標籤分類任務的評估指標，以下分別說明:. (一) Precision. 將測試資料 D 中，每筆提問文本 di 所包含的意圖類型所成的集合 Yi，與系統對 di 預測出的意圖類型所成的集合 Zi，如公式 3 所示計算出預測意圖類型之 Precision。本論文從系統預測每筆提問文本的 18 種意圖類型的程度值，取程度值大於門檻值θ作為系統預測提問文本的意圖類型結果，本論文門檻值設定為 0.3。. (二) Recall. 如公式 4 所示可計算出預測意圖類型之 Recall。. (三) F1 score. F1 score 是常見的計算方式，將 Precision 和 Recall 相乘後，除以 Precision 和 Recall 的總和，再乘以 2 即為 F1 score 值，如公式 5 所示。. 41.

(52) 6.3 CNN Joint Model 之分類效果評估 6.3.1 評估一種資料特徵之分類效果本實驗將使用提問文本的四種特徵資料，除了先前第四章提到的三種特徵資料(1)詞向量維度關連特徵(MPFC, 實驗以 PFC 表示)，(2) 概念關鍵字相似特徵 (MCKS, 實驗以 CKS 表示)，及(3) 詞性嵌入向量特徵(MPE, 實驗以 PE 表示)。將加入第 4 種作為實驗特徵資料之一，利用 4.1 節已預訓練的詞嵌入向量表示法，透過查找提問文本中每個詞的詞嵌入向量表示法，產生提問文本的詞嵌入向量特徵(MWE, 實驗以 WE 表示)，再以 3.2.3 所述方法進行零填充，為一個 RLx100 二維矩陣。這四種輸入特徵資料將嘗試不同的組合來實驗效果。. 圖 6.2 四種特徵資料單獨採用的 F1 score. 42.

(53) 圖 6.3 (a) 只有 1 種意圖類型的提問文本之採用單一種特徵之分類效果. 圖 6.3(b) 有 2 種意圖類型的提問文本採用單一種特徵之分類效果 43.

(54) 本論文將四種輸入特徵資料將嘗試不同的組合前，會先評估每種特徵資料各別輸入 CNN Model 的效果。從圖 6.2 所示，只輸入一個特徵資料的情況下，特徵資料 CKS 跟其他特徵資料相比效果最好，在 F1 數值約為 0.739301。從所有提問文本中再實驗，當提問文本只有 1 種意圖類型或是有 2 種意圖類型時，如圖 6.3(a)(b)所示，只有 1 種或 2 種意圖類型的提問採用 CKS 特徵明顯比採用其他特徵效果佳。因此接下來的兩種特徵資料的組合，將以 CKS 跟其他三種特徵進行組合。. 44.

(55) 6.3.2 評估兩種資料特徵組合之分類效果使用兩種以上輸入特徵資料時，本論文以符號“+”表示同時輸入兩個以上的特徵資料給 CNN Joint Model，例如 CKS+WE。將利用 5.1 節說明每種特徵資料各層處理方式，本節評估使用兩種輸入特徵資料時 CNN Joint Model 的效果。. 圖 6.4 CNN Joint Model 之 F1 score (兩種特徵組合). 45.

(56) 圖 6.5 (a) CNN Joint Model 之 F1 score (兩種特徵組合,只有 1 種意圖類型之提問). 圖 6.5(b) CNN Joint Model 之 F1 score (兩種特徵組合,有 2 種意圖類型之提問). 46.

(57) 本實驗以 CKS 為基準，兩種資料特徵組合有 CKS+WE、CKS+PE 及 CKS+PFC，如圖 6.4 所示。使用兩種輸入特徵資料時，效果都比只使用 CKS 的 F1 數值高， CKS+WE 的 F1 數值為 0.749226，CKS+PE 的數值為 0.745573，以及 CKS+PFC F1 數值更是顯著的達到 0.752982，表示同時輸入特徵資料 CKS 和 PFC 時，預測意圖類型時讓真實的意圖類型排名更前面。如圖 6.5(a)所示，在只有 1 種意圖類型之提問時，使用兩種輸入特徵資料組合都有明顯幅度的效果提升。在提問文本有 2 種意圖類型時，採用 CKS+PFC 特徵組合比採用其他特徵的效果佳，如圖 6.5(b)所示。. 6.3.3 評估三種資料特徵組合之分類效果本實驗以 CKS+PFC 為基礎，三種資料特徵組合為 CKS+PFC+WE 和 CKS+PFC+PE，如圖 6.6 所示，將三種資料輸入 CNN Joint Model 時，本論文發現，CKS+PFC+WE 和 CKS+PFC+PE 具有相當的分類效果。從圖 6.7(a)觀察發現，使用 CKS+PFC+WE 特徵組合，在只有 1 種意圖類型的提問文本情況下分類效果顯著提升。從圖 6.7(b) 觀察發現，則是使用 CKS+PFC+PE 特徵組合，在有 2 種意圖類型的提問文本情況下分類效果最佳。. 47.

(58) 圖 6.6 CNN Joint Model 之 F1 score (三種特徵組合). 圖 6.7 (a) CNN Joint Model 之 F1 score (三種特徵組合,只有 1 種意圖類型之提問). 48.

(59) 圖 6.7 (b) CNN Joint Model 之 F1 score (三種特徵組合,有 2 種意圖類型之提問). 6.3.4 評估四種資料特徵組合之分類效果本實驗以 CKS+PFC+WE 為基礎，四種資料特徵組合為 CKS+PFC+WE+PE，如圖 6.8 所示，將四種資料輸入 CNN Joint Model 時，本論文發現，分類效果有下降的情況。從圖 6.9(a)(b)觀察發現是因為在只有 1 種意圖類型的提問文本效果下降，影響整個模型的效果。. 49.

(60) 圖 6.8 CNN Joint Model 之 F1 score (四種特徵組合). 圖 6.9 (a) CNN Joint Model 之 F1 score (四種特徵組合,只有 1 種意圖類型之提問). 50.

(61) 圖 6.9 (b) CNN Joint Model 之 F1 score (四種特徵組合,有 2 種意圖類型之提問). 本論文設計 CNN Joint Model 預測使用者提問文本的提問意圖時，輸入兩種提問文本的資料特徵 CKS+PFC 時，讓整體效果比只輸入 CKS 有顯著提升，而使用三種提問文本的資料特徵 CKS+PFC+WE 或 CKS+PFC+PE 分類效果都有微幅提升，並且 CKS+PFC+WE 是本架構的 F1 數值最高的輸入特徵組合。而 CKS+PFC+PE 特徵組合則只需更少的特徵資料量，就與 CKS+PFC+WE 特徵組合具有相當的分類效果。. 51.

(62) 6.4 Ensemble CNN Model 之分類效果評估本實驗將使用提問文本的四種特徵資料(1)詞向量維度關連特徵(MPFC, 實驗以 PFC 表示)，(2)概念關鍵字相似特徵(MCKS, 實驗以 CKS 表示)，(3)詞性嵌入向量特徵(MPE, 實驗以 PE 表示)，以即(4)詞嵌入向量特徵(MWE, 實驗以 WE 表示)。這四種輸入特徵資料將嘗試不同的組合來實驗效果，組合符號為“&”表示。由於在 6.3.1 節就已顯示單獨輸入特徵資料給 CNN 進行預測時，特徵資料 CKS 跟其他特徵資料相比效果最好，因此本節將以 CKS 跟其他三種輸入特徵資料做組合。評估 Ensemble CNN Model 在兩種輸入資料特徵組合的分類效果。. 6.4.1 評估兩種資料特徵組合之分類效果本實驗以 CKS 為基準，兩種資料特徵組合有 CKS&WE、CKS&PE 及 CKS&PFC，如圖 6.10 所示。使用兩種特徵資料 CKS&PFC 輸入 Ensemble CNN Model 時，效果有顯著提升，F1 數值為 0.747096，在圖 6.11(a)(b)所示，可以得知此特徵組合在只有 1 種意圖類型的提問文本之分類效果有顯著提升，並且有 2 種意圖類型之提問下，也保有一定的分類效果。下一節 6.4.2 將以 CKS&PFC 為基礎，與 PE 和 WE 分別組合。. 52.

(63) 圖 6.10. Ensemble CNN Model 之 F1 score (兩種特徵組合). 圖 6.11(a)Ensemble CNN Model 之 F1 score(兩種特徵組合,只有 1 種意圖類型之提問). 53.

(64) 圖 6.11 (b) Ensemble CNN Model 之 F1 score (兩種特徵組合,有 2 種意圖類型之提問). 6.4.2 評估三種資料特徵組合之分類效果本實驗以 CKS&PFC 為基礎，三種資料特徵組合為 CKS&PFC&WE 和 CKS&PFC&PE，圖 6.12 所示，將三種資料輸入 Ensemble CNN Model 時，分類效果都有提升，並且 CKS&PFC&WE 特徵組合分類效果最好，F1 數值為 0.753845。從圖 6.13(a)(b)觀察發現，CKS&PFC&WE 特徵組合在只有 1 種或 2 種意圖類型的提問文本情況下，分類效果都有提升。下一節 6.4.3 將以 CKS&PFC&WE 為基礎，與 PE 組合。. 54.

(65) 圖 6.12 Ensemble CNN Model 之 F1 score (三種特徵組合). 圖 6.13(a) Ensemble CNN Mode 之 F1 score(三種特徵組合,只有 1 種意圖類型之提問). 55.

(66) 圖 6.13(b) Ensemble CNN Model 之 F1 score (三種特徵組合,有 2 種意圖類型之提問). 6.4.3 評估四種資料特徵組合之分類效果本實驗以 CKS&PFC&WE 為基礎，四種特徵組合 CKS&PFC&WE &PE，如圖 6.14 所示，將四種特徵資料輸入 Ensemble CNN Model 時，分類效果為下降的情況。從圖 6.15(a)(b)觀察發現，主要是在只有 1 種意圖類型的提問文本之分類效果顯著下降，影響整體分類效果。. 56.

(67) 圖 6.14. Ensemble CNN Model 之 F1 score (四種特徵組合). 圖 6.15(a)Ensemble CNN Mode 之 F1 score(四種特徵組合,只有 1 種意圖類型之提問). 57.

(68) 圖 6.15(b) Ensemble CNN Model 之 F1 score (四種特徵組合,有 2 種意圖類型之提問). 此部分的實驗顯示，以 Ensemble CNN Model 預測使用者提問文本的提問意圖時，輸入二種提問文本的特徵資料 CKS 和 PFC 時，能讓分類效果比只輸入 CKS 有顯著提升，而三種提問文本的特徵資料 CKS、PFC 和 WE 時比輸入二種提問文本的特徵資料 CKS 和 PFC 分類效果有微幅提升，因此採用 CKS&PFC&WE 將是本架構的最佳輸入組合。. 58.

(69) 6.5 各架構綜合評估 (一) 評估兩個架構之最佳輸入特徵資料組合與[18]所提出的詞向量維度關連特徵資料效果比較。. 圖 6.16 最佳輸入特徵資料組合之分類效果比較. 圖 6.16 所示，PFC 為特徵資料 PFC 獨立輸入 CNN Model 的效果。 CKS+PFC+WE 為使用三種特徵資料 CKS、PFC 和 WE 輸入 CNN Joint Model 的效果。CKS&PFC&WE 為使用三種特徵資料 CKS、PFC 和 WE 輸入 Ensemble CNN Model 的效果。F1 數值所示，CNN Joint Model 與 Ensemble CNN Model 的最佳輸入組合，都比特徵資料 PFC 獨立輸入 CNN Model 的效果佳。. 59.

(70) (二) 調整門檻值，觀察 F1 score。. 圖 6.17 兩個架構之門檻值θ之設定. 透過圖 6.17 所示，輸入特徵為 CKS、PFC 及、WE 的 CNN Joint Model 與輸入特徵為 CKS、PFC 及、WE 的 Ensemble CNN Model，兩個架構之門檻值θ 設定在 0.3 時，F1 score 均為最高的情況，提問文本之意圖類型分類效果最佳。. 60.

(71) (三) 觀察訓練學習網路所需要多少 Epoch，其 Validation Error 會收斂。. 圖 6.18 (a) CNN Model (CKS). 圖 6.18(b) CNN Model (PFC) 61.

(72) 圖 6.18(c) CNN Model (WE). 圖 6.18(d) CNN Joint Model (CKS+PFC+WE). 62.

(73) 圖 6.18(e) Ensemble CNN Model (CKS&PFC&WE). 圖 6.18(a)所示，輸入提問文本的訓練資料時，取特徵資料 CKS 給 CNN Model ，當 Epoch 為 200 時，Validation Error 將會收斂。圖 6.18(b)所示，輸入提問文本的訓練資料時，取特徵資料 PFC 給 CNN Joint Model ，當 Epoch 為 200 時，Validation Error 將會收斂。圖 6.18(c)所示，輸入提問文本的訓練資料時，取特徵資料 WE 給 CNN Joint Model，當 Epoch 為 200 時，Validation Error 將會收斂。圖 6.18(d)所示，輸入提問文本的訓練資料時，取特徵資料 CKS、PFC 和 WE 給 CNN Joint Model，當 Epoch 為 200 時，Validation Error 將會收斂。圖 6.18(e) 所示，輸入提問文本的訓練資料時，取特徵資料 CKS、PFC 和 WE 各別的 CNN Model 所產生的預測結果給 Ensemble CNN Model，雖然當 Epoch 為 600 時， Validation Error 將會收斂，但是與 Epoch 為 200 時的 Validation Error 相差只有. 63.

(74) 0.001，並且需要 3 倍的時間執行，效益非常低，因此本論文訓練 Ensemble CNN Model 時，Epoch 設定為 200。. (四) 列舉系統預測真實提問文本的意圖類型之範例. 圖 6.19 系統預測真實提問文本的意圖類型之例子. 使用者提問文本的意圖類型之偵測，本論文提出兩種學習網路 CNN Joint Model 與 Ensemble CNN Model，預測使用者提問文本的 18 種意圖類型以範圍 0 到 1 的程度值表示，在圖 6.19 為系統預測使用者提問文本的提問意圖類型時，取程度值大於門檻值 0.3 作為模型預測結果。從使用者提問內容了解 <symptom,disease>為真實標記的提問意圖類型，系統預測的<symptom,disease>. 可對應 “闷闷不乐”、 “情绪低落” 及 “自杀” 為使用者描述的情況，“是不是得抑郁症”為醫療資訊之需求。. 64.

(75) 第七章結論與未來研究方向本論文研究提問文本的意圖類型自動偵測方法，提出從以相關研究[18]提出語意維度關聯計算方法產生提問文本之特徵為基礎，並結合醫療概念關鍵字相似計算方法產生提問文本之特徵。本論文提出的兩種基於卷積神經網路之學習網路 CNN Joint Model 和 Ensemble CNN Model 預測提問文本之意圖類型。實驗中採用不同輸入特徵資料組合，驗證 CNN Joint Model 與 Ensemble CNN Model，在同時輸入語意維度關聯特徵(PFC)和概念關鍵字相似度特徵(CKS)時，比基本方法中只輸入語意維度關聯特徵(PFC)的 CNN Model 效果顯著。再與傳統特徵的詞嵌入向量(WE)或詞性嵌入向量(PE)做為同時輸入的特徵資料時，可使模型分類效果微幅提升。實驗評估顯示，本論文提出的醫療概念關鍵詞特徵，能有效結合提問文本中醫療語意概念詞相關資訊，幫助系統更正確預測出提問文本之意圖類型分類效果。兩種架構取意圖類型的預測程度值大於門檻值 0.3 作為預測結果，F1 評估值皆可達到 0.75。. 未來研究將可進一步分析醫生的回覆內容是否符合使用者提問類型之需求，以從回覆中推薦最佳的回覆答案提供給使用者。. 65.

(76) 參考文獻 [1] Adlassnig, K. P. (1986). Fuzzy set theory in medical diagnosis. In IEEE Transactions on Systems, Man, and Cybernetics.. [2] Chen, Z., Lin, F., Liu, H., Liu, Y., Ma, W. Y., & Wenyin, L. (2002). User Intention Modeling in Web Applications Using Data Mining. In Journal of World Wide Web.. [3] Collobert, R., Weston, J., Bottou, L., Karlen, M., Kavukcuoglu, K., & Kuksa, P. (2011). Natural Language Processing (Almost) from Scratch. In Journal of Machine Learning Research.. [4] Chen, L., Zhang, D., & Levene, M. (2013). Question retrieval with user intent. In Proceedings of the 36th international ACM SIGIR conference on Research and development in information retrieval.. [5] Ding, X., Liu, T., Duan, J., & Nie, J. Y. (2015). Mining User Consumption Intention from Social Media Using Domain Adaptive Convolutional Neural Network. In Proceedings of the Twenty-Ninth AAAI Conference on Artificial Intelligence.. [6] Hu, J., Wang, G., Lochovsky, F., Sun, J. T., & Chen, Z. (2009). Understanding user’s query intent with Wikipedia. In Proceedings of the 18th international conference on World wide web.. 66.

(77) [7] Hu, B., Zhang, Y., Chen, W., Wang, G., Yang, Q. (2011) Characterizing search intent diversity into click models. In Proceedings of the 20th international conference on World wide web.. [8] Kalchbrenner, N., Grefenstette, E., & Blunsom, P. (2014). A Convolutional Neural Network for Modelling Sentences. In Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics.. [9] Kim, Y. (2014). Convolutional Neural Networks for Sentence Classification. In Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing.. [10] LeCun, Y., Bottou, L., Bengio, Y., & Haffner, P. (1998). Gradient-based learning applied to document recognition. In Proceedings of the IEEE.. [11] Lai, S., Xu, L., Liu, K., & Zhao, J. (2015). Recurrent Convolutional Neural Networks for Text Classification. In Proceedings of the Twenty-Ninth AAAI Conference on Artificial Intelligence.. [12] Tsoumakas, G., & Katakis, I. (2007). Multi-label classification: An overview. In Proceedings of the International Journal of Data Warehousing and Mining, pp. 113.. 67.

(78) [13] Xu, P., & Sarikaya, R. (2013). Convolutional neural network based triangular CRF for joint intent detection and slot filling. In IEEE Workshop on Automatic Speech Recognition and Understanding.. [14] Xu, P., & Sarikaya, R. (2014). Contextual Domain Classification in Spoken Language Understanding Systems Using Recurrent Neural Network. In IEEE International Conference on Acoustics, Speech, and Signal Processing.. [15] Yin, Y., Zhang, Y., Liu, X., Zhang, Y., Xing, C., & Chen, H. (2014). HealthQA: A Chinese QA summary system for smart health. In International Conference on Smart Health.. [16] Zhang, H. P., Yu, H. K., Xiong, D.Y., & Liu, Q. (2003). HHMM-based Chinese lexical analyzer ICTCLAS. In Proceedings of the second SIGHAN workshop on Chinese language processing.. [17] Zhang, X., Zhao, J., & LeCun, Y. (2015). Character-level convolutional networks for text classification. In Proceedings of the 28th International Conference on Neural Information Processing Systems.. [18] Zhang, C., Fan, W., Du, N., & Yu, P. S. (2016). Mining user intentions from medical queries: A neural network based heterogeneous jointly modeling approach. In Proceedings of the 25th International Conference on World wide web.. 68.

(79) [19] Zhang, C., Du, N., Fan, W., Li, Y., Lu, C. T., & Yu, P. S. (2017). Bringing Semantic Structures to User Intent Detection in Online Medical Queries. In IEEE International Conference on Big Data.. 69.

(80) 附錄一詞嵌入向量特徵的 CNN Model 架構和參數設定. Layer \ Data. MWE Filter: 7. 卷積層. Filter size: 5x5. 第一回. Strides:1 Polling size: 4x4. 最大池化層. Strides: 4 Filter: 14. 卷積層. Filter size: 5x5. 第二回. Strides:1 Polling size: 5x5. 最大池化層. Strides: 5. 70.

(81) 附錄二系統預測真實提問文本的意圖類型 Query. 我是轻度抑郁症，有时候还会想到自杀，我实在是不知道怎么办才好了. True intention type(s). <disease,treatment>. Predicted intention type(s). 1. <disease,treatment>. 0.6164069. 2. <symptom,treatment>. 0.5071862. Query. 狂躁抑郁症的表现我的叔叔不知道怎么回事，说是得了抑郁症却又会像疯了一样，掀桌子砸碗，说不是抑郁症却又有抑郁症的症状，这到底是怎么回事？. True intention type(s). <disease,symptom>. Predicted intention type(s). 1. <disease,symptom>. 0.85544366. 2. <symptom,disease>. 0.39944595. Query. 性格严重内向曾有想过好几次自杀，而且还很自卑，请问是不是有抑郁症的倾向?. True intention type(s). <symptom,disease>. Predicted intention type(s). 1. <symptom,disease>. 0.61567557. 2. <symptom,treatment>. 0.39980236. 71.