• 沒有找到結果。

生醫文獻中疾病與藥物關係之樣式自動化擷取

N/A
N/A
Protected

Academic year: 2021

Share "生醫文獻中疾病與藥物關係之樣式自動化擷取"

Copied!
66
0
0

加載中.... (立即查看全文)

全文

(1)國立臺灣師範大學 資訊工程研究所碩士論文. 指導教授:. 侯文娟. 博士. 生醫文獻中疾病與藥物關係之樣式自動化擷取 Automatic Pattern Extraction of Disease-Drug Association from Biomedical Texts. 研究生: 中華民國. 李柏勳. 撰. 一零六 年 七 月.

(2) 摘要 本研究嘗試從生醫文獻中找出人類疾病與藥物的關聯度,並在人類疾病與藥 物之間得到一些規則或是關聯性。若能自動從文獻中預測疾病與藥物之間的相關 性,對於未來生醫研究人員探討疾病與藥物的文獻資料時,就可以利用此關聯性, 快速了解疾病與藥物之間的關係,達到快速獲取資訊的目的,既可以節省人力與 時間成本,也能加速生物醫學的發展速度。 本研究所使用的資料為 Clinical trials (https://clinicaltrials.gov/)網站中提供的 一 些 美 國 官 方 已 完 成 的 疾 病 研 究 和 藥 物 的 配 對 , 以 及 PubMed 資 料 庫 (https://www.ncbi.nlm.nih.gov/pubmed/) 的生醫文獻摘要 。在本論文中,首先從 PubMed 文章摘要找出含有 Clinical trials 所提及到的疾病與藥物之句子,視為正 向的句子;以及相同疾病卻不同的藥物之句子,視為負向的句子。透過兩種模型, 第一種是句子中疾病位置在前、藥物位置在後;第二種則是句子中藥物位置在前、 疾病位置在後,以便分析在疾病與藥物之間的動詞、名詞等相關資訊。本研究將 這些單字分為純關聯、純無關聯性、混合字,再使用卡方檢定(chi-square test)把符 合門檻的中性字再做一次的分類,得到疾病與藥物關係之樣式規則,最後利用這 些樣式規則與測試資料做比對與評估,本研究實驗最佳結果 Precision 為 100%、 Recall 為 89%以及 F-score 為 94%。. 關鍵字:疾病-藥物關聯度、樣式擷取、生醫文獻、卡方檢定. i.

(3) Abstract The objectives of this study are to identify the association between human diseases and medications from the biomedical literatures, and to find the rules or relationships between human diseases and drugs. If the association can be identified automatically from literatures, it will help biomedical researchers who is studying the literatures of diseases and medications use the information understand the relationships between diseases and drugs, and have the benefit of collecting the information more efficiently. It would either save the human resource cost and time cost or accelerate the pace of development of biomedical science. The data in this study is from the existing studies of diseases and drugs pairs accomplished by the American authorities in the website of Clinical Trial (https://clinicaltrials.gov/) and biomedical literatures in the website of PubMed (https://www.ncbi.nlm.nih.gov/pubmed/). In this thesis, initially we search for the sentences with the terms of diseases and drugs mentioned in the Clinical trials website and identify these sentences as positive sentences. Then find the sentences with relevant diseases but with different medications and identify these sentences as negative sentences. As to analyze the number of verbs and nouns pertinent to diseases and medications, two models with different sentence structures are established. The first model is for the sentences with the order that word “diseases” precedes the word “medications”. The second model is for the sentences in a reverse order of the first model. Then classify these words into categories of pure association, pure no association and neutrals. Among them, the qualified neutrals are further classified by the method of the chi-square test. The associations between diseases and medications are, as a result, identified which are called patterns later. Finally, use the patterns to test data ii.

(4) to extract the disease and drug pairs. The best experimental results show precision value of 100%, Recall value of 89%,and F-score value of 94%.. Keywords: disease-drug association, pattern extraction, biomedical literature, chi-square test. iii.

(5) 謹獻給 我的父母、指導教授、同學和朋友,以及所有幫助過我的人. iv.

(6) 誌. 謝. 本篇論文得以順利完成,首先要感謝我的指導教授侯文娟老師,感謝老師在 這兩年時間,引領我進入自然語言處理的領域,細心教導相關知識,並為我的研 究方向給予很多寶貴的建議,在遇到研究瓶頸時,老師也給我很多的幫助和提點, 讓我可以克服困難,在此向老師致上最高的敬意。 在研究所的期間,感謝實驗室的學長、同學和學弟妹,經常與我討論課業上 的問題、還有互相分享生活上的趣事,讓我在碩士修業期間能有難忘的回憶。 最後感謝我的家人,這兩年的支持讓我可以無後顧之憂地完成碩士學位,在 此致上我最大的感激,謝謝你們。. v.

(7) 目錄. 摘要.................................................................................................................................. i Abstract ........................................................................................................................... ii 目錄................................................................................................................................ vi 附表目錄....................................................................................................................... vii 附圖目錄...................................................................................................................... viii 第一章 緒論............................................................................................................. 1 第一節 研究背景................................................................................................. 1 第二節 研究目的................................................................................................. 2 第三節 論文架構................................................................................................. 2 第二章 相關研究探討............................................................................................. 3 第一節 文獻探討................................................................................................. 3 第二節 疾病介紹................................................................................................. 6 第三節 Stanford Parser ........................................................................................ 8 第四節 Drug Bank ............................................................................................... 9 第五節 Stemming .............................................................................................. 10 第三章 方法與步驟............................................................................................... 11 第一節 緒論....................................................................................................... 11 第二節 背景知識庫........................................................................................... 11 第三節 前置處理程序....................................................................................... 14 第四節 研究方法架構....................................................................................... 16 第五節 後置處理程序....................................................................................... 20 第四章 實驗與結果............................................................................................... 31 第一節 實驗資料............................................................................................... 31 第二節 評估測量標準....................................................................................... 37 第三節 實驗結果............................................................................................... 38 第四節 分析與討論........................................................................................... 42 第五章 結論與未來發展....................................................................................... 56 參考文獻....................................................................................................................... 57. vi.

(8) 附表目錄 表 1:Penn Treebank Tagset 常見的代表詞性 ........................................... 16 表 2:Be 動詞、Have 助動詞、Do 助動詞在各類模型的次數 ............... 22 表 3:經過規則(二)的處理結果 ................................................................. 23 表 4:經過規則(三)的處理結果 ................................................................. 24 表 5:經過規則(二)的處理結果 ................................................................. 25 表 6:經過規則(三)的處理結果 ................................................................. 26 表 7:疾病前藥物後-動詞 mixed words 中 treat 的邊際值之計算 ........ 27 表 8:treat 在卡方檢定的期望值計算結果 ............................................... 27 表 9:treat 在卡方檢定的卡方值計算結果 ............................................... 28 表 10:疾病前藥物後-動詞 mixed words 中 enrol 的邊際值之計算..... 29 表 11:enrol 每一個在卡方檢定的期望值計算結果 ................................ 29 表 12:enrol 每一個在卡方檢定的卡方值計算結果 ................................ 30 表 13:enrol 的卡方值計算結果(未使用葉氏連續性修正) ...................... 30 表 14:正向訓練資料的疾病與藥物配對.................................................. 31 表 15:負向訓練資料的疾病與藥物配對.................................................. 32 表 16:正向測試資料的疾病與藥物配對.................................................. 32 表 17:負向測試資料的疾病與藥物配對.................................................. 33 表 18:節錄疾病位置在前、藥物位置在後 20 個關聯的動、名詞單字 33 表 19:節錄藥物位置在前、疾病位置在後 20 個關聯的動、名詞單字 34 表 20:節錄疾病位置在前藥物位置在後 20 個無關聯性的動、名詞單字 ............................................................................................................... 35 表 21:節錄藥物位置在前疾病位置在後 20 個無關聯性的動、名詞單字 ............................................................................................................... 35 表 22:各個模型關聯、無關聯性詞彙數量.............................................. 35 表 23:二元分類表...................................................................................... 37 表 24:單一動詞的實驗結果...................................................................... 38 表 25:單一名詞的實驗結果...................................................................... 39 表 26:先看動詞的極性再看名詞的極性之實驗結果.............................. 40 表 27:先看名詞的極性再看動詞的極性之實驗結果.............................. 41 表 28:單一動詞的實驗結果...................................................................... 43 表 29:單一名詞的實驗結果...................................................................... 44 表 30:先看動詞的極性再看名詞的極性之實驗結果.............................. 47 表 31:先看名詞的極性再看動詞的極性之實驗結果.............................. 48 表 32:新增規則後的先看動詞的極性再看名詞的極性之實驗結果...... 51 表 33:新增規則後的先看名詞的極性再看動詞的極性之實驗結果...... 52 表 34:更新後的負向測試資料.................................................................. 53 vii.

(9) 附圖目錄 圖 1:MeSH database 的輸入介面 ............................................................... 4 圖 2:Clinical trials 的網站首頁 ................................................................... 5 圖 3:Stanford Parser online .......................................................................... 9 圖 4:Drug Bank 的藥物字典下載頁面 ..................................................... 10 圖 5:PubMed 的網站介紹 ......................................................................... 12 圖 6:PubMed 進階搜尋範例 ..................................................................... 12 圖 7:疾病字典的部分疾病名稱................................................................ 13 圖 8:藥物字典的部分藥物名稱................................................................ 13 圖 9:例句 3.3.1 之斷句處理執行畫面...................................................... 14 圖 10:例句 3.3.1 修改後的示意圖............................................................ 15 圖 11:例句 3.3.2 之斷句處理執行畫面 .................................................... 15 圖 12:例句 3.3.2 修改後的示意圖............................................................ 15 圖 13:整體研究架構圖.............................................................................. 18 圖 14:研究方法架構流程圖...................................................................... 19 圖 15:例句 3.5.1 為 Parsing 單位錯誤詞性的示意圖.............................. 20 圖 16:例句 3.5.2 為 Parsing 疾病錯誤詞性的示意圖.............................. 21 圖 17:例句 3.5.3 為 Parsing 藥物錯誤詞性的示意圖.............................. 21 圖 18:例句 3.5.4 為 Parsing 符號錯誤詞性的示意圖.............................. 24 圖 19:例句 3.5.5 為 Parsing 單位錯誤詞性的示意圖.............................. 25 圖 20:單一詞性之 Recall 直條圖 ............................................................ 46 圖 21:單一詞性之 F-Score 直條圖 ........................................................... 46 圖 22:同時使用兩個詞性的 Recall 直條圖 ............................................. 49 圖 23:同時使用兩個詞性的 F-Score 直條圖 ........................................... 50. viii.

(10) 第一章. 緒論. 第一節 研究背景. 自然語言處理是人工智慧和語言學領域的分支學科,主要是透過資料數位化 讓電腦能夠理解人類的語言。很多領域的知識都以自然語言的方式記錄下來,從 古至今也累積相當大量的資料,而在這些巨大的資料後面隱藏著珍貴的知識,非 常值得分析、發展及應用,這也是自然語言處理的研究目標之一。 隨著現今科技的進步,大量的資料都能透過網際網路搜尋及取得,在生物醫 學領域也是如此,最近醫學界及藥廠很流行藥物重新定位(Drug repurposing),方 法就是使用已知的藥物治療新的疾病。因為製作新的藥物需要發展很長的時程, 還要多重的生物實驗和人體實驗才可以合法使用,花費的成本相當高,所以目前 很多藥廠想要透過大數據分析並結合自然語言技術,大量分析生物醫學文件,找 出一些已存在的藥物,透過新的組合方式用於醫治新的疾病。 根據衛生福利部在 2016 年 8 月 5 日公布的 104 年國人死因統計結果,指出 十大癌症死亡率依序為(1)氣管、支氣管和肺癌,(2)肝和肝內膽管癌,(3)結腸、直 腸和肛門癌,(4)女性乳房癌,(5)口腔癌,(6)前列腺(攝護腺)癌,(7)胃癌,(8)胰臟 癌,(9)食道癌,(10)子宮頸及部位未明示子宮癌。其中肺癌為國人十大癌症死因 之首,所以本研究訓練集資料探討、分析的疾病都與肺癌有相關性。 1.

(11) 第二節 研究目的. 本研究希望可以從大量的生物醫學文件中,找出包含單一疾病及對應藥物的 句子做進一步的詞性分析,透過自然語言處理(Natural Language Processing, NLP) 的技術,並結合統計相關概念方法,希望找出一些疾病與藥物之間的關聯性。目 前存有最多的疾病藥物治療資訊是在 Clinical trials (https://clinicaltrials.gov/),該網 站目前收集 237,945 個疾病與藥物的治療報告(2016 年 8 月資料),有些是未完成 還在持續進行的人體實驗階段,也有已經完成的治療資訊,本研究是從已完成的 治療報告中挑出一些疾病來做分析。. 第三節 論文架構. 本論文組織架構如下:第一章為緒論,介紹研究背景及目的;第二章探討相關 文獻,包括疾病的介紹、相關的工具和使用的語料庫;第三章介紹研究方法及步驟; 第四章說明實驗結果與分析,討論遇到的問題和相關的解決方法;最後的章節總結 本論文的研究,並找出未來可能的發展以及新的方向。. 2.

(12) 第二章. 相關研究探討. 第一節 文獻探討. 本論文研究目的為自動從生醫文獻找出疾病與藥物之間的關係,在實驗的過 程中,研讀與探討許多人在此領域的實驗方法與技術,發現有一些研究使用 MeSH (Medical Subject Headings) terms (https://www.ncbi.nlm.nih.gov/mesh/)尋找疾病與藥 物之間的關係,也有一些研究透過 Clinical trials 的報告了解疾病與藥物之間的關 係,以下介紹這兩種不同尋找疾病或藥物關係的方法以及相關研究。 (一) MeSH terms MeSH terms 是一套由美國國家醫學圖書館(NLM)所建立的生物醫學領域主 題詞表,每一個主題詞都代表特定的主題範疇。當使用者把欲查詢的關鍵字輸入 MeSH Database 中 (如圖 1 所示),將比對出最接近、最適當的 MeSH terms,點選 這些 terms 的連結,它會告訴使用者 terms 的涵義,也可詳細以樹分層的方式呈現 上下層彼此的詞彙,再藉由這些 terms 可以到 PubMed database 查詢相關醫學文獻 (https://www.ncbi.nlm.nih.gov/pubmed/)。. 3.

(13) 圖 1:MeSH database 的輸入介面1 Jang et al.(2016)的研究主要是從兩個來源取得相關資料庫,一個是從 National Health and Nutrition Examination Survey(NHANES)取得電子病歷資訊,另一個則是 利 用 MeSH terms 取 得 目 前 出 版 相 關 藥 物 文 章 摘 要 和 從 Drug Bank (https://www.drugbank.ca/)取得的藥物資料庫,藉以建立兩類特徵向量。第一類是 臨床疾病特徵向量,是由 clinical variables 資料集組成,代表在電子病歷上疾病與 健康之間的重要因素;第二類為藥物影響向量,是由 Drug Bank 的藥物列表和 PubMed 的藥物文章摘要所組成。透過統計的方法比較這兩類向量且求出疾病與 藥物對的分數,此分數代表著已存在的藥物對於特定疾病潛在治療的影響程度。 (二) Clinical trials Clinical trials 是美國衛生研究院提供的線上醫學臨床試驗報告,該網站首頁 如圖 2 所示。網站中包含已完成的、目前持續招募受試者、還有暫停招募受試者、 未來視情況決定是否繼續等研究狀態,此網站的優點是可以直接了解疾病名稱, 以及疾病所搭配的治療藥物與劑量,還有新功能是可以限定欲查詢的國家、受試 者的年齡與性別。. 1. https://www.ncbi.nlm.nih.gov/mesh/. 4.

(14) 圖 2:Clinical trials 的網站首頁2 Xu & Wang (2013)的研究顯示,他們從 Clinical trials 的疾病資料庫建立研究 所需之疾病字典,並從 Drug Bank 的藥物資料庫再建立藥物字典。該研究的實驗 方法如下:首先透過已知的疾病與藥物對學習關係模型,例如原句為“Role of irinotecan in the treatment of small cell carcinoma ” (PMID: 11995707)擷取的關係 為“DRUG in the treatment of DISEASE ”,接著從 MEDLINE 擷取大量的文章摘要, 透過疾病字典和藥物字典自動對文章摘要進行標記,並且擷取同時具有藥物與疾 病的句子,找出出現頻率較高的關係,最後以 Precision、Recall、F1 值評估實驗 效能。本篇論文參考此研究的疾病與藥物資料庫取得方式,直接透過 Clinical trials 裡已完成報告之部分疾病與藥物對進行分析,因為這樣可以減少搜尋疾病與藥物 配對的時間,而且也能確保找到的疾病與藥物是實務臨床使用的,再加上其他規 則學習和統計的方法,最後以 Precision、Recall、F1 值呈現評估效能。 (三)PubMed 和 MEDLINE 的比較 MEDLINE 及 PubMed 都是由美國國家醫 學圖書館 (National Library of. 2. https://clinicaltrials.gov/. 5.

(15) Medicine,簡稱 NLM)所建置,但兩者在本質上有所差異,MEDLINE 是資料庫, PubMed 則是資料庫平台。PubMed 可以查找到 MEDLINE 資料庫所收錄之資料, 但不限於 MEDLINE,還可以查詢 MeSH terms、Protein 等多種資料庫內的資料, PubMed 除了可查找 MEDLINE 收錄的文章外,還可以查詢到下列資訊: 1. 處理中的文章,此類文章尚未由專業館員加上 MeSH,亦尚未收錄於 MEDLINE。 2. 尚未正式發表的期刊文章,此類文章通常是出版社經由電子方式提交給 NLM。 3. 部分尚未更新為近代辭彙,或尚未收錄於 MEDLINE 的 OLDMEDLINE 資. 料。 本論文採用 PubMed 當作背景知識庫來源,因為它的資料庫種類除了包含 MEDLINE 的資料庫還有其它多種資料庫,這有助於增加查詢資料的廣度。. 第二節 疾病介紹. 一、 慢性阻塞性肺病(COPD). 慢性阻塞性肺病(COPD)(Chronic Obstructive Pulmonary Disease),是一種呼 吸道或肺部接觸到有害微粒、氣體導致慢性呼吸道發炎,進而造成呼吸道阻塞的 疾病,該症狀是種不可逆的阻塞現象,主要誘發於慢性支氣管炎及肺氣腫等病人, 也好發在有吸菸習慣的人身上。其症狀會使病人的支氣管變狹窄導致呼氣時氣流 受到阻礙,症狀初期為間接性的咳嗽,後來發展成慢性咳嗽及漸進性的呼吸困難, 6.

(16) 其他症狀還包含胸悶、呼吸費力、氣喘、喘鳴(Wheeze, Sibilant Rhonchi)、吸不到 空氣及咳痰等。當病情嚴重時,胸悶感及呼吸困難加劇,導致運動的耐力下降、 爬樓梯會喘等狀況,同時也會使病人在心裡上產生焦慮,嚴重時則可能導致失能。 (參考來源:http://epaper.ntuh.gov.tw/health/201509/health_2.html) 二、非小細胞肺癌(NSCLC). 根據組織病理學分類,從肺癌的形態特徵和分化程度可以將其分為兩大類, 即小細胞肺癌(SCLC)(Small Cell Lung Cancer),和非小細胞肺癌(NSCLC)(NonSmall Cell Lung Cancer),後者約占整體肺癌的 80%,常見分類包括鱗狀上皮細胞 癌 (SCC,SqCC)(Squamous-Cell Carcinoma) 、 腺 癌 (Adenocarcinoma) 和 大 細 胞 癌 (Large Cell)三種。. (一). 鱗狀上皮細胞癌 簡稱扁平細胞癌,或稱為表皮樣癌(Epidermoid carcinoma) ,是一種由上皮組. 織細胞或鱗狀細胞病變的癌症,由於鱗狀細胞與肺部、消化系統及身體各部分組 織有關係,因此雖然該疾病為皮膚癌的主因,但病發於肺部上所造成的肺癌占整 體肺癌的 30%,因此本論文只探討發於肺部的鱗狀上皮細胞癌。該病好發於有吸 菸習慣的男性,大多起源於較大的支氣管,是一種中央型肺癌。傾向於管腔內進 行生長,因此早期常導致支氣管狹窄,進而發展為阻塞性肺炎;由於癌組織易發 生壞死及形成空洞,進而導致肺塌陷。一般生長較為緩慢,病程較長,較晚發生 轉移。轉移時通常利用淋巴管作為媒介,晚期才會利用血管進行轉移。手術切除 率較高,對放射及化學療法的敏感度不及小細胞癌。 7.

(17) (二). 腺癌 在肺癌中最常見,占整體肺癌的 40%,大部分發於肺部的周圍。腺癌大多起. 源於較小的支氣管粘膜分泌黏液的上皮細胞,與鱗狀上皮細胞癌不同的是該疾病 傾向於管外生長,因此常在肺邊緣部形成腫塊,大小多為直徑 2~4 公分不等,可 能為乳頭狀腺癌、腺管狀腺癌、細支氣管肺癌、肺泡細胞癌等。好發於女性,和 吸菸與否並無明顯關係。有一些病例與肺纖維疤痕病變有關,因富含血管,因此 易利用血液進行轉移至肋膜,導致胸腔積液。早期並沒有明顯的臨床症狀,往往 在胸部X光線檢查時才被發現。但有部分病例為較早發生血管轉移,導致癌細胞 轉移至腦部後進行治療才發現是由肺部原發的肺腺癌。. (三). 大細胞癌 又名未分化的惡性上皮腫瘤,此類型在肺癌不多見,與鱗狀上皮細胞癌一樣. 大多起源於較大支氣管。該疾病的腫瘤體積較大,惡性度高,也較早出現經淋巴 道或血管進行轉移,因此有時是在發現腦轉移後才被發現是由肺部原發的大細胞 癌,預後(Prognosis)差。目前大致可分成巨細胞癌和透明細胞癌二種。 (非小細 胞癌參考來源:http://www2.cch.org.tw/lungcancer/ LC_path.htm). 第三節 Stanford Parser Stanford Parser3是由 Stanford 大學自然語言處理團隊所製作的免費剖析器, 可以分析具有文法結構的句子,從使用者輸入的句子中,每個單詞給予相對的詞. 3. http://nlp.stanford.edu/software/lex-parser.shtml. 8.

(18) 性,雖然還是可能會出錯,但是普遍執行結果是正確的。這個剖析器是自然語言 處理領域在 1990 年代最大的突破,使用者可以直接使用線上的剖析功能,也可以 把此剖析器程式下載自行操作。圖 3 為 Stanford Parser 的線上操作範例,其中 Tagging 部分標出各個詞語的詞性,Parse 部分則顯示剖析的結果。. 圖 3:Stanford Parser online4 目前此剖析器,可處理多種語言,包括英文、中文、法文、阿拉伯文和西班 牙文等,而且還會持續更新。並且提供單機剖析器程式,所相容的程式語言有 Java、 PHP、Python、Ruby、C#等。. 第四節 Drug Bank. Drug Bank 是一個存有大量藥物資訊的資料庫,本研究從 Drug Bank 的資料. 4. http://nlp.stanford.edu:8080/parser/. 9.

(19) 庫下載它所提供的藥物名稱當成主要藥物字典,總共有 8221 個藥物,這些藥物有 2221 種美國 FDA(Food and Drug Administration)批准的藥物以及 6000 種實驗階段 的藥物。圖 4 為 Drug Bank 的藥物字典下載頁面,字典內所包含的有藥物編號、 藥物名稱、藥物同義字。. 圖 4:Drug Bank 的藥物字典下載頁面5. 第五節 Stemming. Standard Porter stemming algorithm (Porter, 1980)是由學者 Porter 所提出的英 文詞幹提取演算法,主要是透過演算法把單詞作還原,例如原單詞為“activation” 那經過 stemming 後的單詞會變成“activ”,stemming 的好處是可以聚集以多種詞 性呈現的同一單詞意義,不論單複數、時態,但還是有一部分不符合本研究使用, 所以本論文使用此演算法會再加上後置處理程序,同時也會藉由一些規則改善 stemming 後所造成的一些錯誤,詳細作法將在第三章介紹說明。. 5. https://www.drugbank.ca/releases/latest#open-data. 10.

(20) 第三章. 方法與步驟. 第一節 緒論 本研究參考 Xu & Wang (2013)提出的架構,整個實驗方法分成四個部分,包 括前置處理程序、關係樣式擷取、後置處理程序、特徵選取。前置處理程序包括 斷句、斷詞、詞性標記,形成訓練資料集,再利用規則去分類關係樣式模型,最 後透過後置處理程序以及卡方檢驗方式來增加分類的詞彙,得到正確且完整的訓 練模型。後置處理程序包括 stemming、過濾與合併、分類詞彙。. 第二節 背景知識庫. (一) 生醫文獻資料庫 PubMed 為美國國家醫學圖書館(NLM)的國家生技資訊中心(NCBI)製作,為 醫學期刊文獻索引摘要資料庫平台。主題包括:臨床與基礎醫學、護理、牙科學、 獸醫學等;資料庫包含整個 Medline,也收錄部分未包含於 Medline 的生命科學期 刊文獻之書目,收錄年代自 1950 年起至今。該資料庫提供部分免費及付費全文連 結服務,並包含即將出版的醫學文獻。圖 5 為 PubMed 網站介紹,其中可以直接 輸入關鍵字搜尋,也可以選擇其他的生物醫學資料庫、檢索工具和其他資源。. 11.

(21) 圖 5:PubMed 的網站介紹 PubMed 也提供進階搜尋的服務,可以一次查詢多個疾病或是藥物同時出現 的摘要或結論,並可以限定出版年限,如 5 年內或是 10 年內的文獻或是出處。例 如圖 6 所示,同時限定文章標題或摘要必須包含疾病名稱(Chronic Obstructive Pulmonary Disease)及藥物名稱(Fluticasone propionate)。. 圖 6:PubMed 進階搜尋範例 (二)疾病字典 本研究建立的疾病字典是自 Clinical trials 所提供的臨床試驗報告中,擷取同 時出現疾病與藥物報告的疾病才納入本研究疾病字典資料集。圖 7 為本研究疾病 字典的部分疾病名稱列表。. 12.

(22) 圖 7:疾病字典的部分疾病名稱 (三) 藥物字典 主要是以 Drug bank 的藥物列表為本研究藥物字典的基底,只取藥物列表中 common name 欄位,如果 Clinical trials 的報告中同時包含疾病與藥物,就比對此 藥物是否出現在 Drug bank 列表之中,若沒有則新增至本研究藥物字典裡。圖 8 為本研究藥物字典其中一部分。. 圖 8:藥物字典的部分藥物名稱 13.

(23) 第三節 前置處理程序. 前置處理程序包含斷句、斷詞和詞性標記。原始的文章摘要會先進行斷句、 斷詞再利用工具進行詞性標記,之後依照規則模型去分類訓練資料集。 (一)斷詞(Segmentation) 本研究的斷詞、斷句以下列程序完成,先將整篇文章以句號作為分隔點斷句, 再把每一個文句逐一斷詞。對於醫學文章摘要中,最容易遇到的斷句問題,就是 程式誤判把小數點當成句點導致斷句錯誤,另一個問題就是使用兩個句點作為斷 句的起點與終點,會把摘要中的章節名稱也一起擷取下來,本研究制定兩個規則 以便修正結果。 問題 1: 例句 3.3.1: Both aclidinium doses also provided significant improvements in SGRQ, TDI and almost all COPD symptom scores compared with placebo (p < 0.05 for all). 例句 3.3.1 的斷句問題是程式誤判小數點為句點導致把應該為同一個句子斷成兩 個句子(如圖 9 所示)。. 圖 9:例句 3.3.1 之斷句處理執行畫面 規則(一):多加一個判斷式,遇到句點就再看下一個字元是否為空白,如果是的話 即是句尾,如果不是則為小數點。. 14.

(24) 圖 10:例句 3.3.1 修改後的示意圖 若採用此規則修改斷句程式例句 3.3.1 第一行的句點即被判斷為小數點則不 會換行(如圖 10 所示),藉此方式解決斷句的錯誤,被更正的句子數為 265 句,總 句子為 2000 句,占全部的訓練資料的比例為 13.65%。 問題 2: 例句 3.3.2: BACKGROUND: Nondopaminergic pathways represent potential targets to treat levodopa-induced dyskinesia in Parkinson's disease (PD). 例句 3.3.2 的斷句問題為程式在斷句時,同時也把章節名稱也一並擷取下來。. 圖 11:例句 3.3.2 之斷句處理執行畫面 規則(二):利用程式語言工具是 sed6中的正規表達式"^[a-zA-Z]*:"去除章節名稱, ^代表句首,*代表前一個字重複任意次。. 圖 12:例句 3.3.2 修改後的示意圖 若採用此規則修改斷句程式例句 3.3.2 即可成功去除章節名稱,保留目標原 句(如圖 12 所示)。藉此方式解決斷句的錯誤,被更正的句子數為 982 句,總句子 為 2000 句,占全部的訓練資料的比例為 49.10%。. 6. http://linux.vbird.org/linux_basic/0330regularex.php#sed. 15.

(25) (二)詞性標記(Part of Speech Tagging) 本研究使用 Stanford Parser 的詞性標記功能,POS Tag 會出現各種表示符號, 本論文列出 Penn Treebank Tagset 常見的詞性與其代表涵意。表 1 共列出 16 種較 為常見的代表詞性。 表 1:Penn Treebank Tagset 常見的代表詞性 POS Tag. Example. CC. Description 連接詞. CD. 數字. 1, third. FW. 外國單字. d'hoevre. IN. 介係詞. In , of. JJ. 形容詞. green. JJR. 形容詞(比較級). greener. JJS. 形容詞(最高級). greenest. NN. 一般名詞(單數). table. NNS. 一般名詞(複數). tables. NNP. 專有名詞(單數). John. NNPS. 專有名詞(複數). Vikings. VB. 一般動詞. take. VBD. 動詞(過去式). took. VBG. 動詞(現在分詞). taking. VBN. 動詞(過去分詞). taken. VBP. 動詞(非第三人稱). take. VBZ. 動詞(第三人稱). takes. And. 第四節 研究方法架構. 本 研 究 參 考 Xu & Wang (2013) 尋 找 資 料 來 源 的 做 法 , 從 PubMed (https://www.ncbi.nlm.nih.gov/pubmed/)的疾病與藥物文章摘要中找出同時具有指 16.

(26) 定 的 疾 病 與 藥 物 句 子 , 本 研 究 指 定 的 疾 病 包 括 慢 性 阻 塞 性 肺 病 (Chronic Obstructive Pulmonary Disease)和非小細胞肺癌(Non-Small Cell Lung Cancer),收 集完成之後再把句子分成四種類別,第一種是正向句子,疾病位置在前、藥物位 置在後;第二種是正向句子,藥物位置在前、疾病位置在後;第三種是負向句子, 疾病位置在前、藥物位置在後;第四種是負向句子,藥物位置在前、疾病位置在後, 為了訓練資料的平衡,正向和負向都各取 1000 個句子,之後再利用 Stanford Parser 對每個標記好的句子取詞性。本研究樣式截取的主要對象是疾病與藥物之間的動 詞、名詞,截取完動詞、名詞後,再利用統計的方式進行分析及研究。整體研究 架構圖如圖 13 所示。 圖 13 為整體研究架構圖,首先從 PubMed 擷取文章摘要,進入前置處理程 序,透過關聯擷取演算法,本研究把經過關聯演算法的句子分為兩個模型,模型 1 為疾病位置在前、藥物位置在後“Disease Pattern Drug”,模型 2 為藥物位置在前、 疾病位置在後“Drug Pattern Disease”,之後再透過卡方檢定,產生規則 Pattern。 圖 14 為本系統之架構流程圖,首先從 PubMed 擷取文章摘要,進入前置處理 程序,前置處理程序包含斷句、斷詞和詞性標記,把已經標記詞性的句子去樣式 截取,在透過後置處理程序,後置處理程序包含 stemming、過濾與合併、分類詞 彙。本研究分類詞彙分為三類,第一類為純關聯詞彙(Pure Association Words);第 二類為純無關聯性詞彙(Pure No Association Words);第三類為混合詞彙(Mixed Words),再利用卡方檢驗方式,把通過卡方檢驗的單字再次分類到關聯詞彙集、 無關聯性詞彙集,關聯詞彙集(Pure AWs + Mixed(A))包含純關聯詞彙與通過卡方 檢定的混合詞彙,無關聯詞彙集(Pure NAWs + Mixed(NA))包含純無關聯性詞彙 與通過卡方檢定的混合詞彙,最後使用關聯詞彙集、無關聯性詞彙集進行實驗分 17.

(27) 析及評估。. PubMed abstracts. 前置處理程序. 關聯擷取演算法. 模型 2. 模型 1 卡方檢定. 產生規則 Pattern. 圖 13:整體研究架構圖. 18.

(28) PubMed abstracts. Drug Lexicon. Disease Lexicon. Preprocessing. Punctuation Segmentation Stanford Parser. POS Tagging. Tagged Sentences. Only Positive Words. Only Negative Words. Mixed Words. Pattern Extraction. Chi-square Test. Post-processing. Check next. Porter’s Stemmer. Stemming Filter and merge Word Classification. Mixed word. for each Mixed word > threshold. Yes Only PWs +Mixed(P). Only NWs +Mixed(N). Test and Evaluation. 圖 14:研究方法架構流程圖 19. No.

(29) 第五節 後置處理程序. (一)Stemming 處理 透過 Porter stemming 演算法,把依規則擷取出的動詞與名詞,還原其原本字 根,再合併相同的字根,只留下相異的動詞、名詞字根。 (二)過濾與合併 經過觀察規則擷取出的動詞、名詞,本研究歸納出一些過濾與合併的規則, 以下依動詞、名詞分別介紹。 (1)動詞的過濾與合併之規則:. 規則(一):去掉 Parsing 錯誤的動詞或是沒有意義的字. 1.單位(microg) 例句 3.5.1: We conducted an 8-week, multicenter, randomized, double-blind, doubledummy, parallel-group study of subjects with moderate to severe COPD to compare fluticasone propionate/salmeterol 250/50 microg BID (FSC) with ipratropium/albuterol 36/206 microg QID (IB/ALB).. 圖 15:例句 3.5.1 為 Parsing 單位錯誤詞性的示意圖 圖 15 的 Parsing 單位錯誤是指,把單位(microg)錯誤剖析成動詞,透過規則 20.

(30) (一)要先將其去掉,才能避免訓練模型錯誤,藉此方式解決 Parsing 單位錯誤,被 更正的句子數為 52 句,總句子為 2000 句,占全部的訓練資料的比例為 2.6%。 2.疾病、藥物名稱(disku,formoterol) 例 句 3.5.2: To provide information on the efficacy and safety of Fluticasone Propionate/Salmeterol Hydrofluoroalkane 134a Metered-Dose-Inhaler 230/42mcg (FSC MDI) and its comparable dose of Fluticasone Propionate/Salmeterol DISKUS 250/50mcg (FSC DISKUS) in patients with COPD.. 圖 16:例句 3.5.2 為 Parsing 疾病錯誤詞性的示意圖 圖 16 的 Parsing 疾病錯誤是指,把疾病(disku)錯誤剖析成動詞,透過規則(一) 要先將其去掉,才能避免訓練模型錯誤,藉此方式解決 Parsing 疾病錯誤,被更正 的句子數為 50 句,總句子為 2000 句,占全部的訓練資料的比例為 2.5%。 例 句. 3.5.3: To evaluate the impact of a therapeutic interchange from. fluticasone/salmeterol to mometasone/formoterol on health outcomes in patients with COPD in a large ambulatory and managed care setting.. 圖 17:例句 3.5.3 為 Parsing 藥物錯誤詞性的示意圖 圖 17 的 Parsing 藥物錯誤是指,把藥物(formoterol)錯誤剖析成動詞,透過規 則(一)要先將其去掉,才能避免訓練模型錯誤,藉此方式解決 Parsing 疾病錯誤, 被更正的句子數為 486 句,總句子為 2000 句,占全部的訓練資料的比例為 24.3%。. 21.

(31) 3.Be 動詞或是助動詞(be, have, do) 依據本研究的四個種類別,第一種是正向句子,疾病位置在前、藥物位置在 後;第二種是正向句子,藥物位置在前、疾病位置在後;第三種是負向句子,疾病 位置在前、藥物位置在後;第四種是負向句子,藥物位置在前、疾病位置在後,分 別計算 Be 動詞(is, are, was, were, be, been, being)、have 助動詞(has ,have ,had)、do 助動詞(do, does, did),以下是在各自模型的出現次數以表格呈現: 表 2:Be 動詞、Have 助動詞、Do 助動詞在各類模型的次數 疾病前藥物後 (正向). 疾病前藥物後 (負向). 藥物前疾病後 (正向). 藥物前疾病後 (負向). Be 動詞. 105 次. 187 次. 213 次. 183 次. Have 助動詞. 22 次. 39 次. 55 次. 70 次. Do 助動詞. 2次. 1次. 7次. 4次. 出現單字 次數總和. 502 次. 867 次. 970 次. 881 次. 由表 2 可以了解 be 動詞出現的次數是這三類最高的,都佔各個模型全部 20%, Have 助動詞的出現次數也是佔各個模型 4~8%,這兩類的出現次數都屬於在全部 單字比例很高的族群,但是卻不帶任何意義,過濾掉這 3 類的單字,剩下的單字 就可以依照出現次數較多的代表為此單字在摘要中的重要程度。. 規則(二):如果遇到英式或是美式用法的處理方式,是把兩個單字出現的次數相 加再合併歸類,字根還原成兩個最大相似。. 22.

(32) 英式拼寫與美式拼寫的差異: 1. 英式英文單字中在“o”的後方多加一個“u”,例如美式拼法“harboring”,英式拼 法“harbouring”,經過規則(二)的處理後,就變成“harbo”,再把兩個單字的出現 次數相加。 2. 美式英語字尾為“-ze”,英式英語字尾“-se”,例如美式拼法“analyzed”, 英式拼 法“analysed”, 經過規則(二)的處理後,就變成“analy”,再把兩個單字的出現 次數相加。 3. 美式英文中是“-ize”結尾,在英式英文中則是“-ise”,例如美式拼法“randomized”, 英式拼法“randomised”,經過規則(二)的處理後,就變成“randomi”,再把兩個 單字的出現次數相加。 規則(二)中把兩個出現字數相加,再把字根還原成兩個最大相似,其用意是 為了避免原本是相同的字因為拼法不同,導致出現次數被分散影響其重要程度。 表 3 為經過規則(二)的處理結果。 表 3:經過規則(二)的處理結果 unigramVerbs(stem). Category. Original Verbs. Frequency. harbo. 3. harbor, harboring, harbouring. 22. analy. 3. analyze, analyzed, analysed. 4. randomi. 2. randomized, randomised. 12. 規則(三):比對 stem 後的單字,發現部分不同時態的單字會被還原成兩個不同的 字根,經過人工比對,將其還原成一般的時態並且把出現次數做相加再合併歸類, 例如“show”和“shown”、“become”和“became”、“give”和“given”、“lead”和“led”。如 表 4 為經過規則(三)的處理結果。 23.

(33) 表 4:經過規則(三)的處理結果 unigramVerbs(stem). Category. Original Verbs. Frequency. show. 4. show, showed, showing, shown. 10. becom. 2. become, became. 2. give. 2. giving, given. 8. lead. 3. lead, leads, led. 4. (2)名詞的過濾與合併之規則:. 規則(一):去掉 Parsing 錯誤的名詞或是較無重要性的單字. 1.符號、單位(%, (, ), mg, μg) 例句 3.5.4: Compared with placebo, B/F treatment led to significantly lower 3-month exacerbation rates in the moderate and severe COPD severity groups (46% and 57% reduction, respectively), with a nonsignificant reduction (29%) in very severe COPD.. 圖 18:例句 3.5.4 為 Parsing 符號錯誤詞性的示意圖 圖 18 的 Parsing 符號錯誤是指,把符號錯誤剖析成名詞,透過規則(一)要先 將其去掉,才能避免訓練模型錯誤,藉此方式解決 Parsing 符號錯誤,被更正的句 子數為 62 句,總句子為 2000 句,占全部的訓練資料的比例為 3.1%。 例句 3.5.5 A total of 44 treatment-naive, elderly Japanese patients with moderate-tosevere COPD were treated with a transdermal tulobuterol patch (TP; 2 mg, once a day) or inhaled salmeterol (50 μg, twice a day) in a randomized crossover manner. 24.

(34) 圖 19:例句 3.5.5 為 Parsing 單位錯誤詞性的示意圖 圖 19 的 Parsing 單位錯誤是指,把單位(mg, μg)錯誤剖析成名詞,透過規則 (一)要先將其去掉,才能避免訓練模型錯誤。 2.年(2015)、月份(December)、地名(China, Japan)、藥廠名(glaxosmithkline) 這些雖然都是名詞,但是卻沒有代表疾病與藥物之間的重要性關聯,所以可 以優先過濾掉,藉此方式優先過濾掉這些名詞,被更正的句子數為 93 句,總句子 為 2000 句,占全部的訓練資料的比例為 4.65%。 規則(二):如果遇到英式或是美式用法的處理方式,是把兩個單字出現的次數相 加再合併歸類,字根還原成兩個最大相似,這裡跟動詞處理方式一樣,有不同的 地方在英式拼寫與美式拼寫的差異還多動詞一個,就是美式英文“-er”結尾與英式 英文“-re”例如“center”和“centre”。如表 5 為經過規則(二)的處理結果。 表 5:經過規則(二)的處理結果 unigramNorns (stem). Category. Original Norns. Frequency. tumo. 3. tumor, tumors, tumour. 7. randomi. 2. randomization, randomisation. 4. multicent. 2. multicenter, multicentre. 2. 規則(三):合併原來相同的單字,因為書寫方式不同,而造成被擷取成兩個不同的 單字,統一處理方式為把兩個出現次數相加,字根還原成兩個最大相似,若原本 只是一個單字因為書寫方式被拆成兩個單字,中間以空白或是以“-“隔開,統一 處理方式為去掉中間符號,合併成同一個單字。. 25.

(35) 規則(三)中提到的書寫方式不同是指,例如“outpatients”與“out-patients”這兩 個單字都是指門診的病人們,還有“dyspnea”與“dyspnoea”這兩個單字都是指呼吸 困難的意思,以上所介紹兩組的單字皆是因為作者書寫方式不同,導致程式判讀 為兩個不同的單字。如表 6 為經過規則(三)處理的結果。 表 6:經過規則(三)的處理結果 unigram-. Category. Original Norns. Frequency. outpati. 2. out-patients, outpatients. 2. endpoint. 3. endpoint, enpoints, end points. 3. dyspn. 2. dyspnea, dyspnoea. 4. Norns (stem). (三)卡方檢定(Chi-square test) 卡方分配為求取機率和臨界值的統計檢定,是一種用途很廣的計數資料的假 設檢驗方法。獨立性的卡方檢定7又稱為 Pearson 卡方檢定,或是簡稱卡方檢定。 在醫學研究上,卡方檢定可以用以檢定類別型數據,因此為一種有用的統計技術。 卡方檢定不僅可提供任何觀察值是否顯著差異,也可得到哪項類別是歸因於此顯 著差異。 本研究使用卡方檢定,針對四個模型動詞、名詞的 mixed words,期望透過 CHI 公式把通過獨立性檢驗的 mixed words 這類單字,再次分類,最後再把這些 分類好的單字與純關聯單字或是純無關聯性單字作聯集組合成新的關聯詞彙與 無關聯性詞彙集。CHI 計算公式如(1)所示。 𝑟. 𝑐. χ2 = ∑ ∑ 𝑖=1 𝑗=1. 2. (𝑓𝑜𝑖,𝑗 − 𝑓𝑒𝑖,𝑗 ). (1). 𝑓𝑒𝑖,𝑗. 公式(1)中的𝑓𝑜 為觀察次數,𝑓𝑒 為期望次數,r 為橫行的行數,c 為直列的列數,. 7. http://amebse.nchu.edu.tw/new_page_659.htm. 26.

(36) 卡方值總和為各行與各列的卡方值加總,每行與每列之總值為邊際值(marginal)。 零假設: H0 為有無包含 treat 與正、負向極性無關,𝐻1 為有無包含 treat 與正、負向極 性有關 表 7 為疾病前藥物後-動詞 mixed words 中 treat 的邊際值之計算。 表 7:疾病前藥物後-動詞 mixed words 中 treat 的邊際值之計算 MIXED WORDS. 相關. 無相關. 列(ROW)邊際值. 包含 TREAT. 102 次. 87 次. 189 次. 不包含 TREAT. 281 次. 369 次. 650 次. 行(COLUMN) 邊際值. 383 次. 456 次. 839 次. 卡方檢定的第二步驟是計算在卡方檢定的期望值,期望值的計算公式如(2)所 示。 𝑓𝑒 =. 𝑀𝑅 ×𝑀𝐶. (2). 𝑛. 公式(2)中的𝑀𝑅 為列邊際值之次數,𝑀𝐶 為行邊際值之次數,n 為所有句子總 數,此時 n=839。如表 8 為 treat 在卡方檢定的期望值計算結果。 表 8:treat 在卡方檢定的期望值計算結果 期望值 treat. 86.27771. 102.7223. 296.7223. 353.2777. 27.

(37) 卡方檢定的第三個步驟是計算χ2 值,χ2 =. (𝑓𝑜 −𝑓𝑒 )2 𝑓𝑒. ,如表 9 代表 treat 在卡方. 檢定的卡方值計算結果。. 表 9:treat 在卡方檢定的卡方值計算結果 卡方值 treat. 2.865055. 2.406395. 0.83306972. 0.699705489. 卡方值總和. 6.804224338. 最後 treat 的卡方值即為表 9 的卡方值全部加總,treat 的χ2 值為 6.804224338。 χ2 的自由度計算公式如(3)所示。 df(自由度) = (r − 1) × (c − 1). (3). 本例的自由度為 1。查卡方表,自由度為 1 時,且 P 值=0.2,卡方值為 1.6423744, treat 的卡方值為 6.804224338 > 1.6423744,故拒絕H0 ,接受H1 。. 葉氏連續性修正(Yates' Correction for Continuity) 當自由度為 1,並且使用皮爾森卡方檢定做獨立性(independence)檢定時,若 任何一個卡方檢定的期望次數小於 5,會使「近似於卡方分配」的假設不可信, 因為近似卡方值建立在二項分配上,是一個不連續分配,統計值會系統性地偏高, 故必須應用葉氏連續修正,使近似卡方值更接近真正的卡方值。當進行獨立性檢 定時,葉氏的連續修正公式如(4)所示。 𝑟. 𝑐. χ2 = ∑ ∑ 𝑖=1 𝑗=1. 2. (|𝑓𝑜𝑖,𝑗 − 𝑓𝑒𝑖,𝑗 | − 0.5). (4). 𝑓𝑒𝑖,𝑗 28.

(38) 經過校正後,卡方值會降低,因為在卡方檢定中,理論次數與觀察次數的差 異都降低了 0.5。理論上,自由度等於 1 時,一定要進行連續校正。但實務上,當 卡方檢定的理論次數等於或大於 10 時,並不須進行校正,因為修不修正對檢定效 率的影響很小,亦即校正前後的卡方值很接近。如表 10 為疾病前藥物後-動詞 mixed words 中做葉氏連續系修正的計算過程。 表 10:疾病前藥物後-動詞 mixed words 中 enrol 的邊際值之計算 MIXED WORDS. 相關. 無相關. 列(ROW)邊際值. 包含 ENROL. 1次. 8次. 9次. 不包含 ENROL. 382 次. 448 次. 830 次. 行(COLUMN) 邊際值. 383 次. 456 次. 839 次. 使用公式(2)算出 enrol 每一個在卡方檢定的期望值。如表 11 為 enrol 在卡 方檢定的期望值計算結果。 表 11:enrol 每一個在卡方檢定的期望值計算結果 期望值 enrol. 4.108462. 4.891538. 378.8915. 451.1085. 觀察表 11 的期望值結果,發現有期望值小於 5,導致近似於卡方分配不可信, 所以必須用葉氏連續性修正,來重新計算卡方值,表 12 為葉氏連續性修正後的卡 方值計算結果。. 29.

(39) 表 12:enrol 每一個在卡方檢定的卡方值計算結果 卡方值 enrol 卡方值總和. 1.65611. 1.39099. 0.01796. 0.01508. 3.08014274874681. 最 後 enrol 的 卡 方 值 即 為 表 12 的 卡 方 值 全 部 加 總 , enrol 的 χ2 值 為 3.08014274874681 ,表 13 為未使用葉氏連續性修正的卡方值計算結果。 表 13:enrol 的卡方值計算結果(未使用葉氏連續性修正) 卡方值 enrol. 2.351863. 1.975358. 0.025502124. 0.021419547. 4.374142391. 卡方值總和. 30.

(40) 第四章. 實驗與結果. 第一節 實驗資料 (一) 訓練資料 本研究的訓練資料是從 Clinical trials 的臨床試驗報告中,找出與慢性阻塞性 肺病(Chronic Obstructive Pulmonary Disease)和非小細胞肺癌(Non-Small Cell Lung Cancer)所有的配對藥物,再透過 PubMed 搜尋疾病與藥物同時出現的文章,並且 擷取疾病與藥物同時出現的句子當作正向句子;負向句子的找法是從非臨床試驗 報告中提到的配對藥物並且與目標疾病同時出現的句子。為了訓練資料的平衡, 正向和負向都各取 1000 個句子,如表 14 為正向訓練資料的疾病與藥物配對,表 15 為負向訓練的疾病與藥物配對資訊。 表 14:正向訓練資料的疾病與藥物配對 疾病名稱. Chronic Obstructive Pulmonary Disease (COPD). Non-Small Cell Lung Cancer(NSCLC). 藥物名稱. 共同的摘要篇數. 共同的句子數. Fluticasone propionate. 638. 114. Salmeterol. 492. 222. Budesonide. 254. 91. Procaterol. 13. 7. Albuterol. 153. 54. Magnesium Sulfate. 7. 5. Levalbuterol. 12. 9. Platinum-Based Chemotherapy. 472. 142. Bavituximab. 3. 3. Bevacizumab. 410. 120. Carboplatin. 552. 145. Cisplatin. 314 3320 篇. 88 1000 句. Total 31.

(41) 表 15:負向訓練資料的疾病與藥物配對 疾病名稱. 藥物名稱. 共同的摘要篇數. 共同的句子數. Chronic Obstructive Pulmonary Disease (COPD). Formoterol. 196. 123. Indacaterol. 151. 118. Placebo. 497. 248. Bisphosphonate. 4. 0. Cetuximab. 148. 68. Gefitinib. 1014 2010 篇. 443 1000 句. Non-Small Cell Lung Cancer(NSCLC) Total. (二) 測試資料 本研究的測試資料是針對帕金森氏症(Parkinson's disease) ,資料建立、尋找 藥物方式與訓練資料相同,為了測試資料平衡,正向和負向都各取 100 個句子, 如表 16 為正向測試資料的疾病與藥物配對,表 17 為負向測試資料的疾病與藥物 配對資訊。 表 16:正向測試資料的疾病與藥物配對 疾病名稱. Parkinson's Disease(PD). 藥物名稱. 共同的摘要篇數. 共同的句子數. Warfarin. 1. 0. Capsaicin. 8. 2. Domperidone. 13. 3. Entacapone. 64. 22. Pramipexole. 170. 46. Carbidopa. 243. 27. 499 篇. 100 句. Total. 32.

(42) 表 17:負向測試資料的疾病與藥物配對 疾病名稱 Parkinson's Disease(PD). 藥物名稱. 共同的摘要篇數. 共同的句子數. Pergolide. 29. 57. Tolcapone. 22. 30. Anticholinergics. 25. 12. Trihexyphenidyl. 5 81 篇. 1 100 句. Total (三) 關聯詞彙. 本研究提出兩種模型,第一種是疾病位置在前、藥物位置在後;第二種是藥 物位置在前、疾病位置在後,擷取詞性資訊包含動詞及名詞。關聯詞彙包括純關 聯詞彙與通過卡方檢定再次分類的單字,其中疾病位置在前、藥物位置在後的動 詞之關聯詞彙有 41 個,疾病位置在前、藥物位置在後的名詞之關聯詞彙有 85 個, 表 18 為部分疾病位置在前、藥物位置在後的關聯詞彙;藥物位置在前、疾病位置 在後的動詞之關聯詞彙有 50 個,藥物位置在前疾病位置在後的名詞之關聯詞彙 有 145 個,表 19 為部分藥物位置在前、疾病位置在後的關聯詞彙。如“The Pramipexole On Underlying Disease (PROUD) study was designed to identify whether early versus delayed <drug>pramipexole<drug> initiation has clinical and neuroimaging benefits in patients with <disease>Parkinson's disease (PD) <disease>. ” 即是包括名詞關聯詞彙之藥物位置在前、疾病位置在後的例句。 表 18:節錄疾病位置在前、藥物位置在後 20 個關聯的動、名詞單字 詞性 純關聯 動詞 混合 動詞 純關聯. 單字 analy、appear、consist、continu、pretreat、reduc、stage、visit、 accru、act、aim、appli、recommend、relaps、resect、smoke、 spent、stop、surviv、tend treat、initi、progress、investig user、torch、cost、infus、physician、risk、airwai、baselin、beta、 33.

(43) 名詞 混合 名詞. care、depart、emerg、medican、part、toler、toxic、unrespons、 upfront、variant、walk combin、effect、health、line. 表 19:節錄藥物位置在前、疾病位置在後 20 個關聯的動、名詞單字 詞性 純關聯 動詞 混合 動詞. 單字 act、give、appear、ventil、predict、circul、dose、driven、exist、 look、meter、observ、pressur、reserv、rest、restor、titrat、upregul、 valu、verifi associ、increas、us、administ. 純關聯 名詞. incid、platinum、spacer、theophyllin、biomark、doublet、food、 fractur、hour、hydrochlorid、medicar、properti、sampl、ventil、 angiogenesi、updraft、upregul、util、visit、world. 混合 名詞. line、diseas、combin、toxic、regimen、exacerb、profil、product. (四) 無關聯性詞彙 無關聯性詞彙為純無關聯性詞彙與通過卡方檢定再次分類的單字所組成,其 中疾病位置在前、藥物位置在後的動詞之無關聯性詞彙有 76 個,疾病位置在前藥 物位置在後的名詞之無關聯性詞彙有 170 個,如表 20 為 20 個疾病位置在前、藥 物位置在後的無關聯性詞彙;藥物位置在前、疾病位置在後的動詞之無關聯性詞 彙有 73 個,藥物位置在前、疾病位置在後的名詞之無關聯性詞彙有 193 個,如表 21 為藥物位置在前疾病位置在後的 20 個無關聯性詞彙。如“We report an 80-yearold patient with a four-year history of <disease>PD<disease> who developed antecollis six weeks after taking <drug>pramipexole<drug> (1 mg/day). ”即是包括動詞無關聯 性詞彙之疾病位置在前、藥物位置在後的例句。. 34.

(44) 表 20:節錄疾病位置在前藥物位置在後 20 個無關聯性的動、名詞單字 詞性 純無關聯 動詞 混合 動詞 純無關聯 名詞 混合 名詞. 單字 harbo、activ、develop、experienc、sensit、target、respond、 recruit、complet、demonstr、conduct、express、particip、pool、 take、consid、total、transfect、transplant、typifi random、acquir、show、enrol、predict、compar、improv kinas、tyrosin、growth、receptor、delet、gene、symptom、 analysi、assess、block、transloc、transport、vaccin、valu、 washout、weak、web、wedg、women、wood mutat、factor、resist、efficaci、cell、year、statu、hospit. 表 21:節錄藥物位置在前疾病位置在後 20 個無關聯性的動、名詞單字 詞性 純無關聯 動詞 混合 動詞 純無關聯 名詞 混合 名詞. 單字 acquir、achiev、overcom、caus、enrol、gener、harbor、involv、 random、adopt、modifi、occur、present、receiv、research、 review、stand、seem、shift、slow compar、investig、evalu、provid、includ、consid、forc、inhibit、 assess crossov、salvag、kinas、set、tyrosin、bodi、breathless、 plethysmographi、prolifer、trough、addit、baselin、cough、cycl、 intervent、literatur、market、phlegm、test、abil studi、trial、receptor、capac、improv、resist、lung、factor、 strategi、growth、mutat、exercis、phase、cell、activ、differ、 treatment、us. 統整各個模型關聯、無關聯性詞彙數量如表 22 所示,門檻值>=2 代表是取出 現次數大於等於 2 的,若<2 就會去掉。 表 22:各個模型關聯、無關聯性詞彙數量. 無卡方+. 疾病位置在前 (動詞). 藥物位置在前 (動詞). 疾病位置在前 (名詞). 藥物位置在前 (名詞). 關聯. 無關聯. 關聯. 無關聯. 關聯 無關聯. 關聯. 無關聯. 8. 18. 16. 18. 32. 39. 35. 19. 55.

(45) 門檻值>=2 卡方 0.02+. 9. 21. 17. 20. 20. 60. 38. 44. 10. 21. 18. 23. 21. 61. 39. 45. 無卡方. 37. 69. 46. 64. 81. 162. 137. 175. 卡方 0.02. 38. 72. 47. 66. 82. 167. 143. 180. 卡方 0.05. 39. 72. 48. 69. 83. 168. 144. 184. 卡方 0.1. 39. 74. 49. 71. 84. 169. 144. 186. 卡方 0.2. 41. 76. 50. 73. 85. 170. 145. 193. 門檻值>=2 卡方 0.05+ 門檻值>=2. 36.

(46) 第二節 評估測量標準 本論文使用兩種評估測量標準分別為精準度(Precision)以及回收率(Recall), 最後再以 F-score 表示系統整體的效能,Precision 公式如公式(5),Recall 公式如公 式(6),而 F-score 公式如公式(7):. Precision = Recall =. TP TP + FP. (5). TP TP + FN. (6). 有關於公式的說明,如表 23 所示,其中 TP、FP、FN、TN 的定義如下: TP(True Positive):The number of true positives FP(False Positive):The number of false positives FN(False Negative):The number of false negatives TN(True Negative):The number of true negatives 表 23:二元分類表 Condition Test Outcome. Positive. Negative. Positive. TP. FP. Negative. FN. TN. 本研究中 TP 代表系統可以正確的判斷疾病與藥物是有關聯,FP 代表系統錯 誤的判斷疾病與藥物是有關聯,FN 代表系統錯誤的判斷疾病與藥物是沒有關聯, TN 代表系統正確的判斷疾病與藥物是沒有關聯。 F=. 2×precision×recall. (7). precision+recall. 37.

(47) F-Score 公式是一種能夠同時兼顧精準度(Precision)以及回收率(Recall)評量標 準,廣泛用在自然語言領域、資料檢索的效能評估,以方便不同技術或系統之間 的效能比較。. 第三節 實驗結果 本論文的實驗結果,系統判斷句子極性的規則是只要在同一組疾病與藥物配 對的句子中,有一句被系統判斷成正向,則把同一組疾病與藥物配對的測試句子 中無法分類極性的句子都當成有關聯(即正向)。本研究提出四種方法進行分析與 討論,第一種只觀察單一動詞;第二種只觀察單一名詞;第三種是同時觀察動詞 與名詞,句子極性判斷為先看動詞的極性再看名詞的極性;第四種也是同時觀察 動詞與名詞,差別在於,句子極性判斷為先看名詞的極性再看動詞的極性。判斷 的詞彙則設計八項實驗,第一項實驗是不採用通過卡方檢定的分類單字,只使用 純相關、純無相關詞彙做測試,並且去掉出現次數小於 2 的單字,第二項和第三 項實驗是卡方值門檻等於 0.02、0.05 時,再去掉純相關、純無相關出現次數小於 2 的單字進行配對分析,第四項到第八項是採用無卡方、卡方門檻值等於 0.02、 0.05、0.1、0.2 時,信賴區間值為 0.98、0.95、0.90、0.80,不同的單字組合配對進 行實驗分析。如表 24 為單一動詞的實驗結果。 表 24:單一動詞的實驗結果 編 號. 實驗名稱. TP. FP. Precision. Recall. F-Score. 1.. 無卡方+門檻值>=2. 11. 41. 21.15%. 11%. 14%. 78. 71. 52.35%. 78%. 63%. 85. 71. 54.49%. 85%. 66%. 2. 3.. 卡方 0.02+ 門檻值>=2 卡方 0.05+. 38.

(48) 門檻值>=2 4.. 無卡方. 13. 65. 16.66%. 13%. 15%. 5.. 卡方 0.02. 77. 70. 52.38%. 77%. 62%. 6.. 卡方 0.05. 83. 68. 54.97%. 83%. 66%. 7.. 卡方 0.1. 83. 89. 48.26%. 83%. 61%. 8.. 卡方 0.2. 78. 82. 48.75%. 78%. 60%. 表 24 的 TP 代表系統在疾病位置在前、藥物位置在後的測試句被正確判斷為 正向之數量,加上在藥物位置在前、疾病位置在後的測試句被正確判斷為正向之 數量;FP 代表系統在疾病位置在前、藥物位置在後的測試句被錯誤判斷為正向之 數量,加上在藥物位置在前、疾病位置在後的測試句被錯誤判斷為正向之數量。. 表 24 中實驗編號 1、4 的 Precision、Recall、F-Score 都比其他實驗低很多, 可能造成此結果的原因有兩個,第一個是因為無卡方比其他有卡方的單字量少所 以導致被系統判斷正向的句子很少,第二個則是因為卡方再次分類的單字對於系 統很重要。 表 24 中實驗編號 6 的 Precision 數值雖然是所有實驗中最高的,但是跟 Recall 數值還是有很大的差距,可能原因為 FP 的數值太高導致 Precision 數值下降。如 表 25 為單一名詞的實驗結果。 表 25:單一名詞的實驗結果 編 號. 實驗名稱. TP. FP. Precision. Recall. F-Score. 1.. 無卡方+門檻值>=2. 52. 50. 50.98%. 52%. 51.49%. 39.

(49) 2.. 3.. 卡方 0.02+ 門檻值>=2 卡方 0.05+ 門檻值>=2. 90. 70. 56.25%. 90%. 69.23%. 67. 85. 44.08%. 67%. 53.17%. 4.. 無卡方. 71. 75. 48.63%. 71%. 57.72%. 5.. 卡方 0.02. 84. 73. 53.50%. 84%. 65.37%. 6.. 卡方 0.05. 86. 86. 50%. 86%. 63.24%. 7.. 卡方 0.1. 87. 86. 50.29%. 87%. 63.74%. 8.. 卡方 0.2. 82. 82. 50%. 82%. 62.12%. 表 25 的實驗結果顯示,與單一動詞相比,Recall 的數值明顯提升,但是 Precision 的數值提升的程度沒有 Recall 值高,分析可能造成原因為在單一名詞的 關聯、無關聯性詞彙遠比動詞多很多,這也造成被系統判斷錯誤的句子也很多。 表 25 中實驗編號 1 的 Recall 數值最低原因就是因為,本身關聯、無關聯性 的詞彙就是最少的,所以無法透過規則來提高 Recall 數值。實驗編號 3 的 Precision 數值是全部最低的,分析可能原因是 FP 太多導致整個 Precision 數值下降。如表 26 為先看動詞的極性再看名詞的極性之實驗結果。 表 26:先看動詞的極性再看名詞的極性之實驗結果 編 號. 實驗名稱. TP. FP. Precision. Recall. F-Score. 1.. 無卡方+門檻值>=2. 62. 67. 48.06%. 62%. 54.15%. 85. 91. 48.30%. 85%. 61.60%. 82. 82. 50%. 82%. 62.12%. 2.. 3.. 卡方 0.02+ 門檻值>=2 卡方 0.05+ 門檻值>=2. 40.

(50) 4.. 無卡方. 78. 89. 46.71%. 78%. 58.43%. 5.. 卡方 0.02. 85. 89. 48.85%. 85%. 62.04%. 6.. 卡方 0.05. 83. 86. 49.11%. 83%. 61.71%. 7.. 卡方 0.1. 83. 89. 48.26%. 83%. 61.03%. 8.. 卡方 0.2. 78. 85. 47.85%. 78%. 59.31%. 表 26 先看動詞的極性再看名詞的極性之規則是指在同一句測試句中,同時 考慮動詞和名詞,只是都先以動詞的極性為主,如果動詞無法判斷極性時再透過 名詞的極性做輔助判斷,但是如果同一句出現不同的極性結果時,還是以動詞為 主。 表 26 的整體 Recall 數值都比只考慮單一動詞或是只考慮單一名詞還要高, 這代表同時考慮兩個詞性,可以大幅提升 Recall 的數值,但是整體的 Precision 的 數值卻還是與單一動詞判斷極性的那組實驗類似,只是每一項實驗的 Precision 數 值彼此變得更為接近,主要原因還是因為 FP 太多的關係造成此結果。如表 27 為 先看名詞的極性再看動詞的極性之實驗結果。. 表 27:先看名詞的極性再看動詞的極性之實驗結果 編 號 1.. 2.. 3.. 實驗名稱 無卡方+ 門檻值>=2 卡方 0.02+ 門檻值>=2 卡方 0.05+ 門檻值>=2. TP. FP. Precision. Recall. F-Score. 63. 63. 50%. 63%. 55.75%. 90. 87. 50.85%. 90%. 64.98%. 84. 83. 50.30%. 84%. 62.92%. 41.

(51) 4.. 無卡方. 82. 85. 49.11%. 82%. 61.42%. 5.. 卡方 0.02. 85. 83. 50.60%. 85%. 63.43%. 6.. 卡方 0.05. 87. 86. 50.29%. 87%. 63.74%. 7.. 卡方 0.1. 88. 86. 50.57%. 88%. 64.23%. 8.. 卡方 0.2. 83. 82. 50.30%. 83%. 62.64%. 表 27 先看名詞的極性再看動詞的極性之規則是指在同一句測試句中,同時 考慮動詞和名詞,只是都先以名詞的極性為主,如果名詞無法判斷極性時再透過 動詞的極性做輔助判斷,但是如果同一句出現不同的極性結果時,還是以名詞為 主。表 27 的整體 Recall 數值都比只考慮單一動詞或是只考慮單一名詞還要高, 這代表同時考慮兩個詞性,可以大幅提升 Recall 的數值,但是整體的 Precision 的 數值卻還是與單一名詞判斷極性的那組實驗類似,只是每一項實驗的 Precision 數 值彼此變得更為接近,主要原因還是因為 FP 太多的關係造成此結果。 經過了四組實驗測試,發現 Precision 的數值都無法大量提升,原因在於 FP 值太大,考慮 Clinical trials 的疾病與藥物配對可能不完整,無法羅列所有疾病與 藥物之配對,於是在此階段加入人工判斷,本研究針對卡方門檻 0.05 的那組實驗 中 FP 的句子進行人工分析,原因是卡方值在 0.05 的 Precision 數值,是四組實驗 中最好的,本研究請醫學專家分辨句子,判斷各句是否顯示疾病與藥物的關聯性。. 第四節 分析與討論. (一) 實驗結果分析 從第三節的四組實驗結果分析,發現 Precision 的數值都無法大幅提升,所以 42.

(52) 本研究請醫學專家人工分辨句子,原始句子 43 句的分辨結果顯示 41 句為有關係, 2 句為無關係,這代表系統大多數判斷正確,原標示為負向的測試句子應該也是 屬於正向的測試集,只是剛好這些疾病與藥物的配對沒有出現在 Clinical trials 的 標準答案內。探討此現象形成原因,主要是因為醫學文章大部分只會介紹疾病與 藥物是有關聯的,例如「某藥物可以治療某種疾病的句子」 、或是「某種藥物針對 某種疾病是很有效的」 ,於是依據人工判別結果,原來的負向測試集變成在標準答 案以外的正向測試集,重新進行實驗分析。表 28 判別為單一動詞的實驗結果。 表 28:單一動詞的實驗結果 編 號. 實驗名稱. Positive. Negative. Precision. Recall. F-Score. 1.. 無卡方+ 門檻值>=2 (1). 11. 5. 100%. 11%. 20%. 41. 5. 100%. 41%. 58%. 2.. 無卡方+ 門檻值>=2 (2). 3.. 卡方 0.02+ 門檻值>=2 (1). 78. 11. 100%. 78%. 88%. 4.. 卡方 0.02+ 門檻值>=2 (2). 71. 8. 100%. 71%. 83%. 5.. 卡方 0.05+ 門檻值>=2 (1). 85. 11. 100%. 85%. 92%. 6.. 卡方 0.05+ 門檻值>=2 (2). 71. 9. 100%. 71%. 83%. 7.. 無卡方 (1). 13. 10. 100%. 13%. 23%. 8.. 無卡方 (2). 65. 8. 100%. 65%. 79%. 9.. 卡方 0.02 (1). 77. 12. 100%. 77%. 87%. 10.. 卡方 0.02 (2). 70. 9. 100%. 70%. 82%. 11.. 卡方 0.05(1). 83. 15. 100%. 83%. 91%. 12.. 卡方 0.05 (2). 68. 12. 100%. 68%. 81%. 13.. 卡方 0.1 (1). 83. 15. 100%. 83%. 91%. 14.. 卡方 0.1 (2). 89. 11. 100%. 89%. 94%. 15.. 卡方 0.2 (1). 78. 20. 100%. 78%. 88%. 16.. 卡方 0.2 (2). 82. 13. 100%. 82%. 90%. 43.

(53) 表 28 實驗名稱中的(1)、(2)、Positive、Negative 說明如下:(1)代表標準答案 內的正向測試集、(2)代表標準答案外的正向測試集、Positive 代表為該實驗中系 統判斷為正向的句子數量、Negative 代表為該實驗中系統判斷為負向的句子數量。 因為測試集都為正向所以 Precision 數值為 100%,實驗編號 1 和 7 的 Recall 最低, 代表有無使用卡方值再次分類詞彙的對於 Recall 數值影響很大。表 29 為單一名 詞的實驗結果。 表 29:單一名詞的實驗結果 編 號. 實驗名稱. Positive. Negative. Precision. Recall. F-Score. 1.. 無卡方+ 門檻值>=2 (1). 52. 8. 100%. 52%. 68%. 50. 12. 100%. 50%. 67%. 2.. 無卡方+ 門檻值>=2 (2). 3.. 卡方 0.02+ 門檻值>=2 (1). 67. 6. 100%. 67%. 80%. 4.. 卡方 0.02+ 門檻值>=2 (2). 70. 12. 100%. 70%. 82%. 5.. 卡方 0.05+ 門檻值>=2 (1). 67. 4. 100%. 67%. 80%. 6.. 卡方 0.05+ 門檻值>=2 (2). 85. 11. 100%. 85%. 92%. 7.. 無卡方 (1). 71. 13. 100%. 71%. 83%. 8.. 無卡方 (2). 75. 12. 100%. 75%. 86%. 9.. 卡方 0.02 (1). 84. 12. 100%. 84%. 91%. 10.. 卡方 0.02 (2). 73. 14. 100%. 73%. 84%. 11.. 卡方 0.05(1). 86. 10. 100%. 86%. 92%. 12.. 卡方 0.05 (2). 86. 14. 100%. 86%. 92%. 13.. 卡方 0.1 (1). 87. 9. 100%. 87%. 93%. 14.. 卡方 0.1 (2). 86. 14. 100%. 86%. 92%. 15.. 卡方 0.2 (1). 82. 15. 100%. 82%. 90%. 16.. 卡方 0.2 (2). 82. 18. 100%. 82%. 90%. 44.

(54) 表 29 中的整體 Recall 數值大多數超過 70%,最高可達 87%,只有實驗編號 1、2、3、5 的 Recall 數值小於 70%,本研究分兩種比較方式來說明,第一種是有 無使用卡方再分類的詞彙;第二種是有無去掉<2 的詞彙。 表 29 中的無卡方去掉<2 之組合(實驗編號 1、2)的關聯詞彙有 8 個,而有卡 方去掉<2 之組合(實驗編號 3、4、5、6)的關聯詞彙有 9 個和 10 個(如表 21 所示), 關聯的詞彙數量差異不大,但是 Recall 也有差距 10%以上,這代表使用卡方再次 分類的詞彙,對於實驗 Recall 數值很有幫助。 表 29 中的無卡方去掉<2 之組合(實驗編號 1、2)的關聯詞彙有 8 個,而無卡 方之組合(實驗編號 7、8)的關聯詞彙有 37 個,代表去掉<2 的關聯詞彙,會因為 詞彙量減少過多而造成 Recall 值有所差異。 以直條圖統整單一詞性之 Recall、F-Score 如圖 20、21 所示,x 軸為實驗 1. ~ 實驗 16.,y 軸各為 Recall、F-Score 之百分比。. 45.

(55) 100% 90% 80% 70% 60% 50% 40% 30% 20% 10% 0% 1. 2. 3. 4. 5. 6. 7. 8. 單一動詞. 9. 10. 11. 12. 13. 14. 15. 16. 單一名詞. 圖 20:單一詞性之 Recall 直條圖. 100% 90% 80% 70% 60% 50% 40% 30% 20% 10% 0% 1. 2. 3. 4. 5. 6. 7. 8. 單一動詞. 9. 10. 11. 12. 13. 14. 15. 16. 單一名詞. 圖 21:單一詞性之 F-Score 直條圖 圖 20、21 為單一詞性的 Recall 和 F-Score 的直條圖,發現實驗編號 3、4、 46.

(56) 5、14 的動詞會比名詞還要高,其原因為使用單一名詞有一組疾病與藥物對完全 沒有找到一句有關係的,但是使用單一動詞可找到一句以上有關係的,經過本研 究的判斷極性規則,會把該組所有的結果判斷成有關係,所以表現結果較好。如 表 30 為先看動詞的極性再看名詞的極性之實驗結果。 表 30:先看動詞的極性再看名詞的極性之實驗結果 編. 實驗名稱. Positive. Negative. Precision. Recall. F-Score. 1.. 無卡方+ 門檻值>=2 (1). 62. 12. 100%. 62%. 76.5%. 2.. 無卡方+ 門檻值>=2 (2). 67. 9. 100%. 67%. 80.2%. 3.. 卡方 0.02+ 門檻值>=2 (1). 75. 12. 100%. 75%. 85.7%. 4.. 卡方 0.02+ 門檻值>=2 (2). 78. 9. 100%. 78%. 87.6%. 5.. 卡方 0.05+ 門檻值>=2 (1). 85. 15. 100%. 85%. 91.9%. 6.. 卡方 0.05+ 門檻值>=2 (2). 82. 18. 100%. 82%. 90.1%. 7.. 無卡方 (1). 78. 20. 100%. 78%. 87.6%. 8.. 無卡方 (2). 89. 11. 100%. 89%. 94.2%. 9.. 卡方 0.02 (1). 85. 13. 100%. 85%. 91.9%. 10.. 卡方 0.02 (2). 89. 11. 100%. 89%. 94.2%. 11.. 卡方 0.05(1). 83. 15. 100%. 83%. 90.7%. 12.. 卡方 0.05 (2). 86. 14. 100%. 86%. 92.5%. 13.. 卡方 0.1 (1). 83. 15. 100%. 83%. 90.7%. 14.. 卡方 0.1 (2). 89. 11. 100%. 89%. 94.2%. 15.. 卡方 0.2 (1). 78. 20. 100%. 78%. 87.6%. 16.. 卡方 0.2 (2). 87. 13. 100%. 87%. 93.0%. 號. 表 30 整體的 Recall 數值都大於單一詞性的各項實驗結果,代表同時觀察兩 個詞性會提高 Recall 的數值,尤其是在關聯、無關聯性詞彙量最少的實驗,提升 47.

(57) 幅度最大。如單一動詞的無卡方實驗(如表 28 所示)與先看動詞再看名詞的無卡方 之實驗(如表 30 所示),因為名詞輔助判斷所以大幅度提升 Recall 數值。表 31 為 先看名詞的極性再看動詞的極性之實驗結果。. 表 31:先看名詞的極性再看動詞的極性之實驗結果 編. 實驗名稱. Positive. Negative. Precision. Recall. F-Score. 1.. 無卡方+ 門檻值>=2 (1). 63. 11. 100%. 63%. 77.3%. 2.. 無卡方+ 門檻值>=2 (2). 63. 13. 100%. 63%. 77.3%. 3.. 卡方 0.02+ 門檻值>=2 (1). 76. 7. 100%. 76%. 86.4%. 4.. 卡方 0.02+ 門檻值>=2 (2). 87. 13. 100%. 87%. 93.0%. 5.. 卡方 0.05+ 門檻值>=2 (1). 84. 13. 100%. 84%. 91.3%. 6.. 卡方 0.05+ 門檻值>=2 (2). 89. 11. 100%. 89%. 94.2%. 7.. 無卡方 (1). 82. 16. 100%. 82%. 90.1%. 8.. 無卡方 (2). 85. 15. 100%. 85%. 91.9%. 9.. 卡方 0.02 (1). 85. 13. 100%. 85%. 91.9%. 10.. 卡方 0.02 (2). 83. 17. 100%. 83%. 90.7%. 11.. 卡方 0.05(1). 87. 11. 100%. 87%. 93.0%. 12.. 卡方 0.05 (2). 86. 14. 100%. 86%. 92.5%. 13.. 卡方 0.1 (1). 88. 10. 100%. 88%. 93.6%. 14.. 卡方 0.1 (2). 86. 14. 100%. 86%. 92.5%. 15.. 卡方 0.2 (1). 83. 15. 100%. 83%. 90.7%. 16.. 卡方 0.2 (2). 82. 18. 100%. 82%. 90.1%. 號. 表 31 整體的 Recall 數值都大於單一詞性的各項實驗結果,代表同時觀察兩 個詞性會提高 Recall 的數值,尤其是在關聯、無關聯性詞彙量最少的實驗,提升 48.

(58) 幅度最大。如單一名詞的無卡方實驗(如表 29 所示)與先看名詞再看動詞的無卡方 之實驗(如表 31 所示),因為動詞輔助判斷所以大幅度提升 Recall 數值。 以直條圖統整同時使用兩個詞性之 Recall、F-Score 如圖 22、23 所示,x 軸為 實驗 1. ~實驗 16.,y 軸各為 Recall、F-Score 之百分比。. 90% 85% 80% 75% 70% 65% 60% 55% 1. 2. 3. 4. 5. 6. 7. 8. 先看動詞的極性再看名詞的極性. 9. 10. 11. 12. 13. 14. 15. 先看名詞的極性再看名詞的極性. 圖 22:同時使用兩個詞性的 Recall 直條圖. 49. 16.

參考文獻

相關文件

Define instead the imaginary.. potential, magnetic field, lattice…) Dirac-BdG Hamiltonian:. with small, and matrix

This kind of algorithm has also been a powerful tool for solving many other optimization problems, including symmetric cone complementarity problems [15, 16, 20–22], symmetric

The closing inventory value calculated under the Absorption Costing method is higher than Marginal Costing, as fixed production costs are treated as product and costs will be carried

Microphone and 600 ohm line conduits shall be mechanically and electrically connected to receptacle boxes and electrically grounded to the audio system ground point.. Lines in

We try to explore category and association rules of customer questions by applying customer analysis and the combination of data mining and rough set theory.. We use customer

The purposes of this research are to find the factors of raising pets and to study whether the gender, age, identity, marital status, children status, educational level and

Thus, both of two-dimensional Kano model and IPGA mode are utilized to identify the service quality of auto repair and maintenance plants in this study, furthermore,

Through literatures relevant to service quality, service value, customer satisfaction and customer loyalty, this research conducts study on the five aspects of the theme