第一章 緒論
第一節 研究背景
自然語言處理為一門將數位化的文字資料並透過科學方法試圖讓電腦能夠 理解人類語言的學門,是從人工智慧的分支和語言學領域整合後的學科。由於絕 大多數領域的知識都是以自然語言的方式記錄,到目前已經累積了相當巨量的資 料,在這些龐大的資料量底下擁有著相當寶貴的知識,運用這些資料來進行分析、
發展及應用是自然語言處理的研究最主要目標。
由於現今透過網際網路取得的資料量非常大,在每次搜尋的目標所找出的文 件內,真正符合的結果卻常常被埋沒在大量關聯性低的資料內。所以如何擷取真 正有用的資料,在各個領域中都是相當重要的技術。而在這些使用自然語言所記 載的文件資料,若是透過人工的方式來進行篩選是相當耗時耗力的,如果能夠經 由自動化處理自然語言的方法來加速,可以大大的節省時間成本。
在生物醫學領域文件中,常常出現的專有名詞包括疾病與藥物兩種,其中疾 病包含疾病的實際名稱、俗名、縮寫以及症狀,而藥物則同樣有藥物的實際名稱、
多種藥物組合後的名稱和治療方式的名稱。本研究會以藥物與疾病和藥物與藥物 兩種成對的組合,來進行分析,並探討在文件中的兩個物件之間的關係如何用自 動化的方式取得正確的組合及資訊。
第二節 研究目的
本研究目的為透過大量的生物醫學文件當作原始文件,分別建立藥物—疾病 與藥物—藥物兩種組合所需之語料庫,並使用相同的研究方法,針對藥物—疾病 與藥物—藥物關係分別進行獨立的實驗。其中,透過具體語法樹的方式擷取包含 組合內所有物件的最小範圍樹,並以此為實際分析的內容,接著,將此語料庫透 過自然語言處理(Natural Language Processing, NLP)的技術以及機器學習的方法,
建立能夠自動判斷兩個物件在句子中關係的模型。
目前藥物與疾病的組合是透過Clinical trial1取得,該網站目前已經累計了超 過264,450 個疾病與藥物的治療報告(2018 年 2 月資料),其中包含未完成還在持 續進行的人體實驗階段以及已完成的治療資訊。本研究在藥物與疾病組合的實驗 中,是從已完成的治療報告中取出一些疾病做為語料庫建構以及測試使用。而藥 物與藥物組合則是使用SemEval 2013 Task 92所提供的比賽資料來進行語料庫建 構。
第三節 論文架構
本研究論文組織架構為:第一章為緒論,介紹研究目的及研究的內容概要;
第二章探討相關文獻,包括語料庫的來源及其內容、相關的工具和使用到的範圍、
1
Clinical trial https://clinicaltrials.gov/
2
SemEval 2013 Task 9 https://www.cs.york.ac.uk/semeval-2013/task9.html
3
方法;第三章介紹本篇論文研究的方法及建立模型之步驟;第四章為資料來源說 明、資料整理內容與評估方法之介紹;第五章說明實驗結果與分析,討論實驗過 程中所遇到的問題和對應的解決方式;最後的章節總結本論文的研究的結果,並 討論未來可以進行的發展以及方向。