• 沒有找到結果。

第三章 方法與步驟

第二節 實驗資料與工具

第三章 方法與步驟

第一節 緒論

本研究以陳孝源(2012)提出的架構為基準,為了增進整體的精確率與回收率,

增加了擷取規則的限制條件以及提出不同的方法進行實驗,不同的方法為多重句 子探勘演算法,陳孝源(2012)在 2012 年所做的實驗是以單句來進行,本研究以多 句來進行,關於規則的限制條件與提出的方法會在介紹完實驗資料與工具之後進 行詳細的介紹。

第二節 實驗資料與工具

(1) 背景知識庫

本研究使用的資料來源為 Online Mendelian Inheritance in Man (OMIM)5, OMIM 是一個將人類遺傳疾病作分類,並與相關連的人類基因進行連結的線上資 料庫,該資料庫由約翰霍普金斯大學(John Hopkins University)的研究團隊所收集 整理,並且透過一群科學作者與編輯,協助其相關研究及文獻擷取,然後整理出 的資料庫資訊,如圖 3-1 所示。

5 http://www.ncbi.nlm.nih.gov/omim

10

圖 3-1 OMIM 之首頁

利用 OMIM 提供的 morbid 來做資料的結取與測詴,morbid 當中的每一行包 含有人類遺傳疾病、對該疾病的描述、相對應到的基因、該疾病的 MIM 編號與 基因的 MIM 編號,Mendelian Inheritance in Man (MIM)6為制定各種遺傳病、性狀 與基因的編號,簡稱為 MIM 編號,包含了已知的遺傳疾病、遺傳的性狀與其基 因,除了描述各種疾病的臨床特徵、鑑別診斷、治療與預防外,且提供已知有關 致病基因的連鎖關係、組成結構、染色體定位、功能等等的資料,並附有經嚴謹 篩選的相關參考文獻。在參考有關疾病的報導鎖定其 MIM 編號即可明確所討論 的是哪一種遺傳疾病,更確定了 MIM 在國際醫學上的重要性。如圖 3-2 所示,表 3-1 為說明圖 3-2 第七列的資訊(3-M syndrome, 273750 (3) |CUL7|609577|6p21.1),

並以圖 3-3 介紹表 3-1 中 MIM 編號內文(273750),另外表 3-2 為對 MIM 編號的詳 細說明。

6 http://en.wikipedia.org/wiki/Online_Mendelian_Inheritance_in_Man

11

圖 3-2 morbid 中基因與疾病關係資料

表 3-1 morbid 詳細說明

3-M syndrome CUL7 273750 609577 6p21.1 3M 綜合症 對應的基因 疾病 MIM 編號 基因 MIM 編號 染色體序列

圖 3-3 對應的 MIM 編號內文

12

在分析句子的部分,本研究決定使用 Memory-Based Shallow Parser (MBSP),

MBSP 是以 TiMBL7及 MBT8和 GENIA corpus 當作基底的 parser,MBSP 在 Brown Corpus9中斷句的正確性達到 93.2%,在利用 consonants (Dept.)(子音)修復了 decimal points、single letter abbreviations、alternating letters 與 capital letter 之後,

對斷句的判斷正確性達到 97.7%。選用 MBSP 的原因是 Shallow parsing 是在文字 分析上很重要的工具,常應用在 information extraction 和 summary generation。

Memory-based Learning (MBL)的優點在於可免去以人工的方式去定義 patterns,且 可重複用在不同的語料庫及子語言上。MBSP 的標記中包含著許多的屬性,有 tokenization、part-of-speech (POS) tagging、concept tagging、chunking 和 grammatical function assignment (主詞、動詞等等),本研究會取出一部分的資訊來分析。圖 3-4

7 http://ilk.uvt.nl/timbl/

8 http://ilk.uvt.nl/mbt/

9 http://langbank.engl.polyu.edu.hk/corpus/brown.html

13

為 MBSP 所分析的項目、各個項目所代表之意義與舉例,圖 3-5 為 MBSP 的基本 文法:句子是由字所組成,每個字的語法取決於在句子中的位置,根據上下文,

一個字可以是動詞也可以是名詞(E.g., the can, I can),圖 3-6 及圖 3-7 為 MBSP parse 過的句子的型式之範例,被分析的句子為”Insulin secretion, in response to a glucose challenge, occurs in 2 phases.”,兩個句子的差別在於格式的不同。

圖 3-4 MBSP 分析的項目

14

圖 3-5 MBSP 的基本文法架構

圖 3-6 MBSP 分析 example

圖 3-7 MBSP 分析 example

15

收集的資料透過 MBSP 分析之後,將分析完的句子透過程式學習出規則,學 習規則必頇準備三個檔案,在本實驗中分別為 sop1、sop2 和 sop3,sop1 內容包 括學習的規則以及句子的詳細描述,sop2 內容為挑選出的正確句子的編號,sop3 內容為挑選出的不正確的句子的編號,備完三個檔案之後即可學習規則,關於學 習的步驟以及 sop1、sop2 和 sop3 的詳細說明會在研究方法描述介紹。

相關文件