第三章 研究方法
第二節 實驗資料
本研究使用 QA4MRE pilot task- machine reading of biomedical texts about Alzheimer‟s Disease at CLEF2012 所提供的實驗資料為依據,其中包含背景知識庫 以及測詴資料。此外,為了能夠更精確找出阿茲海默症與基因的關聯性,我們使 用美國國家生物資訊中心(National Center for Biotechnology Information, NCBI)所 建立的網站裡的線上人類孟德爾遺傳學(Online Mendelian Inheritance in Man,
OMIM)4,它是一個將人類遺傳疾病分類,並且會與相關聯的人類基因進行連結 的線上資料庫。我們以阿茲海默症作為關鍵字,目的在擷取此疾病的相對應基因 名稱。
(一) 背景知識庫
包含三類背景知識庫來源,以下是這三類知識庫文獻的介紹:
1. Open Access Full Articles PMC:總共 7512 篇 Pubmed Central Open Access 中 所 提 供 的 生 物 文 章 全 文 , 這 些 文 章 原 本 為 PDF 格 式 , 在 這 裡 使 用 了 LA-PDFText5 (Ramakrishnan, 2012)這個工具轉換為文字檔格式儲存。
2. Open Access Full Articles PMC, Smaller Collection:總共 1041 篇由 Pubmed Central 所提供的文章全文,此處特別以阿茲海默症為關鍵字搜尋相關文章,
將 HTML 格式存為文字檔。
3. Elsevier Full Articles:總共 379 篇文章,以及 103 篇文章摘要,這些文章是 由美國麻薩諸塞州的阿茲海默症研究中心(Massachusetts Alzheimer‟s Disease Research Center)的教授提姆克拉克(Tim Clark)所整理提供,格式為文字檔。
(二) 測詴資料
測詴資料共有四個關於阿茲海默症的測詴資料集,每個測詴集包含一篇文 章、10 個測詴問題,測詴集中的文章與對應測詴集的問題主題關聯性較大。問題 答案皆為單選題,每個問題有五個選項供選擇,因此一個測詴集共有 50 個選項。
4http://omim.org/
5http://code.google.com/p/lapdftext/
整個測詴集則總共有 40 個問題,以及 200 個答案選項。
(三) 相關於阿茲海默症的 OMIM 專有詞
圖 3-1:相關於阿茲海默症的 OMIM 連結之示意圖
在 OMIM 提供的網頁上搜尋阿茲海默症的結果,得到 338 個相關的連結。擷 取專有詞的方法有二:
1. 實驗方法一:在我們早期的實驗中,總共擷取 1549 個 OMIM 專有字,只考 慮以單字為單位。我們從每個連結中擷取疾病主要名稱、次要名稱、其他名 稱以及對應疾病基因與位置(圖中藍色外框部分),從網頁擷取資訊後,去掉 重複出現過的字與標點符號記錄下來,即為一開始實驗用到的 OMIM 專有字。
例如圖 3-1 黃線箭頭向上的部分即為擷取的部分,最後由此連結得到的 OMIM 專有字包含疾病主要名稱、次要名稱、其他名稱中的"ALZHEIMER"、
"DISEASE"、"AD"、"PRESENILE"、"AND"、"SENILE"、"DEMENTIA"、
"FAMILIAL"、"1"、"INCLUDED"、"AD1"、"EARLY"、"ONSET"、"WITH"、
"CEREBRAL" 、 "AMYLOID" 、 "ANGIOPATHY" 、 "PROTECTION" 、
"AGAINST"以及從圖中藍色外框中擷取出的"APBB2"、"HFE"、"AD10"⋅⋅⋅⋅⋅⋅。
2. 實驗方法二:後來我們考慮到每個連結即代表了同一個相關於阿茲海默症的 OMIM 專有詞,此稱作 OMIM Concept,以詞彙為單位來擷取連結中的概念。
因此在實驗中總共使用到了 338 個 OMIM Concept。我們從每個連結中擷取 (1) Concept Title:疾病主要名稱、次要名稱、其他名稱,(2) Concept Content:
對應疾病基因與位置(圖中藍色外框部分)、該疾病的內容敘述。從網頁擷取 資訊後,將同一個連結中 Concept Title 所擷取到的名稱以標點符號切分成多 個詞彙,而這些詞彙代表著同一個 OMIM Concept。將每一個 OMIM Concept 所代表的詞彙都找完後,則用 Concept Content 來找尋以及建立 OMIM Concept 彼此之間的關係。我們假設在一個連結中的 Concept Content 出現了 此連結以外的 OMIM Concept 詞彙,則視該 OMIM Concept 與此連結的 OMIM Concept 相關。例如圖 3-1 其中一個 OMIM 連結中紅色箭頭所示,此 OMIM Concept 代表的詞彙即為由 Concept Title 以標點符號切分出的"ALZHEIMER DISEASE" 、 "AD" 、 "PRESENILE AND DEMENTIA" 、 "ALZHEIMER DISEASE,FAMILIAL,1,INCLUDED"⋅⋅⋅⋅⋅⋅;而以此 OMIM Concept 的 Concept Content 為例,藍色外框中出現的 APBB2、HFE、AD10⋅⋅⋅⋅⋅⋅皆代表其他連結 不同的 OMIM Concept,而因為這些 OMIM Concept 出現在圖 3-1 這個 OMIM Concept 的連結中,兩兩 Concept 之間就會被視為相關,另外如果在此連結下 面的內文中找到其他連結的 OMIM Concept 詞彙,同理也會被視為與此 OMIM Concept 相關。