ChemiRs - 化學物質、微核糖核酸對人體健康影響之網路應用系統

全文

(1)國立臺灣師範大學生命科學系碩士論文. ChemiRs - 化學物質、微核糖核酸對人體健康影響之網路應用系統 ChemiRs - Web App for Chemicals, MicroRNAs and Human Health. 研究生：田耘政 Yun-Cheng Tian. 指導教授：沈林琥博士 Sher Singh, Ph.D.. 中華民國 101 年七月.

(2) 致謝碩士班帶給我的不只是學術知識上的增加，更多的是遭逢挫折時的處理經驗，雖然曾經手足無措、喪失信心，過了反而讓自己更有自信，過程中真要感謝幫助我度過困苦的人。從大學時代進沈林琥老師的研究室起，接受老師諸多教誨，無論是學術知識、簡報技巧、專案管理能力與做人處事等都給了我很多的啟發。尤其在碩士班過程中，我受到的許多挫折困頓，因為老師的諄諄教誨與鼓勵，才能一一化解，讓我能繼續完成研究。本論文承蒙口試委員俞松良博士與孫英傑博士在百忙中抽空參加，感謝他們細心指正與寶貴意見，使論文能更趨完善，在此致上誠摯謝意。感謝劉君帆先生在技術細節不遺餘力的提供協助與訓練，讓我能有初步管理專案及程式開發的能力，因此才能讓我補足在大學時期訓練的不足，也因為您提供商務專案的管理經驗，讓我對開發網頁應用的流程有了一定程度的認識。感謝王昀珩先生在我遭遇困頓時的鼓勵，讓我在研究所的困難中維持繼續堅持下去信念與毅力。在實驗室的生活裡，感謝國信提供的幽默話語，那是在沉悶的研究生活中一個重要而有趣的體驗。 I.

(3) 感謝柏瑋、小嬋、大維、堯舜、冠緯陪我度過兩年的碩士生活，雖然我們主修不同，但一起努力過的日子給我的影響卻遠比同系的同學們更多，謝謝你們的陪伴與幫助。最後，感謝我的父母與家人，因為您們讓我在研究上沒有後顧之憂，能不需要顧忌經濟狀況專心完成研究，能夠傾聽我在遭逢不順時的抱怨；無論我在做什麼，都願意在背後支持我完成。. 民國一零一年七月田耘政於師大生科系. II.

(4) 摘要微核糖核酸(microRNA, miRNA)是一種長度約 22 個核苷酸，具有高度保守性的單股非編碼 RNA(non-coding RNA, ncRNA)，其在生物體中扮演相當多樣且重要的基因調控角色。目前約有 1500 種不同的 miRNA 在人體內被發現並記錄，並且有多種預測 miRNA 目標基因的演算法，然而卻缺乏 miRNA、環境化合物與人體健康關聯性的資料庫或演算法。環境中的多種化學物質對於我們的健康與生活產生很大的影響，部分化學物質會藉由參與生物體內的作用機制對疾病發生產生影響。為了發展一套關於 miRNA 與化學物質間關聯性的可信預測方法，此應用平臺會比較化學物質影響的基因與 miRNA 目標基因，並通過生物途徑，找出化學物質、miRNA 與人體健康之間可能的關聯。此應用平臺的目標是預測化學物質、miRNA、生物途徑之間的交互作用或關聯性。藉由文獻探討，我們獲得關於 miRNA、化學物質對人體基因的影響，並藉由 miRNA 目標基因(Target genes)預測方法找出 miRNA 與基因間可能的關聯性。這些基因會再進行生物途徑(pathway)分析，找出在人體中可能的影響範圍與作用機制。此平臺由三個部分構成：(1)關聯性資料庫：資料庫中將目前現已被確認出的基因、miRNA、疾病、基因本體論與生物途徑儲存並建立起關聯性。(2)通用網關介面(Common gateway interface, CGI)：CGI 處理使 III.

(5) 用者輸入的資訊，從資料庫中取得所需資料並處理以提供使用者所需的訊息(3)使用者介面：使用者介面提供使用者輸入搜尋條件並獲得所需資訊的管道。此平臺可以協助研究人員預測環境化學物質與 microRNA 對於人體健康的影響，進一步減少在尋找研究題材時耗費的時間、人力成本與資源。. 關鍵詞：網路應用、資料庫、化學物質、微核糖核酸、生物途徑、疾病、基因本體論. IV.

(6) Abstract. MicroRNAs (miRNAs) are about 22 nucleotides, non-coding RNAs that affect various cellular functions, and play a regulatory role in different organisms including human. Until now, about 1500 miRNAs in human have been discovered and registered, but still lack of information or algorithms to reveal the relationships among miRNAs, environmental chemicals and human health. Chemicals in environment affect our health and daily life; some of them lead to diseases by inferring biological pathways. To develop a creditable method for predicting relationships between miRNAs and chemicals, the database can not only compare the gene lists affected by chemicals and miRNAs, but also use curated pathway to find possibly interactions. The web server we describe here is an online system for evaluating the interactions/relationships between chemicals, miRNAs and pathways. Here, we manually retrieved the associations of miRNAs and chemicals from literatures. We built an online web server system, which contains miRNA IDs, disease names, MeSH IDs, chemical IDs, gene names, pathways, and the literature PubMed IDs. We connected each miRNA to miRBase and every current gene symbol to HUGO Gene Nomenclature Committee (HGNC) for detailed genome annotations. The pathway information in human are also provided from KEGG and Reactome database. The information about gene ontology is queried by SQL from GO Online SQL Environment (GOOSE) built by AmiGO lab. With a user-friendly interface, the web application is easy to use. Association analyses of miRNAs and chemicals V.

(7) will help us the understanding of the pathogenesis of such chemical components.. Keywords: web application, database, chemical, microRNA, pathway, disease, gene ontology. VI.

(8) 目錄致謝 ...................................................................................................... I 中文摘要 ............................................................................................ III 英文摘要 ............................................................................................. V 目錄 ................................................................................................... VII 壹、前言 ............................................................................................. 1 1-1. 研究動機 ................................................................................ 1 1-2. 研究目的 ................................................................................ 2 貳、文獻回顧 ...................................................................................... 3 2-1. 表觀基因體學......................................................................... 3 2-2. 微核糖核酸 ............................................................................ 5 2-3. 微核糖核酸相關資料庫 ......................................................... 6 2-4. 環境化學物質......................................................................... 9 2-5. 生物途徑 .............................................................................. 11 2-6. 基因本體論 .......................................................................... 13 2-7. R 語言................................................................................... 15 參、研究方法 .................................................................................... 16 3-1. 系統架構 .............................................................................. 16 3-2. 資料來源 .............................................................................. 18 VII.

(9) 3-3. 設計資料庫框架................................................................... 20 3-4. 設計使用者介面及編寫介面控制器.................................... 22 3-5. 編寫統計方法....................................................................... 23 肆、結果與討論 ................................................................................ 26 4-1. 系統簡述 .............................................................................. 26 4-2. 操作流程簡介....................................................................... 27 4-3. 利用 miRNA 搜尋相關生物途徑或基因本體論 ................. 33 4-4. 案例分析─以戴奧辛 (Dioxins)為例 .................................. 37 伍、結論 ........................................................................................... 43 陸、未來研究方向 ............................................................................ 44 柒、參考文獻 .................................................................................... 45. VIII.

(10) 圖目錄. 圖一、化學物質導致的表觀遺傳突變。 .......................................4 圖二、GOOSE 資料框架。 ...........................................................14 圖三、MVC 模型示意圖。 ...........................................................17 圖四、實體關聯模型簡圖。 .........................................................21 圖五、統計方法中不同參數間的蘊含關係。 .............................24 圖六、使用者介面入口畫面。 .....................................................27 圖七、選擇 miRNA 畫面。 ...........................................................28 圖八、miRNA 查詢結果 (目標基因與預測方法效果)。 ...........29 圖九、miRNA 查詢結果與化學物質關聯性結果呈現。............31 圖十、miRNA 預測相關化學物質子視窗。................................32 圖十一、利用 miRNA 查詢 GO terms 之清單列表頁面圖。 .....33 圖十二、利用 miRNA 查詢 GO terms 分析之長條圖。 .............34 圖十三、miRNA 與基因本體論交集基因子視窗。....................36 圖十四、化學物質查詢頁面。 .....................................................37 圖十五、經篩選過的化學物質樹狀資料表。 .............................38 圖十六、利用化學物質查詢相關基因頁面 .................................39 圖十七、利用化學物質查詢相關 miRNA 頁面...........................40 IX.

(11) 表目錄. 表一、miRNA 相關資料庫。 ..........................................................8 表二、資料庫內含資料量。 .........................................................26 表三、ChemiRs 與 starBase 比較表。 ..........................................35 表四、hsa-miR-191 可能目標基因。............................................41. X.

(12) 壹、前言 1-1.. 研究動機自 2000 年以來，微核糖核酸 (microRNA, miRNA)的相關研究受. 到研究人員的重視，許多相關的實驗與方法被研究出來解決 miRNA 對生物體的影響，除了傳統的分子生物學實驗外，還有多種不同的 miRNA 目標基因預測法與 miRNA 晶片等。由於 miRNA 的重要性與其日益龐大的資料量，研究人員開發相關資料庫與網路應用以收集這些 miRNA 相關研究，並嘗試將這些研究成果簡單呈現。目前這類型的網站著重以下幾個方向：(1) 從基因體中找尋可能的 miRNA，(2) 預測 miRNA 可能的目標基因，(3) 收集目前已有的 miRNA 相關實驗研究，建立資料庫提供使用者查詢。目前已有的 miRNA 相關資料庫與網路應用集中在處理生物體內 miRNA 的相關作用與影響，缺乏外在環境對於 miRNA 可能造成的影響。於是本研究基於前人的研究成果，藉由整合 miRNA 目標基因預測法預測出的目標基因、經實證的 miRNA 基因間關聯性與環境化學物質相關的資料庫，希望能夠建立一個處理 miRNA 與環境化學物質關係的資料庫，並開發一個便於使用的網路應用程式。. 1.

(13) 1-2.. 研究目的. 基於前述的研究動機，本研究主要有以下幾項目的： A.. 建立含有微核糖核酸、疾病、化學物質、生物途徑與基因本體論之間關聯性的資料庫。. B.. 設計一套能夠簡單理解且易於使用的視覺化網路應用平臺，用以存取前述資料庫內容提供網路上從事相關研究的人員使用。. 2.

(14) 貳、文獻回顧 2-1. 表觀基因體學人類基因體計畫的研究提供了研究外表型與基因型關聯的重要資訊；然而在許多疾病的發生並不與基因表現完全相符，這表示外表型並不能直接用基因型解釋。在過去的研究發現，生物體的表現不僅僅受到基因序列的影響，也可能在不改變基因序列的情況下，產生可遺傳的改變，關於這個主題的相關研究被稱為表觀遺傳學（epigenetics）(Reamon-Buettner and Borlak 2007)，與更大範圍的表觀基因體學 (epigenomics) (Gomase and Tagore 2008)。相較於基因序列的變化，表觀遺傳上的修飾具有相當高的多樣性，在同一個個體的不同細胞，甚至是同一個細胞的不同狀態都可能會有著顯著的差異。表觀遺傳學主要分為數類：DNA 甲基化（DNA methylation）、組蛋白修飾（histone modification）、核糖核酸干擾（RNA interference）與微核糖核酸 (microRNA) (Stein 2012)。一個正常的細胞遭受環境化學物質刺激，可能會導致其產生與正常狀態相左的變化，即其正常基因表現受到干擾。細胞可能會因為化學物質的作用導致的變化主要分為兩種類型。其一是若該化學物質具有致突變的性質，則會改變 DNA 上的遺傳訊息，導致某些基因喪失功能或不正常表現，進一步產生毒性或致癌結果(圖一右)；另一種則 3.

(15) 是在未直接影響 DNA 序列的情況下，致使表觀基因體上的變化而影響了基因的表現量，進一步導致了細胞內行為的改變，這些改變也可能導致疾病或癌症的發生(圖一左)，長期來看，非致突變劑可能不亞於致突變劑對生物體的影響(Fukata and Mori 2004)。. 圖一、化學物質導致的表觀遺傳突變(Fukata and Mori 2004)。. 4.

(16) 2-2. 微核糖核酸核糖核酸干擾來自細胞內短片段的非編碼核糖核酸（non-coding RNA, ncRNA）對 mRNA 功能的影響，近年來有大量具有生物功能的非編碼核糖核酸在生物體中被辨識出來，其中一種為微核糖核酸（microRNA, miRNA）。miRNA 於 1993 年在線蟲中被鑑定出來，是一種長度約 22 個核酸，不具備轉譯能力的短片段單股 RNA，在演化上具有高度保守性。 miRNA 不只單單存在於動物體內，在植物、病毒等都有發現到 miRNA 參與其調節機制(Anglicheau, Muthukumar et al. 2010)。在 miRBase 於 2011 年 11 月更新的紀錄（Release 18）中已記錄在人類體內 1527 種不同的 miRNA(Kozomara and Griffiths-Jones 2011)，並且也發現 miRNA 可以參與人體內相當多樣的調節機制，包含細胞凋亡 (Vecchione and Croce 2010)、細胞分化(Anglicheau, Muthukumar et al. 2010; Vecchione and Croce 2010)、細胞週期(Chen, Farwell et al. 2010; Yu, Baserga et al. 2010)等等。而 miRNA 突變或異常表現也會對人類多種疾病有所影響，例如癌症(Zimmerman and Wu 2011)、神經退化性疾病(Weinberg and Wood 2009)、心血管疾病(Chen 2010)。. 5.

(17) 2-3. 微核糖核酸相關資料庫由於 miRNA 在生物體內的重要性，過去有許多團隊進行利用資訊方法辨識 miRNA 的研究(Min and Yoon 2010)，基於這些研究成果，有數以千計的 miRNA 被預測及鑑定出來，因此進一步利用資訊方法整合 miRNA 的相關資訊變得相當重要。目前已有收集 miRNA 目標基因(Xiao, Zuo et al. 2009; Vergoulis, Vlachos et al. 2012)、miRNA 與疾病關聯性等不同主題的資料庫(Jiang, Wang et al. 2009)。另一方面，有關 miRNA 目標基因預測的各式不同的演算法在過去十年接連被提出，這些演算法主要有三種類型，第一種是判斷 miRNA 與可能目標的序列互補程度，而尤以在 miRNA 上的種子區（seed region），即 5’端的第 2 個至第 8 個核苷酸，與目標基因的 5’ 端未轉錄區（untranslated region, UTR）的互補程度最為重要，依靠互補性找出 miRNA 目標基因的演算法以 TargetScan 與 miRanda 為代表(John, Enright et al. 2004)。miRNA 與 mRNA 結合的難度與其活化能高低呈負相關，利用這種方法，計算 miRNA 與目標基因之間的最小自由能，若自由能越低，兩者間有關聯的可能性就越高，亦即該基因越可能是 miRNA 的作用目標，熱力學方法以 PicTar 為代表(Lewis, Burge et al. 2005)；最後一種則是仰賴目前已知的研究成果，藉由資料探勘的方法，訓練演算法找出可能的目標基因後，再進行驗證，例 6.

(18) 如以 MirTarget2 建立的 miRDB 網路應用(Krek, Grun et al. 2005)。由於有相當多種不同的 miRNA 目標基因預測方法，於是有研究團隊試圖將這些預測方法的結果進行整合，建立起網路應用提供不同預測方法間的交集分析，早期的整合工作最具代表性的為 miRGen (Megraw, Sethupathy et al. 2007)。這些研究減少了研究人員在資料收集整合上耗費的時間。除了預測目標基因外，更重要的是 miRNA 在人體內扮演的角色，隨著研究日益增多，越來越多 miRNA 與特定疾病的關聯性被研究確認，由 Jiang 等人彙整 miRNA 與疾病關聯的相關文獻，建立起一個存有疾病資料可供搜尋的網路資料庫 miR2Disease，使用者可藉由輸入 miRNA ID, 目標基因或是疾病名稱查詢其間關聯性。. 7.

(19) 表一、miRNA 相關資料庫。資料庫. 網址. 參考資料. miRanda. http://www.microrna.org. (John, Enright et al. 2004). miRBase. http://microrna.sanger.ac.uk. (Kozomara and Griffiths-Jones 2011). TargetScan. http://www.targetscan.org. (Lewis, Burge et al. 2005). (Maragkakis, Reczko et al. DIANA-microT http://diana.cslab.ece.ntua.gr/ 2009; Maragkakis, Vergoulis et al. 2011) PicTar. http://pictar.mdc-berlin.de/. (Krek, Grun et al. 2005). miRDB. http://mirdb.org. (Wang 2008). miRecords. http://mirecords.biolead.org/. (Xiao, Zuo et al. 2009). miR2Disease. http://www.mir2disease.org/. (Jiang, Wang et al. 2009). miRWalk. http://www.umm.uni-heidelb erg.de/apps/zmf/mirwalk/. (Dweep, Sticht et al. 2011). 8.

(20) 2-4. 環境化學物質環境對於人體健康扮演著相當重要的角色，各式各樣的化學物質是環境的一個重要組成部分，對人體健康有影響的種類化學物質數以萬計，這些環境化合物藉由各種不同的方法影響人體內各式各樣的功能。科學家在 1979 年就已經發現環境中某些化學物質的結構與人體激素類似(Tilghman, Nierth-Simpson et al. 2010)，而使人體對其變化產生類似激素濃度改變的影響。這些改變可能妨礙人體正常生理功能，進一步可能導致疾病發生。基於環境化學物質對於生物體的重要性，美國國家醫學圖書館（NLM, National Library of Medicine）長期收集與人體健康相關的化學物質資料並建立歸檔於醫學圖書館標題表（Medical Subject Heading） (Rogers 1963; Sewell 1964)，這些化學物質包含了藥物、毒物、環境荷爾蒙以及其他各式各樣的分子化合物，成為後續研究的參照目標。基於前人研究，比較毒理基因體學資料庫 (Comparative Toxicogenomics Database, CTD)藉由研究團隊將文獻中提到的化學物質與基因產物與疾病的相關資料建檔，提供環境化學物質、基因產物與疾病之間的關聯性資訊(Mattingly, Colby et al. 2003; Davis, King et al. 2011)。CTD 整合了不同資料庫中的資料，如先前提過的 MeSH 還有 PharmGKB 等等，並由研究人員重新閱讀並建立關聯性。2012 年 9.

(21) 7 月更新的版本中，CTD 存有約 14 萬 5 千種不同的環境化學物質、 60 萬筆化學物質與基因交互作用資料及 110 萬筆化學物質與疾病交互作用資料，這些資料可以用以解釋環境化學物質對於人體可能的影響，並進一步加以分析。舉例而言，在 2011 年由 Singh 等人藉由生物資訊方法分析常作為塑化劑添加物的鄰苯二甲酸類(phthalates)化合物與人體健康影響的研究中，發現磷苯二甲酸類對於人類多種疾病具有潛在威脅(Singh and Li 2011)。除卻化學物質與基因相關資料外，有越來越多的研究證明環境化學物質與 miRNA 表現間有相關性，進而由非直接途徑引發疾病。在 2007 年的研究中，四氯甲烷與對乙醯胺基酚(Acetaminophen)會對雄性大鼠肝臟的 miR-298 與 miR-370 的表現量產生影響(Fukushima, Hamada et al. 2007)。2010 年也在人體中發現 miR-191 會受到戴奧辛調控，而使得 miR-191 在細胞內表現量上升，進而提高肝癌風險的現象(Elyakim, Sitbon et al. 2010)。. 10.

(22) 2-5. 生物途徑後基因體時代，許多研究的實驗目標旨在處理複雜的疾病與生理問題。一個常見的策略是比較實驗組與對照組的基因體或蛋白體的狀態，因此這類型實驗的結果往往會以大量基因/蛋白質資料呈現，並進一步進行分析。由於基因群中具顯著差異的基因彼此間關聯性可能較強，可能較弱；在進行分析時可能會獲得散亂無意義的資料，於是需要將生物體內的資料分門別類整理。生物體可被視為一種具有高度複雜性的系統，在分子層次上，細胞內的化學物質基於其本身的功能與其他化學物質建立起多樣化的關聯性，生物途徑就是由分子化合物間關聯性組合起來的網路(Ogata, Goto et al. 1999)。京都基因與基因組百科全書(Kyoto Encyclopedia of Genes and Genomes, KEGG)的生物途徑資料庫收集目前文獻記錄的細胞內分子交互作用，並建立起圖形化的生物化學途徑(Ogata, Goto et al. 1999)，目前已有 402 張生物途徑圖儲存在 KEGG PATHWAY 資料庫中，提供了一種處理生物體內複雜問題的方案(Kanehisa, Araki et al. 2008)。除了 KEGG PATHWAY 外，也有其他提供免費服務的生物途徑資料庫， Reactome 是一個儲存含有生物途徑的知識庫，這些經過校對的資料會以 TSV 格式提供使用者下載使用 (Joshi-Tope, Gillespie et al. 2005)。 11.

(23) 除由特定團隊維護的資料庫外，有些由使用者形成社群的資料庫，最著名的是 BioCarta 與 WikiPathways 兩者。BioCarta 做為一個企業提供無償生物途徑開發工具，提供研究人員上傳自行繪製的生物途徑，這些生物途徑所包含的基因與蛋白質名稱都符合 HUGO 的標準規範，如 gene symbol。使用者上傳的資料可以在該公司的網站上找到，並開放使用 (網址：http://www.biocarta.com/genes/index.asp)。 WikiPathways 由荷蘭生物資訊中心(Netherlands Bioinformatics Centre, NBIC)資助建立，系統架構使用由 Wikimedia 基金會提供的系統 WikiMedia，這個系統提供給許多不同單位的人使用在不同的用途上，WikiPathways 就是其中之一。每個 WikiPathways 都有一個專門的頁面顯示該途徑示意圖、描述、參考資料、版本紀錄與組件清單，用戶可以在此處搜尋特定途徑、基因或基因產物，由於 WikiMedia 的特性，使用者可以輕易地找到特定途徑的修改歷程。(Pico, Kelder et al. 2008; Kelder, van Iersel et al. 2012). 12.

(24) 2-6. 基因本體論基因本體論是一種被廣泛應用的基因註解系統，目標是讓基因研究能夠使用相同的詞彙描述基因與基因產物的性質。其對基因產物的三部分進行註解：(1)細胞組成(cellular component)：指細胞內或細胞外環境的一部份；(2)分子功能(molecular function)：基因產物在分子層次的功能；(3)生物過程(biological process) ：有關於生物體內各層次的單位，可以明確定義出開始與結束的事件(Ashburner, Ball et al. 2000) 。基因本體論也提供將 Reactome 等資料庫的編號對應的方法，可以藉此在基因本體論中整合其他資料庫的內容。在 2009 年，AmiGO 提供了網路存取基因本體論與基因關聯性的資料環境 GOOSE (GO Online SQL Environment)，研究人員可以藉由直接對該 GO 資料庫下達 mySQL 指令搜尋所需資料。GOOSE 的資料框架與內容公開在網路上提供使用者建立屬於自己的副本，其資料框架如圖二(Carbon, Ireland et al. 2009) 。傳統上基因本體論主要用以註解基因本身資訊，於 2011 年，Davis 團隊的研究中提出了一種新的方法，將基因本體論類別中包含的基因列表作為一種參考，並藉由環境化合物與基因關聯性的文獻探討，建立環境化合物與 GO 詞彙(GO term)之間的關聯性(Davis, King et al. 2011)。 13.

(25) 圖二、GOOSE 資料框架。. 14.

(26) 2-7. R 語言 R 語言是一種主要用於統計、資料處理與計算的程式語言，也可以視為一種整合型統計環境，基於其開放源碼的性質，有相當多研究人員開始使用 R 作為統計工具使用。R 語言提供免費的平臺提供使用者開發特殊需求的套件，並提供空間讓使用者設計的擴充內容得以自由交流，因此 R 語言目前含有對應多種狀況的軟體套件集，其中包含生物資訊用的 Bioconductor 套件集(Gentleman, Carey et al. 2004; Reimers and Carey 2006)。 Bioconductor 計畫是提供一個具可擴充性的生物資訊軟體套件集；目標包含促進新分析工具的開發、減少生物資訊學研究的門檻 (Gentleman, Carey et al. 2004)。目前 Bioconductor 含有超過 200 種以上的套件，除了分析套件外，也包含資料與註解。. 15.

(27) 參、研究方法 3-1. 系統架構這個網路應用系統使用MVC模式，MVC架構由三個部分構成，資料模型(Model)、使用者介面(Veiw)與控制器(Controller)，如圖三所示。資料模型的部分選用關聯性資料庫儲存，如同先前討論過的，資料庫使用PostgreSQL進行實作；使用畫面使用ZK框架進行開發，ZK 框架是一種用JAVA實作的標籤語言，其最大特色在於可以包含Ajax (Asynchronous JavaScript and XML)，有助於設計具便利性的網站介面；控制器部分使用JAVA語言進行開發。. 16.

(28) 圖三、MVC 模型示意圖。使用者藉由網路瀏覽器呼叫伺服器內的程式執行功能，伺服器內的程式則呼叫資料庫內的資料並回傳給網路另一端的使用者。. 17.

(29) 3-2. 資料來源已經註冊的 miRNA ID 及其前驅物 ID 由 miRBase 提供的 FTP 站 (ftp://mirbase.org/pub/mirbase/)下載，目前最新版本為於 2011 年 11 月更新的 Release 18，其中包含 1527 種人類的 miRNA。miRNA 的目標基因資料主要分成兩大部分：經過實驗驗證的 miRNA 與目標基因資料來自由. Xiao. 等人所建立的. miRecords. 資料庫. (http://mirecords.biolead.org/download.php)，此資料庫是利用人工驗證方式進行文獻探討，因此保留的資料是確切經實驗證實的，最近更新的資料是 2010 年 11 月 25 日。miRNA 與疾病的關聯性資料是取自於由哈爾濱工業大學團隊建立的 miR2Disease 資料庫 (http://www.mir2disease.org/)，此資料庫也是由人工篩選出已經實驗證實之資訊，將 miRNA 藉由特定基因對特定疾病的影響建檔儲存。 miRNA 目標基因預測結果下載自 miRWalk 資料庫 (http://www.umm.uni-heidelberg.de/apps/zmf/mirwalk/)於 2011 年 3 月 15 日更新的版本，miRWalk 資料庫除了本身提供一種獨特的演算法外，其整合了數種不同的 miRNA 目標基因預測結果比較。其中包含 Diana-microT (第 3 版)、miRanda (2010 年 8 月更新)、miRDB (2009 年 4 月)、pictar 4-way 與 pictar 5-way (2009 年 4 月更新)、PITA (2008 年 8 月)、RNA22 (2008 年 5 月)、RNAhybrid (2.1 版)、TargetScanHuman 18.

(30) (第 5.1 版)。人類基因資料從 HUGO 基因命名委員會 (HUGO Gene Nomenclature. Committee,. HGNC). 提. 供. 的. 下. 載. 處. (http://www.genenames.org/cgi-bin/hgnc_stats.pl)取得，HGNC 將經過驗證存在的基因給定特定編號，此編號為 gene symbol(Povey, Lovering et al. 2001; Seal, Gordon et al. 2011)，並且可以藉由 HGNC 取得的轉換表將多種基因編號轉換成 gene symbol，包含常見的 ensembl gene ID、 NCBI gene entrez ID 等。生物途徑資料則使用由 CTD 處理過的 KEGG PATHWAY 資料庫與 Reactome 資料庫的內容。基因、化學物質與疾病三者之間的關聯性由. CTD. 提供的下載處. (http://ctd.mdibl.org/downloads/)取得。基因本體論及基因本體論與 miRNA 的關聯性資料由 GOOSE 下載(http://www.berkeleybop.org/goose/)。. 19.

(31) 3-3. 設計資料庫框架資料庫管理系統使用 PostgreSQL，PostgreSQL 是一種關聯性資料庫的管理系統。關聯性資料庫的最基本概念是由表格構成，每個表格含有許多欄位，每個欄位中的資料性質相同，資料則是由列的型式儲存在表格中。關聯性資料庫的內容可以用實體關聯模型 (Entity-relation model) 表示各資料表之間的關聯性。此類資料模型由兩個主要類別表示資料內容：實體 (Entity)與關聯 (relation)；實體一般而言是指特定對象，如本文中的基因、miRNA、化學物質、疾病、生物途徑。關聯則用以連結各實體間的關係，如 miRNA 目標基因。本研究中資料庫由兩個主要框架構成： source 與 public。source 框架內容為自網路上下載的大量資料，這些資料表按照資料來源的格式配置，用以儲存原始資料，並且在資料庫更新時將資料匯入此框架內。public 框架則用以接受控制器進行查詢，此處的資料表依系統需求重新設計，以減少維護難度、減輕系統負擔並加快查詢速度。. 20.

(32) 圖四、實體關聯模型簡圖。圖例如圖右下所示，方形為實體，菱形為資料間關聯類型，橢圓形為屬性。此處只列出兩個最重要的屬性，也就是疾病與化學物質的 parent 屬性，因為疾病與化學物質的圖形為樹狀結構，因此必須在實體中建立一種屬性作為樹狀結構上游節點參考。. 21.

(33) 3-4. 設計使用者介面及編寫介面控制器使用者介面開發使用 ZK 框架，ZK 框架是一種以 Java 寫成的開發工具，利用 Java 控制器控制 zul 檔的行為，建立起兼容於 HTML 格式的網路應用程式。Java 是一種物件導向程式，物件導向程式設計是一種有別於過去程序導向的設計模式，旨在將程序與數據存放於各自獨立的物件中，使程式碼得以更容易地被重複利用並減少維護時的難度。每個程式由一個 zul 與控制器構成，當使用者在網頁介面上進行操作時，這些操作會呼叫控制器內的方法，這些方法會按使用者使用的功能判斷輸入格式是否正確，查詢資料庫內的相關資料，運算由資料庫中取出的資料並加以排列，接著重新整理頁面將內容顯示在使用者的畫面上。由於資料庫中的資料以表的型式儲存，而 Java 的資料卻是以物件的方式存取，於是必須將資料庫中取出的資料對應成 Java 物件以提供 Java 控制器處理。此處使用 MyBatis 做為資料庫與 Java 控制器間的橋梁，MyBatis 是一個對象關係映射框架 (Object Relational Mapping, ORM)，MyBatis 可以依照設計好的類別將 SQL 代碼取出的資料，每一列產生一個 Java 物件提供後續運算。. 22.

(34) 3-5. 編寫統計方法無論是化學物質或是miRNA對人體的影響，這些影響勢必會與基因/蛋白質有所關聯，於是在計算關聯性時，這些研究題材都將以影響的基因列表作為主要研究材料。兩者之間的相關性可以藉由比較其基因列表的交集部分獲得理解，如果兩者同時影響的基因數量佔基因列表中的比率越大，這兩者間的關聯性就越強。這部分可以利用超幾何分布將兩者間的關聯性以數學模型表示(Draghici, Khatri et al. 2003)。建構數學模型前，要先定義需要使用的參數。以下是在分析中會使用到的參數：N代表在系統中所有的基因數量；A和B代表兩個想要分析的基因列表中包含的基因數量，這些列表可能是受某個化學物質影響的基因、特定生物途徑中包含的基因或是miRNA的目標基因等等。在由miRNA找出可能相關的化學物質時，miRNA影響的基因列表數量是A，化學物質影響的基因列表數量則為B；r代表A和B兩張基因列表之間的交集部分。這些參數間的關係可參考圖五。. 23.

(35) 圖五、統計方法中不同參數間的蘊含關係。N 為宇集，為在資料庫中的所有基因；A、B 為兩個基因列表，r 則為兩基因列表的交集部分。. 超幾何分佈公式如公式一： 𝑃(𝑟, 𝐴, 𝐵, 𝑁) =. CrB ∙CA−r N−B CA N. =. CrA ∙CB−r N−A CB N. A!B!(N−A)!(N−B)!. = r!N!(A−r)!(B−r)!(N−A−B+r)!. (公式一). 在這個分佈情形下的平均值(mean, μ)如公式二所述： μ = ∑𝐴𝑟=0 𝑟𝑃(𝑟, 𝐴, 𝐵, 𝑁) =. 𝐴𝐵 𝑁. = 𝐴𝑞. (公式二). B. 其中q = 表示B基因列表在所有基因中佔的比率。 N. 在這個分佈中的變異數則用下列公式(公式三)計算： 𝜎 2 = ∑𝐴𝑟=0 𝑟 2 𝑃(𝑟, 𝐴, 𝐵, 𝑁) − 𝜇 2 =. 𝐴𝐵(𝑁−𝐴)(𝑁−𝐵) 𝑁 2 (𝑁−1). 𝐴−1. = 𝐴𝑞(1 − 𝑞)(1 − 𝑁−1) (公式三). 但由於這兩張基因列表在公式中互換不會影響到計算後的結果，亦即A與B在這個公式中是等價的，因此如果從miRNA找出相關化學物質，與從化學物質找出相關miRNA，兩者應該可以獲得相同的平 24.

(36) 均值與標準差。在統計分析時，必須先建立對立假設(alternative hypothesis, H1) 與虛無假設(null hypothesis, H0)，此處希望可以找出兩基因列表間的相關性，因此虛無假設是A與B為獨立事件，對立假設則為兩者間具有關聯性。基於上述假設，p-value可以用下列公式(公式四)表示： pVal(r, A, B, N) = ∑min(𝐴,𝐵) 𝑖=max(𝑟,𝐴+𝐵−𝑁) 𝑃(𝑖, 𝐴, 𝐵, 𝑁) = 𝐴!𝐵!(𝑁−𝐴)!(𝑁−𝐵!) 𝑁!. (𝐴,𝐵) ∑min⁡ 𝑖=max⁡(𝑟,𝐴+𝐵−𝑁). 1 𝑖!(𝐴−𝑖)!(𝐵−𝑖)!(𝑁−𝐴−𝐵+𝑖)!. (公式四). 此處雖然計算出p-value，但研究上是否要拒絕虛無假設，則由使用者依其研究設計決定其臨界值α的大小作為是否拒絕虛無假設的判準。. 25.

(37) 肆、結果與討論 4-1.. 系統簡述如前述系統架構，系統由三大部分構成：(1)資料庫、(2)控制器. 與(3)使用者介面。目前在資料庫內存有基因、化學物質、疾病、 microRNA、生物途徑及其彼此間關聯性，資料量可參照表二。. 表二、資料庫內含資料量。資料類別. 資料數量. miRNA 基因化學物質種類疾病種類生物途徑基因本體論(GO) miRNA 與預測目標基因基因與化學物質間關聯基因與疾病間關聯化學物質與疾病間關聯基因與 GO 關聯. 1528 33128 144219 9656 362 35460 3874670 697691 575276 571891 258049. 26.

(38) 4-2.. 操作流程簡介利用本系統分析的第一步是先在入口網頁選單上，選擇要使用的. 功能。選定好功能後，系統會在右側上方的標籤列上新增一個標籤並啟動功能，此處要搜尋 miRNA，故選擇「Search by miRNA」功能，完成後如圖六。. 圖六、使用者介面入口畫面。. 選擇了需要的功能後，系統會將能查詢的項目自動列入清單中，以減少使用者自行輸入或上傳檔案的負擔，如此處查詢 miRNA 的功能就將所有系統中儲存的 miRNA 列在下拉式選單中，可以直接選擇有興趣的 miRNA，如圖七所示。. 27.

(39) 圖七、選擇 miRNA 畫面。. 選擇完 miRNA 後，使用者可以依照需要選擇 miRNA 目標基因預測法的種類，這些方法以勾選欄的形式出現在功能的上方，系統會依照選擇的種類進入資料庫篩選出符合的基因。藉由這些基因組成的基因列表可以進一步分析 miRNA 與化學物質、疾病、生物途徑、基因本體論間的關聯性，使用者可以藉由勾選自由選擇分析對象，此系統具有五種功能：查詢目標基因、查詢相關化學物質、查詢相關疾病、查詢相關生物途徑與查詢相關基因本體論，當查詢完成後，這些關聯性的強弱會出現在頁面下方，如下頁圖八所示。. 28.

(40) 圖八、miRNA 查詢結果 (目標基因與預測方法效果)。. 29.

(41) 選擇了查詢目標基因資料的輸出結果，下方結果輸出部分有兩個頁面：第一個頁面是各種 miRNA 目標基因預測法測得的 miRNA 目標基因數量，使用者可以藉此判斷是否符合需求，進而決定是否要重新選擇方法查詢；第二個頁面是 miRNA 目標基因，內容不只包含了 miRecords 記錄中已經被驗證過的 miRNA 目標，也含有利用先前選擇方法測得的目標基因，這些資料以聯集的方式表達，並使用 miRecords 資料及預測方法數量排序，以減少資料表列數，並減少使用者在查詢上的時間。若使用者選擇查詢化學物質、疾病、生物途徑或基因本體論，這些功能將提供一張資料表與一張表示關聯性強弱的長條圖，關聯性強弱計算使用超幾何分布計算出 p-value，並用-log(p-value)作圖。資料表中計算出各種化學物質與 microRNA 影響的基因數量、化學物質影響的基因數量、兩者共同影響基因數量占化學物質影響基因數量的百分比，以及利用超幾何分布方法計算得出的 p-value 值。在子功能中，系統提供了查詢功能，以查詢化合物子功能為例，使用者可以在欄位中輸入化合物名稱或 MeSH 編號，並按下 Refresh 按鈕，系統將會重新輸出符合搜尋條件的化合物。另外，使用者可以設定閾值，篩選掉交集部分基因數量低於一定程度的化合物。資料表如下頁圖九所示。 30.

(42) 圖九、miRNA 查詢結果與化學物質關聯性結果呈現。. 使用者可以點選有興趣的化學物質，選擇「View detail」功能，這個功能會跳出一個子視窗，如圖十所示，子視窗中有下拉式選單可以選擇先前在母視窗中搜尋到的化學物質。細節資料則是條列出一張基因列表，該基因列表為化學物質相關的基因列表與 miRNA 目標基因列表的交集部分，列表中會條列預測出 miRNA 目標基因的預測法，並提供證明化學物質與該基因關聯性的原始文獻出處。此處為了便於使用者操作，化合物欄位設計為下拉式選單，使用者操作時只要在下拉式選單選擇有興趣的化合物，下方列表會自動更新資料，不需要關閉並新建視窗。. 31.

(43) 圖十、miRNA 預測相關化學物質子視窗。. 32.

(44) 4-3.. 利用 miRNA 搜尋相關生物途徑或基因本體論使用 miRNA 的搜尋功能，可以利用 miRNA 目標基因預測法預. 測得到的目標基因，與現行生物途徑資料庫建立之生物途徑資料，或基因本體論資料相比較，並利用超幾何分布演算出 p-Value 值，用以估測生物途徑、基因本體論與 miRNA 的可能關聯性。使用前述提及的方法查詢 miRNA，並在 System functions 處勾選「Pathways」或「GO terms」，預測方法不同將會篩選出不同的基因進行分析，結果將列出兩個頁面：其一為清單列表，如圖十一所示；其二為依前 10 名結果的-log(p-Value)繪製之長條圖，如下頁圖二所示。. 圖十一、利用 miRNA 查詢 GO terms 之清單列表頁面圖。. 33.

(45) 圖十二、利用 miRNA 查詢 GO terms 分析之長條圖。在過去的研究中，有些網頁系統已初具備類似 ChemiRs 的生物途徑與分析功能，如 starBase 具備利用 miRNA 查詢相關生物途徑或基因本體論的功能(Yang, Li et al. 2011)。 starBase 與 ChemiRs 在搜尋生物途徑與基因本體論的功能上，其細節有數種不同的差異，整理如表三。starBase 提供的 miRPathway 與 miRGO 使用的目標基因預測法整合包含 targetScan、pictar、RNA22、 PITA 與 miRanda 等等，ChemiRs 則除了使用由 miRWalk 整合的 10 種不同的預測方法外，也使用 miRecords 驗證的目標基因，並提供使用者自由選擇預測方法的空間。除了使用者可以自由選擇預測方法外，使用者也可以利用「View Detail」子功能呼叫子視窗，子視窗中含有經查詢為 miRNA 與生物途 34.

(46) 徑或基因本體論關聯交集的基因，並且說明這些基因是否已被實驗驗證為 miRNA 的確切目標；另一方面，子視窗也提供一個欄位說明這些被預測的基因基於何種 miRNA 目標基因預測法。子視窗介面如下頁圖十三。. 表三、ChemiRs 與 starBase 比較表。資料庫. ChemiRs. starBase. 經驗證的 miRNA 目標基因. 提供. 未提供. miRNA 目標基因預測法. 10 種*. 5 種**. 可自行選擇方法. 是. 否. 提供視覺化頁面. 是. 否. 可同時篩選多個 miRNA. 否. 是. 可觀察選出特定基因的演算法. 是. 否. *ChemiRs 提供的演算法：Diana-microT、miRanda、miRDB、miRWalk、pictar、PITA、RNA22、 RNAhybrid、TargetScanHuman **starBase 提供的演算法：targetScan、pictar、RNA22、PITA、miRanda. 35.

(47) 圖十三、miRNA 與基因本體論交集基因子視窗。. 36.

(48) 4-4.. 案例分析─以戴奧辛 (Dioxins)為例如同先前提過的，一開始進入的頁面是主功能頁面，這次我們選. 擇使用「Search by chemical」來查詢戴奧辛相關的基因。與 miRNA 介面最大的不同處在於化學物質使用樹狀結構分類，於是此處可以看到一張樹狀表格於使用者輸入處。由於在一個有 36 萬個節點的資料表中找出所需的資料過於困難，於是此處設計了一個「Search by input」功能讓使用者可以直接找出該節點，或可以使用「Browse tree」功能瀏覽所有化學物質。圖十四為全表；圖十五為使用篩選功能後的表。. 圖十四、化學物質查詢頁面。. 37.

(49) 圖十五、經篩選過的化學物質樹狀資料表。. 如同在先前提過的方式，此處也可以選擇使用偏好的 miRNA 目標基因預測法建立 miRNA 與基因之間的關聯性，用以與化學物質有關聯的基因列表進行比較，此處共取出 3772 個與戴奧辛及其衍生物有關聯的基因，如圖十六。. 38.

(50) 圖十六、利用化學物質查詢相關基因頁面利用微核糖核酸頁面，可以分析化學物質與可能相關的 miRNA，其中利用超幾何分布演算法預測得到 miR-191 與戴奧辛的關聯性達到顯著差異 ( p-value = 6.734 × 10−5 )，如圖十七所示。. 39.

(51) 圖十七、利用化學物質查詢相關 miRNA 頁面. 利用先前提過的 miRNA 目標基因預測功能預測 hsa-miR-191 的可能目標基因，可以發現有 4174 種不同的基因被預測出來，此處按照成功預測的方法數量對基因進行排序，篩選出被六種方法以上預測得到的基因，如下頁表四。. 40.

(52) 表四、hsa-miR-191 可能目標基因。預測方法數量. 基因名稱. 7. CREBBP、DAPK1 、PDGFC. 6. ACTA1、ADAM9、AMMECR1L、B4GALT6、 BRMS1L、C10orf140、C15orf17、CALCOCO1 、 CEBPB、COPS4、DDHD1、DPY19L4、EHHADH、 EHMT1、EIF3B、ELOVL4、FAM78A、HARS、 LAMC3 、 LASS6 、 MACROD2 、 MAGEH1 、 MYNN、NOTCH2、PHC2、PLOD2、PRKAR2B、 RDH10 、 RNF139 、 RNF216 、 SLC25A24 、 SLCO5A1 、 SPO11 、 TAF5 、 TET1 、 TMC7 、 TMOD2、UBAP2、VPS72、ZBTB34. 41.

(53) 將 hsa-miR-191 可能目標基因與受戴奧辛影響的基因進行交集分析，發現交集部分有以下 7 個基因：TAF5、EHHADH、TMC7、VPS72、 TET1、PRKAR2B、LASS6。利用這兩張基因進行生物途徑分析，我們發現到戴奧辛與下列兩個生物途徑有較高關聯性：(1)Metabolic pathways、(2)Pathways in cancer。由前人研究中發現，生物體長期暴露在戴奧辛環境中，容易提高致癌風險(Cole, Trichopoulos et al. 2003)。而在 2009 年的研究中發現日本人代謝症候群普遍盛行的原因與戴奧辛汙染有著相當程度的關聯性(Uemura, Arisawa et al. 2009)。由以上案例分析，可以確證本系統分析結果與臨床研究資料相符。本系統除了可以提供 miRNA 與可能相關的化學物質交叉分析外，也能提供 miRNA 與化學物質相關的基因列表，並且進行交集分析，找出兩者之間可能的橋梁。研究人員可藉此設計實驗，縮小可能的範圍以節省時間、資源、器材與人力成本。. 42.

(54) 伍、結論本研究建立起一個含有與疾病、化學物質、生物途徑、miRNA 相關研究文獻，10 種不同的 miRNA 目標基因預測法，MeSH 分類系統的化學物質與疾病分類樹，生物途徑與基因關聯資料等內容的資料庫。這些資料足以提供初步的關聯性分析，並用以提供網路應用介面使用。在網站功能上，使用者可以簡單的利用網頁瀏覽器操作，即可輕易使用資料庫的內容並且利用資料庫提供的資料進行初步運算，得到量化關聯性結果。由於系統開發使用 Java 物件導向程式設計，功能上的擴充相對容易許多，可以依循未來需求加入新功能以提供更有彈性的應用方式。. 43.

(55) 陸、未來研究方向本研究可以下列幾點提供未來研究方向： (1) 基於 postgreSQL 資料庫與 R 語言間已經過 PL/pgSQL 的整合，可利用 bioconductor 的演算方法演繹出其他附加加值功能，如整合基因晶片分析進入系統、提供次世代定序技術 (Next generation sequencing, NGS)等實驗分析工具。 (2) 結合其他物種的基因資料，如大鼠、小鼠常見模式物種等，或整合本體論 (ontology)，如基因本體論 (gene ontology)、疾病本體論 (disease ontology)等研究方式，擴大及加深資料庫的深度與廣度，以期符合更多研究與實驗題材，以協助研究人員設計研究內容。 (3) 提供 miRNA 與化學物質基因列表間的比較，可以進一步使用實驗證實目前尚未被證實的基因、化學物質與 miRNA 之間的關聯性。. 44.

(56) 柒、參考文獻 Anglicheau, D., T. Muthukumar, et al. (2010). "MicroRNAs: small RNAs with big effects." Transplantation 90(2): 105-112. Ashburner, M., C. A. Ball, et al. (2000). "Gene ontology: tool for the unification of biology. The Gene Ontology Consortium." Nat Genet 25(1): 25-29. Carbon, S., A. Ireland, et al. (2009). "AmiGO: online access to ontology and annotation data." Bioinformatics 25(2): 288-289. Chen, D., M. A. Farwell, et al. (2010). "MicroRNA as a new player in the cell cycle." J Cell Physiol 225(2): 296-301. Chen, T. (2010). "The role of MicroRNA in chemical carcinogenesis." J Environ Sci Health C Environ Carcinog Ecotoxicol Rev 28(2): 89-124. Cole, P., D. Trichopoulos, et al. (2003). "Dioxin and cancer: a critical review." Regul Toxicol Pharmacol 38(3): 378-388. Davis, A. P., B. L. King, et al. (2011). "The Comparative Toxicogenomics Database: update 2011." Nucleic Acids Res 39(Database issue): D1067-1072. Draghici, S., P. Khatri, et al. (2003). "Global functional profiling of gene expression." Genomics 81(2): 98-104. Dweep, H., C. Sticht, et al. (2011). "miRWalk--database: prediction of possible miRNA binding sites by "walking" the genes of three genomes." J Biomed Inform 44(5): 839-847. Elyakim, E., E. Sitbon, et al. (2010). "hsa-miR-191 is a candidate oncogene target for hepatocellular carcinoma therapy." Cancer Res 70(20): 8077-8087. Fukata, H. and C. Mori (2004). "Epigenetic alteration by the chemical substances, food and environmental factors." Reproductive Medicine and Biology 3(3): 115-121. Fukushima, T., Y. Hamada, et al. (2007). "Changes of micro-RNA expression in rat liver treated by acetaminophen or carbon tetrachloride--regulating role of micro-RNA for RNA expression." J Toxicol Sci 32(4): 401-409. Gentleman, R. C., V. J. Carey, et al. (2004). "Bioconductor: open software development for computational biology and bioinformatics." Genome Biol 5(10): R80. Gomase, V. S. and S. Tagore (2008). "Epigenomics." Curr Drug Metab 9(3): 232-237. Jiang, Q., Y. Wang, et al. (2009). "miR2Disease: a manually curated database for microRNA deregulation in human disease." Nucleic Acids Res 37(Database issue): D98-104. John, B., A. J. Enright, et al. (2004). "Human MicroRNA targets." PLoS Biol 2(11): 45.

(57) e363. Joshi-Tope, G., M. Gillespie, et al. (2005). "Reactome: a knowledgebase of biological pathways." Nucleic Acids Res 33(Database issue): D428-432. Kanehisa, M., M. Araki, et al. (2008). "KEGG for linking genomes to life and the environment." Nucleic Acids Res 36(Database issue): D480-484. Kelder, T., M. P. van Iersel, et al. (2012). "WikiPathways: building research communities on biological pathways." Nucleic Acids Res 40(Database issue): D1301-1307. Kozomara, A. and S. Griffiths-Jones (2011). "miRBase: integrating microRNA annotation and deep-sequencing data." Nucleic Acids Res 39(Database issue): D152-157. Krek, A., D. Grun, et al. (2005). "Combinatorial microRNA target predictions." Nat Genet 37(5): 495-500. Lewis, B. P., C. B. Burge, et al. (2005). "Conserved seed pairing, often flanked by adenosines, indicates that thousands of human genes are microRNA targets." Cell 120(1): 15-20. Maragkakis, M., M. Reczko, et al. (2009). "DIANA-microT web server: elucidating microRNA functions through target prediction." Nucleic Acids Res 37(Web Server issue): W273-276. Maragkakis, M., T. Vergoulis, et al. (2011). "DIANA-microT Web server upgrade supports Fly and Worm miRNA target prediction and bibliographic miRNA to disease association." Nucleic Acids Res 39(Web Server issue): W145-148. Mattingly, C. J., G. T. Colby, et al. (2003). "The Comparative Toxicogenomics Database (CTD)." Environ Health Perspect 111(6): 793-795. Megraw, M., P. Sethupathy, et al. (2007). "miRGen: a database for the study of animal microRNA genomic organization and function." Nucleic Acids Res 35(Database issue): D149-155. Min, H. and S. Yoon (2010). "Got target? Computational methods for microRNA target prediction and their extension." Exp Mol Med 42(4): 233-244. Ogata, H., S. Goto, et al. (1999). "KEGG: Kyoto Encyclopedia of Genes and Genomes." Nucleic Acids Res 27(1): 29-34. Pico, A. R., T. Kelder, et al. (2008). "WikiPathways: pathway editing for the people." PLoS Biol 6(7): e184. Povey, S., R. Lovering, et al. (2001). "The HUGO Gene Nomenclature Committee (HGNC)." Hum Genet 109(6): 678-680. Reamon-Buettner, S. M. and J. Borlak (2007). "A new paradigm in toxicology and teratology: altering gene activity in the absence of DNA sequence 46.

(58) variation." Reprod Toxicol 24(1): 20-30. Reimers, M. and V. J. Carey (2006). "Bioconductor: an open source framework for bioinformatics and computational biology." Methods Enzymol 411: 119-134. Rogers, F. B. (1963). "Medical subject headings." Bull Med Libr Assoc 51: 114-116. Seal, R. L., S. M. Gordon, et al. (2011). "genenames.org: the HGNC resources in 2011." Nucleic Acids Res 39(Database issue): D514-519. Sewell, W. (1964). "Medical Subject Headings in Medlars." Bull Med Libr Assoc 52: 164-170. Singh, S. and S. S. Li (2011). "Phthalates: toxicogenomics and inferred human diseases." Genomics 97(3): 148-157. Stein, R. A. (2012). "Epigenetics and environmental exposures." J Epidemiol Community Health 66(1): 8-13. Tilghman, S. L., E. N. Nierth-Simpson, et al. (2010). "Environmental hormones: Multiple pathways for response may lead to multiple disease outcomes." Steroids 75(8-9): 520-523. Uemura, H., K. Arisawa, et al. (2009). "Prevalence of metabolic syndrome associated with body burden levels of dioxin and related compounds among Japan's general population." Environ Health Perspect 117(4): 568-573. Vecchione, A. and C. M. Croce (2010). "Apoptomirs: small molecules have gained the license to kill." Endocr Relat Cancer 17(1): F37-50. Vergoulis, T., I. S. Vlachos, et al. (2012). "TarBase 6.0: capturing the exponential growth of miRNA targets with experimental support." Nucleic Acids Res 40(Database issue): D222-229. Wang, X. (2008). "miRDB: a microRNA target prediction and functional annotation database with a wiki interface." RNA 14(6): 1012-1017. Weinberg, M. S. and M. J. Wood (2009). "Short non-coding RNA biology and neurodegenerative disorders: novel disease targets and therapeutics." Hum Mol Genet 18(R1): R27-39. Xiao, F., Z. Zuo, et al. (2009). "miRecords: an integrated resource for microRNA-target interactions." Nucleic Acids Res 37(Database issue): D105-110. Yang, J. H., J. H. Li, et al. (2011). "starBase: a database for exploring microRNA-mRNA interaction maps from Argonaute CLIP-Seq and Degradome-Seq data." Nucleic Acids Res 39(Database issue): D202-209. Yu, Z., R. Baserga, et al. (2010). "microRNA, cell cycle, and human breast cancer." 47.

(59) Am J Pathol 176(3): 1058-1064. Zimmerman, A. L. and S. Wu (2011). "MicroRNAs, cancer and cancer stem cells." Cancer Lett 300(1): 10-19.. 48.

(60)