• 沒有找到結果。

第四章 研究結果

4.5 資料整合

為使系統能作好資料管理並提供後續的查詢服務,首先如何將蛋白質體的各項分析結果 及病患診斷資料轉入系統資料庫中如圖 4-1,包括二維電泳膠片影像、經影像軟體比對 後的各差異點的位置、蛋白質點(SOI)經質譜分析後的蛋白質及自醫療院所取得的肝癌病 患資料。二維電泳膠片影像檔案格式可為jpg、gif 或 bmp 圖形檔,差異點的位置資料可 經影像軟體(PD Quest Ver:6.21)所提供的匯出 CSV 格式的檔案,質譜分析後的蛋白質資 料經比對後整理成CSV 格式的資料檔案,各項資料檔案格式可參照附錄四。

1 2 3 4 5 6 7 8

圖 4-24:資料上傳畫面。1,二維電泳膠片影像輸入;2,病患資料檔案;3,差異點的 位置的X 座標;4,差異點的位置的 Y 座標;5,質譜分析後的蛋白質資料;6,二維電 泳膠片影像編碼;7,樣品處理條件;8,二維電泳實驗條件。瀏覽及下拉的功能設計(如 橢圓標示)提供使用者上傳資料。

經圖4-23 上傳後的資料可於資料編輯網頁如圖 4-24 進行資料檢視,並可進行資料更正 及資料新增。部分資料如影像資料無法經由圖 4-23 滙入,影像分析軟體不支援 CSV 資 料格式匯出者,可於二維電泳膠片影像上傳後,於本畫面進行二維電泳膠片差異點的資 料輸入。資料輸入更具彈性設計,病患資料、參考二維影像、質譜分析後的蛋白質資料、

可於資料編輯畫面中點選相關功能如圖4-25 的 A、B、C 標示系統會出現 pop-up 視窗,

再上傳資料如圖4-25。最後進行資料檢視確認資料是否正確。

A B C D E F

圖 4-25:二維電泳膠片差異點的資料輸入步驟。A,直接點選左下角膠片影像中的差異 點位置系統會自動計算座標;B,選擇標示的大小;C,選擇標示的顏色;D,輸入比對 的 pI 及分子量;E,輸入經公用資料庫預測的蛋白質存取編碼及名稱。F,確定上傳資 料。

E G

F

A C

B D

圖 4-26:資料新增畫面。A,新增或修改診斷資料如標示的視窗 E;B,上傳二維電泳 參考影像如標示的視窗 G;C,上傳蛋白質的資料如標示的視窗 F;D,可進行上傳資 料的最後檢視資料是否正確。系統會以 Pop Up 視窗提供資料修改及新畫面如 E、F、G。

4.6 資料查詢

資料經由圖4-23 批次處理後或圖 4-24 逐筆輸入資料庫後,即可由系統的查詢管理進行 資料探索如圖4-26。系統提供病患的性別、病發年齡、癌症期別、病變部位。生化檢驗 的GOT、GPT、ALB、ALP、LDH、TBIL、DBIL。蛋白質體資料的分子量、等電點(pI 值)、蛋白質存取編碼、名稱。管理資料的操作者、實驗室、日期。使用者可從這些資 料選取單一資料查詢或組合查詢如圖4-26、4-27。

圖 4-27:查詢畫面可分四部分病患資料、生化檢驗、蛋白質體資料、操作者訊息。

A

B

圖 4-28:查詢畫面。蛋白質體資料、操作者訊息。

4.6.1 查詢說明

使用病患的診斷資料及生化檢驗進行資料查詢如圖 4-6,使用者可藉由臨床經驗及資料 特性為查詢條件,如已知某一病患為特殊案例可以 Patient id 為查詢條件;生化的檢驗 值特性如 GOT 或 GPT 高於某一個值,或 GPT > GOT;其他資料屬性如男性、發生年 齡、期別、肝癌病變部位,或依使用者研究需求自訂臨床的篩選規則,可於資庫中篩選 出與此臨床規則有關的蛋白質。上述查詢針對醫療條件。

從期刊論文報導肝癌相關的基因或蛋白質,藉由蛋白質屬性的 ACCESS NUMBER 或 PROTEIN NAME 查詢是否有相關病例,及其他各項資料屬性如年齡、期別、肝癌病變 部位,有可能進一步說明所發現基因與診斷的關係。

最後一項為管理資料查詢,由研究者及日期、研究室別查詢資料。研究者亦可結合上述 所有資料項目進行查詢。

查詢結果如圖 4-28。查詢結果中可勾選有興趣的二維電泳膠片如圖 4-28 的 C,可將文 字檢視如圖4-28 中的標示 A 切換成圖形檢視如圖 4-29,點選 4-28 中的標示 B 可統計 所有蛋白質出現頻率如圖4-30,點選 Gel ID 進入資料編輯畫面如圖 4-24,點選 Patient id 的連結項目可檢視二維電泳膠片的詳細資料如圖4-4 及 4-5。

A B

C

圖 4-29:查詢結果的文字畫面。A 可切換至圖形檢視如圖 4-29,B 可切換至統計所有 蛋白質出現頻率如圖4-30。

圖 4-30 查詢結果可切換影像檢視。

圖 4-31:查詢結果蛋白質出現頻率統計。

系統同時提供二維電泳膠片資料的詳細檢視介面,系統自查詢結果畫面如圖 4-28 經由 點Gel ID 進入二維電泳膠片資料檢視如圖 4-31,可同時檢視診斷與蛋白質體的資訊。

病患基本資料(圖 4-31 的 A,診斷訊息)及二維電泳膠片上的差異點(圖 4-31 的 B,蛋白 質體資料),並可局部放膠片影像作更清楚的檢視(圖 4-31 的 C 及 D)。經點選膠片上的 差異點標示位置可進入蛋白質體的註解說明如圖4-32,並可經蛋白質存取編碼連結至公 用資料庫如SWISS PROT 如圖 4-32 的 B 及 NCBI 如圖 4-32 的 C,讀取更詳盡的蛋白質 資料。

A

C

B

D

E

圖 4-32:診斷與蛋白質體的資訊。A 為病患資料,B 為預局部放大的影像,C 可選擇放 大的倍數,D 為放大的影像,E 為蛋白質差異點經點選後可檢視蛋白質資訊如圖 4-32。

A

C

B E

D

圖 4-33:蛋白質註解資訊。 A 為蛋白質存取編碼可連結至公用資料庫,Swiss Prot 資 料庫如圖中的 B,NCBI 資料庫如圖中的 C,D 為蛋白質名稱,E 為等電點(pI 值)及分 子量的資料。

第五章 討論與結論

5.1 系統評述

高效率儀器所產生的大量數據,及儀器的自有格式的數據,傳統的管理工具實驗記錄簿 很難有效地這些巨量且複雜的數據。透過個人電腦的文書軟體,難以集中管理這些不同 來源的資料。實驗室資訊管理系統(LIMS)雖提供大量的資料儲存,但也都缺乏資訊分享 (information sharing)的設計,加上人類基因體計畫(HGP)所帶動的生物資訊研究,利用資 訊科技的資料處理及分析的優勢,及網路公用資料庫的資料取得,分析實驗數據中可能 隱含的知識[Helfrich,2002]、[Wang et al,2004]。後基因體時代所面臨除大量、複雜的 數據管理外,也需同步思考資料分享,及發現數據中所隱含的知識。

本研究的目的,由建立實驗室資訊管理系統(LIMS)管理蛋白質體研究的複雜及大量的資 料,結合web-based 設計提供容易使用的介面,對於資料的各種操作(儲存、存取、管理) 更有效率,整合診斷資訊可對資料(蛋白質體)作更多面向的分析,對整體資料能有更清 楚的瞭解[Chittaro,2001]。各項應用說明如下:

1. 系統資料管理:資料庫可提供大量的資料儲存,對於資料的新增、修改、刪除及 備 份 , 都 提 供 了 相 當 完 整 的 機 制 , 配 合 軟 體 的 開 發 , 提 供 研 究 者 易 於 使 用 (user-friendly)的介面完成上述的各項資料操作。

2. 資料的查詢:資料經過資料庫的整理分類,可針對資料的內容特性設計查詢方法,

提供使用者更多元的資料取得方法。如從診斷、生化檢測值(生化檢測值的彼此關 係),協助研究者從龐大的資料中取出(retrieve)符合條件的資料。

3. 整合不同資料:藉由資料庫整合不同資料的能力,提供不同面向(dimension)的資料 檢視。如整合肝癌的診斷資料,除可同時檢視蛋白質體與肝癌診斷資料外,因不 同面向的資料檢視(診斷、蛋白質體分析),提供研究者更瞭解所研究的資料特性,

進而發現隱含的知識。

4. 資訊視覺化(Information visualization):提供使用者判讀過的資料,不是原始資料的 呈現,使用者藉由電腦的協助,提供視覺化的資料呈現對於整體的資訊能有更好 的瞭解[Chittaro,2001]。

5. 分享機制:透過 web 的服務,提供內部人員及遠端研究者研究資料,對於整體科 學的發展能更有貢獻。

5.2 系統特性討論

新加坡的HCC-M DATABASE[Liang et al,2002]及南韓 YPRC-PDB[Cho et al,2002]系 統,為目前所發表的論文中,二個主要研究肝癌的生物資訊系統,以下分別與本系統的 差異提出說明,提供未來系統修訂及新增功能參考:

一、HCC-M DATABASE 的差異:表 5-1

HCC-M DATABASE 本系統

樣品來源 肝癌細胞株(HCC-M) 病患病理切片

HCC-M 建置的主要目的,收集 HCC-M 細胞株所發現的蛋白質體,並逐步建立肝癌蛋 白質體資料庫,並建置系統及透過網際網路,提供其他肝癌研究單位,所發現與肝癌有 關的蛋白質體資料。而本系統建置,則是從樣品取得、實驗條件的設定及最後的實驗結 果,呈現較完整蛋白質體的研究過程資訊,可提供其他研究單位作類似研究的比對資

資料內容 檢測出的蛋白質(pI 值,

molecular weight)

- 肝癌病患資料

ν 基本資料:血型、性 別、年齡等

ν 肝功能檢查:GPT、

GOT、ALB、TBIL 等 ν 病理報告:病變部位、

系統介面 Web-based Web-based

使用者權限 開放 依申請權限(共四級),Guest

訊。加上病患資料的統合,可進一步探討病患的臨床診斷資料與檢測出蛋白質的關聯 DataBase

Sun 420R Unix

Apache + PHP 3.0 Oracle 8i

Intel cpu-based PC Windows 2000 server IIS 5.0 + ASP

Access 2000

樣品來源 病患病理切片 病患病理切片

ALT、FBS、AFP 等 ν 病理報告:腫瘤數目、

GOT、ALB、TBIL 等 ν 病理報告:病變部位、

YPRC-PDB 本系統 料、樣品資料

系統介面 Web-based Web-based

使用者權限 依申請權限 依申請權限(共四級),Guest

YPRC-PDB 在建置的規模,不論在資訊系統或內容的收集上,都比本系統更完整。YPRC 為南韓一蛋白質體研究中心,基於生醫整合的研究趨勢,結合醫療機構收集完整病患病 史,加上運用運算力更強的硬體及資料庫系統,協助分析肝癌病患蛋白質體資料與臨床 診斷資料的關係。因其資料收集包括家族史、臨床上可能與肝癌相關的病史如曾感染肝 炎病毒或罹患肝臟的慢性病(肝硬化)及酗酒習慣,藉由所收集的完整資料配合資料探勘 (data mining)發現肝癌的早期診斷標的。本系統的建置主要為定位蛋白質體研究的實驗 室,系統架構定位在 PC-Based 的系統,在研究資料的收集,主要為臨床醫師對於肝癌

理各項實驗條件[Navarro et al,2003]、及追蹤特定樣本的蛋白質分析。更進一步發展疾 病與蛋白質體資料的整合系統,能從實驗室的研究數據中分析蛋白質體及疾病的關連。

這是 YPRC-PDB 與本系統發展的最大原因。藉由實驗室資訊系統的建立,解決目前蛋

這是 YPRC-PDB 與本系統發展的最大原因。藉由實驗室資訊系統的建立,解決目前蛋

相關文件