在健康醫學網格上建立以內容為基礎的醫學影像擷取系統
陳更欣1 楊超然2 張傑生3 周秉誼4 劉立5 李友專6 潘憲7 臺北護理學院1 電算中心 署立基隆醫院 2 臺灣大學計算機 34 及資訊網路中心 臺灣大學農藝系 4 台北醫學大學 567 醫學資訊研究所 {seventeen1,david5,jack6,span7}@tmu.edu.tw [email protected] [email protected] [email protected]摘要
本研究基於臺北醫學大學超過 700,000 張的 內視鏡及超音波影像互動式臨床影像實驗室的影 像資料庫,結合開放原始碼的之以內容為基礎的影 像擷取系統(GNU Image Finding Tool, GIFT),並輔 以網格技術 (Grid Technology),利用臺灣的網際網 路,在臺北醫學大學及其附設醫院、國立台灣大學 之間建立起一個測試性的健康醫學網格。在此基礎 之下,建置一個可用的以內容為基礎的醫學影像擷 取系統。
關 鍵 詞 : Medical Image, Content Based Image Retrieval, Grid Computing, Health Grid
Abstract
With the increasing usage of the Internet and multimedia, a large amount of digital images are produced in the digital world right now. They are produced in many different domains, for example entertainment, commerce, education and biomedicine. The increasing usage of digital equipment in the hospital, such as CT, MRI, ultrasound and endoscope come with DICOM image formats, also produce lots of medical images per day. The volume of digital images archive is growing rapidly. Therefore, a good image retrieval system can help people to find out the images they want effectively. When it comes to medical filed, a good CBIR system of medical image can help medical education, research and even on diagnostics support. Building a CBIR system is never an easy work, especially in medical images. Thanks for the GIFT (GNU Image Finding Tool) project which already had a great CBIR system and make it open source software. It's a nice CBIR system, which is free and open source. We use it to build a CBIR system, and try to apply it to our Clinical Interactive Image Bank of Taipei Medical University Hospital. The result is the medGIFT system. The Clinical Interactive Image Bank focus on the ultrasound images and endoscope images. However, the images inside the Image Bank are too big to fit into a single CBIR GIFT system. Therefore, we try to apply the Grid Computing technology to improve the speed of the system. The result of our experiment is fair good and the grid technology does improve the performance of medGIFT system. It made a good example of
applying open source software on medical usage. The medGridGIFT system can support Evidence Based Medicine, Case Based Reasoning, and medical education to find similar case and images.
1. 前言
隨著科技不斷地進步,各種醫療影像設備的解 析度及精確度亦相對提升,所產生的影像做為醫療 診斷的輔助工具,對於醫師的病情判斷及醫療品質 的提高,有相當大的貢獻。以臺北醫學大學的互動 式臨床影像實驗室的影像資料庫來看,總計有超過 700,000 張的內視鏡及超音波影像,目前只有依據 檢查和疾病分類,並沒有依據影像內容本身來尋找 相似影像的功能。我們將開放原始碼的以內容為基 礎的影像擷取系統(GNU Image Finding Tool, GIFT) 軟體加以應用至醫學影像領域。對於大量的醫學影 像在進行內容為基礎的影像擷取時,所引申出大量 儲存空間及運算能力的需求,我們引用網格技術來 協助解決效能上的不足。網格運算技術(Grid Computing Technology)是最近的一項新興科技,乃 是結合分散式計算 (Distributed Computing) 與平行 式計算(Parallel Computing) 環境的一項重要新技 術,可說是繼 WWW(World Wide Web) 之後更重要 的發展。 本研究的目的,是希望針對醫學影像資料庫, 採用以內容為基礎的影像擷取方法(Content Based Image Retrieval),嘗試建置一個醫學影像擷取系 統,以提供醫師快速比對影像,找到類似的病例可 以參考,以做出更精確的診斷。由於醫學影像資料 庫需要極大的儲存空間,在進行影像擷取或影像處 理時,更會用到巨量的運算能力,如果進一步要在 各個不同研究單位或醫院間進行資料分享或比對 時,如何在不同單位間互相安全有效率的溝通需加 以考慮。以上種種的特性,剛好網格技術 (Grid Technology)能滿足這樣的需求。網格技術是一種能 運用大量的儲存空間、允許資料交換和分享,同時 能提供處理資料所需的運算能力的一種新興技 術。而把網格技術應用到健康醫學領域者,我們稱 之為健康醫學網格(Health Grid)。2. 文獻探討
本研究應用到了以下數種不同領域的研究成果及技術,
2.1 以內容為基礎的影像擷取(Content Based Image Retrieval, CBIR)
以 內 容 為 基 礎 的 影 像 擷 取 (Content-Based Image Retrieval, CBIR)算是近年相當熱門的研究題 目,CBIR 乃根據影像本身的內容,如顏色(color)、 形狀(shape)或材質(texture)等人們在描述影像內容 時常用的觀察角度,以此為基礎來進行查詢。它有 別於傳統以人工對影像資料庫加以注解並以文字 來搜尋的方法。GNU Image Finding Tool, GIFT,是 一套開放原始碼的以內容為基礎的影像擷取系統 (Content Based Image Retrieval System, CBIRS)。由 日 內 瓦 大 學 的 CUI(computer science center) 之 Vision Group 的 Viper (Visual Information Processing for Enhanced Retrieval) 計 畫 的 一 項 成 果。他們將整個 CBIR 系統軟體以 GNU 通用公 共許可證 (GNU Public License, GPL) 的授權方式 釋出,成為 GNU Image Finding Tool (GIFT),一套 開放原始碼的以內容為基礎之影像擷取系統。GIFT 可以使用 QBE(Query By Example)的方式,利用範 例影像至資料庫中搜尋相似的影像,並透過關連回 饋(relevance feedback)來最佳化搜尋的結果。 2.2 CBIR 在醫學影像上的應用 CBIR 系統應用到醫學領域,能提供教學上找 到良好的範例影像,也能讓學生學透過此系統自我 學習,對於將來更進一步的研究提供基礎;甚至對 於 輔 助 診 斷 , 尋 找 相 似 病 例 , 提 供 實 證 醫 學 (Evidence-based Medicine)及案例式推理(Case-based Reasoning)等都有極大的幫助!一個好的 CBIR 系 統,可以由有經驗的放射師或醫生協助建立,之後 可提供教學使用。例如一個比較沒有經驗的醫生, 可以經由這個系統,找到類似的病例,加以學習。 然而一般的 CBIR 系統對於醫學影像來說,並 不能達到好的效果。因為醫學影像有其特殊性,且 不同來源的影像,例如攝影(內視鏡、encoscopy, histology, dermatology)、放射線投影(x-rays, some nuclear medicine)、tomography(CT, MRI, ultrasound) 等,在做特徵擷取時都各有其限制。根據 Hemant D. Tagare 的研究,醫學影像根據其所含有的資訊,可 區分為以下四類: 1. 從醫學影像中擷取出的醫學知識語意不精準。 2. 醫學影像含有形狀和空間資訊,用傳統語言無 法表達。 3. 大部份的醫學影像資訊是幾何圖形的。 4. 由影像的診斷推論乃基於一個由常態導出的 不完整、連續發展的模型。 因此針對於醫學影像,可能要找到適合於各種 不同醫學影像的不同演算法,來進行影像擷取並提 高效率。另一值得注意的特點是:生物醫學影像的 局 部 特 徵 (Local Features) 比 整 體 特 徵 (Global Features)來得相對重要。故傳統針對一般影像的 CBIR 系統仍需經過部分改良,才能符合醫學上的 應用。 目前已有部份相關的研究:如提供臨床病理決 策支援的 CBIR 系統、人腦三維神經影像的索引與 擷取系統、病理影像搜尋系統、以乳癌切片之幻燈 片內容為基礎之擷取系統、以知識為基礎出發來根 據 內 容 擷 取影 像 等 等 。日 內 瓦 大 學附 設 醫 院 將 GIFT 應用到醫學影像上,可稱之為 medGIFT,目 前 正 在 實 驗 階 段 。 Dr. Henning M ü eller 結 合 Caseimage 醫學影像教學資料庫與 GIFT 系統,針 對高解析度的肺部影像做以內容為基礎的影像擷 取,同時調整不同的 GIFT 特徵參數,目前已有初 部成果。如此眾多的不同研究,也顯示以內容為基 礎的影像擷取系統應用至生物醫學領域,是未來的 重要研究方向之一。 2.3 網格技術以及健康醫學網格 網格技術 (Grid Computing) 是結合分散式計 算(Distributed Computing) 與平行式計算 (Parallel Computing) 環境的一項重要新技術,可說是繼 WWW (World Wide Web) 之後更重要的發展,有人 稱之為下一代的網際網路。主要是由於目前電腦的 運算能力大為增加,透過網際網路輔以網格技術, 能將眾多電腦整合為一大型電腦系統,提供具有通 透性服務的新技術。Grid 的概念由 Ian Foster 於 1999 年提出, Grid 是提供可靠、一致、普遍而廉 價地使用高效能計算容量的軟硬體基礎建設 (infrastructure)。 圖 1 HealthGrid 目前的健康醫學及生物資訊之研究,主要面臨 到兩大問題,一是大量資料的產生;二是巨量運算 的需求。Silva, John S.; Ball, Marion J.亦指出網格技 術是未來健康醫學及生物資訊研究上將扮演重要 的角色;因為能夠解決大量資料及所需巨量運算的
需求,網格技術將是將來所不可獲缺的基礎建設。 根據歐洲在 2002 年九月的第一屆健康醫學網格 會議,凡是屬於圖 1 中這幾類和健康醫學有相關的 研究之網格應用,皆可稱之為健康醫學網格。
3. medGIFT 系統
本研究採 GIFT 此一影像擷取系統,將其整合 醫學影像資料庫成為 medGIFT 系統。醫學影像資 料庫採用臺北醫學大學的互動式臨床影像實驗室 的影像資料庫(圖 2),有將近 700,000 張的內視鏡 及超音波 jpeg 影像,總大小約 21G。該影像資料庫 影像品質高,且其來源是真實之臨床檢驗,鏡檢報 告內容及病理報告內容等診斷以及其他相關檢驗 結果。故相當具有臨床價質。目前該資料庫架設於 Windows 2000 Server 版平台,採用 SQL2000 資料 庫伺服器,加上 IIS 及 ASP(Active Server Page)。 本互動式臨床影像實驗室主要有三大系統: 1. 內視鏡、超音波鏡檢報告檢索 2. 檢查分類: 3. 線上學習評估系統 圖 2 互動式臨床影像實驗室 GIFT 的整個架構(圖 3),可大略分為客戶端與 伺服器端,兩者間透過 TCP/IP 以及 MRML 協定 來相互溝通。伺服器端中含有影像資料庫的特徵擷 取(Feature Extraction)之先期作業,將影像中之特徵 (主要為顏色和材質特徵)擷取出來之後,儲存於特 徵資料庫中。當客戶端送出需求時,伺服器端將欲 查詢的影像做出特徵與資料庫比對,做出回應;客 戶端則負責介面部份,讓使用者可透過其執行查詢 作業。 GIFT 主 要 採 用 色 彩 和 材 質 這 兩 種 影 像 特 徵,同時擷取包括局部和整體的特徵,總計一張影 像有可能的特徵數高達 87445 個(,平均一張普通的 影像會有 2000 至 3000 個。影像特徵的擷取,先 利用程式將影像換成 256x256 大小的圖,再透過 gift-extract-features 程式捉取特徵。在局部影像特徵 的擷取,主要是將 256x256 再細分為 256 個 16x16 的區塊、 64 個 32x32 的區塊、16 個 64x64 的區 塊和 4 個 128x128 的區塊,然後分別取其色彩和 材質特徵。 圖 3 GIFT 架構 使用者在查詢時,可以輸入影像,或根據系統 中的隨機影像,尋找系統中的相似影像(圖 4, 5),並 連接回 endoweb 資料庫查詢該病人之所有檢查報 告及影像。對於醫學教育訓練、臨床醫師尋找相似 病例,甚至應用於案例式推理系統 (Case-based Reasoning),都能提供相當程度的幫助。目前己有 楊超然醫師將其應用到胃癌的案例式推理系統之 上,獲得不錯的成果。 圖 4 medGIFT 查詢畫面4. 健康醫學網格上的 medGIFT
本 medGIFT 系統,針對資料總量超過 20GB 大小的影像經過特徵擷取,建置特徵資料庫。在前 置作業特微擷取及製作影像特徵資料庫索引檔案 時,總共約花費了十七天的時間;在查詢時,每次 的回應時間皆大於一分鐘以上。不管是資料建構時 的執行效率 (Off- line efficiency)或是使用者查詢 時的執行效率(On- line efficiency),都差強人意!由於其效能實在不符合一般使用需求,因此決定結 合 medGIFT 及網格技術,來改善 medGIFT 系統 之效能,同時並建立醫院與學校之間的健康網格測 試平臺。 圖 5 medGIFT 查詢結果 4.1 網格架構 一般而言,醫院有相當多的臨床資料,例如醫 學影像資料庫、醫院資訊系統(Hospital Information System, HIS)、醫學影像管理系統(Picture Archiving and Communication System, PACS)等等,但較少有 大量的計算資源;而學校有的臨床資料較少,但電 腦運算資源較多,例如包括電腦教室及行政人員、 學生等有較多的電腦,這些閒置電腦的運算能力, 整合起來會相當驚人。故結合醫院及學校建立而成 的健康醫學網格,可讓醫院獲得強大的運算資源; 而學校則獲得充份的臨床資料供作教學與研究,可 說是相得益彰。 硬體 CBI BCC NTUCC CPU AMD 1.7G Dual Intel P3
1G Dual Intel Xeon 2G Memory DDR 333MHz 1G SDRAM 133MHz 1G SDRAM 133MHz 1G HD IDE DMA100 120G * 1 IDE DMA100 60G * 1 IDE DMA33 20G * 1 本研究架設一組專為健康醫學使用的健康醫 學 網 格 。 其架 構 大 致 結合 以 下 數 個機 構 的 三 組 Linux 叢集(Cluster),彼此之間透過 Globus Toolkit 連接成為 Grid 環境,透過網際網路連接使用網格 的情況其硬體配備如上表: medGIFT 系統在特徵擷取和線上即時查詢的 地方,都有改善的空間。本研究利用網格技術達到 分散式超級運算,針對上即時查詢以及影像特徵擷 取來加以改善其速度。尤其回應時間和使用者對系 統的感覺與使用意願息息相關,故結合網格技術能 達到一個速度尚能接受的醫學影像擷取系統。 圖 6 medGridGIFT 架構圖 另外關於醫院通常會擔心病患資料外洩的問 題,由於 medGIFT 傳遞的乃是醫學影像之特徵, 並無法從該特徵重建影像,故並不會因此洩露病人 的資料,侵犯病人隱私;醫院也不用害怕資料外 洩。如此一來,醫院無後顧之憂的情況之下,更有 意願加入醫學網格,並使用 medGridGIFT 系統。 4.2 結果 由於資料庫龐大,在單台機器上執行效果幾乎 難以接受。在引入網格技術之後,整體的效能有顯 著提昇。我們分別做了以下實驗並記錄結果: 1. 影像數目與製作特徵資料庫索引檔時間 2. 單台 medGIFT 影像數目與查詢反應時間 3. medGridGIFT 的節點數目與查詢反應時間 實驗一使用台大單台刀鋒伺服器( Blade Server) 上執行測試,其配備為 Intel 2.0G Xeon 雙 CPU,1G 的記憶體,20G 的 IDE DMA33 硬碟機。作業系統 採用 Debian GNU/Linux Stable 版本,核心版本為 2.4.24 版本,medGIFT 系統為 0.1.9 版本。測量製 作特徵資料庫索引檔之時間。從圖 7 中,很清楚的 看到隨著影像數量的增加,製作特徵資料庫索引檔 的時間成正比例增加。利用網格技術分式處理的特 性,將影像的特徵分散至各運算節點,則每台節點 的影像數量特徵檔(每張影像產生一個影像特徵檔) 減少,製作特徵資料庫索引檔時間也相對減少。
圖 7 影像數目與製作特徵資料庫索引檔時間 實驗二在台大單台刀鋒伺服器( Blade Server) 上執行測試,其配備為 Intel 2.0G Xeon 雙 CPU,1G 的記憶體,20G 的 IDE DMA33 硬碟機。作業系統 採用 Debian GNU/Linux,核心版本為 2.4.24 版 本,GIFT 系統為 0.1.9 版本,GIFT 系統只在單台 機器執行,利用指令測量影像數量及查詢反應時 間。根據觀察特徵資料庫檔案,當影像數目接近七 十萬張時,特徵資料庫檔案大小將近 6GB 。故我 們推測在硬碟 IO 所花的時間佔了絕大多數。尤其 在影像數目增加,特徵索引檔的大小變大,此情況 愈為明顯。medGIFT 系統讀入此檔加以進行比對查 詢影像之特徵,我們推測瓶頸在硬碟 I/O。從圖 7 中,很明顯的發現,影像數目愈多,查詢時間愈長。 圖 8 影像數目與查詢反應時間 對於前置作業的特徵擷取以及特徵資料庫索 引檔的製作,網格技術很明顯的降低的所需時間, 然而前置作業只有在首次進行新增影像或是新影 像加入時,以及不同參數調整需重新特徵擷取時, 才需要花到時間。相較之下,即時查詢關係到使用 者每次查詢的反應時間,故其對於時間的要求較前 置作業來的更大,反應時間要更短。根據圖 9,導 入網格技術,增加節點,明顯可以降低系統的即時 查詢時間。 從圖 10 中的完美加速曲線和本實驗結果相比 較,節點的增加,的確有效的減少查詢的時間,然 而愈多的運算節點,反而會導致過多的資料交換時 間而使得加速效果愈來愈低。 圖 9 節點數目與查詢反應時間 另一個原因,是每個節點所分配到的影像數目 差距太大,使得已經執行完畢的機器卻還要等待尚 未完成的機器,才能總合最後的結果。將影像數目 隨機分配的愈平均到運算節點,是一項可以進一步 改善效率的方法。 圖 10 節點數目與加速效果
5. 結論
本研究之成果與結論如以下幾點: 1. 一個可用的醫學影像擷取系統 本研究結合了開放原始碼軟體及醫學影像資 料庫,實作一以內容為基礎的醫學影像擷取系統 (medGIFT),對於醫學教育,醫師臨床診斷輔助, 建立醫學案例式推理等提供了一個新的方向。 2. 整合網格技術與醫學影像擷取系統 針對 medGIFT 對於大型醫學資料庫的效能 不足,處理時間過久等問題,引入網格技術來加強 效能,提升速度,改善此系統的反應時間,增加可 用性。初步獲得不錯的結果,成功在健康醫學網格 上 建 立 以 內 容 為 基 礎 的 醫 學 影 像 擷 取 系 統 (medGridGIFT)。 3. 改進 medGIFT 並回饋給開發團隊,符合開 放原始碼精神 本研究全部採用開放原始碼軟體,故能夠在極 短的時間,利用極少的資源整合各計畫之成果。在論文研究期間,與 medGIFT 研究團隊取得連繫, 對於改良的結果回饋給開發團隊,不但符合開放原 始碼研究互惠的精神,也讓 medGIFT 的進步為 medGridGIFT,可用性更上一層。 4. 健康醫學網格測試平台與軟體的建立 本研究整合醫院 (台北醫學大學附設醫院) 的 臨床資料與台灣學術網路 (台北醫學大學,台灣大 學)的網路及運算資源,成功建置一健康醫學網格, 並在上面實際的執行網格應用軟體。對於可能是未 來醫院的基礎建設之健康醫學網格,我們提供了成 功的範例,也為將來醫院、台灣學術網路,研究機 構間的整合樹立了典範與方向。
參考文獻
[1] 陳更欣,在健康醫學網格上建立以內容為基礎的 醫學影像擷取系統,碩士論文(2004) [2] 都志輝,陳渝,劉鵬,網格計算, 清華大學(2002) [3] 陳必衷,蝴蝶影像內容檢索, 碩士論文(2000) [4] 高見龍,李友專,潘憲,互動式臨床影像實驗室 [5] Wolfgang Müller, Design and implementation of aflexible Content Based Image Retrieval Framework, The GNU Image Finding Tool, Department of Information, University of Geneva, PhD. Thesis 2001
[6] Henning Müller, Nicolas Michoux, David Bandon, Antoine Geissbuhler, A review of content-based image retrieval systems in medicine - clinical benefits and future directions, International
Journal of Medical Informatics, 2004
[7] Hemant D. Tagare, PhD, C. Carl Jaffe, MD, James Duncan, PhD, Medical Image Database: A Content-based Retrieval Approach, JAMIA (1997) [8] Clement J. McDonald, Gunther Schadow, Michael
Barnes,Paul Dexter, J. Marc Overhage, Burke Mamlin, J. Michael McCoy, Open Source software in medical informatics -- why, how and what, International Journal of Medical Informatics 69(2003) 175-184
[9] Ian Foster et. al., The Anatomy of the Grid, Int. J. Supercomputer Applications 15, 3 (2001), p.200. [10] EU-DataGrid project,
http://www.eu-datagrid.org/.
[11] The Globus project, http://www.globus.org/ [12] GIFT project, http://www.gnu.org/software/gift/. [13] Health Grid web site,
http://www.healthgrid.org/.
[14] Seventeen Chen, Li Liu, Shiann Pan, Build a Content Based Image Retrieval System of Endoscope Image, MIST 2003
[15] Seventeen Chen, Li Liu, Jack Lee, Building a legal and ethical Taiwan Health Grid for Health Decision Making, 2th HealthGrid Conference, 2004