• 沒有找到結果。

第二章 文獻探討

文字檢驗報告的關鍵字擷取與結構化是本論文研究的主要目的,因此此章節 將介紹目前醫療探勘相關研究,以及文字擷取相關文獻。

2.1 醫療文字記錄內容探勘

隨著醫療與資訊技術的進步,醫療記錄蒐集了病人的基本資料、病情狀況、

用藥與檢驗報告等大量電子化資料。利用資料探勘的方法,從醫療紀錄中找出有 意義的資訊提供給醫療人員作為決策參考,已成為近年來受矚目的研究方向。

[3] 提出預測出加護病房中病人的死亡風險,以便做出當下最適當的處置方 法。作者認為由時間範圍內護士為病人所做的醫療護理記錄(Nursing notes),

可以找出病人身體狀況隱藏的線索,進而評估決定優先處理事項。此論文的方法 是對醫療護理記錄進行主題分析,先建立狀態轉換主題模型(State Transition Topic Model)來做資訊擷取,再利用 n-grams、standard topics、state-aware topics、states 等方法來產生特徵,最後採用 cost-sensitive SVMs 進行死亡 機率預測。[10, 11]也運用醫療護理記錄做死亡機率的預測,差別在於前者採用 LDA(Latent Dirichlet allocation)[12]和 SVM 的方法來做死亡預測,而後者採 用學習主題模型分佈和邏輯線性回歸(logistic linear regression)的方法來預 測死亡機率。

[4] 是 利 用 電 子 病 歷 (EMRs) 自 動 建 構 出 醫 療 知 識 圖 形 結 構 (medical knowledge graph),希望能幫助改善醫師在診斷病人時的決策。當醫師輸入一個

9

病症問題時,此論文的研究會為此病症問題計算可能的答案,輔助醫師進行診斷。

此論文提出的方法是將電子病歷中的部分資訊,以馬可夫網路模型 (Markov network model)來建立醫療知識圖,並對圖型結構中各個連接邊進行機率計算,

最後對醫師輸入的病症問題計算可能答案的機率值,找出較可能的一組答案清 單。

[14]認為可從網路社群中擷取出病人在網路上發表的用藥回饋,也就是從病 人用藥後撰文的反應記錄文字中取得藥物反應資訊。因此,[5, 15]的研究,希 望藉由探討網路使用者對於用藥反應的討論內容,找出藥物不良反應的狀況與因 素。論文[5]的目的是希望在 Food and Drug Administration(FDA)發佈藥物副 作用前,就能從網路中的討論內容提前找出藥物可能會產生的副作用。此論文的 方法是將網路論壇對於藥物的討論內容,藉由人、藥物、症狀、疾病這些物件型 態的擷取,以及其在句子中出現的關聯來找出藥物與症狀的關係模式。接著採用 Unsupervised Relation Extraction (URE)的方式出文章中存在的關係,例如藥 物與症狀的關係。再進行 Post-processing 將遺失或不完整的句子互相合併成一 個完整句,最後將其找出的藥物與症狀關係利用 lift 公式來進行彼此相關性的 評估。

[13]論文中認為從疾病症狀的文字描述內容,要查詢病人得了何種疾病是一 種非常複雜的訊息需求。因為病人的疾病症狀可能發生在很多不同的疾病上,造 成難以判斷目前得了什麼疾病,而無法輕易的查詢此病人的相關案例。此論文的 問題描述,顯示了本論文研究的需求性。透過本論文提出的方法將文字檢驗報告 進行結構化後,即可依據結構化的內容建立起疾病的資料庫,讓醫師對於疾病資 料以不同項目的條件進行查詢,進一步的進行病症資料關聯分析。

10

2.2 文字探勘及擷取

使用關鍵字擷取技術可以從檢驗報告中取得其核心資訊,讓我們得知該篇檢 驗報告的主要重點。因此本研究取得檢驗報告後,必須先運用關鍵字擷取的技術 取得該篇報告的關鍵詞彙並進行後續分析。

[2]的研究希望將一個字詞透過不同的語意面向進行擴展,找出相同面向的 其他字詞,例如字詞“apple”的其中一個語意面向為一種水果,希望經由擴展 找出“banana”、“orange”等其他相同語意面向的字詞。其中一個步驟是利用 Skip-gram 當作取得文字面向方法。Skip-gram 的概念是輸入一個關鍵字,然後 輸出周圍的文字。這部分可作為本論文研究的關鍵字擴展的參考,利用已找出的 關鍵字詞,預測出周圍較可能出現的文字,當作關鍵字的擴展。

[6]的研究中,其中一個步驟在做文字的處理。此論文對於文字的切割,

以”The man began to shoot a video in the moving bus”為例,先採用了 ClausIE 將 句子切割為(“the man”, ”began to shoot”, “a video”)、(“the man”, ”began to shoot”, ”in the moving bus”)等等,再繼續利用 OpenNLP 把句子切割為(“the man”)、

(“began to shoot”)、(“a video”)、(“in”)、(“the moving bus”)等等。完成上述文字前 處理後,此論文就可進行文字語意的解析。這篇論文提供了對於文字切割處理的 一些想法,可作為檢驗報告內文的斷詞斷句的參考。

[7]有一個步驟在做搜尋記錄中查詢字的分類處理。此論文利用時間與頻率 的概念對查詢自取特徵,然後運用了 SVM(support vector machines)進行查詢 字的分類處理,將 query 字分類到其對應搜尋目的類別中。此論文文字分類的方

11

法,提供了本論文對於檢驗報告之內容細項自動擷取分類的一些靈感。

[8]其中一個步驟在了解使用者真正的搜尋意圖,此論文把使用者的問題丟 到網頁查詢引擎,然後採用 Jaro-Winkler String distance 來計算回傳結果的 snippet 和查詢的距離,藉此取得與原查詢相似但擴展的內容,以了解使用者真 正的意圖。此論文藉由外部文字的方法,提供了本論文擴展關鍵字的一些想法。

本論文考慮的檢驗報告中,由於當醫師輸入檢驗報告內容時可能有手誤或有字彙 詞性變化的情況,此時 LCS[9]可以用來解決部分誤差不嚴重的情況。LCS 是以比 對兩個字彙中相同字母的概念來計算距離,如果找出適當門檻值,可以達到修正 輸入錯誤字的效果。

12

相關文件