文獻探討

第二章文獻探討

文字檢驗報告的關鍵字擷取與結構化是本論文研究的主要目的，因此此章節將介紹目前醫療探勘相關研究，以及文字擷取相關文獻。

2.1 醫療文字記錄內容探勘

隨著醫療與資訊技術的進步，醫療記錄蒐集了病人的基本資料、病情狀況、

用藥與檢驗報告等大量電子化資料。利用資料探勘的方法，從醫療紀錄中找出有意義的資訊提供給醫療人員作為決策參考，已成為近年來受矚目的研究方向。

[3] 提出預測出加護病房中病人的死亡風險，以便做出當下最適當的處置方法。作者認為由時間範圍內護士為病人所做的醫療護理記錄(Nursing notes)，

可以找出病人身體狀況隱藏的線索，進而評估決定優先處理事項。此論文的方法是對醫療護理記錄進行主題分析，先建立狀態轉換主題模型(State Transition Topic Model)來做資訊擷取，再利用 n-grams、standard topics、state-aware topics、states 等方法來產生特徵，最後採用 cost-sensitive SVMs 進行死亡機率預測。[10, 11]也運用醫療護理記錄做死亡機率的預測，差別在於前者採用 LDA(Latent Dirichlet allocation)[12]和 SVM 的方法來做死亡預測，而後者採用學習主題模型分佈和邏輯線性回歸(logistic linear regression)的方法來預測死亡機率。

[4] 是利用電子病歷 (EMRs) 自動建構出醫療知識圖形結構 (medical knowledge graph)，希望能幫助改善醫師在診斷病人時的決策。當醫師輸入一個

病症問題時，此論文的研究會為此病症問題計算可能的答案，輔助醫師進行診斷。

此論文提出的方法是將電子病歷中的部分資訊，以馬可夫網路模型 (Markov network model)來建立醫療知識圖，並對圖型結構中各個連接邊進行機率計算，

最後對醫師輸入的病症問題計算可能答案的機率值，找出較可能的一組答案清單。

[14]認為可從網路社群中擷取出病人在網路上發表的用藥回饋，也就是從病人用藥後撰文的反應記錄文字中取得藥物反應資訊。因此，[5, 15]的研究，希望藉由探討網路使用者對於用藥反應的討論內容，找出藥物不良反應的狀況與因素。論文[5]的目的是希望在 Food and Drug Administration(FDA)發佈藥物副作用前，就能從網路中的討論內容提前找出藥物可能會產生的副作用。此論文的方法是將網路論壇對於藥物的討論內容，藉由人、藥物、症狀、疾病這些物件型態的擷取，以及其在句子中出現的關聯來找出藥物與症狀的關係模式。接著採用 Unsupervised Relation Extraction (URE)的方式出文章中存在的關係，例如藥物與症狀的關係。再進行 Post-processing 將遺失或不完整的句子互相合併成一個完整句，最後將其找出的藥物與症狀關係利用 lift 公式來進行彼此相關性的評估。

[13]論文中認為從疾病症狀的文字描述內容，要查詢病人得了何種疾病是一種非常複雜的訊息需求。因為病人的疾病症狀可能發生在很多不同的疾病上，造成難以判斷目前得了什麼疾病，而無法輕易的查詢此病人的相關案例。此論文的問題描述，顯示了本論文研究的需求性。透過本論文提出的方法將文字檢驗報告進行結構化後，即可依據結構化的內容建立起疾病的資料庫，讓醫師對於疾病資料以不同項目的條件進行查詢，進一步的進行病症資料關聯分析。

2.2 文字探勘及擷取

使用關鍵字擷取技術可以從檢驗報告中取得其核心資訊，讓我們得知該篇檢驗報告的主要重點。因此本研究取得檢驗報告後，必須先運用關鍵字擷取的技術取得該篇報告的關鍵詞彙並進行後續分析。

[2]的研究希望將一個字詞透過不同的語意面向進行擴展，找出相同面向的其他字詞，例如字詞“apple”的其中一個語意面向為一種水果，希望經由擴展找出“banana”、“orange”等其他相同語意面向的字詞。其中一個步驟是利用 Skip-gram 當作取得文字面向方法。Skip-gram 的概念是輸入一個關鍵字，然後輸出周圍的文字。這部分可作為本論文研究的關鍵字擴展的參考，利用已找出的關鍵字詞，預測出周圍較可能出現的文字，當作關鍵字的擴展。

[6]的研究中，其中一個步驟在做文字的處理。此論文對於文字的切割，

以”The man began to shoot a video in the moving bus”為例，先採用了 ClausIE 將句子切割為(“the man”, ”began to shoot”, “a video”)、(“the man”, ”began to shoot”, ”in the moving bus”)等等，再繼續利用 OpenNLP 把句子切割為(“the man”)、

(“began to shoot”)、(“a video”)、(“in”)、(“the moving bus”)等等。完成上述文字前處理後，此論文就可進行文字語意的解析。這篇論文提供了對於文字切割處理的一些想法，可作為檢驗報告內文的斷詞斷句的參考。

[7]有一個步驟在做搜尋記錄中查詢字的分類處理。此論文利用時間與頻率的概念對查詢自取特徵，然後運用了 SVM(support vector machines)進行查詢字的分類處理，將 query 字分類到其對應搜尋目的類別中。此論文文字分類的方

法，提供了本論文對於檢驗報告之內容細項自動擷取分類的一些靈感。

[8]其中一個步驟在了解使用者真正的搜尋意圖，此論文把使用者的問題丟到網頁查詢引擎，然後採用 Jaro-Winkler String distance 來計算回傳結果的 snippet 和查詢的距離，藉此取得與原查詢相似但擴展的內容，以了解使用者真正的意圖。此論文藉由外部文字的方法，提供了本論文擴展關鍵字的一些想法。

本論文考慮的檢驗報告中，由於當醫師輸入檢驗報告內容時可能有手誤或有字彙詞性變化的情況，此時 LCS[9]可以用來解決部分誤差不嚴重的情況。LCS 是以比對兩個字彙中相同字母的概念來計算距離，如果找出適當門檻值，可以達到修正輸入錯誤字的效果。

在文檔中醫療檢驗報告關鍵字擷取與結構化之研究 (頁 15-19)

第二章 文獻探討

2.1 醫療文字記錄內容探勘

2.2 文字探勘及擷取

第二章文獻探討