醫療檢驗報告關鍵字擷取與結構化之研究

全文

(1)國立台灣師範大學資訊工程研究所碩士論文. 指導教授：柯佳伶. 博士. 醫療檢驗報告關鍵字擷取與結構化之研究 Keyword Extraction and Structuralization for Medical Report. 研究生：吳培豪. 撰. 中華民國一百零六年七月.

(2) 摘要醫療檢驗報告關鍵字擷取與結構化之研究吳培豪近來醫療科技的進步，可以對病人做更精確且詳細的檢查。但很多檢驗報告並非是一些數據化的數值，而是檢驗科醫生對於檢驗過程中採用儀器與技術檢查觀察發現的結果，以文字描述說明。若能將上述非結構化的文字檢驗報告轉換成一種結構化檢驗報告，將可幫助診斷醫師較有效率了解病人在不同檢查項目的狀況，更進一步可進行病症資料關聯分析，找出影響病症的潛在因素。本論文對腎臟科病理檢驗報告，運用自然語言詞性分析設計出可自動擷取出關鍵字詞組的方法，建立檢驗報告中各個段落的醫療詞彙字典，作為檢驗報告結構化之詞彙擷取依據。並運用主題機率模型分析，提出可自動擷取檢驗報告主要檢驗細項關鍵字詞的方法。最後利用醫療詞彙字典，實作出將檢驗報告依照不同段落特性個別進行結構化的方法。實驗結果顯示本論文提供的處理技術，能有效將檢驗報告進行結構化，並可擷取出常見檢驗細項關鍵詞，將有助醫療文字報告的自動處理及分析。. 關鍵字：關鍵字詞擷取、醫療檢驗報告結構化、醫學詞彙字典建立 i.

(3) ABSTRACT Keyword Extraction and Structuralization for Medical Report by Pei-Hao Wu In recent years, the patients usually accept more and more accurate and detailed examinations because of the rapid advances in medical technology. Many of the examination reports are not represented in numerical data, but are text documents written by the medical examiners according to the observations obtained from the instruments and biochemical tests. If the above-mentioned unstructured data can be converted into a examination report in a structured form, it will help the doctors to understand the patient's status in different examination items more efficiently. Besides, further association analysis on the structural data can be performed to identify potential factors that affect a disease. In this thesis, from the pathology examination reports of renal disease, we applied the POS tagging result of natural language analysis to automatically extract the keyword phrases. Then a medical vocabulary dictionary of examination report for each paragraph is established, which is used as the basic information for retrieving the terms to construct a structured form of the report. Besides, a topic probability modeling method is applied to automatically find the keywords of the examination items from the reports. Finally, a system is implemented to generate the structured form for the various types of paragraphs in an examination report with the assistance of the constructed medical dictionary. The results of experiments showed that the methods proposed in this paper can effectively construct a structural form of examination reports. Furthermore, the keywords of the popular examination items can be extracted correctly. The above techniques will help automatic processing and analysis of medical text reports.. Keyword: keyword extraction, structuralization for medical report, establishment of medical vocabulary dictionary ii.

(4) 誌謝能順利完成碩士學業與論文，首先要感謝我的指導教授─柯佳伶老師。感謝老師細心與耐心的教導，讓我不僅完成了研究，也學習了許多面對事情的態度與思考解決問題的方法，真的非常感謝老師這幾年的教導，讓我受益良多。此外也感謝陳良弼教授、徐嘉連教授、吳宜鴻教授在口試時提供許多寶貴的意見，使這份研究能更加完整。感謝我的同學思涵、聖池、紹俊，在研究所的課業上總是不斷和我討論與指點，謝謝你們的幫助。感謝實驗室的夥伴怡慧、宸瑋、家儀、之瑄、謹安，在最後這一年陪我一起討論與解決問題，非常感謝大家這一年的照顧。感謝學弟妹修毅、仕翰、雅雯、博文，感謝你們一路上的支持與協助。感謝我的家人長久以來的培養與支持，特別是我的母親，因為妳的鼓勵與對家庭得付出，我才能堅持到最後且完成碩士學業。感謝女朋友家君陪伴我一起攻讀研究所，在我徬徨無助的時候拉我一把，讓我在攻讀碩士的過程並不孤單。另外也感謝我的朋友們在研究之餘陪我聊天與消除壓力，謝謝你們。對於一路上支持與陪伴我的人，在此對大家獻上由衷的謝意，因為有你們我才能順利完成學業，謝謝大家。. 吳培豪謹識於國立台灣師範大學資訊工程研究所 2017 年 8 月 iii.

(5) 目錄第一章. 緒論 ..................................................................................................................... 1. 1.1. 研究動機 ................................................................................................................. 1. 1.2. 研究目的 ................................................................................................................. 2. 1.3. 論文方法 ................................................................................................................. 5. 1.4. 論文架構 ................................................................................................................. 7. 第二章. 文獻探討 ............................................................................................................... 8. 2.1. 醫療文字記錄探勘 ................................................................................................. 8. 2.2 文字探勘及擷取 ................................................................................................... 10 第三章. 醫學詞彙字典建立方法 ..................................................................................... 12. 3.1 檢驗報告前處理 ................................................................................................... 12 3.2 建立段落字典 ....................................................................................................... 15 第四章. 醫學詞彙字典的應用 ......................................................................................... 24. 4.1 結構化處理方法 ................................................................................................... 24 4.2 特殊項目段落細項關鍵字詞自動擷取 ............................................................... 30 第五章. 實驗結果與討論 ................................................................................................. 36. 5.1 實驗資料來源 ....................................................................................................... 36 5.2 LCS 篩除錯字效果評估 ........................................................................................ 37 5.3 擷取檢驗細項候選關鍵字詞效果評估 ............................................................... 40 5.4 檢驗報告結構化結果評估 ................................................................................... 50 第六章. 結論與未來研究方向 ......................................................................................... 52. ６.1 結論 ....................................................................................................................... 52 ６.2 未來方向 ............................................................................................................... 52 參考文獻 ............................................................................................................................. 53 附錄一 ................................................................................................................................. 55. iv.

(6) 附圖目錄圖圖圖圖圖圖圖圖圖圖圖圖圖圖圖圖圖圖圖圖圖圖. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22. 檢驗報告之範例------------------------------------------------3 系統離線處理流程圖--------------------------------------------6 系統線上處理流程圖--------------------------------------------6 詞性標記結果範例---------------------------------------------15 句子切割與刪除無意義單字之範例-------------------------------32 句子中字詞與段落字典比對之範例-------------------------------33 挑選主題中字詞加入關鍵字詞候選清單之範例---------------------33 以 LCS 篩除結尾字(base word)錯字之 precision 結果--------------38 以 LCS 篩除相同結尾結尾字詞彙(content word)錯字之 precision 結果-38 名詞字典以 LCS 修改錯誤字詞之 Precision、Recall、F1-score 結果-40 方法與實驗流程對照圖-----------------------------------------41 不同方法建立名詞字典之檢驗細項關鍵字詞擷取 Precision 值結果---42 不同方法建立名詞字典之檢驗細項關鍵字詞擷取 recall 值結果----- 42 不同方法建立名詞字典之檢驗細項關鍵字詞擷取 F1-score 值結果----43 不同 Lift 門檻值之檢驗細項關鍵字詞擷取 Precision 值結果-------44 不同 Lift 門檻值之檢驗細項關鍵字詞擷取 Recall 值結果----------44 不同 Lift 門檻值之檢驗細項關鍵字詞擷取 F1-score 值結果--------45 LDA 不同 Topic 數之檢驗細項關鍵字詞擷取 Precision 結果----- 46 LDA 不同 Topic 數之檢驗細項關鍵字詞擷取 Recall 結果--------46 LDA 不同 Topic 數之檢驗細項關鍵字詞擷取 F1-score 結果------47 擴增關鍵字詞候選清單與否對檢驗細項關鍵字詞之擷取效果----- 48 不同摘要式段落結構化之 precision 結果---------------------- 51. v.

(7) 附表目錄表表表表表表表表表表表表表表表表表. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17. 檢驗報告結構化範例--------------------------------------------4 檢驗報告段落切割範例-----------------------------------------13 主要診斷(Diagnosis)段落部分集合之範例------------------------16 字詞之詞性連接規則與範例-------------------------------------17 刪除結尾字與字首之部分範例-----------------------------------18 合併不同結尾字之集合部分範例---------------------------------20 合併相同結尾字之字詞部分範例---------------------------------23 否定字與對應字詞連接部份範例---------------------------------25 特殊字詞連接部份範例-----------------------------------------25 結構關鍵字之字尾清單部分範例---------------------------------27 檢驗報告之主要診斷(Diagnosis)段落與結構化之範例--------------28 檢驗報告之染色體檢查(DIF)段落與結構化之範例-----------------29 關鍵字詞候選擴展之範例---------------------------------------35 LCS 字詞修改正確部分案例----------------------------------39 LCS 字詞修改錯誤部分案例----------------------------------39 檢驗細項關鍵字詞擷取與擴增未找出答案之清單-------------------48 摘要式段落結構化遺漏字詞部分案例-----------------------------51. vi.

(8) 第一章. 緒論. 1.1 研究動機隨著科技進步，醫療保健資料不斷增加且更容易搜集。如何針對這些醫療資料進行探勘，以找出有用的資訊進一步優化醫療服務已成為資料探勘領域中熱門的主題之一。在眾多不同類型的醫療保健資料中，電子病歷資料(electronic medical records, EMR)系統提供將病患所有資訊以電子格式儲存的功能，這些資訊是由醫師對於病患用藥、檢查檢果、症狀之文字描述。因此對於此類型記錄中的資訊分析，可協助醫療人員對於病患做出更精準有效率的醫療處理，將是改善醫療品質最直接的方法之一。近來醫療科技的進步，可以對病人做更精確且詳細的檢查。但很多檢驗報告並非是一些數據化的數值，而是檢驗科醫生對於檢驗過程中採用儀器與技術檢查觀察發現的結果，以文字描述說明。但是這種非結構化的檢驗報告資料，診斷醫師往往需要先花一段時間來閱讀報告，然後根據報告內容了解問題所在，才能診斷病況並提出治療方案。若能將非結構化的文字檢驗報告轉換成一種結構化檢驗報告，將可幫助診斷醫師較有效率了解病人在不同檢查項目的狀況。另一方面，可方便醫師對於病歷資料以不同項目的條件進行查詢，更進一步可進行病症資料關聯分析，找出影響病症的潛在因素。因此，將非結構化的檢驗報告進行結構化的技術很重要且有實際需求，將有助進一步提升醫療人員的工作效率及品質。. 1.

(9) 1.2 研究目的本論文研究目的是針對非結構化的英文檢驗報告，將檢驗報告轉換成一種結構化形式顯示，方便醫師有效率取得報告中的各別重要資訊。對於一份腎臟科醫學檢驗報告，Sethi, Sanjeev 等人提出其應具有段落上的結構性[16]，可依照其檢驗項目及敘述內容區分為下列八種段落：(一)主要診斷(Diagnosis)、(二)電子顯微鏡檢查(EM)、(三)電子顯微鏡檢查的狀況描述(Comment / Narrative)、(四) 切片樣本的大小及狀況(Specimen type)、(五)切片樣本的描述(Gross description)、 (六)光學顯微鏡檢查(LM)、(七)染色體檢查(DIF)、(八)報告結論(Summary)。其中檢驗報告中若出現這些項目對應的文字段落，皆符合一定的次序。其中段落 (一)、(三)、(八)為醫師對於症狀與檢驗結果進行總結描述的摘要式段落，結構化的目標是擷取出包含主要病症判斷的主要診斷結果，以及病理檢查觀察到的其他異常說明。段落(二)、(四)、(五)、(六)、(七)為醫師對於不同檢驗項目觀察記錄的特殊檢驗項目段落，結構化的目標是標示出特定檢查細項的結果選項。以下圖 1 所示為一份腎臟科檢驗報告範例，將圖 1 的內容依照其所屬的段落切割，個別進行結構化處理，自動分項列出各檢查細項的結果如表 1 所示，為本論文的研究目標。. 2.

(10) 圖 1 檢驗報告之範例. 3.

(11) 表 1 檢驗報告結構化範例. Diagnosis. Procedure: echo-guided percutaneous needle core biopsy Primary diagnosis: moderate arteriolosclerosis Additional features: 1. acute tubular necrosis 2. acute glomerular ischemia 3. acute vascular insult. Specimen type. Specimen: 2 tissue cores Size: 2.0 x 0.1 x 0.1 cm □ fixed in formalin ■fresh. Gross description. Gross looking (Grossly): whitish gray and soft Amount: more than 25 glomeruli sclerotic lesion: ■Yes □No Segmental glomerulosclerosis: □Absent (S0) ■ Presence (S1). LM. Mesangial: ■ Mesangial hypercellularity ■matrix expansion □mesangiolysis Degree of Mesangial hypercellularity ■Present in ≤ 50% (M0) □ Present in > 50% (M1) Capillary: delicate and soft capillary walls Endocapillary hypercellularity : ■Absent (E0) □ Presence (E1) Crescent formation: ■Yes □No Subendothelial deposit: □Yes ■No Subepithelial deposit: □Yes ■No. DIF. Staining pattern: □granular □ linear Location: □focal □diffuse □segmental □global □mesangial □glomerular capillary wall IgA deposition/expression ■absent □present IgG deposition/expression ■absent □present IgM deposition/expression ■absent □present C3 deposition/expression ■absent □present C4 deposition/expression ■absent □present C1q deposition/expression ■absent □present C4d deposition/expression □absent □present Fibrinogen insignificant ■absent □present. Summary. Diagnosis: 1. moderate arteriolosclerosis Additional features 1. acute tubular necrosis 2. acute glomerular ischemia ( due to acute vascualr insult ) 4.

(12) 1.3. 論文方法. 本論文以中國醫藥大學附設醫院腎臟科病人的 476 筆檢驗報告作為資料來源，且檢驗報告中內容皆為英文。. 為達到上述研究目標，本論文之研究具體工作包括以下部分: (1) 針對病人的檢驗報告，設計可自動擷取出關鍵字詞組的方法，建立檢驗報告中各個段落的專有詞彙字典，作為檢驗報告結構化之詞彙擷取依據。 (2) 設計可自動擷取檢驗報告主要檢驗項目關鍵字詞的方法。 (3) 利用專有詞彙字典，設計將檢驗報告的診斷內容，依照不同段落特性個別進行結構化的方法。. 本論文方法處理分為離線處理與線上處理兩部分：離線處理如圖 2 所示，將目前蒐集到的檢驗報告整批輸入自然語言分析工具，進行詞性標註前處理，再進行段落醫學字典建立模組。另外有一個模組透過檢驗報告段落的主題分析，自動擷取出可能的檢驗項目關鍵字詞。線上處理部分則如圖 3 所示，根據建立好的醫學字典，可對輸入的一份檢驗報告進行結構化擷取，產出一份結構化檢驗報告。本論文提出的主要方法貢獻包括自動建立檢驗報告的專有詞彙字典、自動擷取檢驗項目關字詞、及檢驗報告結構化方法三部分。. 5.

(13) 圖 2 系統離線處理流程圖. 圖 3 系統線上處理流程圖 6.

(14) 關於建立檢驗報告的專有詞彙字典，本論文先將資料庫中的所有檢驗報告，對每筆檢驗報告內容進行段落切割，再根據字詞詞性的規則擷取出醫學詞彙候選詞，並經過字詞的相似比對，篩除可能的錯字及無特殊語意的字詞，建立各段落醫學詞彙字典。針對其他檢驗項目段落之檢驗細項關鍵字詞擷取方法，本論文將前述建立好的段落字典進行去除雜訊字詞的處理，再利用 LDA 主題機率模型分析方法，列出各主題主要代表字詞，作為檢驗項目細項之關鍵字詞。而針對檢驗報告結構化的處理，本論文利用比對前述建立好的段落醫學詞彙字典，將摘要式段落與特殊項目段落中出現的可能專有詞彙擷取出來，並與段落項目特定關鍵字詞進行比對，將專有詞彙指定到所屬段落項目，或標示出是否出現項目細項結果。. 1.4. 論文架構. 本論文以下章節內容簡介如下：第二章說明相關文獻探討，第三章說明本論文提出的醫學詞彙字典建立方法，第四章介紹檢驗報告結構化及檢驗項目關鍵字詞自動擷取方法。第五章說明實驗評估結果與討論，最後在第六章總結本論文並討論未來研究方向。. 7.

(15) 第二章文獻探討文字檢驗報告的關鍵字擷取與結構化是本論文研究的主要目的，因此此章節將介紹目前醫療探勘相關研究，以及文字擷取相關文獻。. 2.1. 醫療文字記錄內容探勘. 隨著醫療與資訊技術的進步，醫療記錄蒐集了病人的基本資料、病情狀況、用藥與檢驗報告等大量電子化資料。利用資料探勘的方法，從醫療紀錄中找出有意義的資訊提供給醫療人員作為決策參考，已成為近年來受矚目的研究方向。 [3] 提出預測出加護病房中病人的死亡風險，以便做出當下最適當的處置方法。作者認為由時間範圍內護士為病人所做的醫療護理記錄(Nursing notes)，可以找出病人身體狀況隱藏的線索，進而評估決定優先處理事項。此論文的方法是對醫療護理記錄進行主題分析，先建立狀態轉換主題模型(State Transition Topic Model)來做資訊擷取，再利用 n-grams、standard topics、state-aware topics、states 等方法來產生特徵，最後採用 cost-sensitive SVMs 進行死亡機率預測。[10, 11]也運用醫療護理記錄做死亡機率的預測，差別在於前者採用 LDA(Latent Dirichlet allocation)[12]和 SVM 的方法來做死亡預測，而後者採用學習主題模型分佈和邏輯線性回歸(logistic linear regression)的方法來預測死亡機率。 [4] 是利用電子病歷 (EMRs) 自動建構出醫療知識圖形結構 (medical knowledge graph)，希望能幫助改善醫師在診斷病人時的決策。當醫師輸入一個 8.

(16) 病症問題時，此論文的研究會為此病症問題計算可能的答案，輔助醫師進行診斷。此論文提出的方法是將電子病歷中的部分資訊，以馬可夫網路模型 (Markov network model)來建立醫療知識圖，並對圖型結構中各個連接邊進行機率計算，最後對醫師輸入的病症問題計算可能答案的機率值，找出較可能的一組答案清單。 [14]認為可從網路社群中擷取出病人在網路上發表的用藥回饋，也就是從病人用藥後撰文的反應記錄文字中取得藥物反應資訊。因此，[5, 15]的研究，希望藉由探討網路使用者對於用藥反應的討論內容，找出藥物不良反應的狀況與因素。論文[5]的目的是希望在 Food and Drug Administration(FDA)發佈藥物副作用前，就能從網路中的討論內容提前找出藥物可能會產生的副作用。此論文的方法是將網路論壇對於藥物的討論內容，藉由人、藥物、症狀、疾病這些物件型態的擷取，以及其在句子中出現的關聯來找出藥物與症狀的關係模式。接著採用 Unsupervised Relation Extraction (URE)的方式出文章中存在的關係，例如藥物與症狀的關係。再進行 Post-processing 將遺失或不完整的句子互相合併成一個完整句，最後將其找出的藥物與症狀關係利用 lift 公式來進行彼此相關性的評估。 [13]論文中認為從疾病症狀的文字描述內容，要查詢病人得了何種疾病是一種非常複雜的訊息需求。因為病人的疾病症狀可能發生在很多不同的疾病上，造成難以判斷目前得了什麼疾病，而無法輕易的查詢此病人的相關案例。此論文的問題描述，顯示了本論文研究的需求性。透過本論文提出的方法將文字檢驗報告進行結構化後，即可依據結構化的內容建立起疾病的資料庫，讓醫師對於疾病資料以不同項目的條件進行查詢，進一步的進行病症資料關聯分析。 9.

(17) 2.2. 文字探勘及擷取. 使用關鍵字擷取技術可以從檢驗報告中取得其核心資訊，讓我們得知該篇檢驗報告的主要重點。因此本研究取得檢驗報告後，必須先運用關鍵字擷取的技術取得該篇報告的關鍵詞彙並進行後續分析。 [2]的研究希望將一個字詞透過不同的語意面向進行擴展，找出相同面向的其他字詞，例如字詞“apple”的其中一個語意面向為一種水果，希望經由擴展找出“banana”、“orange”等其他相同語意面向的字詞。其中一個步驟是利用 Skip-gram 當作取得文字面向方法。Skip-gram 的概念是輸入一個關鍵字，然後輸出周圍的文字。這部分可作為本論文研究的關鍵字擴展的參考，利用已找出的關鍵字詞，預測出周圍較可能出現的文字，當作關鍵字的擴展。 [6]的研究中，其中一個步驟在做文字的處理。此論文對於文字的切割，以”The man began to shoot a video in the moving bus”為例，先採用了 ClausIE 將句子切割為(“the man”, ”began to shoot”, “a video”)、(“the man”, ”began to shoot”, ”in the moving bus”)等等，再繼續利用 OpenNLP 把句子切割為(“the man”)、 (“began to shoot”)、(“a video”)、(“in”)、(“the moving bus”)等等。完成上述文字前處理後，此論文就可進行文字語意的解析。這篇論文提供了對於文字切割處理的一些想法，可作為檢驗報告內文的斷詞斷句的參考。 [7]有一個步驟在做搜尋記錄中查詢字的分類處理。此論文利用時間與頻率的概念對查詢自取特徵，然後運用了 SVM(support vector machines)進行查詢字的分類處理，將 query 字分類到其對應搜尋目的類別中。此論文文字分類的方. 10.

(18) 法，提供了本論文對於檢驗報告之內容細項自動擷取分類的一些靈感。 [8]其中一個步驟在了解使用者真正的搜尋意圖，此論文把使用者的問題丟到網頁查詢引擎，然後採用 Jaro-Winkler String distance 來計算回傳結果的 snippet 和查詢的距離，藉此取得與原查詢相似但擴展的內容，以了解使用者真正的意圖。此論文藉由外部文字的方法，提供了本論文擴展關鍵字的一些想法。本論文考慮的檢驗報告中，由於當醫師輸入檢驗報告內容時可能有手誤或有字彙詞性變化的情況，此時 LCS[9]可以用來解決部分誤差不嚴重的情況。LCS 是以比對兩個字彙中相同字母的概念來計算距離，如果找出適當門檻值，可以達到修正輸入錯誤字的效果。. 11.

(19) 第三章醫學詞彙字典建立方法檢驗報告進行結構化與自動擷取檢驗項目關鍵字詞，需先利用醫學詞彙字典將檢驗報告中包含的關鍵字詞擷取出，建立一份關鍵字詞清單，再進行後續的字詞運算與結構化比對。本章節將詳細說明檢驗報告的前處理過程，以及建立醫學詞彙字典的方法。. 3.1. 檢驗報告前處理. 在建立醫學詞彙字典前，需要將大量的檢驗報告進行前處理，包括段落切割以及詞性標記兩部分。 <1> 段落切割一份腎臟科醫學檢驗報告本身具有段落上的結構性，包括下列八個段落: (一)主要診斷(Diagnosis)、(二)電子顯微鏡檢查(EM)、(三)電子顯微鏡檢查的狀況描述(Comment / Narrative)、(四)切片樣本的大小及狀況(Specimen type)、(五) 切片樣本的描述(Gross description)、(六)光學顯微鏡檢查(LM)、(七)染色體檢查 (DIF)、(八)報告結論(Summary)。各個段落的文字描述目的不相同，其各自使用的字詞頻率也不相同，所以本論文將依照不同的段落建立其對應的段落字典。為達此目的，需先將檢驗報告內容根據個段落開頭會出現的句型樣式，自動進行段落的切割，如表 2 所示。經過段落切割後，即可進行下一步驟的詞性標記。 12.

(20) 表 2 檢驗報告段落切割範例段落切割前 Addendum on 2011-12-07 |1. Kidney, left, echo-guided percutaneous needle core biopsy, focal segmental glomerulosclerosis (4/26) with mild tubular atrophy (up to 5% to 7% in area). |2. The EM examination pathologic diagnosis: |Electron microscopic study: |2 glomeruli were examined ultrastructurally, which show no mesangial |expansion, cellular proliferation or electron dense deposition. The |glomerular basement membrane (GBM) show no remarkable change. Diffuse |effacement of the podocytes foot processes also present. |Comment: |The EM findings most consistent with minimal change disease/primary |focal segmental glomerulosclerosis. Further clinical correlation is |needed. |#T-71000 #M-53160 0 3267 00CW00 The submitted specimen consists of 2 tissue cores measuring up to 1.5 x 0.1 x 0.1 cm. in size in fresh state. | Grossly, they are whitish gray and soft. More than 10 glomeruli are visible under dissecting microscope. | All for sections and prepared for routine serial H&E, PAS/CSM, DIF, and EM studies. Jar 0. | Microscopically, the section of renal biopsy contains three completely obsolescent and another 26 non-obsolescent glomeruli revealing minimal glomerular change, except four loci of focal segmental glomerulosclerosis (4/26, tip regions), with minimal mesangiopathy, indistinct intraglomerular leukocyte infiltration, thin and soft glomerular capillary walls, and no definite crescent formation noted. The tubulointerstitial compartment shows patchy foamy change of tubular epithelium, mild interstitial edema, minimal to focally mild interstitial chronic inflammatory infiltrates, areas of tubular atrophy (up to 5% to 7% in area), indistinct lymphocytic tubulitis, and inconspicuous interstitial fibrosis. The vascular compartment is unremarkable. The PAS and CSM stains delineate foci of focal segmental glomerulslerosis and tubular atrophy, otherwise nothing particular, without significant subendothelial/subepithelial deposit, visceral epithelial proliferation, nor spike formation. The DIF study demonstrates no significant immunodeposition of IgG, IgM, IgA, C3, C1q, C4, or fibrinogen. According to the above features, focal segmental glomerulosclerosis (4/26) with mild tubular atrophy (up to 5% to 7% in area) in the background of minimal glomerular change is firstly considered. 13.

(21) 段落切割後主要診斷 (Diagnosis). 電子顯微鏡檢查(EM). Kidney, left, echo-guided percutaneous needle core biopsy, focal segmental glomerulosclerosis (4/26) with mild tubular atrophy (up to 5% to 7% in area). Electron microscopic study: 2 glomeruli were examined ultrastructurally, which show no mesangial expansion, cellular proliferation or electron dense deposition. The glomerular basement membrane (GBM) show no remarkable change. Diffuse effacement of the podocytes foot processes also present.. 電子顯微鏡檢 Comment: The EM findings most consistent with minimal change 查的狀況描述 disease/primary focal segmental glomerulosclerosis. Further clinical (Comment) correlation is needed. #T-71000 #M-53160 0 3267 00CW00 切片樣本的 The submitted specimen consists of 2 tissue cores measuring up to 1.5 x 大小及狀況 0.1 x 0.1 cm. in size in fresh state. (Specimen) 切片樣本的描述(Gross). Grossly, they are whitish gray and soft. More than 10 glomeruli are visible under dissecting microscope. Microscopically, the section of renal biopsy contains three completely obsolescent and another 26 non-obsolescent glomeruli revealing. 光學顯微鏡檢查(LM). minimal glomerular change, except four loci of focal segmental glomerulosclerosis (4/26, tip regions), with minimal mesangiopathy, indistinct intraglomerular leukocyte infiltration, thin and soft glomerular capillary walls, and no definite crescent formation noted. The tubulointerstitial compartment shows patchy foamy change of tubular epithelium, mild interstitial edema, minimal to focally mild interstitial chronic inflammatory infiltrates, areas of tubular atrophy (up to 5% to 7% in area), indistinct lymphocytic tubulitis, and inconspicuous interstitial fibrosis. The vascular compartment is unremarkable. The PAS and CSM stains delineate foci of focal segmental glomerulslerosis and tubular atrophy, otherwise nothing particular, without significant subendothelial/subepithelial deposit, visceral epithelial proliferation, nor spike formation.. 染色體檢查 (DIF) 報告結論 (Summary). The DIF study demonstrates no significant immunodeposition of IgG, IgM, IgA, C3, C1q, C4, or fibrinogen. According to the above features, focal segmental glomerulosclerosis (4/26) with mild tubular atrophy (up to 5% to 7% in area) in the background of minimal glomerular change is firstly considered. 14.

(22) <2> 詞性標記本論文採用史丹佛大學自然語言處理研究小組所研發的 Stanford CoreNLP – Core natural language software(https://stanfordnlp.github.io/CoreNLP)套件軟體[1]，為段落切割後之內容的每一個字詞標記出詞性。圖 4 所示為一個 Diagnosis 段落中的內容透過詞性標記處理的結果，NN(名詞)、VBD(動詞過去式)、JJ(形容詞)、 CD(量詞)等代表字詞在該句中的詞性。本論文方法主要分析與探討的詞性標記為 JJ 與 NN，且將 NNS(名詞複數)、VBG(動名詞)、NNP(專有名詞)等歸類為名詞，將 VBN(過去分詞)、VBD(動詞過去式)、JJR(比較級)等歸類為形容詞。. 圖 4 詞性標記結果範例. 3.2. 建立段落字典. 整批的檢驗報告經過前處理後，即可進入建立段落字典的階段，本論文建立字典的步驟分為以下三個步驟依序進行處理。 <步驟一> 首先，將前處理後的檢驗報告內容集合起來，如表 3 所示。接著，將每個句子中的字依照特定詞性規則樣式組合成詞彙，連接樣式規則與範例如表 4 所示。按照連接規則將其區分為： 15.

(23) 1. 形容詞彙字典：形容詞與複合形容詞(連續形容詞之連接)集合。 2. 專有詞彙字典：名詞與複合名詞之集合。複合名詞可分為：(a)最後一個字以名詞為基底，往前結合連續的名詞，形成複合名詞 （b）若(a)形成之複合名詞前方為形容詞則繼續往前進行結合，形成更長之複合名詞。. 表 3 主要診斷(Diagnosis)段落部分集合之範例主要診斷(Diagnosis). 病例編號 201101639. 病例編號 201102475. 病例編號 201103835. 16.

(24) 表 4 字詞之詞性連接規則與範例形容詞字典單字 𝐽𝐽1 + ⋯ + 𝐽𝐽𝑛. 次數. immune complex proliferative. 3. large sized subendothelial. 1. Splitting. 1. 名詞字典. NN1 + ⋯ + NNn. 單字. 次數. interstitium show fibrosis change. 1. foot processes effacement foot process effacement. JJ1 + ⋯ + JJn + NN1 + ⋯ + NNn. 314 7. 單字. 次數. extensive foot processes effacement. 66. partial foot processes effacement. 62. Mesangium. 68. <步驟二> 將步驟一建立的詞彙字典篩除無特殊語意的字詞，使字典中的字詞更為專業與精準。藉由兩個條件去除雜訊：(1)根據結尾字刪除與醫療較不相關的字詞、 (2)將字首較無意義的形容詞進行刪除，如表 5 所示。這些字是由人為給定，目前採用的刪除字詞如附錄一所示。. 17.

(25) 表 5 刪除結尾字與字首之部分範例刪除之結尾字. 刪除範例. History. clinical history -> clinical history. management. further management -> further management. Finding. em finding -> em finding. 刪除之字首 Including Mostly Otherwise. 刪除範例 including iga nephropathy -> including iga nephropathy. only few faint mesangial deposits -> only few faint mesangial deposits. otherwise minimally changed glomeruli -> otherwise minimally changed glomeruli. <步驟三> 將步驟二建立的字典使用最長共同子序列演算法 (Longest Common Subsequence)[9]，計算字詞與字詞之間的相似度，將距離相近的字詞組合進行合併，藉此篩除可能的錯字。以下說明合併子步驟：. 步驟 3-1：針對不同結尾字進行錯字篩除之運算。以𝑏𝑖 與𝑏𝑗 表示兩個不同之結尾字，首先確認𝑏𝑖 與𝑏𝑗 之開頭字母是否相同，假如不相同則判斷𝑏𝑖 與𝑏𝑗 為不相同之單字，不必進行後續之運算。否則找出𝑏𝑖 與𝑏𝑗 中之較長字數 max _𝑙𝑒𝑛(𝑏𝑖 , 𝑏𝑗 ) ，接著計算 𝑏𝑖 與 𝑏𝑗 之最長共同子序列長度 LCS(𝑏𝑖 , 𝑏𝑗 )，將max _𝑙𝑒𝑛(𝑏𝑖 , 𝑏𝑗 )與LCS(𝑏𝑖 , 𝑏𝑗 )相減作為兩字之間錯字之字數 18.

(26) ErrBaseW(𝑏𝑖 , 𝑏𝑗 )，如公式一所示。接著將最長字數max_len(𝑏𝑖 , 𝑏𝑗 )乘以 1/d，計算結果以無條件捨去作為結尾字合併之門檻值ComBaseT(𝑏𝑖 , 𝑏𝑗 )，但設定門檻值不得超過 3，計算方式如公式二所示。當錯字數小於等於門檻值 ComBaseT(𝑏𝑖 , 𝑏𝑗 )時，將𝑏𝑖 與𝑏𝑗 進行合併，將ComBaseF(𝑏𝑖 , 𝑏𝑗 )設為 1反之則不合併，ComBaseF(𝑏𝑖 , 𝑏𝑗 )設為 0，如公式三所示。以𝐵𝑖 與𝐵𝑗 分別表示結尾字為𝑏𝑖 與𝑏𝑗 的複合字詞所成的集合，而𝐹(𝑏𝑖 )與 𝐹(𝑏𝑗 )分別表示𝑏𝑖 與𝑏𝑗 出現之頻率。假設ComBaseF(𝑏𝑖 , 𝑏𝑗 )為 1，且𝐹(𝑏𝑖 ) > 𝐹(𝑏𝑗 )，則將𝐵𝑗 中所有字詞之結尾字修改為𝑏𝑖 且併入𝐵𝑖 中，並將𝐵𝑗 清除，如公式四所示。範例 3-1 將顯示一個範例說明步驟 3-1。. ErrBaseW(𝑏𝑖 , 𝑏𝑗 ) = max _𝑙𝑒𝑛(𝑏𝑖 , 𝑏𝑗 ) − LCS(𝑏𝑖 , 𝑏𝑗 ). ComBaseT(𝑏𝑖 , 𝑏𝑗 ) =. (公式一). max(𝑏𝑖 ,𝑏𝑗 ) 𝑑. if ComBaseT(𝑏𝑖 , 𝑏𝑗 ) ≥ 3, 𝑠𝑒𝑡 ComBaseT(𝑏𝑖 , 𝑏𝑗 ) = 3. ComBaseW(𝑏𝑖 , 𝑏𝑗 ) = {. (公式二). 1 𝑖𝑓 ErrBaseW(𝑏𝑖 , 𝑏𝑗 ) ≤ ComBaseT(𝑏𝑖 , 𝑏𝑗 ) 0 𝑖𝑓 ErrBaseW(𝑏𝑖 , 𝑏𝑗 ) > ComBaseT(𝑏𝑖 , 𝑏𝑗 ) (公式三). ComBaseF(𝐵𝑖 , 𝐵𝑗 ) = 𝐵𝑖 ∪ 𝐵𝑗 𝑎𝑛𝑑 𝐵𝑗 = ∅ 𝑖𝑓 𝐹(𝑏𝑖 ) > 𝐹(𝑏𝑗 ). 19. (公式四).

(27) 【範例 3-1】假設有兩組不同結尾字的字詞集合，如表 6 所示。首先確認開頭字母相同皆為 g，再來利用公式一ErrBaseW(glomerulonephritis , glomerulonephritiss)計算結尾字間錯字之字數，計算結果錯字數為 1。接著使用公式二計算結尾字間合併之門檻值ComBaseT(glomerulonephritis , glomerulonephritiss)(在此 d 設為 5)，計算結果為 4。透過公式三判斷，錯字數 1 在合併門檻值 4 的容許範圍內，將兩個結尾字進行合併。最後透過公式四判斷結尾字頻率𝐹(glomerulonephritis ) > 𝐹(glomerulonephritiss) ，故將結尾字為 glomerulonephritiss 之集合 𝐵glomerulonephritiss 併入結尾字為 glomerulonephritis 之集合𝐵glomerulonephritis ，且清除字詞集合𝐵glomerulonephritiss 。表 6 合併不同結尾字之集合部分範例合併前結尾字. 出現頻率. glomerulonephritis. 150. glomerulonephritiss. 36. 相同結尾字之集合 glomerulonephritis membranous glomerulonephritis lupus glomerulonephritis glomerulonephritiss lupus glomerulonephritiss membranous glomerulonephritiss focal glomerulonephritiss. 出現頻率 90 35 25 20 8 7 1. 合併後結尾字. 出現頻率. glomerulonephritis. 186. 相同結尾字之集合 glomerulonephritis membranous glomerulonephritis lupus glomerulonephritis focal glomerulonephritis. 20. 出現頻率 110 42 33 1.

(28) 步驟 3-2：進行相同結尾字之集合𝐵𝑖 錯字篩除運算。以𝑝𝐼 與p𝐽 表示𝐵𝑖 中兩個結尾字相同的不同複合詞彙，依照順序以𝑝𝐼 . w1 …𝑝𝐼 . w𝑛 表示組合成𝑝𝐼 中的單字、以𝑝𝐽 . w1 …𝑝𝐽 . w𝑚 表示組合成𝑝𝐽 中的單字。首先確認𝑝𝐼 與p𝐽 之組合單字數 n 與 m 是否相同，假如相同則繼續進行篩除錯字之檢查運算，否則認定𝑝與𝑝𝐽 為兩個不相同之字詞，如公式五所示。接著將p𝐼 與𝑝𝐽 之組合單字由後往前，利用公式六各別計算ErrContentW(𝐼𝑛 , 𝐽𝑚 )到 ErrContentW(𝐼1 , 𝐽1 ) 之錯字數，利用公式七各別檢查 ComContentT 到 ComContentT(𝐼1 , 𝐽1 )之合併門檻值，假如𝑝𝐼 與𝑝𝐽 的每個字由後至前(𝑝𝐼 . w𝑖 , 𝑝𝐽 . w𝑖 ) (i=1 to n)的配對比較，錯字皆小於等於門檻值時，則將𝑝𝐼 與𝑝𝐽 進行合併反之認定𝑝𝐼 與𝑝𝐽 為兩個不相同之字詞，如公式八所示。假設 ComContentW(𝑝𝐼 , 𝑝𝐽 ) 為 1 ，且出現之頻率 𝐹(𝑝𝐼 ) > 𝐹(𝑝𝐽 )，則𝑝𝐽 認定為輸入錯誤之字詞，將𝑝𝐽 修改為𝑝𝐼 後併入𝑝𝐼 中，最後將𝑝𝐽 清除。範例 3-2 將顯示一個範例說明步驟 3-2。. CountContentW(𝑝𝐼 , 𝑝𝐽 ) = {. 1 𝑖𝑓 n = m 0 𝑖𝑓 n ≠ m. (公式五). ErrContentW(𝑝𝐼 . 𝑤𝑖 , 𝑝𝐽 . 𝑤𝑖 ) = max(𝑝𝐼 . 𝑤𝑖 , 𝑝𝐽 . 𝑤𝑖 ) − LCS(𝑝𝐼 . 𝑤𝑖 , 𝑝𝐽 . 𝑤𝑖 ) (公式六). 21.

(29) ComContentT(pI . wi , pJ . wi ) =. max(pI .wi ,pJ .wi ) d. ≤3. if ComContentT(pI . wi , pJ . wi ) ≥ 3, set ComContentT(pI . wi , pJ . wi ) = 3 (公式七). ComContentW( 𝑝𝐼 , 𝑝𝐽 ) = {. 1 𝑖𝑓 𝐴𝐿𝐿 ErrContentW(𝑝𝐼 . 𝑤𝑖 , 𝑝𝐽 . 𝑤𝑖 ) ≤ ComContentT(𝑝𝐼 . 𝑤𝑖 , 𝑝𝐽 . 𝑤𝑖 ) 0 𝑖𝑓 𝑂𝑛𝑒 ErrContentW(𝑝𝐼 . 𝑤𝑖 , 𝑝𝐽 . 𝑤𝑖 ) > ComContentT(𝑝𝐼 . 𝑤𝑖 , 𝑝𝐽 . 𝑤𝑖 ). (公式八). 【範例 3-2】假設有一相同結尾字的字詞集合如表 7 所示，以下以"mildd tubular atrophy" 與"mild tubular atrophy"為例說明。首先透過公式五判斷字詞組合單字之個數 CountContentW(mild tubular atrophy , mildd tubular atrophy)是否相同，兩個字詞皆由三個單字組成，判斷結果為相同。接著利用公式六各別運算 ErrContentW(tubular, tubular)與ErrContentW(mild , mildd )之錯字數為 0 與 1，以公式七個別計算ComContentT(tubular, tubular)與ComContentT(mild , mildd ) 之合併門檻值為 2 與 1，經過公式八判斷(tubular, tubular)之錯字數 0 在合併門檻值 2 的容許範圍內、(mild , mildd)之錯字數 1 在合併門檻值 1 的容許範圍內，因此將兩字詞進行合併。由於字詞頻率 𝐹(mild tubular atrophy) > 𝐹(mildd tubular atrophy) ，故將字詞 "mildd tubular atrophy" 修改為 "mild tubular atrophy"，且將其出現頻率併入"mild tubular atrophy”中，清除字詞"mildd tubular atrophy"。 22.

(30) 表 7 合併相同結尾字之字詞部分範例合併前相同結尾字之字詞. 出現頻率. Atrophy. 130. mild tubular atrophy. 40. focal tubular atrophy. 30. evident tubular atrophy. 20. iga atrophy. 10. mildd tubular atrophy. 5. focal tubularrr atrophy. 2. igaa atrophy. 1 合併後. 相同結尾字之字詞. 出現頻率. Atrophy. 130. mild tubular atrophy. 45. focal tubular atrophy. 32. evident tubular atrophy. 20. iga atrophy. 11. 23.

(31) 第四章醫學詞彙字典的運用本章節將介紹醫學詞彙字典的運用方法。以下將分成兩小節分別介紹結構化處理方法與特殊檢驗項目段落細項關鍵字詞自動擷取方法。. 4.1. 結構化處理方法. 根據醫生給定的檢驗項目，本論文提出的結構化處理方法針對檢驗報告摘要式段落及特殊項目段落分別進行結構化。摘要式段落要將分為主要診斷 (Diagnosis) 、電子顯微鏡檢查的狀況描述 (Comment / Narrative) 、報告結論 (Summary)等三個段落；特殊項目段落分為電子顯微鏡檢查(EM)、切片樣本的大小及狀況(Specimen type)、切片樣本的描述(Gross description)、光學顯微鏡檢查 (LM)、染色體檢查(DIF)等五個段落。本小節將詳細說明其結構化過程。 <1> 比對字典抽取出關鍵字詞清單首先將一篇檢驗報告之一摘要式段落輸入結構化模組中，與字典中的字詞依照特定規則進行比對，並將檢驗報告中比對到的字詞依照順序取出，以建立此篇檢驗報告的關鍵詞彙清單。比對規則順序如下: (1)字典中字詞之長度小於 2 者不比對， (2)字詞之單字組合個數較多者優先比對， (3)字詞出現頻率較高者為次優先比對， (4)否定字清單比對，其中否定字如表 8 所示之清單。. 24.

(32) 表 8 否定字與對應字詞連接部份範例否定字清單 no. 句子. Neither. Nor 範例. without. negative. no significant immunodepostion of IgG, IgM, IgA, C3.. 對應之關鍵字關鍵字 1: 關鍵字 2: 關鍵字 3: 關鍵字 4:. no no no no. IgG IgM IgA C3. 表 9 特殊字詞連接部份範例連接範例. 特殊字詞. 關鍵字 1: stage. 數字(量詞) 關鍵字 2: 3 括弧內文字 stage, class, grade, type show. for. of. %. JJ to JJ. 連接: stage 3 關鍵字 1: stage 3 關鍵字 2: ( ins/rps class 5 ) 連接: stage 3 ( ins/rps class 5 ) 關鍵字 1: membranous lupus glomerulonephritis 關鍵字 2: stage 3 ( ins/rps class 5 ) 連接: membranous lupus glomerulonephritis ( stage 3(ins/rps class 5) ) 關鍵字 1: glomerular change show 關鍵字 2: sclerosing change 連接: glomerular change show sclerosing change 關鍵字 1: poor quality 關鍵字 2: for 關鍵字 3: sclerosing change 連接: poor quality for ultrastructure interpretation 關鍵字 1: thrombotic microangiopathy change 關鍵字 2: of 關鍵字 3: glomerulus 連接: thrombotic microangiopathy change of glomerulus 關鍵字 1: up to 60 關鍵字 2: % 連接: up to 60 % 關鍵字 1: mild 關鍵字 2: to 關鍵字 3: moderate 連接: mild to moderate. 25.

(33) 比對完成後將特殊字詞進行前後連接，組合成較完整的敘述短句，合併樣式如表 9 所示，且若有否定字須將其加入對應的關鍵字詞前。完成上述之步驟，即可建立一份關鍵詞彙清單所成的集合K。. <2> 摘要式段落結構化摘要式段落需要將報告中取出的醫療詞彙分為檢驗程序(Procedure)、主診斷(Primary diagnosis)、或額外特徵(additional features)。由於在我們建立的詞彙字典中，已將結尾字相同的詞彙整理在一起，因此只要由專家給訂一些程序/病名結尾關鍵字，便可自動從字典中比對出所有屬於該程序/病名的各種特定程序及病名亞型。進行摘要式檢驗報告結構化時，以𝑆𝐼 表示摘要項目 I 對應的關鍵結尾字清單 (I 可為檢驗程序(Procedure)或病症診斷(diagnosis))。將關鍵字清單K中每個關鍵字詞之結尾字與摘要項目關鍵結尾字清單𝑆𝐼 進行比對(摘要項目關鍵字之字尾清單如表 10 所示)，將比對到之關鍵字詞指定到對應的摘要項目，沒比對到的關鍵字詞則列為額外特徵項目，將以範例 4-1 說明。. 【範例 4-1】假設檢驗報告之主要診斷(Diagnosis)段落(摘要式段落之一)如表 11 所示。首先將內文與字典中的字詞進行比對，建立關鍵字清單K。接著再透過公式九將關鍵字詞清單K中關鍵字詞𝑘1 、𝑘2 、𝑘3 、𝑘4 、𝑘5 、𝑘6 、𝑘7 之結尾字與摘要項目關鍵 26.

(34) 結尾字清單𝑆Procedure 和𝑆Diagnosis 比對。𝑆Procedure 清單中的 biopsy 和𝑘1 的結尾字比對相同，故將𝑘1 加入摘要項目的檢驗程序(Procedure)中。𝑆Diagnosis 清單中的 glomerulopathy、glomerulosclerosis、nephropathy、glomerulosclerosis 和 𝑘2 、𝑘3 、𝑘6 、𝑘7 的結尾字比對相同，故將這些關鍵字詞加入摘要項目的主診斷 (Primary diagnosis)中。其餘沒比對到的關鍵字詞𝑘4 、𝑘5 歸類於額外特徵項目 (Additional features)。. 表 10 結構關鍵字之字尾清單部分範例摘要項目檢驗程序 (Procedure). 主診斷 (Diagnosis). 關鍵結尾字 biopsy (活檢). transplantation (移植法). failure (衰退). disease (疾病). Nephropathy. nephritis. (腎病). (腎炎). nephrosclerosis (腎硬化). glomerulonephritis (腎小球腎炎). glomerulonephropathy (腎小球腎病). arteriolosclerosis (小動脈硬化). glomerulosclerosis (腎小球硬化). glomerulopathy (腎病). arteriosclerosis (動脈硬化). pyelonephritis (腎炎). carcinoma. Glomerulitis. (癌). (腎小球腎炎). nepropathy (腎病). 27.

(35) 表 11 檢驗報告之主要診斷(Diagnosis)段落與結構化之範例 Kidney, left, echo-guided percutaneous needle core biopsy, focal mesangial proliferative and sclerotic glomerulopathy with focal 主要診斷 segmental glomerulosclerosis (11 / 33), patchy tubular atrophy (up (Diagnosis) to 15% in area), and scattered to clustered interstitial CD20-positive lymphocytic infiltration, c / w IgA nephropathy (class II) with focal segmental glomerulosclerosis. 關鍵字詞𝑘1 : echo-guided percutaneous needle core biopsy 關鍵字詞𝑘2 : focal mesangial proliferative and sclerotic glomerulopathy 關鍵字清單. 關鍵字詞𝑘3 : focal segmental glomerulosclerosis ( 11/33 ) 關鍵字詞𝑘4 : patchy tubular atrophy ( up to 15 % in area ) 關鍵字詞𝑘5 : clustered interstitial cd20-positive lymphocytic infiltration 關鍵字詞𝑘6 : c/w iga nephropathy ( class II ) 關鍵字詞𝑘7 : focal segmental glomerulosclerosis (1) 檢驗程序 (Procedure) 1. echo-guided percutaneous needle core biopsy (2) 主診斷 (Primary diagnosis). 結構化. 1. focal mesangial proliferative and sclerotic glomerulopathy 2. focal segmental glomerulosclerosis ( 11/33 ) 3. c/w iga nephropathy ( class II ) 4. focal segmental glomerulosclerosis (3) 額外特徵 (Additional features) 1. patchy tubular atrophy ( up to 15 % in area ) 2. clustered interstitial cd20-positive lymphocytic infiltration. 特殊項目段落結構化則須呈現檢查結果是否出現特定檢驗細項，由於特殊項目段落敘述中有很多是單獨或連續的形容詞，亦屬於檢驗細項的結果資訊，如範例中出現的“diffuse segmental coarse granular”，因此對特殊項目段落擷取關鍵詞彙清單K時，除了採用名詞字典，還要採用形容詞字典。接下來根據醫師給訂結構化報告偏重的特定檢驗細項關鍵字，將段落擷取出之關鍵詞彙清單K 28.

(36) 中每個關鍵字詞，進行原型化處理後與檢驗細項關鍵字進行比對。並需考慮是否出現否定字，以標示出是否出現每一檢驗細項的結果，如表 12 所示。. 表 12 檢驗報告之染色體檢查(DIF)段落與結構化之範例 The DIF study demonstrates diffuse segmental coarse granular to 主要診斷 lumpy depositions of IgA (grade 3-4/4) and C3 (grade 3/4) with focal (Diagnosis) Segmental grade 2-3/4 mesangial deposition of IgG and negative staining to IgM, C1q, C4, and fibrinogen. 關鍵字詞𝑘1 : diffuse 關鍵字詞𝑘2 : segmental 關鍵字清單. 結構化. 關鍵字詞𝑘3 : 關鍵字詞𝑘4 : 關鍵字詞𝑘5 : 關鍵字詞𝑘5 : 關鍵字詞𝑘6 : 關鍵字詞𝑘7 :. granular mesangial IgA (grade 3-4/4) C3 (grade 3/4) IgG (grade 2-3/4) negative staining to IgM, C1q, C4, and fibrinogen. Staining pattern: ■granular □ linear Location: ■focal ■diffuse ■segmental □global ■mesangial □glomerular capillary wall IgA deposition/expression □abscence ■present (grade 3-4/4) IgG deposition/expression □abscence ■present (grade 2-3/4) IgM deposition/expression ■abscence □present C3 deposition/expression □abscence ■present(grade 3/4) C4 deposition/expression ■abscence □present C1q deposition/expression ■abscence □present C4d deposition/expression □abscence □present Fibrinogen insignificant ■abscence □present. 29.

(37) 4.2. 特殊項目段落細項關鍵字詞自動擷取. 由於特殊項目段落的檢驗細項非常多，由醫生列舉會非常繁瑣且耗費時間，也可能發生檢驗報告中有出現但未被人工列舉出來的狀況。所以此部分採用建立主題機率模型方法，從整體檢驗報告資料庫之特殊項目段落的關鍵詞彙清單K，自動擷取出檢驗項目細項關鍵候選字詞，提供給醫生參考，並將在實驗中評估擷取效果。本節提出的特殊項目段落細項關鍵字詞擷取方法將針對各特殊項目段落各別進行處理，特殊項目段落包括電子顯微鏡檢查(EM)、切片樣本的大小及狀況 (Specimen type)、切片樣本的描述(Gross description)、光學顯微鏡檢查(LM)、染色體檢查(DIF)等五個段落。 <1> 去除段落字典雜訊名詞字典由兩種複合名詞所構成，包括(形容詞+名詞)或(名詞+名詞)，我們利用 Lift measure 運算複合名詞之間單字緊密相連的程度，如公式九所示。若複合名詞𝑝𝐼 為形容詞+名詞的形式，以𝑝𝐼 . w𝑛 表示組合成𝑝𝐼 之形容詞單字，以𝑝𝐼 . w𝑚 表示組合成𝑝𝐼 之名詞字詞。若𝑝𝐼 為名詞+名詞形式的複合名詞，以𝑝𝐼 . w𝑛 表示組合成𝑝𝐼 之名詞單字，以𝑝𝐼 . w𝑚 表示組合成𝑝𝐼 之名詞字詞。其中F(𝑝𝐼 . w𝑛 ∩ 𝑝𝐼 . w𝑚 )表示? F(𝑝𝐼 . w𝑛 )及𝐹(𝑝𝐼 . w𝑚 )別表示? 對於 Lift 值大於等於門檻值的複合名詞，我們才將其保留，否則視為雜訊而從字典中刪除。 Lift(𝑝𝐼 . w𝑛 , 𝑝𝐼 . w𝑚 ) =. F(𝑝𝐼 .w𝑛 ∩𝑝𝐼 .w𝑚 ) √F(𝑝𝐼 .w𝑛 ) ∗ 𝐹(𝑝𝐼 .w𝑚 ). 30. (公式九).

(38) <2> 建立一般性形容詞清單我們利用 Entropy 公式，從名詞字典的(形容詞+名詞)複合名詞中找出一般性形容詞。以𝐽𝐽𝑛 表示一形容詞單字，以𝑡1 , …𝑡𝑚 表示一連接在𝐽𝐽𝑛 之後方的 m 個名詞字詞，以𝑃(𝐽𝐽𝑛 + 𝑡𝑖 | 𝐽𝐽𝑛 )表示出現𝐽𝐽𝑛 的情況下後方連接𝑡𝑖 之機率。經過公式十運算，可以計算出𝐽𝐽𝑛 之亂度值。當其高於門檻值 1 時，將𝐽𝐽𝑛 加入一般性形容詞清單，如公式十一所示。將所有形容詞單字完成運算，即可建立一般性形容詞清單。 Entropy(𝐽𝐽𝑛 ) = − ∑𝑛𝐼=1 𝑃(𝐽𝐽𝑛 + 𝑡𝑖 | 𝐽𝐽𝑛 ) ∗ 𝑙𝑜𝑔𝑃(𝐽𝐽𝑛 + 𝑡𝑖 | 𝐽𝐽𝑛 ) 𝐴𝑑𝑑 𝑡𝑜 𝐺𝑒𝑛𝑒𝑟𝑎𝑙𝐿𝑖𝑠𝑡 𝑖𝑓 Entropy(𝐽𝐽𝑛 ) ≥ 1 checkEntropyT(𝐽𝐽𝑛 ) = { 𝑛𝑜𝑛𝑒 𝑖𝑓 Entropy(𝐽𝐽𝑛 ) < 1. (公式十) (公式十一). <3> 建立檢驗細項關鍵字詞候選清單本論文透過 LDA(Latent Dirichlet allocation)主題機率模型[12]的方法，分析整個資料庫中同一特殊檢驗段落中出現的複合名詞關鍵詞，擷取出檢驗細項關鍵字詞候選清單。LDA 的運作原理是認為一篇文件是由多個不同的潛藏主題 (Topic)的字詞所組成，而 LDA 主題機率模型是將一篇文件進行機率模型解析，運算出一篇文件屬於各個潛藏主題的機率，以及各個潛藏主題出現不同字詞的機率。針對每種特殊檢驗段落，本論文方法以各檢驗報告對應的特殊檢驗段落擷取出的複合名詞關鍵字集合當作一篇文件，進行 LDA 主題機率模型分析，再以所分析出各潛藏主題中出現機率較高的字詞當作檢驗細項關鍵字詞。將檢驗報告之檢驗式段落，以句子為單位切割且刪除詞性為連接詞、冠詞、代名詞、副詞、助動詞、副詞、介係詞等之字詞，如圖 5 所示。接著將句子中字 31.

(39) 詞與段落字典中的詞彙進行比對，擷取出比對到的字詞所形成的文件，輸入分析 LDA 主題機率模型中，如圖 6 所示。LDA 主題機率模型運算後，會由指定回傳的 Topic 數 numT (先預設為 10，在實驗中再評估設定值)，取出每個 Topic 中屬於該 Topic 機率值最高的 k 個字詞(在此設為 50)。以𝑇𝑜𝑝𝑖𝑐𝑛 表示一 Topic，以𝑝𝐼 表示 𝑇𝑜𝑝𝑖𝑐𝑛 中之一字詞，以 𝑃𝑛 (𝑝𝐼 ) 表示字詞 𝑝𝐼 在 𝑇𝑜𝑝𝑖𝑐𝑛 中出現之機率值，以 AvgP(𝑇𝑜𝑝𝑖𝑐𝑛 )表示𝑇𝑜𝑝𝑖𝑐𝑛 機率值最高的 k 個字詞之字詞機率平均值。若𝑃𝑛 (𝑝𝐼 ) ≥ AvgP(𝑇𝑜𝑝𝑖𝑐𝑛 )，則將字詞𝑝𝐼 加入檢驗細項關鍵字清單，如圖 7 所示範例(如公式十. 二)。將各個 Topic 處理完，並對各主題擷取出的檢驗細項關鍵字清單聯集，即完成細項關鍵字詞清單擷取。 UpAvgList(𝑇𝑜𝑝𝑖𝑐𝑛 ) = {. 𝐴𝑑𝑑 𝑡𝑜 𝐾𝑒𝑦𝐿𝑖𝑠𝑡 𝑖𝑓 𝑃𝑛 (𝑝𝐼 ) ≥ AvgP(𝑇𝑜𝑝𝑖𝑐𝑛 ) 𝑛𝑜𝑛𝑒 𝑖𝑓 𝑃𝑛 (𝑝𝐼 ) < AvgP(𝑇𝑜𝑝𝑖𝑐𝑛 ). 圖 5 句子切割與刪除無意義單字之範例. 32. (公式十二).

(40) 圖 6 句子中字詞與段落字典比對之範例. 圖 7 挑選主題中字詞加入關鍵字詞候選清單之範例. <4> 擴增細項關鍵字詞候選清單透過上述由複合名詞的 LDA 主題機率模型分析結果建立的細項關鍵字詞候選清單，可能因為形容詞未與名詞連續出現而未被取出，造成檢驗報告中結果細項不完整。因此這部分的處理目標，是進一步擴增找出檢驗項目的一般性形容詞 33.

(41) 細項(勾選項目)。以𝑝𝐼 表示關鍵字詞清單中的字詞，以𝐽𝐽𝑛 表示一般性形容詞清單中的一個形容詞單字。從名詞字典的(形容詞+名詞)之複合名詞中確認𝐽𝐽𝑛 是否曾經與𝑝𝐼 連接出現，若出現過則將𝐽𝐽𝑛 加入關鍵字詞清單中，如公式十三所示。. checkLink(𝐽𝐽𝑛 , 𝑝𝐼 ) = 𝐴𝑑𝑑 𝑡𝑜 𝐾𝑒𝑦𝐿𝑖𝑠𝑡 𝑖𝑓 𝐽𝐽𝑛 𝑙𝑖𝑛𝑘 𝑖𝑛 𝑓𝑟𝑜𝑛𝑡 𝑝𝐼. (公式十三). 【範例 4-2】假設已找出關鍵字詞候選清單𝐾、一般性形容詞清單𝐺、以及複合名詞清單𝑁，如表 13 所示。從𝑁中查看 basement membrane、 cytoplasmic vacuolization、…、 cellularity 等詞是否曾經與𝑡ℎ𝑖𝑐𝑘、 … 、𝑚𝑖𝑙𝑑 等一般性形容詞連接。確認了𝑡ℎ𝑖𝑐𝑘 與𝑏𝑎𝑠𝑒𝑚𝑒𝑛𝑡 𝑚𝑒𝑚𝑏𝑟𝑎𝑛𝑒、diffuse 與𝑓𝑜𝑜𝑡 𝑝𝑟𝑜𝑐𝑒𝑠𝑠𝑒𝑠 𝑒𝑓𝑓𝑎𝑐𝑒𝑚𝑒𝑛𝑡、mesangial 與 𝑒𝑥𝑝𝑎𝑛𝑠𝑖𝑜𝑛連接，故將𝑡ℎ𝑖𝑐𝑘、𝑑𝑖𝑓𝑓𝑢𝑠𝑒、mesangial 等形容詞加入 K 中，完成關鍵字詞候選清單 K 之擴展。. 34.

(42) 表 13 關鍵字詞候選擴展之範例關鍵字詞候選清單 basement membrane (基底膜). cytoplasmic vacuolization (細胞質空泡化). expansion (擴張). subepithelial deposits (上皮下沉積物). Cell (細胞). cellularity (細胞結構) 大眾化形容詞清單. thick (厚). diffuse (擴散). mesangial (系膜). significant (重大). segmental (節段性). mild (輕度) 複合名詞清單. thick basement membrane (厚基底膜). diffuse foot processes effacement (瀰漫性腳部過程消失). mesangial expansion (腎小球系膜擴張). lupus glomerulonephritis (狼瘡腎小球性腎炎). dense deposits (稠密沉積物). Necrosis (壞疽) 關鍵字詞候選之擴展清單. basement membrane. foot processes effacement. Expansion. subepithelial deposits. Cell. cellularity. thick basement membrane. diffuse foot processes effacement. mesangial expansion. 35.

(43) 第五章實驗結果與討論本論文依照提出的方法分為三部分的實驗評估。第一部分評估建立醫學字典後，利用 LCS 方法篩除錯字的效果。第二部分評估從檢驗報告中擷取出檢驗項目細項之候選關鍵字詞的正確率，以及計算公式內的參數調整。最後一部分評估檢驗報告結構化的效果。. 5.1. 實驗資料來源. 本論文以中國醫藥大學附設醫院腎臟科病人的 476 筆檢驗報告作為資料來源，檢驗報告中內容皆為英文。先將檢驗報告進行自動段落切割，區分出下列八種段落：(一)主要診斷(Diagnosis)、(二)電子顯微鏡檢查(EM)、(三)電子顯微鏡檢查的狀況描述(Comment / Narrative)、(四)切片樣本的大小及狀況(Specimen type)、(五)切片樣本的描述(Gross description)、(六)光學顯微鏡檢查(LM)、(七) 染色體檢查(DIF)、(八)報告結論(Summary)，但未必每筆檢驗報告皆包含這八種段落。. 36.

(44) 5.2. LCS 篩除錯字效果評估. 5.2.1 評估方法本論文在 3.2 小節所提出 LCS 篩除錯字的方法，由於段落(一)、段落(六)、段落(八)為使用較多文字描述的摘要式段落，較容易出現文字輸入錯誤的案例，所以我們取這三個段落分別建立的名詞字典，以及不將檢驗報告依段落分割所建立的名詞字典(all)，觀察在設定 LCS 合併門檻值ComBaseT(𝑏𝑖 , 𝑏𝑗 )時採用不同的 1/d 值設定，對 LCS 篩除錯字效果的 Precision 值變化。由於評估方式需由人工方式標示字詞修改前後是否正確，考量人力標示成本，採取抽樣的方式在四個不同名詞字典各隨機抽取 40 個修改案例，各評估其 LCS 篩除錯字效果的 Precision 值，並計算三個名詞字典(一、六、八)所得 Precision 的平均值。在決定適當的 1/d 值設定後，再計算整個名詞字典透過 LCS 修改錯誤字詞之 Precision、Recall、及 F1-score 值。. 5.2.2 實驗結果以 LCS 篩除錯字的方法，各別篩除結尾字(base word) 錯字與相同結尾字詞彙(content word) 錯字的 Precision 值，如圖 8 及圖 9 所示。結果顯示 1/d 設為 1/3 時正確率較差，與直覺認知相同，原因為 1/d 設成 1/3 表示每三個字母就允許可有一個錯字，容易造成不相同的兩個正確單字合併。名詞字典(all)相較於其他段落名詞字典正確率表現較差，其原因為未將檢驗驗報告進行切割所建立的名詞字典，包含的字詞數量多而繁雜，使得 LCS 篩除錯字時較容易發生錯誤替換 37.

(45) 的狀況。當門檻設於 1/5 時，大部分的情況都可將錯誤的字修改為正確，如表 14 所示部分修正範例。故將 1/d 設為 1/3 時，少數錯字修改錯誤的原因為兩個正確單字之字母組成與順序過於相似，如表 15 所示範例。. base word 1. precision. 0.8. 1/3 1/4 1/5. 0.6 0.4 0.2 0 一. 六. 八. 平均. all. 段落編號圖 8 以 LCS 篩除結尾字(base word)錯字之 precision 結果. precision. content word 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0. 1/3 1/4 1/5. 一. 六. 八. 平均. all. 段落編號圖 9 以 LCS 篩除相同結尾結尾字詞彙(content word)錯字之 precision 結果. 38.

(46) 表 14 LCS 修改錯字正確部分案例修改前. 修改後. oxalte (草酸). oxalate (草酸). glomeronephropathy (腎小球腎病). glomerulonephropathy (小腎小球腎病). glomeurulosclerosis (腎小球硬化) glomerulosclerosis (腎小球硬化) atrophy (萎縮). atrophy (萎縮). diffus (瀰漫性). diffuse (瀰漫性). 表 15 LCS 修改錯字錯誤部分案例修改前. 修改後. Infarction (梗塞). Infection (感染). Arteriosclerosis (動脈硬化). Arteriolosclerosis (小動脈硬化). Endotheliosis (內皮增生). Endotheliitis (皮炎). Stage (階段). State (狀態). Cords (線). Cores (核心). 整體名詞字典以人標示出錯誤字詞，以 LCS 修改錯誤字詞的 Precision、Recall、及 F1-score 值評估結果如圖 10 所示。結果顯示段落(一)的 Precision 表現最好、段落(六)效果最差，Recall 值的效果則相反。本研究觀察資料認為其原因為段落(一)的字詞數較少，所以 LCS 比較不容易造成誤判，可以比較精準的修正錯誤；相較於其他段落，段落(六)LCS 修正的字詞數比實際錯誤的字詞數高出許多，以至於可以達到較高的 Recall 值。以 F1-score 來看，在三個段落處理的效果皆可達到 0.62 以上。. 39.

(47) 1 0.9 0.8. 段落一. 0.7 0.6. 段落六. 0.5 0.4. 段落八. 0.3 0.2. 平均. 0.1 0. precision. recall. F1-score. 圖 10 名詞字典以 LCS 修改錯誤字詞之 Precision、Recall、F1-score 結果. 5.3. 擷取檢驗細項候選關鍵字詞效果評估. 5.3.1 評估方法本實驗取特殊檢驗項目的段落(二)、段落(六)、及段落(七)進行實驗評估，本論文以腎臟科醫師給予的檢驗報告中的檢驗項目與細項關鍵字作為標準答案，找出的一個字詞中包含標準答案即算正確找出，對 4.2 細項關鍵字詞自動擷取方法找出的候選關鍵字詞評估其 Precision、Recall、及 F1-score 值作為效果評估依據。圖 11 顯示對照 4.2 小節所提出擷取細項關鍵字詞的方法，考慮可能影響擷取效果的字典選擇、LIFT 篩選門檻值、LDA Topic 數設定、以及擴增細項關鍵字詞步驟，進一步分成以下[實驗 2-1]到[實驗 2-4]四部分的實驗。. 40.

(48) 圖 11 方法與實驗流程對照圖. 5.3.2 實驗結果【實驗 2-1】名詞字典選擇對檢驗細項關鍵字詞擷取之效果評估本實驗比較在建立名詞字典時的三種作法：(1)不包含形容詞的名詞或複合名詞(以 NN+NN 標示)、(2)包含形容詞的複合名詞(以 JJ+NN 標示)、(3)聯集前兩者之複合名詞，希望能找出適合用於擷取檢驗細項關鍵字詞的名詞字典。以上述三種不同作法建立的名詞字典，所找出的檢驗細項關鍵字詞效果之 precision、recall、及 F1_score 評估分別如圖 12、圖 13、及圖 14 所示。實驗結果可以發現採用 NN+NN 建立的名詞字典在各個實驗數據中表現皆不夠理想，我們認為是因為檢驗項目細項字詞中多需包含有形容詞單字，而 NN+NN 找出的字典並不包含形容詞，因而造成錯誤及不完整。而以 NN+NN 合併 JJ+NN 的名詞字典在. 41.

(49) recall 的效果顯著比另外兩個高。此類型的字典包含最多的字詞，所以可找出最多細項關鍵字詞，但也因找出的字詞較多，導致 precision 不如(JJ+NN)的名詞字典高。以三個段落的 f1-score 平均值來看，我們選定(NN+NN 合併(JJ+NN)的名詞字典作為擷取檢驗細項關鍵字詞的名詞字典。. 1 0.9 0.8. 段落二. 0.7 0.6. 段落六. 0.5 0.4. 段落七. 0.3 0.2. 平均. 0.1 0. NN+NN. JJ+NN. JJ+NN、NN+NN. 圖 12 不同方法建立名詞字典之檢驗細項關鍵字詞擷取 Precision 值結果 1 0.9 0.8. 段落二. 0.7 0.6. 段落六. 0.5 0.4. 段落七. 0.3 0.2. 平均. 0.1 0. NN+NN. JJ+NN. JJ+NN、NN+NN. 圖 13 不同方法建立名詞字典之檢驗細項關鍵字詞擷取 recall 值結果. 42.

(50) 1 0.9 0.8. 段落二. 0.7. 0.6. 段落六. 0.5 0.4. 段落七. 0.3 0.2. 平均. 0.1 0. NN+NN. JJ+NN. JJ+NN、NN+NN. 圖 14 不同方法建立名詞字典之檢驗細項關鍵字詞擷取 F1-score 值結果. 【實驗 2-2】Lift 門檻值設定對檢驗細項關鍵字詞擷取之效果評估本實驗比較改變不同 Lift 門檻值作為篩選出專有名詞的基準，評估對擷取檢驗細項關鍵字詞的 precision、recall、及 F1_score 效果如圖 15、圖 16、圖 17 所示。可以看出當 Lift 門檻值設於 0.2 時，各項數據皆有較好的表現，篩選出的專有名詞準確率最高、符合答案的數量也最多，因此接下來的實驗皆將設為 0.2。. 43.

(51) 1 0.9 0.8.  = 0.1. 0.7 0.6.  = 0.2. 0.5 0.4.  = 0.3. 0.3 0.2.  = 0.4. 0.1 0. 段落二. 段落六. 段落七. 平均.  = 0.5. precision 圖 15 不同 Lift 門檻值之檢驗細項關鍵字詞擷取 Precision 值結果. 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0.  = 0.1  = 0.2  = 0.3  = 0.4 段落二. 段落六. 段落七. 平均.  = 0.5. recall 圖 16 不同 Lift 門檻值之檢驗細項關鍵字詞擷取 Recall 值結果. 44.

(52) 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0.  = 0.1  = 0.2  = 0.3  = 0.4. 段落二. 段落六. 段落七. 平均.  = 0.5. F1-score 圖 17 不同 Lift 門檻值之檢驗細項關鍵字詞擷取 F1-score 值結果. 【實驗 2-3】LDA Topic 數 numT 設定對檢驗細項關鍵字詞擷取之效果評估本實驗比較改變進行 LDA 主題機率模型的 Topic 數量 numT，評估對擷取檢驗細項關鍵字詞的 precision、recall、及 F1_score 效果如圖 18、圖 19、圖 20 所示。根據實驗結果可以看出 numT 設定為 10 時，可以得到較高的 precision 值，而 numT 設定為 30 可以得到較好的 recall 值。造成上述結果的原因，很可能是由於 Topic 數設的越多，由 LDA 主題機率模型所找出的關鍵字詞也會跟著越多，因此 recall 值提升，但關鍵字詞也因主題數越多而造成找出的關鍵字詞越來越偏離檢查項目主題，導致準確率下降。本論文根據 F1-score 的平均表現較優秀的結果，將 numT 設為 10。. 45.

(53) 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0. 段落二. 段落六. 段落七. 平均. 𝑛𝑢𝑚 𝑇. =10. 𝑛𝑢𝑚 𝑇. =15. 𝑛𝑢𝑚 𝑇. =20. 𝑛𝑢𝑚 𝑇. =25. 𝑛𝑢𝑚 𝑇. =30. precision 圖 18 LDA 不同 Topic 數之檢驗細項關鍵字詞擷取 Precision 結果. 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0. 段落二. 段落六. 段落七. 平均. 𝑛𝑢𝑚 𝑇. =10. 𝑛𝑢𝑚 𝑇. =15. 𝑛𝑢𝑚 𝑇. =20. 𝑛𝑢𝑚 𝑇. =25. 𝑛𝑢𝑚 𝑇. =30. recall 圖 19 LDA 不同 Topic 數之檢驗細項關鍵字詞擷取 Recall 結果. 46.

(54) 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0. 段落二. 段落六. 段落七. 平均. 𝑛𝑢𝑚 𝑇. =10. 𝑛𝑢𝑚 𝑇. =15. 𝑛𝑢𝑚 𝑇. =20. 𝑛𝑢𝑚 𝑇. =25. 𝑛𝑢𝑚 𝑇. =30. F1-score 圖 20 LDA 不同 Topic 數之檢驗細項關鍵字詞擷取 F1-score 結果. 【實驗 2-4】擴增關鍵字詞候選清單對檢驗細項關鍵字詞擷取之效果評估根據本研究於 4.2 小節最後所提出的擴增關鍵字詞候選清單方法，本實驗目的是評估採用此方法是否增進檢驗細項關鍵字詞擷取效果。實驗結果如圖 21 所示，此方法在不同特殊檢驗項目段落中，皆有效提高了 precision 及 recall 值。顯示本論文提出的擴增方法，的確可有效補充檢驗項目細項的形容詞彙，以此擷取出更正確及完整的檢驗細項關鍵字詞清單。透過本研究提出的檢驗細項關鍵字詞擷取與擴增的方法有一些字詞無法找出，如表 16 所示，大部分未找出字詞之原因是該字詞出現機率較低，在特定主題的關鍵字出現機率值低於該主題關鍵字的出線機率平均值。. 47.

(55) 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0. 擴增前. precision. recall. 平均. 段落七. 段落六. 段落二. 平均. 段落七. 段落六. 段落二. 平均. 段落七. 段落六. 段落二. 擴增後. F1-score. 圖 21 擴增關鍵字詞候選清單與否對檢驗細項關鍵字詞之擷取效果. 表 16 檢驗細項關鍵字詞擷取與擴增未找出答案之清單段落二 LDA 主題模型未選入. 低於字詞機率平均值. 檢驗報告中未出現. epithelial (上皮). occluded (閉塞). duplication (複製). hypercellularity (細胞過多). microfilament condensation (微絲凝結). rupture (破裂). occlusion (閉塞). fenestration (開窗). endothelium (內皮). protein droplets (蛋白質滴). tubuloreticular (管網狀). swollen (腫). effacement (抹殺) fibrin (纖維蛋白). 48.

(56) 表 16 檢驗細項關鍵字詞擷取與擴增未找出答案之清單(續) 段落六 LDA 主題模型未選入. 低於字詞機率平均值. arteriosclerosis (動脈硬化). mesangiolysis (生腎膈破壞). thinning (細化). thrombotic (血栓). wire-loop. basement membrane. (線環). (基底膜). 檢驗報告中未出現. interstitium (間質) fibrocellular (纖維細胞) fibrinoid (纖維蛋白) double-contour (雙輪廓) arteritis (動脈炎) microthrombi (微血栓) hyaline (透明) 段落七 LDA 主題模型未選入. 低於字詞機率平均值. pseudolinear (擬線性). 49. 檢驗報告中未出現.

(57) 5.4. 檢驗報告結構化效果評估. 5.4.1 評估方法根據 4.1 小節所提出的方法，本實驗取摘要式段落的段落(一)、段落(三)、段落(八)進行實驗評估。評估方式由人工方式標示結構化後的內容字詞是否有遺漏重要資訊，一篇中只要有一個遺漏的字詞就算這篇錯誤。本實驗採取抽樣的方式從三個段落中隨機抽取 50 篇報告的結構化結果，根據標示結果計算出 Precision 作為效果評估值。. 5.4.2 實驗結果實驗結果如圖 22 所示，可以發現本論文提出的摘要式段落結構化方法， precision 皆達 0.9 以上，且最高可達到 0.98 的準確率。經觀察發現造成段落(一) 與段落(八)的準確率略低於第三段，錯誤大多是因為抽取出關鍵字詞清單遺漏一些不符擷取詞性規則的字詞所造成，如表 17 所示。整題來說，本論文所提出摘要式段落結構化可以適用於大多數的檢驗報告內容，只有少部分特定文字描述方式無法完整擷取出。. 50.

(58) 結構化模型 precision 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0. 0.98 0.9. 一. 三. 0.92. 0.93. 八. 平均. 圖 22 不同摘要式段落結構化之 precision 結果. 表 17 摘要式段落結構化遺漏字詞部分案例遺漏字詞. 詞性. diffuse and nodular diabetic nephropathy JJ CC JJ JJ NN chronic allograft rejection superimposed JJ NN NN VBN minimal glomerular, tubulointerstitial, and vascular changes. 51. JJ JJ , JJ CC JJ NN.

(59) 第六章結論與未來研究方向６.1 結論本研究針對文字檢驗報告自動結構化的問題，提出先以字詞詞性規則擷取出醫學詞彙候選詞，建立檢驗報告專屬的醫學字典，並經過字與字出現的關聯運算，篩除字典中可能的錯字或無特殊語意的字詞。針對特殊檢驗項目段落之檢驗細項關鍵字詞擷取方法，本研究先將前述建立的字典進行去除雜訊字詞的處理，再利用 LDA 主題機率模型分析，擷取出檢驗項目細項之候選關鍵字詞。而對摘要式檢驗報告結構化的方法，則透過將段落報告與醫學字典進行字詞的比對擷取及前後詞彙合併，並將擷取出的字詞與檢驗摘要項目關鍵字尾比對，有效將其分配到所屬摘要項目中。論文並將上述提出的方法以系列實驗評估成效，實驗結果可顯示本研究提出方法的有效性。. ６.2 未來方向由實驗結果觀察到在進行摘要式段落結構化的處理過程中，少部分的重要字詞會有遺漏的狀況，無法用目前提出的字詞詞性規則擷取出。未來的研究可進一步考慮從大量檢驗報告資料庫，以及已知的醫學詞彙，自動學習出字詞樣式規則，以提供更完整有效的結構化擷取。另一方面，未來可考慮進一步如何將找出的檢驗項目細項之關鍵字詞，分析出其分項架構關係。 52.

(60) 參考文獻 [1] Stanford. CoreNLP. –. Core. natural. language. software. https://stanfordnlp.github.io/CoreNLP.. [2] X. Rong, Z. Chen, Q. Mei, and E. Adar. EgoSet: exploiting word ego-networks and user-generated ontology for multifaceted set expansion. In Proc. of the International Conference on Web Search and Data Mining (WSDM), 2016.. [3] Y. Jo, N. Loghmanpour, and C. P. Rose. Time series analysis of nursing notes for mortality prediction via a state transition topic model. In Proc. of the International Conference on Information and Knowledge Management (CIKM), 2015. [4] T. R. Goodwin, and S. M. Harabagiu. Medical question answering for clinical decision support. In Proc. of the International Conference on Information and Knowledge Management (CIKM), 2016. [5] R. Feldman, O. Netzer, A. Peretz, and B. Rosenfeld. Utilizing text mining on online medical forums to predict label change due to adverse drug reactions. In Proc. of Knowledge Discovery and Data Mining (KDD), 2015. [6] N. Tandon, G. D. Melo, A. De, and G. Wrikum. Knowlywood: mining activity knowledge from hollywood narratives. In Proc. of the International Conference on Information and Knowledge Management (CIKM), 2015. [7] Y. Song, and Q. Guo. Query-less: predicting task repetition for nextGen proactive search and recommenddation engines. In Proc. of the International World Wide Web Conference (WWW), 2016. [8] D. Savenkov, and E. Agichtein. When a knowledge base is not enough-question answering over knowledge bases with external text data. In Proc. of the Special Interest Group on Information Retrieva (SIGIR), 2016.. 53.