第三章 醫學詞彙字典建立方法
3.2 建立段落字典
整批的檢驗報告經過前處理後,即可進入建立段落字典的階段,本論文建立 字典的步驟分為以下三個步驟依序進行處理。
<步驟一>
首先,將前處理後的檢驗報告內容集合起來,如表 3 所示。接著,將每個句 子中的字依照特定詞性規則樣式組合成詞彙,連接樣式規則與範例如表 4 所示。
按照連接規則將其區分為:
16
1. 形容詞彙字典:形容詞與複合形容詞(連續形容詞之連接)集合。
2. 專有詞彙字典:名詞與複合名詞之集合。複合名詞可分為:(a)最後一個字以 名詞為基底,往前結合連續的名詞,形成複合名詞 (b)若(a)形成之複合
名詞前方為形容詞則繼續往前進行結合,形成更長之複合名詞。
表 3 主要診斷(Diagnosis)段落部分集合之範例 主要診斷(Diagnosis)
病例編號 201101639
病例編號 201102475
病例編號 201103835
17
表 4 字詞之詞性連接規則與範例 形容詞字典
𝐽𝐽1+ ⋯ + 𝐽𝐽𝑛
單字 次數
immune complex proliferative 3 large sized subendothelial 1
Splitting 1
名詞字典
NN1+ ⋯ + NNn
單字 次數
interstitium show fibrosis change 1 foot processes effacement 314 foot process effacement 7
JJ1+ ⋯ + JJn+ NN1+ ⋯ + NNn
單字 次數
extensive foot processes effacement 66 partial foot processes effacement 62
Mesangium 68
<步驟二>
將步驟一建立的詞彙字典篩除無特殊語意的字詞,使字典中的字詞更為專業 與精準。藉由兩個條件去除雜訊:(1)根據結尾字刪除與醫療較不相關的字詞、
(2)將字首較無意義的形容詞進行刪除,如表 5 所示。這些字是由人為給定,目 前採用的刪除字詞如附錄一所示。
18
表 5 刪除結尾字與字首之部分範例
刪除之結尾字 刪除範例
History clinical history -> clinical history
management further management -> further management
Finding em finding -> em finding
刪除之字首 刪除範例
Including including iga nephropathy -> including iga nephropathy
Mostly only few faint mesangial deposits -> only few faint mesangial deposits
Otherwise otherwise minimally changed glomeruli -> otherwise minimally changed glomeruli
<步驟三>
將 步 驟 二 建 立 的 字 典 使 用 最 長 共 同 子 序 列 演 算 法 (Longest Common Subsequence)[9],計算字詞與字詞之間的相似度,將距離相近的字詞組合進行 合併,藉此篩除可能的錯字。以下說明合併子步驟:
步驟 3-1:針對不同結尾字進行錯字篩除之運算。
以𝑏𝑖與𝑏𝑗表示兩個不同之結尾字,首先確認𝑏𝑖與𝑏𝑗之開頭字母是否相同,假如 不相同則判斷𝑏𝑖與𝑏𝑗為不相同之單字,不必進行後續之運算。否則找出𝑏𝑖與𝑏𝑗中
之 較 長 字 數max _𝑙𝑒𝑛(𝑏𝑖 , 𝑏𝑗) , 接 著 計 算 𝑏𝑖與𝑏𝑗之 最 長 共 同 子 序 列 長 度 LCS(𝑏𝑖 , 𝑏𝑗),將max _𝑙𝑒𝑛(𝑏𝑖 , 𝑏𝑗)與LCS(𝑏𝑖 , 𝑏𝑗)相減作為兩字之間錯字之字數
19
ErrBaseW(𝑏𝑖 , 𝑏𝑗),如公式一所示。接著將最長字數max_len(𝑏𝑖 , 𝑏𝑗)乘以 1/d,
計算結果以無條件捨去作為結尾字合併之門檻值ComBaseT(𝑏𝑖 , 𝑏𝑗),但設定門
檻 值 不 得 超 過 3 , 計 算 方 式 如 公 式 二 所 示 。 當 錯 字 數 小 於 等 於 門 檻 值 ComBaseT(𝑏𝑖 , 𝑏𝑗)時,將𝑏𝑖與𝑏𝑗進行合併,將ComBaseF(𝑏𝑖 , 𝑏𝑗)設為 1反之則不 合併,ComBaseF(𝑏𝑖 , 𝑏𝑗)設為 0,如公式三所示。
以𝐵𝑖與𝐵𝑗分別表示結尾字為𝑏𝑖與𝑏𝑗的複合字詞所成的集合,而𝐹(𝑏𝑖)與 𝐹(𝑏𝑗)分別表示𝑏𝑖與𝑏𝑗出現之頻率。假設ComBaseF(𝑏𝑖 , 𝑏𝑗)為 1,且𝐹(𝑏𝑖) > 𝐹(𝑏𝑗),
則將𝐵𝑗中所有字詞之結尾字修改為𝑏𝑖且併入𝐵𝑖中,並將𝐵𝑗清除,如公式四所示。
範例 3-1 將顯示一個範例說明步驟 3-1。
ErrBaseW(𝑏𝑖 , 𝑏𝑗) = max _𝑙𝑒𝑛(𝑏𝑖 , 𝑏𝑗) − LCS(𝑏𝑖 , 𝑏𝑗) (公式一)
ComBaseT(𝑏𝑖 , 𝑏𝑗) = max(𝑏𝑑𝑖 ,𝑏𝑗)
if ComBaseT(𝑏𝑖 , 𝑏𝑗) ≥ 3, 𝑠𝑒𝑡 ComBaseT(𝑏𝑖 , 𝑏𝑗) = 3 (公式二)
ComBaseW(𝑏𝑖 , 𝑏𝑗) = {1 𝑖𝑓 ErrBaseW(𝑏𝑖 , 𝑏𝑗) ≤ ComBaseT(𝑏𝑖 , 𝑏𝑗) 0 𝑖𝑓 ErrBaseW(𝑏𝑖 , 𝑏𝑗) > ComBaseT(𝑏𝑖 , 𝑏𝑗)
(公式三)
ComBaseF(𝐵𝑖 , 𝐵𝑗) = 𝐵𝑖 ∪ 𝐵𝑗 𝑎𝑛𝑑 𝐵𝑗 = ∅ 𝑖𝑓 𝐹(𝑏𝑖) > 𝐹(𝑏𝑗) (公式四)
20
【範例 3-1】
假設有兩組不同結尾字的字詞集合,如表 6 所示。首先確認開頭字母相同皆 為 g,再來利用公式一ErrBaseW(glomerulonephritis , glomerulonephritiss)計算
結尾字間錯字之字數,計算結果錯字數為 1。接著使用公式二計算結尾字間合併 之門檻值ComBaseT(glomerulonephritis , glomerulonephritiss)(在此 d 設為 5),
計算結果為 4。透過公式三判斷,錯字數 1 在合併門檻值 4 的容許範圍內,將兩 個結尾字進行合併。最後透過公式四判斷結尾字頻率𝐹(glomerulonephritis ) >
𝐹(glomerulonephritiss) , 故 將 結 尾 字 為 glomerulonephritiss 之 集 合 𝐵glomerulonephritiss併入結尾字為 glomerulonephritis 之集合𝐵glomerulonephritis, 且清除字詞集合𝐵glomerulonephritiss。
表 6 合併不同結尾字之集合部分範例 合併前
結尾字 出現頻率 相同結尾字之集合 出現頻率
glomerulonephritis 150
glomerulonephritis 90 membranous glomerulonephritis 35 lupus glomerulonephritis 25
glomerulonephritiss 36
glomerulonephritiss 20 lupus glomerulonephritiss 8 membranous glomerulonephritiss 7 focal glomerulonephritiss 1
合併後
結尾字 出現頻率 相同結尾字之集合 出現頻率
glomerulonephritis 186
glomerulonephritis 110 membranous glomerulonephritis 42 lupus glomerulonephritis 33 focal glomerulonephritis 1
21
步驟 3-2:進行相同結尾字之集合𝐵𝑖錯字篩除運算。
以𝑝𝐼與p𝐽表示𝐵𝑖中兩個結尾字相同的不同複合詞彙,依照順序以𝑝𝐼. w1…𝑝𝐼. w𝑛 表示組合成𝑝𝐼中的單字、以𝑝𝐽. w1…𝑝𝐽. w𝑚表示組合成𝑝𝐽中的單字。首先確認𝑝𝐼 與p𝐽之組合單字數 n 與 m 是否相同,假如相同則繼續進行篩除錯字之檢查運算,
否則認定𝑝與𝑝𝐽為兩個不相同之字詞,如公式五所示。接著將p𝐼與𝑝𝐽之組合單 字由後往前,利用公式六各別計算ErrContentW(𝐼𝑛 , 𝐽𝑚)到 ErrContentW(𝐼1 , 𝐽1)
之錯字數,利用公式七各別檢查ComContentT 到 ComContentT(𝐼1 , 𝐽1)之合併 門檻值,假如𝑝𝐼與𝑝𝐽的每個字由後至前(𝑝𝐼. w𝑖 , 𝑝𝐽. w𝑖) (i=1 to n)的配對比較,
錯字皆小於等於門檻值時,則將𝑝𝐼與𝑝𝐽進行合併反之認定𝑝𝐼與𝑝𝐽為兩個不相同
之 字 詞 , 如 公 式 八 所 示 。 假 設ComContentW(𝑝𝐼 , 𝑝𝐽)為 1 , 且 出 現 之 頻 率 𝐹(𝑝𝐼) > 𝐹(𝑝𝐽),則𝑝𝐽認定為輸入錯誤之字詞,將𝑝𝐽修改為𝑝𝐼後併入𝑝𝐼中,最後 將𝑝𝐽清除。範例 3-2 將顯示一個範例說明步驟 3-2。
CountContentW(𝑝𝐼 , 𝑝𝐽) = {1 𝑖𝑓 n = m
0 𝑖𝑓 n ≠ m (公式五)
ErrContentW(𝑝𝐼. 𝑤𝑖 , 𝑝𝐽. 𝑤𝑖) = max(𝑝𝐼. 𝑤𝑖 , 𝑝𝐽. 𝑤𝑖) − LCS(𝑝𝐼. 𝑤𝑖 , 𝑝𝐽. 𝑤𝑖) (公式六)
22
ComContentT(pI. wi , pJ. wi) =max(pI.wdi ,pJ.wi)≤ 3
if ComContentT(pI. wi , pJ. wi) ≥ 3, set ComContentT(pI. wi , pJ. wi) = 3
(公式七)
ComContentW( 𝑝𝐼 , 𝑝𝐽) = {1 𝑖𝑓 𝐴𝐿𝐿 ErrContentW(𝑝𝐼. 𝑤𝑖 , 𝑝𝐽. 𝑤𝑖) ≤ ComContentT(𝑝𝐼. 𝑤𝑖 , 𝑝𝐽. 𝑤𝑖) 0 𝑖𝑓 𝑂𝑛𝑒 ErrContentW(𝑝𝐼. 𝑤𝑖 , 𝑝𝐽. 𝑤𝑖) > ComContentT(𝑝𝐼. 𝑤𝑖 , 𝑝𝐽. 𝑤𝑖)
(公式八)
【範例 3-2】
假設有一相同結尾字的字詞集合如表 7 所示,以下以"mildd tubular atrophy"
與"mild tubular atrophy"為例說明。首先透過公式五判斷字詞組合單字之個數 CountContentW(mild tubular atrophy , mildd tubular atrophy)是否相同,兩個字
詞 皆 由 三 個 單 字 組 成 , 判 斷 結 果 為 相 同 。 接 著 利 用 公 式 六 各 別 運 算 ErrContentW(tubular, tubular)與ErrContentW(mild , mildd )之錯字數為 0 與 1,
以公式七個別計算ComContentT(tubular, tubular)與ComContentT(mild , mildd ) 之合併門檻值為 2 與 1,經過公式八判斷(tubular, tubular)之錯字數 0 在合併門 檻值 2 的容許範圍內、(mild , mildd)之錯字數 1 在合併門檻值 1 的容許範圍內,
因 此 將 兩 字 詞 進 行 合 併 。 由 於 字 詞 頻 率 𝐹(mild tubular atrophy)
> 𝐹(mildd tubular atrophy) , 故 將 字 詞 "mildd tubular atrophy" 修 改 為
"mild tubular atrophy",且將其出現頻率併入"mild tubular atrophy”中,清除字 詞"mildd tubular atrophy"。
23
表 7 合併相同結尾字之字詞部分範例 合併前
相同結尾字之字詞 出現頻率
Atrophy 130
mild tubular atrophy 40
focal tubular atrophy 30
evident tubular atrophy 20
iga atrophy 10
mildd tubular atrophy 5
focal tubularrr atrophy 2
igaa atrophy 1
合併後
相同結尾字之字詞 出現頻率
Atrophy 130
mild tubular atrophy 45
focal tubular atrophy 32
evident tubular atrophy 20
iga atrophy 11
24
第四章 醫學詞彙字典的運用
本章節將介紹醫學詞彙字典的運用方法。以下將分成兩小節分別介紹結構化 處理方法與特殊檢驗項目段落細項關鍵字詞自動擷取方法。
4.1 結構化處理方法
根據醫生給定的檢驗項目,本論文提出的結構化處理方法針對檢驗報告摘要 式 段 落 及 特 殊 項 目 段 落 分 別 進 行 結 構 化 。 摘 要 式 段 落 要 將 分 為 主 要 診 斷 (Diagnosis) 、 電 子 顯 微鏡 檢 查 的 狀 況 描 述 (Comment / Narrative) 、 報 告 結 論 (Summary)等三個段落;特殊項目段落分為電子顯微鏡檢查(EM)、切片樣本的大 小及狀況(Specimen type)、切片樣本的描述(Gross description)、光學顯微鏡檢查 (LM)、染色體檢查(DIF)等五個段落。本小節將詳細說明其結構化過程。
<1> 比對字典抽取出關鍵字詞清單
首先將一篇檢驗報告之一摘要式段落輸入結構化模組中,與字典中的字詞依 照特定規則進行比對,並將檢驗報告中比對到的字詞依照順序取出,以建立此篇 檢驗報告的關鍵詞彙清單。比對規則順序如下:
(1)字典中字詞之長度小於 2 者不比對,
(2)字詞之單字組合個數較多者優先比對,
(3)字詞出現頻率較高者為次優先比對,
(4)否定字清單比對,其中否定字如表 8 所示之清單。
25
表 8 否定字與對應字詞連接部份範例 否定字清單
no Neither Nor without negative 範例
句子 no significant immunodepostion of IgG, IgM, IgA, C3.
對應之關鍵字 關鍵字 1: no IgG
關鍵字 1: membranous lupus glomerulonephritis 關鍵字 2: stage 3 ( ins/rps class 5 )
連接: membranous lupus glomerulonephritis ( stage 3(ins/rps class 5) )
show
關鍵字 1: glomerular change show 關鍵字 2: sclerosing change
連接: glomerular change show sclerosing change
for
關鍵字 1: poor quality 關鍵字 2: for
關鍵字 3: sclerosing change
連接: poor quality for ultrastructure interpretation
of
關鍵字 1: thrombotic microangiopathy change 關鍵字 2: of
關鍵字 3: glomerulus
連接: thrombotic microangiopathy change of glomerulus
%
26
比對完成後將特殊字詞進行前後連接,組合成較完整的敘述短句,合併樣式如表 9 所示,且若有否定字須將其加入對應的關鍵字詞前。完成上述之步驟,即可建 立一份關鍵詞彙清單所成的集合K。
<2> 摘要式段落結構化
摘要式段落需要將報告中取出的醫療詞彙分為檢驗程序(Procedure)、主診 斷(Primary diagnosis)、或額外特徵(additional features)。由於在我們建立 的詞彙字典中,已將結尾字相同的詞彙整理在一起,因此只要由專家給訂一些程 序/病名結尾關鍵字,便可自動從字典中比對出所有屬於該程序/病名的各種特定 程序及病名亞型。
進行摘要式檢驗報告結構化時,以𝑆𝐼表示摘要項目 I 對應的關鍵結尾字清單 (I 可為檢驗程序(Procedure)或病症診斷(diagnosis))。將關鍵字清單K中每個 關鍵字詞之結尾字與摘要項目關鍵結尾字清單𝑆𝐼進行比對(摘要項目關鍵字之字
尾清單如表 10 所示),將比對到之關鍵字詞指定到對應的摘要項目,沒比對到的 關鍵字詞則列為額外特徵項目,將以範例 4-1 說明。
【範例 4-1】
假設檢驗報告之主要診斷(Diagnosis)段落(摘要式段落之一)如表 11 所示。首 先將內文與字典中的字詞進行比對,建立關鍵字清單K。接著再透過公式九將關 鍵字詞清單K中關鍵字詞𝑘1、𝑘2、𝑘3、𝑘4、𝑘5、𝑘6、𝑘7之結尾字與摘要項目關鍵
27
結尾字清單𝑆Procedure和𝑆Diagnosis比對。𝑆Procedure清單中的 biopsy 和𝑘1的結尾字 比對相同,故將𝑘1加入摘要項目的檢驗程序(Procedure)中。𝑆Diagnosis清單中的 glomerulopathy、glomerulosclerosis、nephropathy、glomerulosclerosis 和 𝑘2、𝑘3、𝑘6、𝑘7的結尾字比對相同,故將這些關鍵字詞加入摘要項目的主診斷 (Primary diagnosis)中。其餘沒比對到的關鍵字詞𝑘4、𝑘5歸類於額外特徵項目 (Additional features)。
表 10 結構關鍵字之字尾清單部分範例
transplantation (移植法) nephrosclerosis
(腎硬化)
glomerulonephritis (腎小球腎炎) glomerulonephropathy
(腎小球腎病)
arteriolosclerosis (小動脈硬化) glomerulosclerosis
(腎小球硬化)
glomerulopathy (腎病) arteriosclerosis
(動脈硬化)
pyelonephritis (腎炎)
28
表 11 檢驗報告之主要診斷(Diagnosis)段落與結構化之範例
主要診斷 (Diagnosis)
Kidney, left, echo-guided percutaneous needle core biopsy, focal mesangial proliferative and sclerotic glomerulopathy with focal segmental glomerulosclerosis (11 / 33), patchy tubular atrophy (up to 15% in area), and scattered to clustered interstitial
CD20-positive lymphocytic infiltration, c / w IgA nephropathy (class II) with focal segmental glomerulosclerosis.
關鍵字 清單
關鍵字詞𝑘1: echo-guided percutaneous needle core biopsy 關鍵字詞𝑘2: focal mesangial proliferative and sclerotic glomerulopathy
關鍵字詞𝑘3: focal segmental glomerulosclerosis ( 11/33 ) 關鍵字詞𝑘4: patchy tubular atrophy ( up to 15 % in area ) 關鍵字詞𝑘5: clustered interstitial cd20-positive lymphocytic infiltration
關鍵字詞𝑘6: c/w iga nephropathy ( class II ) 關鍵字詞𝑘7: focal segmental glomerulosclerosis
結構化
(1) 檢驗程序 (Procedure)
1. echo-guided percutaneous needle core biopsy (2) 主診斷 (Primary diagnosis)
1. focal mesangial proliferative and sclerotic glomerulopathy 2. focal segmental glomerulosclerosis ( 11/33 )
3. c/w iga nephropathy ( class II ) 4. focal segmental glomerulosclerosis (3) 額外特徵 (Additional features)
1. patchy tubular atrophy ( up to 15 % in area )
2. clustered interstitial cd20-positive lymphocytic infiltration
特殊項目段落結構化則須呈現檢查結果是否出現特定檢驗細項,由於特殊項 目段落敘述中有很多是單獨或連續的形容詞,亦屬於檢驗細項的結果資訊,如範 例中出現的“diffuse segmental coarse granular”,因此對特殊項目段落擷 取關鍵詞彙清單K時,除了採用名詞字典,還要採用形容詞字典。接下來根據醫 師給訂結構化報告偏重的特定檢驗細項關鍵字,將段落擷取出之關鍵詞彙清單K
29
The DIF study demonstrates diffuse segmental coarse granular to lumpy depositions of IgA (grade 3-4/4) and C3 (grade 3/4) with focal Segmental grade 2-3/4 mesangial deposition of IgG and negative staining to IgM, C1q, C4, and fibrinogen.
關鍵字
關鍵字詞𝑘7: negative staining to IgM, C1q, C4, and fibrinogen
結構化
Staining pattern: ■granular □ linear Location: ■focal ■diffuse ■segmental
□global ■mesangial □glomerular capillary wall IgA deposition/expression □abscence ■present (grade 3-4/4) IgG deposition/expression □abscence ■present (grade 2-3/4) IgM deposition/expression ■abscence □present
C3 deposition/expression □abscence ■present(grade 3/4) C4 deposition/expression ■abscence □present
C1q deposition/expression ■abscence □present C4d deposition/expression □abscence □present Fibrinogen insignificant ■abscence □present
30
4.2 特殊項目段落細項關鍵字詞自動擷取
由於特殊項目段落的檢驗細項非常多,由醫生列舉會非常繁瑣且耗費時間,
由於特殊項目段落的檢驗細項非常多,由醫生列舉會非常繁瑣且耗費時間,