• 沒有找到結果。

特殊項目段落細項關鍵字詞自動擷取

第四章 醫學詞彙字典的應用

4.2 特殊項目段落細項關鍵字詞自動擷取

由於特殊項目段落的檢驗細項非常多,由醫生列舉會非常繁瑣且耗費時間,

也可能發生檢驗報告中有出現但未被人工列舉出來的狀況。所以此部分採用建立 主題機率模型方法,從整體檢驗報告資料庫之特殊項目段落的關鍵詞彙清單K,

自動擷取出檢驗項目細項關鍵候選字詞,提供給醫生參考,並將在實驗中評估擷 取效果。

本節提出的特殊項目段落細項關鍵字詞擷取方法將針對各特殊項目段落各 別進行處理,特殊項目段落包括電子顯微鏡檢查(EM)、切片樣本的大小及狀況 (Specimen type)、切片樣本的描述(Gross description)、光學顯微鏡檢查(LM)、染 色體檢查(DIF)等五個段落。

<1> 去除段落字典雜訊

名詞字典由兩種複合名詞所構成,包括(形容詞+名詞)或(名詞+名詞),我們 利用 Lift measure 運算複合名詞之間單字緊密相連的程度,如公式九所示。若 複合名詞𝑝𝐼為形容詞+名詞的形式,以𝑝𝐼. w𝑛表示組合成𝑝𝐼之形容詞單字,以𝑝𝐼. w𝑚 表示組合成𝑝𝐼之名詞字詞。若𝑝𝐼為名詞+名詞形式的複合名詞,以𝑝𝐼. w𝑛表示組合 成𝑝𝐼之名詞單字,以𝑝𝐼. w𝑚表示組合成𝑝𝐼之名詞字詞。其中F(𝑝𝐼. w𝑛∩ 𝑝𝐼. w𝑚)表 示? F(𝑝𝐼. w𝑛)及𝐹(𝑝𝐼. w𝑚)別表示? 對於 Lift 值大於等於門檻值的複合名詞,我 們才將其保留,否則視為雜訊而從字典中刪除。

Lift(𝑝𝐼. w𝑛 , 𝑝𝐼. w𝑚) =√F(𝑝F(𝑝𝐼.w𝑛∩𝑝𝐼.w𝑚)

𝐼.w𝑛) ∗ 𝐹(𝑝𝐼.w𝑚) (公式九)

31

<2> 建立一般性形容詞清單

我們利用 Entropy 公式,從名詞字典的(形容詞+名詞)複合名詞中找出一般 性形容詞。以𝐽𝐽𝑛表示一形容詞單字,以𝑡1, …𝑡𝑚表示一連接在𝐽𝐽𝑛之後方的 m 個 名詞字詞,以𝑃(𝐽𝐽𝑛 + 𝑡𝑖 | 𝐽𝐽𝑛)表示出現𝐽𝐽𝑛的情況下後方連接𝑡𝑖之機率。經過公式 十運算,可以計算出𝐽𝐽𝑛之亂度值。當其高於門檻值 1 時,將𝐽𝐽𝑛加入一般性形容

詞清單,如公式十一所示。將所有形容詞單字完成運算,即可建立一般性形容詞 清單。

Entropy(𝐽𝐽𝑛) = − ∑𝑛𝐼=1𝑃(𝐽𝐽𝑛+ 𝑡𝑖 | 𝐽𝐽𝑛)∗ 𝑙𝑜𝑔𝑃(𝐽𝐽𝑛 + 𝑡𝑖 | 𝐽𝐽𝑛) (公式十) checkEntropyT(𝐽𝐽𝑛)={𝐴𝑑𝑑 𝑡𝑜 𝐺𝑒𝑛𝑒𝑟𝑎𝑙𝐿𝑖𝑠𝑡 𝑖𝑓 Entropy(𝐽𝐽𝑛)≥ 1

𝑛𝑜𝑛𝑒 𝑖𝑓 Entropy(𝐽𝐽𝑛) < 1 (公式十一)

<3> 建立檢驗細項關鍵字詞候選清單

本論文透過 LDA(Latent Dirichlet allocation)主題機率模型[12]的方法,

分析整個資料庫中同一特殊檢驗段落中出現的複合名詞關鍵詞,擷取出檢驗細項 關鍵字詞候選清單。LDA 的運作原理是認為一篇文件是由多個不同的潛藏主題 (Topic)的字詞所組成,而 LDA 主題機率模型是將一篇文件進行機率模型解析,

運算出一篇文件屬於各個潛藏主題的機率,以及各個潛藏主題出現不同字詞的機 率。針對每種特殊檢驗段落,本論文方法以各檢驗報告對應的特殊檢驗段落擷取 出的複合名詞關鍵字集合當作一篇文件,進行 LDA 主題機率模型分析,再以所分 析出各潛藏主題中出現機率較高的字詞當作檢驗細項關鍵字詞。

將檢驗報告之檢驗式段落,以句子為單位切割且刪除詞性為連接詞、冠詞、

代名詞、副詞、助動詞、副詞、介係詞等之字詞,如圖 5 所示。接著將句子中字

32

詞與段落字典中的詞彙進行比對,擷取出比對到的字詞所形成的文件,輸入分析 LDA 主題機率模型中,如圖 6 所示。LDA 主題機率模型運算後,會由指定回傳的 Topic 數 numT(先預設為 10,在實驗中再評估設定值),取出每個 Topic 中屬於 該 Topic 機率值最高的 k 個字詞(在此設為 50)。以𝑇𝑜𝑝𝑖𝑐𝑛表示一 Topic,以𝑝𝐼表 示𝑇𝑜𝑝𝑖𝑐𝑛中 之 一 字 詞 , 以𝑃𝑛(𝑝𝐼) 表 示 字 詞𝑝𝐼在𝑇𝑜𝑝𝑖𝑐𝑛中 出 現 之 機 率 值 , 以 AvgP(𝑇𝑜𝑝𝑖𝑐𝑛)表示𝑇𝑜𝑝𝑖𝑐𝑛機率值最高的 k 個字詞之字詞機率平均值。若𝑃𝑛(𝑝𝐼) ≥ AvgP(𝑇𝑜𝑝𝑖𝑐𝑛),則將字詞𝑝𝐼加入檢驗細項關鍵字清單,如圖 7 所示範例(如公式十 二)。將各個 Topic 處理完,並對各主題擷取出的檢驗細項關鍵字清單聯集,即 完成細項關鍵字詞清單擷取。

UpAvgList(𝑇𝑜𝑝𝑖𝑐𝑛)={𝐴𝑑𝑑 𝑡𝑜 𝐾𝑒𝑦𝐿𝑖𝑠𝑡 𝑖𝑓 𝑃𝑛(𝑝𝐼) ≥ AvgP(𝑇𝑜𝑝𝑖𝑐𝑛)

𝑛𝑜𝑛𝑒 𝑖𝑓 𝑃𝑛(𝑝𝐼) < AvgP(𝑇𝑜𝑝𝑖𝑐𝑛) (公式十二)

圖 5 句子切割與刪除無意義單字之範例

33

圖 6 句子中字詞與段落字典比對之範例

圖 7 挑選主題中字詞加入關鍵字詞候選清單之範例

<4> 擴增細項關鍵字詞候選清單

透過上述由複合名詞的 LDA 主題機率模型分析結果建立的細項關鍵字詞候 選清單,可能因為形容詞未與名詞連續出現而未被取出,造成檢驗報告中結果細 項不完整。因此這部分的處理目標,是進一步擴增找出檢驗項目的一般性形容詞

34

細項(勾選項目)。

以𝑝𝐼表示關鍵字詞清單中的字詞,以𝐽𝐽𝑛表示一般性形容詞清單中的一個形容 詞單字。從名詞字典的(形容詞+名詞)之複合名詞中確認𝐽𝐽𝑛是否曾經與𝑝𝐼連接出 現,若出現過則將𝐽𝐽𝑛加入關鍵字詞清單中,如公式十三所示。

checkLink(𝐽𝐽𝑛, 𝑝𝐼) =𝐴𝑑𝑑 𝑡𝑜 𝐾𝑒𝑦𝐿𝑖𝑠𝑡 𝑖𝑓 𝐽𝐽𝑛 𝑙𝑖𝑛𝑘 𝑖𝑛 𝑓𝑟𝑜𝑛𝑡 𝑝𝐼 (公式十三)

【範例 4-2】

假設已找出關鍵字詞候選清單𝐾、一般性形容詞清單𝐺、以及複合名詞清單𝑁,

如表 13 所示。從𝑁中查看 basement membrane、 cytoplasmic vacuolization、…、

cellularity 等詞是否曾經與𝑡ℎ𝑖𝑐𝑘、 … 、𝑚𝑖𝑙𝑑 等一般性形容詞連接。確認了𝑡ℎ𝑖𝑐𝑘

與𝑏𝑎𝑠𝑒𝑚𝑒𝑛𝑡 𝑚𝑒𝑚𝑏𝑟𝑎𝑛𝑒、diffuse 與𝑓𝑜𝑜𝑡 𝑝𝑟𝑜𝑐𝑒𝑠𝑠𝑒𝑠 𝑒𝑓𝑓𝑎𝑐𝑒𝑚𝑒𝑛𝑡、mesangial 與 𝑒𝑥𝑝𝑎𝑛𝑠𝑖𝑜𝑛連接,故將𝑡ℎ𝑖𝑐𝑘、𝑑𝑖𝑓𝑓𝑢𝑠𝑒、mesangial 等形容詞加入 K 中,完成關鍵 字詞候選清單 K 之擴展。

35

表 13 關鍵字詞候選擴展之範例 關鍵字詞候選清單

basement membrane (基底膜)

cytoplasmic vacuolization (細胞質空泡化) expansion

(擴張)

subepithelial deposits (上皮下沉積物) Cell (細胞) cellularity (細胞結構)

大眾化形容詞清單

thick (厚) diffuse (擴散) mesangial (系膜) significant (重大) segmental (節段性) mild (輕度)

複合名詞清單 thick basement membrane

(厚基底膜)

diffuse foot processes effacement (瀰漫性腳部過程消失) mesangial expansion

(腎小球系膜擴張)

lupus glomerulonephritis (狼瘡腎小球性腎炎) dense deposits

(稠密沉積物)

Necrosis (壞疽) 關鍵字詞候選之擴展清單

basement membrane foot processes effacement Expansion subepithelial deposits

Cell cellularity

thick basement membrane diffuse foot processes effacement mesangial expansion

36

相關文件