第三章 方法與步驟
第五節 後置處理程序
(一) Stemming 處理
透過Porter stemming 演算法,把依規則擷取出的動詞與名詞,還原其原本字 根,再合併相同的字根,只留下相異的動詞、名詞字根。
(二) 過濾與合併
經過觀察規則擷取出的動詞、名詞,本研究歸納出一些過濾與合併的規則,
以下依動詞、名詞分別介紹。
(1)動詞的過濾與合併之規則:
規則(一):去掉 Parsing 錯誤的動詞或是沒有意義的字
1.單位(microg)
例句3.5.1: We conducted an 8-week, multicenter, randomized, blind, double-dummy, parallel-group study of subjects with moderate to severe COPD to compare fluticasone propionate/salmeterol 250/50 microg BID (FSC) with ipratropium/albuterol 36/206 microg QID (IB/ALB).
圖15:例句 3.5.1 為 Parsing 單位錯誤詞性的示意圖
圖 15 的 Parsing 單位錯誤是指,把單位(microg)錯誤剖析成動詞,透過規則
21
(一)要先將其去掉,才能避免訓練模型錯誤,藉此方式解決 Parsing 單位錯誤,被 更正的句子數為52 句,總句子為 2000 句,占全部的訓練資料的比例為 2.6%。
2.疾病、藥物名稱(disku,formoterol)
例 句 3.5.2: To provide information on the efficacy and safety of Fluticasone Propionate/Salmeterol Hydrofluoroalkane 134a Metered-Dose-Inhaler 230/42mcg (FSC MDI) and its comparable dose of Fluticasone Propionate/Salmeterol DISKUS 250/50mcg (FSC DISKUS) in patients with COPD.
圖16:例句 3.5.2 為 Parsing 疾病錯誤詞性的示意圖
圖16 的 Parsing 疾病錯誤是指,把疾病(disku)錯誤剖析成動詞,透過規則(一) 要先將其去掉,才能避免訓練模型錯誤,藉此方式解決Parsing 疾病錯誤,被更正 的句子數為50 句,總句子為 2000 句,占全部的訓練資料的比例為 2.5%。
例 句 3.5.3: To evaluate the impact of a therapeutic interchange from fluticasone/salmeterol to mometasone/formoterol on health outcomes in patients with COPD in a large ambulatory and managed care setting.
圖17:例句 3.5.3 為 Parsing 藥物錯誤詞性的示意圖
圖17 的 Parsing 藥物錯誤是指,把藥物(formoterol)錯誤剖析成動詞,透過規 則(一)要先將其去掉,才能避免訓練模型錯誤,藉此方式解決 Parsing 疾病錯誤,
被更正的句子數為486 句,總句子為 2000 句,占全部的訓練資料的比例為 24.3%。
22
3.Be 動詞或是助動詞(be, have, do)
依據本研究的四個種類別,第一種是正向句子,疾病位置在前、藥物位置在 後;第二種是正向句子,藥物位置在前、疾病位置在後;第三種是負向句子,疾病 位置在前、藥物位置在後;第四種是負向句子,藥物位置在前、疾病位置在後,分 別計算Be 動詞(is, are, was, were, be, been, being)、have 助動詞(has ,have ,had)、do 助動詞(do, does, did),以下是在各自模型的出現次數以表格呈現:
23
英式拼寫與美式拼寫的差異:
1. 英式英文單字中在“o”的後方多加一個“u”,例如美式拼法“harboring”,英式拼 法“harbouring”,經過規則(二)的處理後,就變成“harbo”,再把兩個單字的出現 次數相加。
2. 美式英語字尾為“-ze”,英式英語字尾“-se”,例如美式拼法“analyzed”, 英式拼 法“analysed”, 經過規則(二)的處理後,就變成“analy”,再把兩個單字的出現 次數相加。
3. 美式英文中是“-ize”結尾,在英式英文中則是“-ise”,例如美式拼法“randomized”,
英式拼法“randomised”,經過規則(二)的處理後,就變成“randomi”,再把兩個 單字的出現次數相加。
規則(二)中把兩個出現字數相加,再把字根還原成兩個最大相似,其用意是 為了避免原本是相同的字因為拼法不同,導致出現次數被分散影響其重要程度。
表3 為經過規則(二)的處理結果。
表3:經過規則(二)的處理結果
unigram-Verbs(stem) Category Original Verbs Frequency harbo 3 harbor, harboring, harbouring 22 analy 3 analyze, analyzed, analysed 4 randomi 2 randomized, randomised 12
規則(三):比對 stem 後的單字,發現部分不同時態的單字會被還原成兩個不同的 字根,經過人工比對,將其還原成一般的時態並且把出現次數做相加再合併歸類,
例如“show”和“shown”、“become”和“became”、“give”和“given”、“lead”和“led”。如 表4 為經過規則(三)的處理結果。
24
表4:經過規則(三)的處理結果
unigram-Verbs(stem) Category Original Verbs Frequency show 4 show, showed, showing, shown 10
becom 2 become, became 2
give 2 giving, given 8
lead 3 lead, leads, led 4
(2)名詞的過濾與合併之規則:
規則(一):去掉 Parsing 錯誤的名詞或是較無重要性的單字
1.符號、單位(%, (, ), mg, μg)
例句3.5.4: Compared with placebo, B/F treatment led to significantly lower 3-month exacerbation rates in the moderate and severe COPD severity groups (46% and 57%
reduction, respectively), with a nonsignificant reduction (29%) in very severe COPD.
圖18:例句 3.5.4 為 Parsing 符號錯誤詞性的示意圖
圖 18 的 Parsing 符號錯誤是指,把符號錯誤剖析成名詞,透過規則(一)要先 將其去掉,才能避免訓練模型錯誤,藉此方式解決Parsing 符號錯誤,被更正的句 子數為62 句,總句子為 2000 句,占全部的訓練資料的比例為 3.1%。
例句3.5.5 A total of 44 treatment-naive, elderly Japanese patients with moderate-to- severe COPD were treated with a transdermal tulobuterol patch (TP; 2 mg, once a day) or inhaled salmeterol (50 μg, twice a day) in a randomized crossover manner.
25
圖19:例句 3.5.5 為 Parsing 單位錯誤詞性的示意圖
圖 19 的 Parsing 單位錯誤是指,把單位(mg, μg)錯誤剖析成名詞,透過規則 (一)要先將其去掉,才能避免訓練模型錯誤。
2.年(2015)、月份(December)、地名(China, Japan)、藥廠名(glaxosmithkline) 這些雖然都是名詞,但是卻沒有代表疾病與藥物之間的重要性關聯,所以可 以優先過濾掉,藉此方式優先過濾掉這些名詞,被更正的句子數為93 句,總句子 為2000 句,占全部的訓練資料的比例為 4.65%。
規則(二):如果遇到英式或是美式用法的處理方式,是把兩個單字出現的次數相 加再合併歸類,字根還原成兩個最大相似,這裡跟動詞處理方式一樣,有不同的 地方在英式拼寫與美式拼寫的差異還多動詞一個,就是美式英文“-er”結尾與英式 英文“-re”例如“center”和“centre”。如表 5 為經過規則(二)的處理結果。
表5:經過規則(二)的處理結果 unigram-
Norns (stem) Category Original Norns Frequency tumo 3 tumor, tumors, tumour 7 randomi 2 randomization, randomisation 4 multicent 2 multicenter, multicentre 2
規則(三):合併原來相同的單字,因為書寫方式不同,而造成被擷取成兩個不同的 單字,統一處理方式為把兩個出現次數相加,字根還原成兩個最大相似,若原本 只是一個單字因為書寫方式被拆成兩個單字,中間以空白或是以“-“隔開,統一 處理方式為去掉中間符號,合併成同一個單字。
26
Norns (stem) Category Original Norns Frequency outpati 2 out-patients, outpatients 2 endpoint 3 endpoint, enpoints, end points 3
dyspn 2 dyspnea, dyspnoea 4
(三) 卡方檢定(Chi-square test)
卡方分配為求取機率和臨界值的統計檢定,是一種用途很廣的計數資料的假
7 http://amebse.nchu.edu.tw/new_page_659.htm
27
卡方值總和為各行與各列的卡方值加總,每行與每列之總值為邊際值(marginal)。
零假設:
H0為有無包含 treat 與正、負向極性無關,𝐻1為有無包含 treat 與正、負向極 性有關
表7 為疾病前藥物後-動詞 mixed words 中 treat 的邊際值之計算。
表7:疾病前藥物後-動詞 mixed words 中 treat 的邊際值之計算
MIXED WORDS 相關 無相關 列(ROW)邊際值
包含TREAT 102 次 87 次 189 次
不包含TREAT 281 次 369 次 650 次
行(COLUMN)
邊際值 383 次 456 次 839 次
卡方檢定的第二步驟是計算在卡方檢定的期望值,期望值的計算公式如(2)所 示。
𝑓𝑒 =𝑀𝑅×𝑀𝑛 𝐶 (2)
公式(2)中的𝑀𝑅為列邊際值之次數,𝑀𝐶為行邊際值之次數,n 為所有句子總 數,此時n=839。如表 8 為 treat 在卡方檢定的期望值計算結果。
表8:treat 在卡方檢定的期望值計算結果 期望值
treat 86.27771 102.7223 296.7223 353.2777
28
treat 2.865055 2.406395 0.83306972 0.699705489 卡方值總和 6.804224338
葉氏連續性修正(Yates' Correction for Continuity)
當自由度為 1,並且使用皮爾森卡方檢定做獨立性(independence)檢定時,若
29
經過校正後,卡方值會降低,因為在卡方檢定中,理論次數與觀察次數的差 異都降低了0.5。理論上,自由度等於 1 時,一定要進行連續校正。但實務上,當 卡方檢定的理論次數等於或大於10 時,並不須進行校正,因為修不修正對檢定效
率的影響很小,亦即校正前後的卡方值很接近。如表 10 為疾病前藥物後-動詞
mixed words 中做葉氏連續系修正的計算過程。
表10:疾病前藥物後-動詞 mixed words 中 enrol 的邊際值之計算
MIXED WORDS 相關 無相關 列(ROW)邊際值
包含ENROL 1 次 8 次 9 次
不包含ENROL 382 次 448 次 830 次
行(COLUMN)
邊際值 383 次 456 次 839 次
使用公式(2)算出 enrol 每一個在卡方檢定的期望值。如表 11 為 enrol 在卡 方檢定的期望值計算結果。
表11:enrol 每一個在卡方檢定的期望值計算結果 期望值
enrol 4.108462 4.891538 378.8915 451.1085
觀察表11 的期望值結果,發現有期望值小於 5,導致近似於卡方分配不可信,
所以必須用葉氏連續性修正,來重新計算卡方值,表12 為葉氏連續性修正後的卡 方值計算結果。
30
表12:enrol 每一個在卡方檢定的卡方值計算結果 卡方值
enrol 1.65611 1.39099 0.01796 0.01508 卡方值總和 3.08014274874681
最 後 enrol 的 卡 方 值 即 為 表 12 的 卡 方 值 全 部 加 總 , enrol 的χ2值 為 3.08014274874681 ,表 13 為未使用葉氏連續性修正的卡方值計算結果。
表13:enrol 的卡方值計算結果(未使用葉氏連續性修正) 卡方值
enrol 2.351863 1.975358 0.025502124 0.021419547 卡方值總和 4.374142391
31