後置處理程序

第三章方法與步驟

第五節後置處理程序

(一) Stemming 處理

透過Porter stemming 演算法，把依規則擷取出的動詞與名詞，還原其原本字根，再合併相同的字根，只留下相異的動詞、名詞字根。

(二) 過濾與合併

經過觀察規則擷取出的動詞、名詞，本研究歸納出一些過濾與合併的規則，

以下依動詞、名詞分別介紹。

(1)動詞的過濾與合併之規則：

規則(一)：去掉 Parsing 錯誤的動詞或是沒有意義的字

1.單位(microg)

例句3.5.1: We conducted an 8-week, multicenter, randomized, blind, double-dummy, parallel-group study of subjects with moderate to severe COPD to compare fluticasone propionate/salmeterol 250/50 microg BID (FSC) with ipratropium/albuterol 36/206 microg QID (IB/ALB).

圖15：例句 3.5.1 為 Parsing 單位錯誤詞性的示意圖

圖 15 的 Parsing 單位錯誤是指，把單位(microg)錯誤剖析成動詞，透過規則

(一)要先將其去掉，才能避免訓練模型錯誤，藉此方式解決 Parsing 單位錯誤，被更正的句子數為52 句，總句子為 2000 句，占全部的訓練資料的比例為 2.6%。

2.疾病、藥物名稱(disku,formoterol)

例句 3.5.2: To provide information on the efficacy and safety of Fluticasone Propionate/Salmeterol Hydrofluoroalkane 134a Metered-Dose-Inhaler 230/42mcg (FSC MDI) and its comparable dose of Fluticasone Propionate/Salmeterol DISKUS 250/50mcg (FSC DISKUS) in patients with COPD.

圖16：例句 3.5.2 為 Parsing 疾病錯誤詞性的示意圖

圖16 的 Parsing 疾病錯誤是指，把疾病(disku)錯誤剖析成動詞，透過規則(一) 要先將其去掉，才能避免訓練模型錯誤，藉此方式解決Parsing 疾病錯誤，被更正的句子數為50 句，總句子為 2000 句，占全部的訓練資料的比例為 2.5%。

例句 3.5.3: To evaluate the impact of a therapeutic interchange from fluticasone/salmeterol to mometasone/formoterol on health outcomes in patients with COPD in a large ambulatory and managed care setting.

圖17：例句 3.5.3 為 Parsing 藥物錯誤詞性的示意圖

圖17 的 Parsing 藥物錯誤是指，把藥物(formoterol)錯誤剖析成動詞，透過規則(一)要先將其去掉，才能避免訓練模型錯誤，藉此方式解決 Parsing 疾病錯誤，

被更正的句子數為486 句，總句子為 2000 句，占全部的訓練資料的比例為 24.3%。

3.Be 動詞或是助動詞(be, have, do)

依據本研究的四個種類別，第一種是正向句子，疾病位置在前、藥物位置在後；第二種是正向句子，藥物位置在前、疾病位置在後;第三種是負向句子，疾病位置在前、藥物位置在後;第四種是負向句子，藥物位置在前、疾病位置在後，分別計算Be 動詞(is, are, was, were, be, been, being)、have 助動詞(has ,have ,had)、do 助動詞(do, does, did)，以下是在各自模型的出現次數以表格呈現：

英式拼寫與美式拼寫的差異:

1. 英式英文單字中在“o”的後方多加一個“u”，例如美式拼法“harboring”，英式拼法“harbouring”，經過規則(二)的處理後，就變成“harbo”，再把兩個單字的出現次數相加。

2. 美式英語字尾為“-ze”，英式英語字尾“-se”，例如美式拼法“analyzed”，英式拼法“analysed”，經過規則(二)的處理後，就變成“analy”，再把兩個單字的出現次數相加。

3. 美式英文中是“-ize”結尾，在英式英文中則是“-ise”，例如美式拼法“randomized”，

英式拼法“randomised”，經過規則(二)的處理後，就變成“randomi”，再把兩個單字的出現次數相加。

規則(二)中把兩個出現字數相加，再把字根還原成兩個最大相似，其用意是為了避免原本是相同的字因為拼法不同，導致出現次數被分散影響其重要程度。

表3 為經過規則(二)的處理結果。

表3：經過規則(二)的處理結果

unigram-Verbs(stem) Category Original Verbs Frequency harbo 3 harbor, harboring, harbouring 22 analy 3 analyze, analyzed, analysed 4 randomi 2 randomized, randomised 12

規則(三)：比對 stem 後的單字，發現部分不同時態的單字會被還原成兩個不同的字根，經過人工比對，將其還原成一般的時態並且把出現次數做相加再合併歸類，

例如“show”和“shown”、“become”和“became”、“give”和“given”、“lead”和“led”。如表4 為經過規則(三)的處理結果。

表4：經過規則(三)的處理結果

unigram-Verbs(stem) Category Original Verbs Frequency show 4 show, showed, showing, shown 10

becom 2 become, became 2

give 2 giving, given 8

lead 3 lead, leads, led 4

(2)名詞的過濾與合併之規則:

規則(一)：去掉 Parsing 錯誤的名詞或是較無重要性的單字

1.符號、單位(%, (, ), mg, μg)

例句3.5.4: Compared with placebo, B/F treatment led to significantly lower 3-month exacerbation rates in the moderate and severe COPD severity groups (46% and 57%

reduction, respectively), with a nonsignificant reduction (29%) in very severe COPD.

圖18：例句 3.5.4 為 Parsing 符號錯誤詞性的示意圖

圖 18 的 Parsing 符號錯誤是指，把符號錯誤剖析成名詞，透過規則(一)要先將其去掉，才能避免訓練模型錯誤，藉此方式解決Parsing 符號錯誤，被更正的句子數為62 句，總句子為 2000 句，占全部的訓練資料的比例為 3.1%。

例句3.5.5 A total of 44 treatment-naive, elderly Japanese patients with moderate-to- severe COPD were treated with a transdermal tulobuterol patch (TP; 2 mg, once a day) or inhaled salmeterol (50 μg, twice a day) in a randomized crossover manner.

圖19：例句 3.5.5 為 Parsing 單位錯誤詞性的示意圖

圖 19 的 Parsing 單位錯誤是指，把單位(mg, μg)錯誤剖析成名詞，透過規則 (一)要先將其去掉，才能避免訓練模型錯誤。

2.年(2015)、月份(December)、地名(China, Japan)、藥廠名(glaxosmithkline) 這些雖然都是名詞，但是卻沒有代表疾病與藥物之間的重要性關聯，所以可以優先過濾掉，藉此方式優先過濾掉這些名詞，被更正的句子數為93 句，總句子為2000 句，占全部的訓練資料的比例為 4.65%。

規則(二)：如果遇到英式或是美式用法的處理方式，是把兩個單字出現的次數相加再合併歸類，字根還原成兩個最大相似，這裡跟動詞處理方式一樣，有不同的地方在英式拼寫與美式拼寫的差異還多動詞一個，就是美式英文“-er”結尾與英式英文“-re”例如“center”和“centre”。如表 5 為經過規則(二)的處理結果。

表5：經過規則(二)的處理結果 unigram-

Norns (stem) Category Original Norns Frequency tumo 3 tumor, tumors, tumour 7 randomi 2 randomization, randomisation 4 multicent 2 multicenter, multicentre 2

規則(三)：合併原來相同的單字，因為書寫方式不同，而造成被擷取成兩個不同的單字，統一處理方式為把兩個出現次數相加，字根還原成兩個最大相似，若原本只是一個單字因為書寫方式被拆成兩個單字，中間以空白或是以“－“隔開，統一處理方式為去掉中間符號，合併成同一個單字。

Norns (stem) Category Original Norns Frequency outpati 2 out-patients, outpatients 2 endpoint 3 endpoint, enpoints, end points 3

dyspn 2 dyspnea, dyspnoea 4

(三) 卡方檢定(Chi-square test)

卡方分配為求取機率和臨界值的統計檢定，是一種用途很廣的計數資料的假

7 http://amebse.nchu.edu.tw/new_page_659.htm

卡方值總和為各行與各列的卡方值加總，每行與每列之總值為邊際值(marginal)。

零假設:

H₀為有無包含 treat 與正、負向極性無關，𝐻₁為有無包含 treat 與正、負向極性有關

表7 為疾病前藥物後-動詞 mixed words 中 treat 的邊際值之計算。

表7：疾病前藥物後－動詞 mixed words 中 treat 的邊際值之計算

MIXED WORDS 相關 無相關 列(ROW)邊際值

包含TREAT 102 次 87 次 189 次

不包含TREAT 281 次 369 次 650 次

行(COLUMN)

邊際值 383 次 456 次 839 次

卡方檢定的第二步驟是計算在卡方檢定的期望值，期望值的計算公式如(2)所示。

𝑓_𝑒 =^𝑀^𝑅^×𝑀_𝑛 ^𝐶 (2)

公式(2)中的𝑀_𝑅為列邊際值之次數，𝑀_𝐶為行邊際值之次數，n 為所有句子總數，此時n=839。如表 8 為 treat 在卡方檢定的期望值計算結果。

表8：treat 在卡方檢定的期望值計算結果期望值

treat 86.27771 102.7223 296.7223 353.2777

treat 2.865055 2.406395 0.83306972 0.699705489 卡方值總和 6.804224338

葉氏連續性修正(Yates' Correction for Continuity)

當自由度為 1，並且使用皮爾森卡方檢定做獨立性(independence)檢定時，若

經過校正後，卡方值會降低，因為在卡方檢定中，理論次數與觀察次數的差異都降低了0.5。理論上，自由度等於 1 時，一定要進行連續校正。但實務上，當卡方檢定的理論次數等於或大於10 時，並不須進行校正，因為修不修正對檢定效

率的影響很小，亦即校正前後的卡方值很接近。如表 10 為疾病前藥物後-動詞

mixed words 中做葉氏連續系修正的計算過程。

表10：疾病前藥物後－動詞 mixed words 中 enrol 的邊際值之計算

MIXED WORDS 相關 無相關 列(ROW)邊際值

包含ENROL 1 次 8 次 9 次

不包含ENROL 382 次 448 次 830 次

行(COLUMN)

邊際值 383 次 456 次 839 次

使用公式(2)算出 enrol 每一個在卡方檢定的期望值。如表 11 為 enrol 在卡方檢定的期望值計算結果。

表11：enrol 每一個在卡方檢定的期望值計算結果期望值

enrol 4.108462 4.891538 378.8915 451.1085

觀察表11 的期望值結果，發現有期望值小於 5，導致近似於卡方分配不可信，

所以必須用葉氏連續性修正，來重新計算卡方值，表12 為葉氏連續性修正後的卡方值計算結果。

表12：enrol 每一個在卡方檢定的卡方值計算結果卡方值

enrol 1.65611 1.39099 0.01796 0.01508 卡方值總和 3.08014274874681

最後 enrol 的卡方值即為表 12 的卡方值全部加總， enrol 的χ²值為 3.08014274874681 ，表 13 為未使用葉氏連續性修正的卡方值計算結果。

表13：enrol 的卡方值計算結果(未使用葉氏連續性修正) 卡方值

enrol 2.351863 1.975358 0.025502124 0.021419547 卡方值總和 4.374142391

在文檔中生醫文獻中疾病與藥物關係之樣式自動化擷取 (頁 29-40)

第三章 方法與步驟

第五節 後置處理程序

第三章方法與步驟

第五節後置處理程序