第三章 方法與步驟
第三節 特徵擷取
本研究的特徵是透過 Stanford CoreNLP 將句子轉換成分析樹(Parse tree),如圖 3.3.1 所示。再將樹從下往上回推,取得同時擁有指定關係中兩個物件的最小分 析子樹來進行特徵擷取,以接下來的句子為例,“The results raise the possibility that the ethanolysis reaction may occur in the stomach of people who consume alcohol and 3-hydroxy-1,4-benzodiazepine on a regular basis.”,此為藥物與藥物中的句子,
兩個藥物分別為“alcohol”和“3-hydroxy-1,4-benzodiazepine”,圖 3.3.1 為這句 話的完整分析樹,其中被起來的部分則是最小分析子樹。圖3.3.2 為另一句有包 含 更 多 動 名 詞 的 的 最 小 分 析 子 樹 範 例 , 兩 個 藥 物 分 別 為 “gelusil ” 和
“erythromycin”。
圖 3.3.1 分析樹與取最小分析子樹範例 1
圖3.3.2 分析樹與取最小分析子樹範例 2
本研究所擷取的特徵主要分成四大類:文法特徵、計數輔助特徵、藥物與藥 物交互作用規則特徵以及實驗結果回饋特徵。其中,藥物與藥物交互作用規則特 徵為參考陳佩瑄 (2017)以混合方法自生醫文獻擷取藥物-藥物交互作用之研究 的以規則為基方法來進行設計的特徵。此特徵只有在藥物—藥物實驗中使用。以 下為依分類介紹各項特徵。
23
(一) 文法特徵
此類型特徵以英文文法為基礎來進行設計,包含文字在句中的距離、文字拼 音、文字物件的順序等。
其中為了讓文字拼音的表達方式達到能夠表現語意且保留文法與文字在英 文中的型態,本研究設計提出N_transform 的演算法將文字轉換成數字。本研究 將文字的每個字母轉換成 ASCII 之後減去 96,並以每個字母使用兩個位元的方 式組合成一個高位數的數字。可參考公式(1),其中𝑜𝑟𝑑(𝑤𝑜𝑟𝑑[𝑖])為將𝑤𝑜𝑟𝑑中的 每個字母轉換成ASCII 後減去 96。公式中的 n 為自己定義、可調整轉換後的值 總長度,超過n 的字母會被省略,本研究中使用的 n 為 10,10 為本研究之實驗 使用到的所有文字皆能被辨識且不會過大的值。
𝑁_𝑇𝑟𝑎𝑛𝑠𝑓𝑜𝑟𝑚(𝑤𝑜𝑟𝑑) = ∑
?
𝑜𝑟𝑑(𝑤𝑜𝑟𝑑[𝑖]) × 10$×(<=>)
@AB
(1)以“treat”這個字為例,在轉換的時候“t”的 ASCII 值為 116,減去 96 再 乘以10$×#B,以此類推,“treat”會轉換成 20180501200000000000。這樣的轉換 好處在於可以不需要使用額外的統計方法,讓SVM 來協助計算。且不同型態的 字 或 是 一 些 意 思 相 近 的 轉 換 字 , 值 也 會 較 為 接 近 。 像 是 “treats ” (20180501201900000000)、“treatment”(20180501201305142000)轉換後都會跟
“treat”的值相近。
以下為第一類特徵的各項實際內容:
1. 包含兩目標物件的最小子樹高度,值的範圍為正整數。
2. 包含兩目標物件的最小子樹總字數,值的範圍為正整數。
3. 兩物件的先後順序,若藥物優先於疾病,則此特徵為 1,反之為 2。此 特徵在藥物與藥物交互作用實驗中不使用。
4. 第一個物件在子樹中所在的字數位置,值的範圍為正整數或 0。
5. 第二個物件在子樹中所在的字數位置,值的範圍為正整數。
6. 子樹中的第一個動詞,值為 N_transform 轉換後的值,值為正整數或 0。
7. 子樹中與第一個物件最靠近的動詞,若有兩個動詞與第一個物件的距離 相 同 , 選 擇 在 句 子 中 位 置 較 前 面 的 動 詞 作 為 此 特 徵 之 值 , 值 為 N_transform 轉換後的值,值的範圍為正整數或 0。
8. 子樹中第一個物件與最靠近之動詞的距離字數,值為正整數或 0。
9. 子樹中與第二個物件最靠近的動詞,值為 N_transform 轉換後的值,值 的範圍為正整數或0。
10. 子樹中第二個物件與最靠近之動詞的距離字數,值的範圍為正整數或 0。
11. 子樹中與第一個物件最靠近的名詞(第一個物件和第二個物件的名稱除 外),值為N_transform 轉換後的值,值的範圍為正整數或 0。
12. 子樹中第一個物件與最靠近之名詞(第一個物件和第二個物件的名稱除
25
外)的距離字數,值的範圍為正整數或0。
13. 子樹中與第二個物件最靠近的名詞(第一個物件和第二個物件的名稱除 外),值為N_transform 轉換後的值,值的範圍為正整數或 0。
14. 子樹中第二個物件與最靠近之名詞(第一個物件和第二個物件的名稱除 外)的距離字數,值的範圍為正整數或0。
15. 子樹中與第一個物件最靠近的介系詞,值為 N_transform 轉換後的值,
值的範圍為正整數或0。
16. 子樹中第一個物件與最靠近之介系詞的距離字數,值的範圍為正整數或 0。
17. 子樹中與第二個物件最靠近的介系詞,值為 N_transform 轉換後的值,
值的範圍為正整數或0。
18. 子樹中第二個物件與最靠近之介系詞的距離字數,值的範圍為正整數或 0。
(二) 計數輔助特徵
計數的特徵是統計整個句子的最小分析子樹中特定種類的字或符號之總數。
這些字詞和標點符號所代表的意義是顯示出這句話所描述事物的廣泛程度以及 是否會將意思逆轉。舉例來說“The safety and efficacy of Albuterol compared to
Albuterol/Ipratropium bromide as rescue medications for COPD patients on maintenance combination therapy of ICS/LABA has not been evaluated.”這句話中 最後的“not”就會直接翻轉“evaluated”的意思。
以下為此類特徵的各項實際內容:
19. 子樹中所包含的標點符號總數,值的範圍為正整數或 0。
20. 子樹中所包含的專有名詞總數,值的範圍為正整數或 0。
21. 子樹中所包含的動詞總數,值的範圍為正整數或 0。
22. 子樹中所包含的名詞總數,值的範圍為正整數或 0。
23. 子樹中所包含的介系詞總數,值的範圍為正整數或 0。
24. 子樹中所包含的反向詞彙總數,值的範圍為正整數或 0,本實驗的反向 詞彙定義為以下這些字:“no”、“not”、“non”、“n’t”。
25. 原句的總字數,此特徵目的為加強子關係樹與原始句子大小的差異性關 係,值的範圍為正整數。
(三) 藥物與藥物交互作用基本特徵與規則特徵
前兩大類的特徵為藥物與疾病關係的實驗而設計的。轉換到藥物與藥物關係 的實驗時,補充了部分由於陳佩瑄 (2017)的以混合方法自生醫文獻擷取藥物-藥 物交互作用之研究中所設計的特徵,以及將其規則為基方法中的部分規則轉換成
27
特徵來強化藥物與藥物交互作用的實驗模型。
以下為此類特徵的詳細說明,其中特徵26~31 為基本特徵;特徵 32~37 為 規則特徵:
26. 兩藥物是否相同,若相同,值為 1,不同,值為 0。
27. 兩藥物中出現分號和句號的次數,以此來確認是否跨句,值為出現的分 號與句號次數總和,值的範圍為正整數或0。
28. 兩藥物間出現冒號的次數,此特徵為確認是否跨過其他描述句,值為出 現的冒號次數,值的範圍為正整數或0。
29. 兩藥物間是否出現“or”, 若有,值為 1,不同,值為 0。
30. 兩藥物間是否出現“and”, 若有,值為 1,不同,值為 0。
31. 兩藥物間出現“,”的次數,數值大,代表可能存在大量的藥物列舉。
32. 兩個藥物間是否出現“observed”、“shown”、“found”、“with”等 詞彙,若有,值為1,不同,值為 0。
33. 兩個藥物間是否出現“such”、“like”、“example”、“e.g.”等詞彙,
若有,值為0,不同,值為 1。
34. 此特徵的特徵值子樹中出現“suggest”、“should”的次數總和,此為 判定“Advice”類別的規則,值的範圍為正整數或 0。
35. 此特徵的特徵值子樹中出現“increase”、“enhance”、“decrease”、
“reduce”、“synergism”、“antagonism”的次數總和,此為判定
“Effect”類別的規則,值的範圍為正整數或 0。
36. 此特徵的特徵值子樹中出現“interact”的次數總和,此為判定“Int”
類別的規則,值的範圍為正整數或0。
37. 此 特 徵 的 特 徵 值 子 樹 中 出 現 “ distributed ” 、 “ excreted ” 、
“absorption”、“concentrations”的次數總和,此為判定“Mechanism”
類別的規則,值的範圍為正整數或0。
(四) 實驗結果回饋特徵
最後此類別的特徵,是透過多次改變過參數的實驗測試結果來建立回饋的特 徵。在SVM 中可以改變的主要實驗參數為特徵和核函數,實驗回饋結果的特徵 就是透過改變這些參數得到不同的結果後將結果回饋到資料內,成為新的特徵。
本研究的使用的回饋方法是改變核函數來進行多回測試後,回饋這些實驗結果成 新的特徵,以此改善模型特徵設計造成的分類錯誤。
回饋特徵值設計在本研究的回饋方式為直接回饋前一階段測試結果為新的 特徵。以圖3.1.5 作為範例,若 Data No.3 在第一階段結果被分類為 Class 2,回 饋的方法會增加Data No.3 一個新的特徵,其值為 2。