第五章 實驗結果與討論
第一節 藥物—疾病關係辨識之結果與討論
在藥物—疾病關係辨識實驗為辨識藥物在資料的敘述中,是否可治療對應疾 病。本實驗的機器學習模型訓練分成內部實驗和兩個階段的外部實驗。由於負向 資料的數量過少,所以除了訓練資料外,測試資料也透過合成少數採樣技術將負 向資料新增至與正向數量相同。在正負資料量相同的情況下,藥物—疾病關係辨 識模型最主要的效能判斷依據為準確率(Accuracy)和 F1-measure。
(一) 內部測試
在藥物—疾病關係辨識實驗的內部測試中,本研究先將訓練資料分成內部訓
43
包含第三章第三節中的特徵1~14、19、21、22、24。
2 補充詞性
核函數在內部測試後,選擇線性(Linear)和 S 型(Sigmoid)為效果比較好的兩 個核函數。多項式與放射核函數在藥物—疾病組合的實驗完全沒有分類效果,後 面這兩核函數在做過加權之後仍然將所有資料分成正向。權重參數則因為原始的 負向資料不足,測試時發現,即使透過合成少數採樣技術將負向資料新增至與正 向數量相同,仍然需要在負向分類進行加強才能夠有更好的結果,後續實驗的權 重皆為透過LibSVM 的權重參數直接給予,而不只是透過合成少數採樣技術。
如表 5.1.2,實驗編號 1 為沒有任何權重加權的線性核函數模型內部測試結
45
(二) 第一階段外部測試第一階段外部測試為使用完整訓練資料與測試資料進行訓練模型與測試模 型效能的階段。核函數模型的權重參數與特徵組合均依照內部測試的對應結果來 給予。而第一階段外部測試各實驗組別間的差異為內部測試所選擇核函數,以及 合成少數採樣技術的方法。本研究合成少數採樣技術的方法在實作上分成對非文 字類特徵進行與對所有特徵進行。差別在於對非文字類特徵進行合成少數採樣時,
特徵6、7、9、11、13、15、17 等代表文字本身外觀特徵的值不會在合成時被改 變,會直接套用合成時原始基礎資料該特徵的值。而對所有特徵進行合成少數採 驗則不會判斷該特徵的特性,對所有特徵進行取向量中間值的運算。
如表 5.1.3,實驗編號 1 為負向分類權重加權 100 倍的線性核函數模型第一 階段外部測試結果,選用特徵為特徵組別編號 1、2 和 3,採對非文字類特徵進 行合成少數採樣技術;實驗編號 2 為負向分類權重加權 4 倍的 S 型核函數模型 第一階段外部測試結果,選用特徵為特徵組別編號 1、2 和 3,採對非文字類特 徵進行合成少數採樣技術;實驗編號3 為負向分類權重加權 100 倍的線性核函數 模型第一階段外部測試結果,選用特徵為特徵組別編號 1、2 和 3,採對所有特 徵進行合成少數採樣技術;實驗編號 4 為負向分類權重加權 4 倍的 S 型核函數 模型第一階段外部測試結果,選用特徵為特徵組別編號 1、2 和 3,採對所有特
徵進行合成少數採樣技術。
47
(三) 第二階段外部測試第二階段外部測試主要目的是希望能夠試圖找出分類錯誤的資料是否有其 規律存在,並透過 LIBSVM 自動導正。本研究提出的方法是將第一階段外部測 試的結果回饋成新的特徵,訓練資料直接透過第一階段外部測試的模型取得分類 結果來進行回饋。
如表5.1.4,實驗編號 1 為線性核函數模型(第一階段實驗編號 3)採用回饋方 法的第二階段外部測試結果;實驗編號2 為 S 型核函數模型(第一階段實驗編號 4)且採用回饋方法的第二階段外部測試結果。
表5.1.4 藥物—疾病關係辨識第二階段外部測試結果
編號 實驗方式 Accuracy Precision Recall
F1-measure
1 第一階段實驗編號3+回饋 69.0% 72.6% 61.2% 66.4%
2 第一階段實驗編
號4+回饋
75.7% 76.3% 74.6% 75.5%
依據第二階段外部測試的結果,回饋前一階段的測試結果可以有效提升模型 效能。實驗編號2 為表現較好的模型,由此可得知,在藥物—疾病關係辨識實驗 中,回饋對S 型核函數模型效果比較好。