四、 結果與討論
4.2 實驗結果與討論
4.2.3 屬性分析
26.2 24.2* 24.8
Positive F-score 35.2 34.3* 34.7
Negative Recall 64.0 53.4〒 48.4
Negative Precision
〒
85.7 85.9 84.2
Negative F-score 73.1 65.1〒 57.7
Geometric Mean
〒
59.0 56.3〒 50.2
Overall Accuracy
〒
62.1 55.0〒 52.1
註:與 Bagging Under Sampling 之比較:* 表示 p-value < 0.05,〒表示 p-value < 0.001。
*
在總劑量預測分析中,bagging 演算法在整體準確度(overall accuracy)的表現上是最 好的。而利用 bagging 演算法,在 10-fold 交叉驗證中,因為每一次驗證都會產生 200 組 訓練資料集合,由這 200 個資料集合,我們可以產生 200 棵決策樹,因此,10 個 folds 總共會產生 2000 棵決策樹,以根部(root)為第一層,我們統計第一到第五層中,被決策 樹挑選為節點(node)的頻率為前十名之屬性,表 20 為統計結果,數字表示該屬性在該 層中的出現頻率,例如:contidose_24hr 在這 2000 棵決策樹中,被挑選為根部的頻率有 74.8%,為出現次數最高之屬性,而出現頻率第二名的屬性則是 contidose_23hr,有 18.4%。
48
從表 20 可以看出,出現頻率較高之屬性大多為使用 PCA 情況相關屬性,例如:
contidose_24hr、p_timediff_var_17hr 和 pcadose_21hr 等。此外,我們還發現,根部挑選 的屬性全數都是 contidose 屬性,但在第二層到五層,contidose 被挑選的次數就降低許 多。然而在第二層到第五層,被挑選到的屬性大多是 pcadose 居多。以這樣的結果看起 來,contidose 屬性是比 pcadose 屬性來得更為重要,這似乎和直覺有些差異,因為這是 一個使用 PCA 裝置的總劑量預測分析,照理說經由 PCA 裝置所注射的麻醉藥劑量應該 較為重要才對。因此,我們統計了所有的病患麻醉藥的來源比例,發現有 78.1%的病患 經由點滴方式被注射的麻醉藥劑量是高於經由 PCA 裝置被注射的劑量的,我們推測這 就是 contidose 屬性大多在根部被挑選到的原因。
我們再利用表 20 作進一步的運算,使第一層有較高的權重,反之第五層的權重最 低,以此方式計算所有出現在第一層到第五層中的出現頻率為前十高之所有屬性之重要 性,例如,contidose_24hr 為第一層出現頻率最高之屬性,出現頻率為 74.8%,而它在第 二層到第五層也均為前十高屬性之一,出現頻率分別為第二層的 4.5%、第三層的 12.9%、第四層的 11.6%和第五層的 8.6%,第一層的出現頻率有最高之權重,反之第五 層最低,因此,運算方式為,74.8*5+4.5*4+12.9*3+11.6*2+8.6*1,結果為 462.5,即以 此作為 contidose_24hr 屬性的分數,對表 20 所有有被挑選到的屬性計算該分數,再以 此分數排名,最後挑選出十個分數最高之屬性,為該預測分析中,我們覺得最為關鍵之 屬性,表 21 即為最後挑選之結果,可以看出,這十個較為關鍵之屬性大多為 contidose(病 患經由點滴所注射之單位小時麻醉藥劑量)和 pcadose(病患經由點滴所注射之單位小時 麻醉藥劑量)兩種屬性。
針對contidsoe的部分,我們利用單因子變異數分析(One-way ANOVA),分析contidose 所有的時間點(contidose_1hr~contidose_24hr)和總劑量分類結果之相關性,計算結果如表 22,” -log10
表 21
(p-value)”越高者即表示利用單因子變異數分析,該屬性為較為重要之屬 性。而從 得知,決策樹中被挑選到的contidose屬性有contiodose_24hr、contidose_23hr 和contidose_22hr三個時間點,計算這三個屬性的” -log10(p-value)”(如表 22)之平均值 為 152.4 。 此 外 , 我 們 再 利 用 蒙 地 卡 羅 法 (Monte Carlo method) , 從
49
contidose_1hr~contidose_24hr中隨機挑選出三個時間點,計算隨機挑選出的時間點之”
-log10
我們再計算contidose_1hr~contidose_24hr的” -log
(p-value)”之平均,結果為 113.1。可以證實從決策樹中挑選出的較為重要的三個 時間點的屬性,並非隨機挑選的結果,而是確實有較高之重要性。
10
而pcadose的部分,我們一樣利用單因子變異數分析(One-way ANOVA),分析pcadose 所有的時間點和總劑量分類結果之相關性,
(p-value)”之平均,發現超過該 平均值之間點共有 17 個,分別是 6hr、7hr、9hr、11hr~24hr的contidose,而從決策樹中 挑選到的三個關鍵之屬性為 22hr、23hr和 24hr,發現從單因子變異數分析中挑選到的重 要之屬性有 17.6%的比例也為從決策樹中挑選到的關鍵之屬性,而從決策樹中挑選到的 屬性則 100%均為單因子變異數中挑選到之屬性,以此計算出的F-score為 30%。
表 23 為其結果。決策樹中被挑選到的 pcadose屬性則有pcadose_9hr、pcadose_21hr、pcadose_3hr、pcadose_19hr和pcadose_2hr 五個時間點的pcadose,計算這五個屬性的” -log10(p-value)”之平均為 11.4。利用蒙地 卡羅法,從 24 個時間點中隨機挑選出五個時間點,計算隨機挑選出的時間點之”
-log10
和contidose相同,計算pcadose_1hr~pcadose_24hr的” -log
(p-value)”之平均,結果為 10.9。因此,從決策樹中挑選出較為重要的五個時間點 之pcadose屬性,可以證實並非隨機挑選的結果。
10
在過去的文獻中[
(p-value)”之平均,發現 有 10 個時間點超過該平均值,分別是 2hr、3hr、6hr、9hr、11hr、14hr、17hr、18hr、
20hr和 22hr的pcadose,而被決策樹中挑選到的五個關鍵之屬性為 2hr、3hr、9hr、19hr 和 21hr,發現從單因子變異數分析中挑選到的重要之屬性有 30%的比例也為從決策樹中 挑選到的關鍵之屬性,而從決策樹中挑選到的屬性則 60%均為單因子變異數中挑選到之 屬性,以此計算出的F-score為 40%。
35-40],都是以病患的生理資訊,例如,年齡、體重等,來做預測 分析,那在我們的研究中,我們除了使用病患的生理資訊外,還利用病患使用 PCA 裝 置的相關屬性用以預測分析,而從表 20 也可以看出,在總劑量預測分析中,這些病患 使用 PCA 裝置的相關屬性,的確也被決策樹挑選為較為重要之屬性。而在過去的研究 中,年齡[35-37]、性別[38-39]和體重[40]常被挑選為較為關鍵之屬性,因此,我們將這
50
三個屬性(age、sex 和 weight)和另外三個在過去文獻中並未被說明為較為重要之屬性 (BP_HIGH、BP_LOW 和 PULSE),分別和總劑量分類結果做相關性分析,結果如表 23,
可以看出年齡、性別和體重的確是有較高之相關性。而在我們的研究中,因為我們考量 了過去文獻中未被考慮之屬性,即病患使用 PCA 之相關情形,因此被決策樹挑選的關 鍵屬性均以此為主,但是過去文獻中提到的性別、年齡和體重和其他的生理資訊相比,
依舊為較為重要之屬性。
4.2.3.2 PCA 劑量預測
PCA 劑量預測分析的部分,所有演算法中在整體準確度(overall accuracy)的表現上 以 bagging 演算法為最佳,我們收集 bagging 演算法在 10-fold 交叉驗證時產生的 2000 棵決策樹,以根部(root)為第一層,統計 280 個屬性,被決策樹挑選為第一層到第五層的 節點(node),挑選次數為前十名之屬性,統計結果如表 25,數字表示被挑選為該層屬性 之頻率,例如,pcadose_9hr 在這 2000 棵決策樹中,被挑選為根部的頻率為 24.4%,為 出現頻率最高之屬性,而出現頻率第二名的屬性則是 pcadose_19hr,為 17.3%。
和總劑量預測分析相同,我們對表 25 作進一步的運算,以計算出的分數排名,挑 選十個分數最高之屬性如表 26,發現這十個較為關鍵之屬性大多為pcadose(病患經由點 滴所注射之單位小時麻醉藥劑量)屬性和p_timediff_mean(單位小時病患按壓PCA裝置時 間差之平均)屬性。因此我們利用單因子變異數分析(One-way ANOVA),分析pcadose所 有的時間點(pcadose_1hr~pcadose_24hr)和PCA劑量分類結果之相關性,表 27 為分析之 結果。而該預測分析中,被決策樹挑選到的pcadose屬性有pcadose_9hr、pcadose_6hr、
pcadose_19hr 、 pcadose_14hr 和 pcadose_11hr 五 個 時 間 點 , 這 五 個 屬 性 的 ” -log10(p-value)”之平均值為 44.9。一樣利用蒙地卡羅法,從pcadose_1hr~pcadose_24hr 中隨機挑選出五個時間點,計算隨機挑選出的時間點之” -log10
同樣地,我們計算pcadose_1hr~pcadose_24hr的” -log
(p-value)”之平均,結果 為 38.4。這說明了利用決策樹挑選出的較為關鍵之五個時間點的屬性,和隨機挑選的結 果相比,決策樹挑選的屬性確實有較高之重要性。
10(p-value)”之平均,發現超
51
過該平均值之間點共有 13 個,分別是 2hr~6hr、9hr、11hr、12hr、14hr、17hr、19hr、
20hr和 24hr的pcadose,而從決策樹中挑選到的五個關鍵之屬性為 6hr、9hr、11hr、14hr 和 19hr,從單因子變異數分析中挑選到的重要之屬性有 38.5%的比例也為從決策樹中挑 選到的關鍵之屬性,而從決策樹中挑選到的屬性則 100%均為單因子變異數中挑選到之 屬性,以此計算出的F-score為 55.6%。
而p_timediff_mean屬性亦同,利用單因子變異數分析(One-way ANOVA),分析 p_timediff_mean所有的時間點和PCA劑量分類結果之相關性,表 28 為其結果。決策樹 中 被 挑 選 到 的 p_timediff_mean 屬 性 有 p_timediff_mean_22hr 、 p_timediff_mean_14hr 、 p_timediff_mean_9hr和p_timediff_mean_17hr四個時間點的p_timediff_mean,這四個屬性 的” -log10(p-value)”之平均為 14.3。利用蒙地卡羅法,從 24 個時間點中隨機挑選出五 個時間點,計算隨機挑選出的時間點之” -log10
同樣地,我們計算p_timediff_mean_1hr~p_timediff_mean_24hr的” -log
(p-value)”之平均,結果為 10.54。因此,
從決策樹中挑選出較為重要的四個時間點之p_timediff_mean屬性,可以證實並非隨機挑 選的結果。
10
和總劑量預測分析相同,我們利用過去文獻中找出的關鍵之三個屬性(age、sex 和 weight)和另外三個並未被說明為較為重要之屬性(BP_HIGH、BP_LOW 和 PULSE),分 別和 PCA 劑量分類結果做相關性分析,結果如
(p-value)”
之平均,發現有 11 個時間點超過該平均值,分別是 4hr~6hr、9hr、11hr、12hr、14hr~17hr、
和 20hr的p_timediff_mean,而被決策樹中挑選到的四個關鍵之屬性為 9hr、14hr、17hr、
和 22hr,發現從單因子變異數分析中挑選到的重要之屬性有 27.3%的比例也為從決策樹 中挑選到的關鍵之屬性,而從決策樹中挑選到的屬性則 75%均為單因子變異數中挑選到 之屬性,以此計算出的F-score為 40%。
表 28,得知年齡、性別和體重的確是有 較高之相關性。在此研究中,我們考量了過去文獻中未被考慮的病患使用 PCA 裝置之 相關屬性,而被決策樹挑選到的屬性也大多為此屬性,但是過去文獻中提到的性別、年 齡和體重和其他的生理資訊相比,依舊為較為重要之屬性。
52
4.2.3.3 PCA 裝置調整設定調整預測
而 PCA 裝置參數設定調整預測分析,以 bagging + under sampling 再搭配資料清理 的結果,在 positive F-score 和幾何平均(geometric mean)的表現上是最佳的。而利用 bagging + under sampling,在 10-fold 交叉驗證中,一樣會產生 2000 棵決策樹,我們統 計 bagging + under sampling 搭配資料清理,在這 2000 棵決策樹中,所有 280 個屬性,
以根部(root)為第一層,統計第一到第五層中,被決策樹挑選為節點(node)的頻率前十高 的 屬 性 , 表 30 為 統 計 結 果 , 數 字 表 示 該 屬 性 在 該 層 中 的 出 現 次 數 , 例 如 : p_timediff_var_3hr 在這 2000 棵決策樹中,被挑選為根部的頻率為 36.3%,為出現次數
以根部(root)為第一層,統計第一到第五層中,被決策樹挑選為節點(node)的頻率前十高 的 屬 性 , 表 30 為 統 計 結 果 , 數 字 表 示 該 屬 性 在 該 層 中 的 出 現 次 數 , 例 如 : p_timediff_var_3hr 在這 2000 棵決策樹中,被挑選為根部的頻率為 36.3%,為出現次數