第四章 研究結果與討論
第二節 研究討論與建議
現準確率偏低的情況發生。而 Hybrid method 的判別基準與支持向量機的分類器 方式相同,會隨著支持向量數(support vector numbers)而影響判別的分類與預測,
對生物行為評估專案資料進行變數縮減,支持向量機對此有提升正確率,不過 Hybrid method 卻是下降。Hybrid method 帶有維度縮減的概念,故先用 t-test 篩 選變數後,可能造成過多資訊的遺失,分類能力下降。而在使用原始資料情況下,
分類能力比支持向量機的表現好。未來可探討在此種兩類別幾何過於類似的資
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
18
料,Hybrid method 是否需做事先的維度縮減並如何保留資料的異質性,以利分 類效果提升。
圖 7. 加權資料 B 的資料雲幾何樹
圖 8. 加權資料 B 的階層式分群
月亮模擬資料以使用支持向量數判別資料表現較差,在圖 2 中訓練集資料 (黑色部分)所選出的支持向量數會在圖中的左半邊居多,而測試集資料(紅色部 分)則皆不在左半邊,使得以此為基準判別資料的演算法會無法準確地預測出優 良的結果。而 Hybrid method 則會改進支持向量機的判別方式,多增加出一超平 面使得資料可藉由兩個超平面到資料個體間的距離得以改進,會使得演算法不易 預測出偏頗的結果。而資料雲幾何樹所使用餘弦相似度方法藉由所有個體間的關
‧
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
20
行總結。這些實驗結果可以幫助研究人員在今後的機器學習研究中選擇合適的距 離公式。另外,這些既有的距離計算方式或機器學習演算法,多為假設資料間有 線性關係或獨立且分佈相同,然而在現在的大量數據下,這些假設變得不切實際,
改良過往的計算方式勢必為未來的趨勢。大數據下多樣化的變數會帶來更多有用 的資訊,亦或是更多的干擾,如何去計算數據的幾何關係,審慎評估變數間的關 係,並得搭配相關專家的領域知識,繼而去找出適合的變數,計算出數據的幾何 關係,提升機器學習的準確性。
‧
algorithms: Bagging, boosting, and variants. Machine learning, 36(1-2),105 -139.Baldi, P., & Brunak, S. (2001). Bioinformatics: the machine learning approach. MIT press.
Cortes, C.; Vapnik, V. (1995). Support-vector networks. Machine Learning 20 (3):273.
doi:10.1007/BF00994018.
Chou, E. P. (2015, July). Data Driven Geometry for Learning. In International Workshop on Machine Learning and Data Mining in Pattern Recognition (pp. 395 -402). Springer International Publishing.
Chou, E. P., Hsieh, F., & Capitanio, J. (2013, December). Computed Data-Geometry Based Supervised and Semi-supervised Learning in High Dimensional Data. In Machine Learning and Applications (ICMLA), 2013 12th International Conference on (Vol. 1, pp. 277-282).
Chang, Y. C. I. (2003). Boosting SVM classifiers with logistic regression. See www.
stat. sinica. edu. tw/library/c_tec_rep/2003-03. pdf.
Culp, M. (2011). spa: A Semi-Supervised R Package for Semi-Parametric Graph-Based Estimation. Journal of Statistical Software, 40(10), 1-29.
Fushing, H., Wang, H., VanderWaal, K., McCowan, B., & Koehl, P. (2013). Multi -scale clustering by building a robust and self correcting ultrametric topology on data points. PloS one, 8(2), e56259.
Grozavu, N., Bennani, Y., & Lebbah, M. (2009, June). From variable weighting to cluster characterization in topographic unsupervised learning. In Neural
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
22
Networks, 2009. IJCNN 2009. International Joint Conference on (pp. 1005 -1010). IEEE.
Hastie, T., Tibshirani, R., Friedman, J., & Franklin, J. (2005). The elements of statistical learning: data mining, inference and prediction. The Mathematical Intelligencer, 27(2).
Tan, A. C., & Gilbert, D. (2003, January). An empirical comparison of supervised machine learning techniques in bioinformatics. In Proceedings of the First Asia -Pacific bioinformatics conference on Bioinformatics 2003-Volume 19 (pp. 219 -222). Australian Computer Society, Inc..