• 沒有找到結果。

Baldi 與 Brunk 於 Bioinformatics: the machine learning approach.(2001)序言指 出:“As a result, the need for computer / statistical / machine learning techniques is today stronger rather than weaker.”,機器學習方法對於現在與未來生活佔有一席 之地,且一點一滴影響著我們的生活,如 E-MAIL 收信時會有信件系統自動過濾

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

2

間的關係,會使用資料雲幾何樹(Data Cloud Geometry Tree)、階層式分群法 (Hierarchical clustering)、支持向量機(Support Vector Machine)、Hybrid method 與 抽樣多數決投票法(Voting)演算法計算出分類正確率。此篇論文欲使用權重與改 進(boost)演算法,提升機器學習演算法的正確率,從資料所包含幾何特徵資訊所 得加權係數,本篇所運用加權方式是經由配適模型後所得加權係數來探討數據間 的幾何關係,探討在有使用距離矩陣的演算法中是否能有效提升正確率,考慮的 距離計算公式為歐氏距離與相關係數矩陣,也是最常使用與計算距離矩陣的方 式。將會使用三筆不同資料型態觀察分類結果,其中有兩筆資料使用監督式學習,

一筆資料使用半監督式學習。

(BioBehavioral Assessment Project)所蒐集的結果,觀察北印度恆河幼兒猴的生物 行為特徵,所有特徵觀察值記錄著數值資料。由錄影帶錄製猴子的生活,每隻猴 變數與 185 個行為變數在監督式學習方法且使用交叉驗證(cross-validation)分類 正確率。如圖 1 所示,圖中已將變數值全為 0 的變數移除,剩 184 個解釋變數。

且將資料內有值皆顯示為淺藍色,值為 0 則顯示為白色,可明顯看出此資料變數 中的 0 值相當多。紅色區隔線將高度緊張與低度緊張的猴子區隔,上半部為低度 緊張猴子,下半部為高度緊張猴子。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

4

圖 1. 生物行為評估專案熱圖

第二筆資料為 Culp M (2001)所使用的月亮模擬資料,此筆資料生成出 1000 個樣本、分類變數為二元類別變數與 2 個解釋變數,故將兩個解釋變數依二維座 標畫出,則會呈現左上與右下各呈現半月型資料型態,圖 2 所示。左上部分與右 下部分為兩種類別,黑色部分為訓練集資料,而紅色部分為測試集資料。欲將使 用半監督式學習方法預測訓練集資料的正確率。

圖 2. 月亮模擬資料

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

5

第三筆資料為美國威斯康辛州診斷乳癌資料集(Breast Cancer Wisconsin Diagnostic),在 Boosting SVM classifiers with logistic regression. (Chang Y. C. I. 2003) 有將此資料做驗證分類結果。此資料為 UC Irvine Machine Learning Repository 網 站所收集的公開資料,資料樣本有 569 個,分類變數為二元分類變數,診斷出是 否癌症為惡性或良性,解釋變數共有 30 個,且其中包含半徑、周長、平滑度、

緊密度等各項屬性特徵,故將會使用監督式學習方法且使用交叉驗證(cross-validation)分類正確率。如圖 3 所示資料分布均勻,且紅色區隔線將診斷出是否 癌症為惡性與良性區隔,上半部為癌症是良性,下半部為癌症是惡性。

圖 3. 美國威斯康辛州診斷乳癌資料

算法,如: Bauer E.與 Kohavi R. (1999)、Grozavu N.等人(2009, June)。改進過後演 算法在監督式學習方法下能運用在弱學習者(weak learner)上,使原資料若為弱學 (Self-Organizing Map method)與加權演算法改進出 local weighting distance-SOM、local weighting observations-SOM,目的使其分群後的群聚間比原自我組織映射圖法更

相關文件