• 沒有找到結果。

數據幾何特徵的機器學習 - 政大學術集成

N/A
N/A
Protected

Academic year: 2021

Share "數據幾何特徵的機器學習 - 政大學術集成"

Copied!
28
0
0

加載中.... (立即查看全文)

全文

(1)國立政治大學統計學系研究所 碩士學位論文. 數據幾何特徵的機器學習 A study of Data政 Geometry-based Learning 治. 大. 立. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 指導教授 : 周珮婷 博士 研究生: 劉憲忠. 中. 華. 民 國. 一 ○ 五. 撰. 年. 六. 月.

(2) 摘要 本研究著重於數據的幾何模式以了解資料變數間的關係,運用統計模型配適 所得的係數加權於距離矩陣上,是否能有效提升正確率。本研究主要使用資料雲 幾何樹及餘弦相似度方法與抽樣多數決投票法判別預測資料類別,另外並與階層 式分群法、支持向量機、Hybrid 法於三筆不同資料的分類結果比較,其中有兩. 筆為生物行為評估專案資料與美國威斯康辛州診斷乳癌資料,使用監督 式學習驗證資料分類結果,另一筆月亮模擬資料,使用半監督式學習預. 政 治 大 資料數據的幾何,確實需要嘗試不同公式與演算法來達到好的機器學習結果。 立. 測新資料分類結果。最後,各方法的優劣性與原因將被探討與總結,可知不同. ‧. ‧ 國. 學. 關鍵字:機器學習、幾何模式。. n. er. io. sit. y. Nat. al. Ch. engchi. I. i n U. v.

(3) Abstract The study focuses on the computed data-geometry based learning to discover the inter-dependence patterns among covariate vectors. In order to discover the patterns and improve classification accuracy, the distance functions are modified to better capture the geometry patterns and measure the association between variables. A comparison of the performance of my proposed learning rule to the other machine learning techniques will be summarized through three datasets. In the end, I. 政 治 大. demonstrated why the concept of geometry patterns is essential.. 立. ‧. ‧ 國. 學. Keyword: machine learning, data-geometry.. n. er. io. sit. y. Nat. al. Ch. engchi. II. i n U. v.

(4) 目次. 第一章 緒論......................................................... 1 第一節 研究動機與目的 ............................................. 1 第二節 資料敘述 ................................................... 3 第二章 文獻探討..................................................... 6 第三章 研究方法..................................................... 8. 政 治 大 資料雲幾何樹(Data 立 Cloud Geometry Tree).................... 8. 第一節 演算法介紹 ................................................. 8 一、. 支持向量機(support vector machine)....................... 11. 三、. Hybrid method............................................ 11. 四、. 階層式分群法(Hierarchical clustering).................... 12. 五、. 抽樣多數決投票法(Voting)................................. 12. ‧. ‧ 國. 學. 二、. y. Nat. io. sit. 第二節 研究過程與方法 ............................................ 13. n. al. er. 第四章 研究結果與討論.............................................. 15. Ch. i n U. v. 第一節 研究結果 .................................................. 15. engchi. 第二節 研究討論與建議 ............................................ 17 參考文獻........................................................... 21. III.

(5) 表次 表格 1. 生物行為評估專案資料使用各演算法分類驗證結果............... 15 表格 2. 月亮模擬資料使用各演算法預測結果....................................... 16 表格 3. 美國威斯康辛州診斷乳癌資料使用各演算法分類驗證結果... 16. 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. IV. i n U. v.

(6) 圖次 圖 1. 生物行為評估專案熱圖..................................................................... 4 圖 2. 月亮模擬資料..................................................................................... 4 圖 3. 美國威斯康辛州診斷乳癌資料......................................................... 5 圖 4. EW 數列圖 ........................................................................................ 10 圖 5. 樹狀圖結果與分群依據................................................................... 10 圖 6. 判定餘弦相似度方法,經高斯平滑密度函數的結果................... 14. 政 治 大 圖 8. 加權資料立 B 的階層式分群 .............................................................. 18 圖 7. 加權資料 B 的資料雲幾何樹 .......................................................... 18. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. V. i n U. v.

(7) 第一章 緒論. 第一節 研究動機與目的 隨著資訊科技普及化,蒐集資料及儲存資料變得相當便利,欲研究目標能夠 方便記錄且蒐集大量多樣化資訊,在每種不同資料中都會充斥著統計符號與數字 且資料樣本數量也愈來愈大。資料量過大情況下,若是經由人力去判別資料本身 會相當耗時且會因不同人判別而有不同的標準。故進而需要由電腦代替人力判別. 政 治 大. 資料,則可省下大量人力去判別資料屬於何組分類或何組群聚。也愈來愈多企業. 立. 重視本身所擁有資料,想進行資料維護與保存品質較佳的資料訊息,再加以往更. ‧ 國. 學. 深層挖掘潛在資訊,故機器學習會是近年引人矚目的理論與工具。 Baldi 與 Brunk 於 Bioinformatics: the machine learning approach.(2001)序言指. ‧. 出:“As a result, the need for computer / statistical / machine learning techniques is. y. Nat. sit. today stronger rather than weaker.”,機器學習方法對於現在與未來生活佔有一席. n. al. er. io. 之地,且一點一滴影響著我們的生活,如 E-MAIL 收信時會有信件系統自動過濾. i n U. v. 是否為垃圾信件或是不感興趣信件,盡量顯現出重要信件與感興趣信件節省瀏覽. Ch. engchi. 信件時間,抑或者是網路搜尋引擎能快速分辨何一搜尋目的將會是搜尋者最感興 趣的主題或結果。隨著電腦計算日新月異,所花費計算時間將大幅縮短,過去擁 有的方法論與演算法,皆能在現今電腦計算下較快得到結果。放眼未來,演算法 的速度定會上往更高一步發展。然而現今所擁有的演算法該著重於計算快速但不 夠精準演算法,或者是選擇計算不快但卻相當精準的演算法呢?我認為答案是不 一定,我認為現今演算法都選擇前者居多,但未來電腦計算能力提升,則後者將 會大放異彩。 本研究著重於數據間的幾何關係與修改資料幾何特徵,使更能了解資料變數 1.

(8) 間的關係,會使用資料雲幾何樹(Data Cloud Geometry Tree)、階層式分群法 (Hierarchical clustering)、支持向量機(Support Vector Machine)、Hybrid method 與 抽樣多數決投票法(Voting)演算法計算出分類正確率。此篇論文欲使用權重與改 進(boost)演算法,提升機器學習演算法的正確率,從資料所包含幾何特徵資訊所 得加權係數,本篇所運用加權方式是經由配適模型後所得加權係數來探討數據間 的幾何關係,探討在有使用距離矩陣的演算法中是否能有效提升正確率,考慮的 距離計算公式為歐氏距離與相關係數矩陣,也是最常使用與計算距離矩陣的方 式。將會使用三筆不同資料型態觀察分類結果,其中有兩筆資料使用監督式學習, 一筆資料使用半監督式學習。. 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. 2. i n U. v.

(9) 第二節 資料敘述 本 研 究 第 一 筆 資 料 為 加 州 大 學 Capitanio 博 士 的 生 物 行 為 評 估 專 案 (BioBehavioral Assessment Project)所蒐集的結果,觀察北印度恆河幼兒猴的生物 行為特徵,所有特徵觀察值記錄著數值資料。由錄影帶錄製猴子的生活,每隻猴 子觀察週期為 25 小時,將猴子放置在不同環境,並記錄著猴子行為。於觀察時 間結束時,所有猴子都回到猴子母親身邊,且實驗人員評估每隻猴子的性情。欲 知猴子是否有性情處於焦慮與緊張性情,可由猴子的血液中得知兩種情況,為高. 政 治 大 0。所蒐集資料來自兩種行為評估,第一種為評估觀察關在獸籠的猴子,共收集 立. 度緊張與低度緊張。若猴子處於高度緊張的性情,則紀錄為 1,反之,則紀錄為. 兩次,資料按天數收集兩次,第一次是在第一天動物進入實驗室時,第二次則在. ‧ 國. 學. 第二天動物回到母親身邊前。第二種為針對人類干擾作用的測驗,每一動物將給. ‧. 予四次測驗,每一次測試中會有陌生人按指引位置陪伴著動物。原始資料共有. y. Nat. 1907 隻猴子與 207 個行為變數,行為變數中包含飲食、搔癢、肢體動作等多種. er. io. sit. 行為變數。1907 隻猴子中,只留下已判定猴子確定是否處於高度緊張或低度緊 張的猴子,共有 1534 隻。其中有 14 隻猴子內所記錄的數值有遺失值,無法做為. al. n. v i n 分析所用,故將其刪除不予討論。207 C h 個屬性變數中將類別變數與含有遺失值變 engchi U 數刪除不予討論,最後欲研究的資料型態為 1520 隻猴子、分類變數為二元類別. 變數與 185 個行為變數在監督式學習方法且使用交叉驗證(cross-validation)分類 正確率。如圖 1 所示,圖中已將變數值全為 0 的變數移除,剩 184 個解釋變數。 且將資料內有值皆顯示為淺藍色,值為 0 則顯示為白色,可明顯看出此資料變數 中的 0 值相當多。紅色區隔線將高度緊張與低度緊張的猴子區隔,上半部為低度 緊張猴子,下半部為高度緊張猴子。. 3.

(10) 圖 1. 生物行為評估專案熱圖. 學. ‧ 國. 立. 政 治 大. ‧. 第二筆資料為 Culp M (2001)所使用的月亮模擬資料,此筆資料生成出 1000. sit. y. Nat. 個樣本、分類變數為二元類別變數與 2 個解釋變數,故將兩個解釋變數依二維座. al. er. io. 標畫出,則會呈現左上與右下各呈現半月型資料型態,圖 2 所示。左上部分與右. v. n. 下部分為兩種類別,黑色部分為訓練集資料,而紅色部分為測試集資料。欲將使. Ch. engchi. 用半監督式學習方法預測訓練集資料的正確率。. i n U. 圖 2. 月亮模擬資料 4.

(11) 第三筆資料為美國威斯康辛州診斷乳癌資料集(Breast Cancer Wisconsin Diagnostic),在 Boosting SVM classifiers with logistic regression. (Chang Y. C. I. 2003) 有將此資料做驗證分類結果。此資料為 UC Irvine Machine Learning Repository 網 站所收集的公開資料,資料樣本有 569 個,分類變數為二元分類變數,診斷出是 否癌症為惡性或良性,解釋變數共有 30 個,且其中包含半徑、周長、平滑度、 緊密度等各項屬性特徵,故將會使用監督式學習方法且使用交叉驗證(crossvalidation)分類正確率。如圖 3 所示資料分布均勻,且紅色區隔線將診斷出是否 癌症為惡性與良性區隔,上半部為癌症是良性,下半部為癌症是惡性。. 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 圖 3. 美國威斯康辛州診斷乳癌資料. 5.

(12) 第二章 文獻探討 在機器學習方法中,投票法(voting)與加權法(weighting)為常見的改進過後演 算法,如: Bauer E.與 Kohavi R. (1999)、Grozavu N.等人(2009, June)。改進過後演 算法在監督式學習方法下能運用在弱學習者(weak learner)上,使原資料若為弱學 習者時能改進分類準確率,也會修正過度配適(over-fitting)問題,抑或能使用變數 選擇也是在監督式學習中常見使正確率最大化的方法之一。而在非監督式學習中 並沒有分類變數可知,故一般常見演算法普遍性降低不顯著變數性質,但若存在. 政 治 大 投票法與加權法且愈來愈重要 立 。常耳熟能知的分群法為 KMEANS 與階層式分群, 離群值過多,則可能出現反效果。為探討處理每筆資料中所存在問題,則衍生出. ‧ 國. 學. kmeans 是以重複運算中心點方式決定分群,階層式分群則會使用距離矩陣來決 定各個體間的距離關係,計算個體間關係的距離公式眾多。最常用使用為歐氏距. ‧. 離與相關係數,歐氏距離可知曉個體間的距離,愈小者代表愈接近,相關係數則. sit. y. Nat. 可知曉個體間的相關程度,愈大者代表愈相關,也就是關係愈接近。. n. al. er. io. Grozavu N. 等 人 於 2009 年 使 用 分 群 演 算 法 中 自 我 組 織 映 射 圖 法 (Self-. v. Organizing Map method)與加權演算法改進出 local weighting distance-SOM、local. Ch. engchi. i n U. weighting observations-SOM,目的使其分群後的群聚間比原自我組織映射圖法更 具有代表性,且也驗證能有效地在高維度資料下加權分群。Grozavu N.等人認為, 在分群法中使用變數選擇是存在困難性,因為資料沒有分類變數的依據,無法明 顯地判斷分群後的結果是好是差,故改進自我組織映射圖分群演算法,使每個群 聚間具有同質性。Tan A. C.和 Gilbert D. 2003 年 1 月使用多種分類演算法在探討 不同資料的準確性,且認為改進過後演算法會優化訓練集過度配適(over-fitting) 問題,使改進過後演算法必會生成較好的分類結果,就如此篇結果支持向量機演 算法的結果並沒有優於其他改進過後演算法,可能由於訓練集無法由向量空間完 全分離,故需要多方與其他演算法比較並找出最適合資料本身的演算法。 6.

(13) Chang Y. C. I. 於 2003 年使用支持向量機選擇核函數(kernel function)中線性 分離搭配羅吉斯回歸(logistic regression)方法將演算法改進,其目的為了解決支持 向量機在處理具有異質性(Heterogeneity)與不平衡(imbalance)資料可能會有較不 令人滿意的執行結果,在決定分類演算法如何使用何種加權方式是有待釐清的一 件事。此篇使用 Hybrid method,運用羅吉斯回歸模型整合局部性分類法(local classifiers),將統計模型理論的優點找出最佳權重方式。且本研究所用生物行為 評估專案資料與美國威斯康辛州診斷乳癌資料的資料型態具有不平衡資料條件, 需要善加利用加權方式修正單一分類法的正確率。加權法與投票法會因不同資料. 政 治 大 類演算法變得更加穩健,才能使資料本身為異質性抑或是不平衡資料的情況能加 立. 條件資訊下而使用不同種方式改進演算法,而加權方式能藉由統計模型理論使分. 以改進與提升。. ‧ 國. 學. 本篇使用非監督式學習的資料雲幾何樹與階層式分群皆會使用距離矩陣來. ‧. 決定個體間關係,故本研究使用歐氏距離判別個體間距離關係與使用斯皮爾曼等. y. Nat. 級(Spearman rank)相關係數判別個體間相似性。而使用監督式學習的支持向量機. er. io. sit. 與 Hybrid method 是以歐氏距離判別個體間的相互關係。每筆資料使用的距離關 係都不相同,應配合資料架構而決定用何種距離公式。綜合以上,變數選擇、決. al. n. v i n 定距離矩陣、投票法與加權法皆是值得共同探討的議題。 Ch engchi U. 7.

(14) 第三章 研究方法. 第一節 演算法介紹 一、. 資料雲幾何樹(Data Cloud Geometry Tree). 由 Fushing H.等人於 2013 年提出演算法,其目的取得資料中幾何結構的特 徵。運算方式主要由距離矩陣在多個不同尺度下找出資料結構,再由多個不同尺. 政 治 大 先將資料算出距離矩陣 立D,常見距離矩陣有歐氏(歐幾里德)距離矩陣、相關. 度所找出資料結構資訊,總結出最後的資料雲幾何樹。運算步驟如下: 1.. ‧ 國. 學. 係數矩陣,本研究會使用歐氏距離與斯皮爾曼相關係數來決定距離矩陣,欲 算出 W 矩陣,W 矩陣為 D 矩陣的轉換。若 D 為歐氏距離矩陣,則 W=e-D,. ‧. 若 D 為相關係數矩陣,則 W=|D|,且對角線設為 0,wij 愈大表示 i 跟 j 愈相. sit. y. Nat. 近,愈可能分為同一群聚,反之,愈小則表示較遠,愈不可能分為同一群聚。. al. er. io. 接著加上溫度尺度 T,即 ST=W-T,當溫度尺度愈大,則距離差異愈小,故不. v. n. 容易區分出多群聚,當溫度尺度愈接近 0,則距離差異會愈大,故容易分出 多群聚。 2.. Ch. engchi. i n U. 運用 MCMC(Markov chain Monte Carlo),計算 MT 馬可夫轉變機率矩陣 (Markovian transition probability matrix),即 MT=DT-1ST,D 矩陣為 W 的列總 和的對角項矩陣。為了產生 M 矩陣,先選擇一個 T,且隨機產生出一個資 料中個體數 i,將 ST 中第 i 列加總,再將第 i 列除以加總後的總數,所得這 一列即為個體 i 到其他個體的發生機率,照該機率抽出一個 j 後,重複上述 動作數次,執行到所有個體都被選中為止,則演算法停止。為避免個體間相 近相似居多,當同一個體被選中 N 次後,就將此個體去除,使演算法不會再 選中此個體,本研究將 N 設定為 10 次,直到每個體被選中到被移除會記錄 8.

(15) 共選中幾次,被選中的順序與次數畫出頻率圖。因為每群中第一個被選中個 體到被移除之前定是選中最多次的個體,故可把每一高頻率與到下一個高頻 率之間的所有個體歸類為同一群,則可將每個個體經由這準則分群,並創造 出一個 M 矩陣,當第 i 個與第 j 個個體分群在同一群,則 mij 為 1,反之為 0。 3.. 重複步驟 2 動作 1000 次,將 1000 次所算出 M 矩陣內元素全部加總再除以 1000,則可算出同群機率矩陣 K,矩陣內元素 kij 表示第 i 個與第 j 個同群的 機率。則可以用同群機率矩陣 K 來決定選擇溫度尺度與判定資料分成幾個. 政 治 大 藉由同群機率矩陣 K 決定群聚數,將同群機率矩陣 K 每一行加總後開根號 立 群聚的準則。. 4.. 所得值填入矩陣 Din 的對角項位置,產生出的矩陣 Din 為對角項矩陣,運用. ‧ 國. 學. Din 矩陣產生矩陣 Lsy,即 Lsy=In-Din*K*Din,n 為資料樣本數,用 Lsy 矩. ‧. 陣的特徵值λ = (λ1 , λ2 , … , λ𝑛 )產生 EW 數列,即 EW=1-λ/λ1 並排序由大至小,. y. Nat. 觀察值趨勢平穩狀態,平穩前共有幾個點則決定將該組分群之依據,如圖 4。. er. io. sit. 再將矩陣內元素全為 1 的矩陣減去同群機率矩陣 K 得矩陣 L,將 L 矩陣做 為距離矩陣用於階層式分群法畫出分群樹,如圖 5。以圖 4 與圖 5 為例,觀. al. n. v i n 察特徵值排序後前兩點後趨近平穩且分群樹也能依圖 5 所切高度能分 2 群, Ch engchi U 依此類推則可判定不同尺度下的各個群數。 5.. 最終由步驟 4 可判斷所有不同尺度下的群數,將所有不同尺度總結群數出最 後的資料雲幾何樹,為此演算法所求目的。. 9.

(16) 圖 4. EW 數列圖. 立. 政 治 大. n. er. io. al. sit. y. ‧. ‧ 國. 學. Nat. 圖 5. 樹狀圖結果與分群依據. Ch. engchi. 10. i n U. v.

(17) 二、. 支持向量機(support vector machine). 由 Cortes C.與 Vapnik V.於 1995 年所提出的演算法,同時運用於線性及非線 性資料的分類演算法。它將原始資料轉換到更高的維度。這些維度上,它可以利 用在訓練資料集中所謂的支持向量(support vectors)來找到超平面(hyperplane),以 用來分類資料。支持向量機主要是在尋找具有最大邊際的超平面,也就是最大邊 際超平面(maximum marginal hyperplane),因為其具有較高的分類準確性。參數部 分,本研究中所用到的核函數(kernel function)為:linear 函數、Radial basis 函數,. 政 治 大. Alpha 參數為資料維度的倒數,處罰係數為 1。. 立. Hybrid method. 學. ‧ 國. 三、. 此方法由 Chang Y. C. I.於 2003 年提出,主要使用方法為支持向量機與羅吉. ‧. 斯回歸。主要想解決資料本身具有異質性資料與不平衡性資料為目的,因為資料. y. Nat. 本身具有異質性資料與不平衡性資料可能會使分類出較差模型與較差預測能力,. er. al. v i n 若分類變數為 0 的資料較多,則將資料運用 kmeans 分群法將分類變數為 0 Ch engchi U n. 1.. io. 方法,步驟如下:. sit. 故運用支持向量機重新定義資料間關係,配合羅吉斯回歸模型理論,整合出新的. 的資料分成兩群 C1 與 C2,分類變數為 1 的資料(C0)與 C1、C2 聯集成兩個子 集。 2.. 分別將合併為兩筆資料 C0 ∪ C1 與 C0 ∪ C2,分別將兩子集由支持向量機線 性分類方法(linear classifiers),計算出兩個超平面(hyperplane),每個體資料離 兩個超平面距離(signed distance)當解釋變數,產生出新的資料解釋變數。. 3.. 藉由新的解釋變數配適羅吉斯回歸判別分類。. 4.. 使用一次挑一個(leave-one-out)做交叉驗證(cross validation)其正確率。. 11.

(18) 四、. 階層式分群法(Hierarchical clustering). 為常見分群演算法,透過階層架構方式,將資料每層反覆進行分裂或聚合, 以產生最後之樹狀結構。以算出距離矩陣為主要分群所用,本研究使用歐氏距離 與斯皮爾曼相關係數矩陣做為距離矩陣,且使用華德(Ward)法定義群聚間距離, 即群聚間的距離定義為在兩群合併後,各點到合併後的群中心的距離平方和。. 五、. 抽樣多數決投票法(Voting). 政 治 大 研究資料 0 與 1 之個數比約為 3 比 2,故計算群間 0 與 1 數量比採用 3 比 2 進行 立 用階層式分群法與資料雲幾何樹將資料分群,計算群間 0 與 1 數量比,假設. 投票,若該群投票結果為 0 數量較多,則判定此群全為 0,反之,投票結果為 1. ‧ 國. 學. 數量較多,則判定此群全為 1。共模擬 800 次,計算每個樣本所得 0 與 1 次數,. ‧. 較多者則決定為該分類。而本研究會使用抽樣多數決投票法搭配階層式分群法與. n. al. er. io. sit. y. Nat. 資料雲幾何樹分群法。. Ch. engchi. 12. i n U. v.

(19) 第二節 研究過程與方法 生物行為評估專案資料共有 1520 隻猴子,其有 1 個二元分類變數與 184 個 解釋變數做資料變數選取,因為解釋變數中含有 0 值的變數過多,故主觀認定先 將解釋變數裡含有 1517 個 0 以上的變數刪除,故得資料 A,其為 1520 隻猴子與 156 個解釋變數。接著將資料 A 中高度緊張與低度緊張的猴子用 t-test mean 檢定 是否平均值具有顯著差異性,將有顯著差異的解釋變數留下,縮減變數後得資料 B,其資料 B 共有 37 個解釋變數,由於資料縮減變數後的資料 B 中,有 25 隻猴. 政 治 大 將 25 隻視為離群值刪除,因為本研究中判定資料所使用餘弦相似度(Cosine 立. 子的解釋變數全部為 0,其中包含低度緊張猴子有 15 隻與高度緊張猴子有 10 隻,. similarity method)將會無法使用,故決定將其 15 隻猴子刪除不做討論,故資料 B. ‧ 國. 學. 的資料型態為 1495 隻猴子與 37 個解釋變數。最後則將會以資料 A 與資料 B 為. ‧. 研究探討資料。而第二筆月亮模擬資料與第三筆美國威斯康辛州診斷乳癌資料集. y. Nat. 並未做資料變數縮減。故將上述三筆資料用於比較演算法其優劣、決定個體間關. er. io. sit. 係與是否適合用於加權演算法使用。. 監督式學習的加權方式是使用 Chou 等人於 2013 年所使用由資料各個變數. al. n. v i n 經由羅吉斯回歸配適結果,所得解釋變數估計值與標準誤,將兩值相除後,所得 Ch engchi U. 為 z 值。作為每一解釋變數之加權係數 W=(w1,w2,…wn)。此加權係數乘上資料 A 與資料 B 的每一個解釋變數後,所得資料 AW 與資料 BW,將加權過後的歐氏距 離與斯皮爾曼相關係數資料間的關係計算出距離矩陣且對每個矩陣內元素取絕 對值,即可得加權過後距離矩陣 D*。而本研究會使用此距離矩陣 D*為資料雲幾 何樹、抽樣多數決投票法搭配階層式分群法與抽樣多數決投票法搭配資料雲幾何 樹分群法來觀察加權對於這三種演算法是否會改進增強演算法的正確率。而其中 算資料雲幾何法分群,可由資料雲幾何樹總結出各個不同尺度下的資料結構。再 經由 Chou 於 2015 年所使用餘弦相似度方法(Cosine similarity method)判斷各個 13.

(20) 群聚間之內個體間之相似程度,以此判別分類變數。每一群群聚裡的每一個體可 由目標欲判定個體與其他個體的反應變數為 0 自成一組,而目標欲判個體與其他 個體的反應變數為 1 自成一組,共會分成兩組,兩組每一個體皆取夾角,則得兩 組夾角向量,夾角向量使用高斯平滑密度函數(Gaussian smooth density function), 可判斷何組經由函數轉換後是較大的組,則判定較大組別為此組的分類變數,再 與原本個體的分類變數做比較,判定分類正確率。其餘弦相似度方法,依上述所 說的方法分為紅組與藍組,圖 6 為例,取兩組 y 軸的最大值,y 軸最大值的 x 軸 位置,比較 x 軸位置上的值何組較大,較大者則判定為該組別,依此例中藍組為 較大組。. 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 圖 6. 判定餘弦相似度方法,經高斯平滑密度函數的結果. 14.

(21) 第四章 研究結果與討論. 第一節 研究結果 因為生物行為評估專案資料與美國威斯康辛州診斷乳癌資料本身並沒有測 試集資料(testing set)能檢測模型是否配適正確,所以支持向量機-RBF 與 Hybird method 皆使用一次挑一個(leave-one-out)做交叉驗證(cross validation)來檢測資料 本身模型配適有無過度配適(over-fitting)問題存在。資料雲幾何樹以相同一次挑. 政 治 大 料分類後所得正確率。抽樣多數決投票法(Voting)重複模擬 800 次模擬原資料本 立 一個交叉驗證概念,使用餘弦相似度驗證,有著每個點間互相夾角關係,驗證資. ‧ 國. 學. 身的資料架構,生物行為評估專案資料依分類變數比例 3:2 抽出 150 個樣本,月 亮模擬資料依分類變數比例 1:1 抽出 200 個樣本,美國威斯康辛州診斷乳癌資料. ‧. 依分類變數比例 5:3 抽出 160 個樣本,此方法計算出正確率也具有驗證效果。決. sit. y. Nat. 定距離矩陣的部分,生物行為評估專案資料使用斯皮爾曼相關係數做為距離矩. al. n. 矩陣。. er. io. 陣,而月亮模擬資料與美國威斯康辛州診斷乳癌資料則是皆用歐氏距離做為距離. Ch. engchi. i n U. v. 表格 1. 生物行為評估專案資料使用各演算法分類驗證正確率結果 DCG SVM-RBF. Hybrid. Voting Voting HC. cosine 資料 A. DCG. 61.472%. 80.921%. 64.934%. 資料 AW. 61.382%. 82.368%. 63.553%. 資料 B. 61.482%. 80.870%. 64.749%. 61.204%. 82.542%. 63.813%. 61.184%. 64.749%. 66.382%. 64.214%. 資料 BW. 15.

(22) 由表.1 可知,共有四個資料比較其各個演算法分類正確率。因支持向量機與 Hybrid method 並無使用距離矩陣,故並未加權。而加權方式對於使用資料雲幾 何樹與抽樣多數決投票法搭配資料雲幾何樹並未提升正確率,而在抽樣多數決投 票法搭配階層式分群法而言,資料 A 與資料 B 皆有正確率提高約 2%的改進結 果。驗證結果也是所以演算法表現中最佳。Hybrid method 對於支持向量機的正 確率在資料 A 的型態下有提升約 5%,而在資料 B 的型態下並未提升。 表格 2. 月亮模擬資料使用各演算法預測正確率結果 SVM-RBF Hybrid DCG cosine Voting HC Voting DCG 資料未加權 64.8%. 立. 資料加權. 93.6% 治 政 84.4% 大83.2% 82.4%. 93.6%. 76.8%. 86%. ‧ 國. 學. 如表 2 可知,支持向量機與 Hybrid method 在此筆資料下預測正確率結果比 起其他演算法還低,支持向量機與 Hybrid method 皆以支持向量機的原理去判斷. ‧. 測試集資料,訓練集資料的支持向量(support vector)用於測試集資料無法良好地. sit. y. Nat. 切分與判別。而資料雲幾何樹所使用餘弦相似度判斷,是以每一個體間的相似度. io. er. 來判別,會考慮到全部個體的屬性相似度,不同於支持向量機的判別方式,故在. al. 此月亮模擬資料結果較佳。而加權方式對於使用資料雲幾何樹、抽樣多數決投票. n. v i n Ch 法搭配資料雲幾何樹與抽樣多數決投票法搭配階層式分群法皆並未提升預測正 engchi U 確率。 表格 3. 美國威斯康辛州診斷乳癌資料使用各演算法分類驗證正確率結果 SVM-RBF. Hybrid. DCG cosine Voting HC Voting DCG. 資料未加權 97.364%. 90.861%. 91.564%. 66.960%. 93.146%. 92.091%. 86.467%. 98.594%. 資料加權. 如表 3 可知,加權方式對於使用資料雲幾何樹、抽樣多數決投票法搭配資料 雲幾何樹與抽樣多數決投票法搭配階層式分群法皆有提升預測正確率。Chang Y. C. I.於 2003 年內容已討論過支持向量機與 Hybrid method,故不再討論。 16.

(23) 第二節 研究討論與建議 本研究發現美國威斯康辛州診斷乳癌資料經由羅吉斯迴歸配適,所得變數估 計值 z 值係數,加權方法對於使用資料雲幾何樹有較好的提升結果,生物行為評 估專案資料與月亮模擬資料並未經由羅吉斯迴歸配適加權而有提升正確率的結 果,故認為生物行為評估專案資料與月亮模擬資料需找尋其他加權方式。 過程中,因為生物行為評估專案資料有過多的猴子相似性很高,導致會出現 分群結果會發生有一大群聚配上數群小群聚。如圖 7,可經由資料雲幾何樹結果. 政 治 大 近,抑或是變數間相似度太高,而難以決定距離公式,而此結果對於本研究來說 立 大致可知,有一大部分的猴子被分到同一群聚裡,表示這一大部分的猴子屬性接. 是不樂見的結果。因為會發生小群聚中的猴子數量小於資料本身的解釋變數個. ‧ 國. 學. 數,所以才選擇採用餘弦相似度,依此方法可以運用在群聚間,比較各個猴子與. ‧. 猴子的相似程度。且因為本研究所使用羅吉斯回歸配適,而反應變數與解釋變數. y. Nat. 不見得有線性關係,也可能導致加權效果無太大幫助的情形發生。同理於抽樣多. er. io. sit. 數決投票法搭配資料雲幾何樹,多次抽樣過程中亦會出現有一大群猴子相似度高 的情況發生,以致使此演算法驗證結果不盡理想。而如圖 8 所示可知,階層式分. al. n. v i n 群使用華德法較為平均分散群聚,不會出現如圖 7 的結果發生,故抽樣多數決投 Ch engchi U. 票法搭配階層式分群法在此效果較佳。而此兩個抽樣多數決投票法在月亮模擬資 料與美國威斯康辛州診斷乳癌資料較無出現有一大群聚相似度高的個體,故無出 現準確率偏低的情況發生。而 Hybrid method 的判別基準與支持向量機的分類器 方式相同,會隨著支持向量數(support vector numbers)而影響判別的分類與預測, 對生物行為評估專案資料進行變數縮減,支持向量機對此有提升正確率,不過 Hybrid method 卻是下降。Hybrid method 帶有維度縮減的概念,故先用 t-test 篩 選變數後,可能造成過多資訊的遺失,分類能力下降。而在使用原始資料情況下, 分類能力比支持向量機的表現好。未來可探討在此種兩類別幾何過於類似的資 17.

(24) 料,Hybrid method 是否需做事先的維度縮減並如何保留資料的異質性,以利分 類效果提升。. 學. 圖 7. 加權資料 B 的資料雲幾何樹. ‧. ‧ 國. 立. 政 治 大. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 圖 8. 加權資料 B 的階層式分群. 月亮模擬資料以使用支持向量數判別資料表現較差,在圖 2 中訓練集資料 (黑色部分)所選出的支持向量數會在圖中的左半邊居多,而測試集資料(紅色部 分)則皆不在左半邊,使得以此為基準判別資料的演算法會無法準確地預測出優 良的結果。而 Hybrid method 則會改進支持向量機的判別方式,多增加出一超平 面使得資料可藉由兩個超平面到資料個體間的距離得以改進,會使得演算法不易 預測出偏頗的結果。而資料雲幾何樹所使用餘弦相似度方法藉由所有個體間的關 18.

(25) 係預測測試集資料,不同於支持向量數的判別,對於資料型態是測試集的數據幾 何與訓練集的數據幾何差異很大時,使用餘弦相似度判別會比支持向量數的判別 較好。而抽樣多數決投票法搭配兩種不同分群方式並不會發生生物行為評估專案 資料的情況發生,會平均分散群聚,且經由多次抽樣與驗證後得出良好的結果。 而加權方式是藉由訓練集資料資訊得知後加權於訓練資料與測試資料的變數,但 預測結果並無提升。 美國威斯康辛州診斷乳癌資料的反應變數與解釋變數具有線性關係,本研究 所使用距離矩陣的加權方式對此資料有助益。藉由羅吉斯回歸配適可知並沒有因. 政 治 大 用歐氏距離計算個體間關係,未來可試著找尋不同計算距離公式搭配上羅吉斯回 立 解釋變數有 30 個而使得與反應變數間的關係變得無線性關係。因為此資料皆使. 歸配適係數加權,使得找出更佳的正確率。. ‧ 國. 學. 總結來說,數據間的幾何特徵關係如何運用對於機器學習方法極為重要,且. ‧. 因不同資料而需不同計算距離矩陣的方式,更改距離公式皆可能影響演算法最後. y. Nat. 的結果。在美國威斯康辛州診斷乳癌資料經由使用羅吉斯回歸模型配適的解釋變. er. io. sit. 數估計值 z 值為加權方式,得以改進演算法。統計模型理論使演算法更加穩健與 具有說服力。美國政府也將數據資料認為是未來的新石油,所以將辛苦得來的資. al. n. v i n 料輕易否定,是一件可惜的事情。然而過多的變數資料可能會使變數間的解釋能 Ch engchi U. 力彼此抵觸,抑或是提供出過多不正確的資訊,造成干擾。如何正確找出變數間 的關係,並選取出適合的變數研究是未來的方向。 從研究中可得知,我們無法以一個籠統的距離公式,來計算各資料的幾何結. 構。監督式學習下,我們可以藉由不同的計算方式分類出的結果判定適合的距離 計算方式,而在非監督式學習下,我們只能藉由過去分析類似資料時,所得到的 幾何特徵資訊來計算。為了評估資料幾何最適的距離矩陣,需要將各種不同距離 矩陣下的分類結果做比較。未來的研究可將一個特定的數據採用不同的距離公式 下的分類能力總結。同時,在不同種類的數據集的相同距離函數分類結果也應進 19.

(26) 行總結。這些實驗結果可以幫助研究人員在今後的機器學習研究中選擇合適的距 離公式。另外,這些既有的距離計算方式或機器學習演算法,多為假設資料間有 線性關係或獨立且分佈相同,然而在現在的大量數據下,這些假設變得不切實際, 改良過往的計算方式勢必為未來的趨勢。大數據下多樣化的變數會帶來更多有用 的資訊,亦或是更多的干擾,如何去計算數據的幾何關係,審慎評估變數間的關 係,並得搭配相關專家的領域知識,繼而去找出適合的變數,計算出數據的幾何 關係,提升機器學習的準確性。. 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. 20. i n U. v.

(27) 參考文獻 Bauer, E., & Kohavi, R. (1999). An empirical comparison of voting classification algorithms: Bagging, boosting, and variants. Machine learning, 36(1-2),105 -139. Baldi, P., & Brunak, S. (2001). Bioinformatics: the machine learning approach. MIT press. Cortes, C.; Vapnik, V. (1995). Support-vector networks. Machine Learning 20 (3):273.. 政 治 大 Chou, E. P. (2015, July).立 Data Driven Geometry for Learning. In International doi:10.1007/BF00994018.. ‧ 國. 學. Workshop on Machine Learning and Data Mining in Pattern Recognition (pp. 395 -402). Springer International Publishing.. ‧. Chou, E. P., Hsieh, F., & Capitanio, J. (2013, December). Computed Data-Geometry. sit. y. Nat. Based Supervised and Semi-supervised Learning in High Dimensional Data. In. n. al. er. io. Machine Learning and Applications (ICMLA), 2013 12th International Conference on (Vol. 1, pp. 277-282).. Ch. engchi. i n U. v. Chang, Y. C. I. (2003). Boosting SVM classifiers with logistic regression. See www. stat. sinica. edu. tw/library/c_tec_rep/2003-03. pdf. Culp, M. (2011). spa: A Semi-Supervised R Package for Semi-Parametric Graph-Based Estimation. Journal of Statistical Software, 40(10), 1-29. Fushing, H., Wang, H., VanderWaal, K., McCowan, B., & Koehl, P. (2013). Multi -scale clustering by building a robust and self correcting ultrametric topology on data points. PloS one, 8(2), e56259. Grozavu, N., Bennani, Y., & Lebbah, M. (2009, June). From variable weighting to cluster characterization in topographic unsupervised learning. In Neural 21.

(28) Networks, 2009. IJCNN 2009. International Joint Conference on (pp. 1005 -1010). IEEE. Hastie, T., Tibshirani, R., Friedman, J., & Franklin, J. (2005). The elements of statistical learning: data mining, inference and prediction. The Mathematical Intelligencer, 27(2). Tan, A. C., & Gilbert, D. (2003, January). An empirical comparison of supervised machine learning techniques in bioinformatics. In Proceedings of the First Asia -Pacific bioinformatics conference on Bioinformatics 2003-Volume 19 (pp. 219. 政 治 大. -222). Australian Computer Society, Inc... 立. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. 22. i n U. v.

(29)

參考文獻

相關文件

(1) principle of legality - everything must be done according to law (2) separation of powers - disputes as to legality of law (made by legislature) and government acts (by

• to develop a culture of learning to learn through self-evaluation and self-improvement, and to develop a research culture for improving the quality of learning and teaching

volume suppressed mass: (TeV) 2 /M P ∼ 10 −4 eV → mm range can be experimentally tested for any number of extra dimensions - Light U(1) gauge bosons: no derivative couplings. =>

incapable to extract any quantities from QCD, nor to tackle the most interesting physics, namely, the spontaneously chiral symmetry breaking and the color confinement.. 

• Formation of massive primordial stars as origin of objects in the early universe. • Supernova explosions might be visible to the most

• elearning pilot scheme (Four True Light Schools): WIFI construction, iPad procurement, elearning school visit and teacher training, English starts the elearning lesson.. 2012 •

(Another example of close harmony is the four-bar unaccompanied vocal introduction to “Paperback Writer”, a somewhat later Beatles song.) Overall, Lennon’s and McCartney’s

⇔ improve some performance measure (e.g. prediction accuracy) machine learning: improving some performance measure?.