• 沒有找到結果。

透過網絡進行傳統資料分群

N/A
N/A
Protected

Academic year: 2021

Share "透過網絡進行傳統資料分群"

Copied!
33
0
0

加載中.... (立即查看全文)

全文

(1)國立高雄大學統計學研究所 碩士論文. Data Classification via Network Method 透過網絡進行傳統資料分群. 研究生: 黃俞華 撰 指導教授:郭錕霖 教授 中華民國一零五年一月.

(2) Data Classification via Network Method. By Yu-hua Huang Advisor Kun-Lin Kuo. Institue of Statistics, National University of Kaohsiung Kaohsiung, Taiwan 811 R.O.C. January 2016.

(3) 致謝詞 回首兩年間來受到諸位師長、同學、朋友的協助和鼓勵,實有說不盡的感謝 話語。首先誠摯感謝指導老師 郭錕霖教授對我的提攜和照顧,有老師適時的指 導和鼓勵使我的論文得以順利的完成。也要感謝不畏登嚴重的革熱疫情特地前來 高大擔任口試委員的 陳重弘教授和本所所長 黃士峰教授。陳老師細心閱讀本論 文,指出許多論述矛盾與錯誤之處,耐心的解釋修改目的,使我的論文得以更加 完善。而黃老師則是不僅在口試中提示應該注意的地方,更是關心學生的學業和 日常生活,也在私底下替學生默默的做了很多事,令我銘感五內。 修業期間,感謝黃文璋教授、黃錦輝教授、俞淑惠教授、許湘伶教授、張志 浩教授,老師們的課業教導和生活上的關心,尤其是所上聚會總是能夠獲得老師 的金玉良言和對人處事方面的經驗讓我受益良多,經過這兩年的訓練洗禮,使我 對對解決問題這方面有更加成熟的想法,必須反覆思考,釐清整個脈絡,才能帶 來完善的結果。另外也要感謝所辦助理 吳蘭萍在人生的道路上不厭其煩地給予 我許多寶貴的建議和振奮人心的鼓勵。 碩士班的學長姐、同學、學弟妹們,很開心能夠認識你們並與你們一同求學 奮戰,互相照料這辛勞的兩年半碩士生活。在研究遇到瓶頸時,非常感謝能夠有 你們一起陪同去運動、吃大餐和給予我鼓勵,謝謝你們讓我學期間平凡的生活變 得多采多姿,有你們真好。 最後必須特別感謝我的男友 洪教聞先生,這兩年多來一路體諒、包容吃稱 這一路求學之旅繼續前進的動力,使我能夠堅持到論文完成的最後一刻。 高大的好山好水伴我兩年多,期間要感謝的人事物還有很多很多,沒有寫在 這裡的,在此也都一併感恩在心裡。.

(4) 目錄 致謝詞.................................................................................................................... I 中文摘要............................................................................................................... II 英文摘要.............................................................................................................. III 圖目錄.................................................................................................................. III 表目錄................................................................................................................... V 第1章. 緒論.................................................................................................... 1. 第2章. 文獻回顧............................................................................................ 2. 第1節. 傳統分群方法................................................................................ 2. 第2節. 分群演算法之評價指標:RAND INDEX(RI) ................................... 7. 第3章. 研究方法............................................................................................ 8. 第4章. 實驗結果.......................................................................................... 15. 第1節. 研究資料介紹.............................................................................. 15. 第2節. 研究方法中的變數選擇.............................................................. 17. 第3節. 實際數據的實驗結果.................................................................. 20. 第5章. 結論.................................................................................................. 24. 參考文獻.............................................................................................................. 25.

(5) 中文摘要 透過網絡進行傳統資料分群 指導教授:郭錕霖 教授 高雄大學統計所. 學生: 黃俞華 高雄大學統計所. 摘要. 傳統資料的分群結果經常受限於所選用的距離,本文提出將傳統資料轉換成 網絡的概念,再藉由網絡的分群技術達到資料分群的效果。我們將每筆資料進行 資訊擴充並將每筆資料視為網絡上的點,接著使用多維資料雙樣本檢定的方法來 判定哪些資料具有連結,最後再對此網絡進行分群。實證結果顯示,我們的方法 具有較穩定的分群效果。. 關鍵詞:分群、雙樣本檢定、網絡. II.

(6) 英文摘要 Data Classification via Network Method. Yu-hua Huang(黃俞華) Institute of Statistics, National University of Kaohsiung. Advisor: Kun-Lin Kuo Institute of Statistics, National University of Kaohsiung. Abstract The results of classification of traditional data are frequently limited to the choice of the distance. We provide a new concept of converting the traditional data into a network, and then using the network clustering technology to obtain the result of classification. First, we extend information of each data and treat it as a node of the network. Second, use the multivariate two-sample test method to determine whether two nodes have a link between them. Finally, we cluster this network. The empirical results show that our method has a relatively stable clustering effect.. Keywords: classification, two-sample test, network. III.

(7) 圖目錄 圖 3.1 鳶尾花(IRIS)資料在直觀的方法 1 形成的網絡 .............................................. 8 圖 3.2 鳶尾花(IRIS)資料在直觀的方法 2 形成的網絡 .............................................. 9 圖 3.3 鳶尾花(IRIS)的各筆資料距離標準化後以方法 1 相連形成的網絡 .............. 9 圖 3.4 鳶尾花(IRIS)的各筆資料距離標準化後以方法 2 相連形成的網絡 ............ 10 圖 3.5 鳶尾花(IRIS)以. 為距離使用研究方法產生的網絡 .................................... 14. IV.

(8) 表目錄 表 4.1 研究資料基本介紹 ......................................................................................... 16 表 4.2 實驗數據的資料型態 ..................................................................................... 16 表 4.3 IRIS 使用研究方法分群後的指標評價 ........................................................... 17 表 4.4 WINE 使用研究方法分群後的指標評價 ........................................................ 18 表 4.5 BREAST TISSUE 使用研究方法分群後的指標評價 ......................................... 18 表 4.6 SEED 使用研究方法分群後的指標評價 ......................................................... 18 表 4.7 實際資料使用研究方法分群的指標評價. ,. ,. 20. 表 4.8 IRIS 使用傳統方法分群後的指標評價 ........................................................... 20 表 4.9 WINE 使用傳統方法分群後的指標評價 ........................................................ 20 表 4.10 BREAST TISSUE 使用傳統方法分群後的指標評價 ....................................... 21 表 4.11 SEED 使用傳統方法分群後的指標評價 ....................................................... 21 表 4.12 GLASS IDENTIFICATION 使用傳統方法分群後的指標評價 .......................... 21 表 4.13 PARKINSONS 使用傳統方法分群後的指標評價 ........................................... 21 表 4.14 ECOLI 使用傳統方法分群後的指標評價...................................................... 22 表 4.15 VERTEBRAL 使用傳統方法分群後的指標評價 ............................................ 22. V.

(9) 第1章 緒論 分群和分類經常會被搞混,分類是將資料根據已知的分類準則進行歸類,稱 做監督式學習。而分群則是在不知分類準則的情況下對資料進行歸類,也就是所 謂的非監督式學習,大部分的方法是使用資料間的相似度進行分群。 在非監督式學習中,傳統分群的概念是將資料依據某些距離指標將其分割成 若 干 群, 例如 分 割 式 分群 法 (Partition Clustering Algorithm) 、 階 層式分群 法 (Hierarchical Clustering Algorithm) 、 密 度 分 群 法 (Density-based Clustering Algorithm)與模型分群法(Model-based Clustering Algorithm)等等,但多數的距離 指標都侷限在傳統距離的計算。本文試圖建立一套由傳統資料轉變成網絡的過程 再藉由網絡的分群方法產生資料分群的結果。 何謂網絡?由一群點(node)和點之間的連接(link)就會形成網絡,其中的點可 以是人、分子、地標等等,而點和點之間的連接可以是人和人之間的關係、分子 和分子之間的連接鍵、地標和地標之間的路線等等,不僅如此,網絡又可以隨著 時間的變動分為靜態網絡和動態網絡。由點和點之間的連接是否有方向性區分為 有方向性的網絡和無方向性的網絡,可以使用的範圍相當的廣泛,相關研究早已 應用在許多領域上,例如社會學、生物學、物理學、化學等等。近年來,許多研 究更著重於網絡的特性,像是自由度(degree)、最短路徑、密度、中心度等等。 而在網絡分群上,許多前人已經有不少的研究,我們將引用快速貪婪法(Newman, 2004)作為網絡分群的主要工具。 若想嘗試使用網絡分群方法,則如何將傳統資料轉成網絡將是一個很重要的 關鍵,所以在第三章將會提出一個新的概念來處理,在第四章中我們將引用許多 真實數據來與傳統方法做比較。. 1.

(10) 第2章. 文獻回顧. 文獻中探討資料分群的方法很多,在本章第一節將介紹常用的分群方法。為 了比較分群結果,在第二節介紹評價指標 Rand Index。. 第1節 傳統分群方法 在介紹傳統分群方法前,我們必須先知道一個好的分群結果必備的兩個特性, 其一是群內資料之間是互相接近或相似的;其二是群和群之間的資料是疏離或差 異的。且其結果必須滿足:(1)每筆資料都有被分到某一群;(2)每群都至少有一筆 資料。 以下簡介一些常見的分群方法,分別為:分割式分群法(Partition Clustering Algorithm)與階層式分群法(Hierarchical Clustering Algorithm)。. 分割式分群法(Partition Clustering Algorithm) 給定的 筆資料和群數 群. ,將這 筆資料粗略地分成 群,再以某種反. 覆再配置技術(iterative relocation technique)將資料由原本所屬的群移動至更適合 的群,直到每筆資料都分到屬於自己的群。在傳統的分割式分群法中,最著名的 是 K-means,其概念是隨機挑 筆資料分別作為各群的群中心,計算每筆資料與 個群中心的距離,將資料分別指派到與群中心最近的群之後,再重新計算各群的 群中心的位置,重複上述的步驟直到群中心的位置不再改變為止,詳細步驟如下: 假定有 筆資料. ,現在想將資料分成 群, 是第 群的群中心。. 步驟 1 隨機選取資料組中的 筆資料當作初始群中心 步驟 2 計算每筆資料 到各群中心的距離,並將 分到距離最小的群. 2.

(11) 步驟 3 利用目前得到的分割重新計算各群的群中心 步驟 4 重複步驟 2,3 直到收斂 (達到最大疊代次數或群心中移動距離很小). 雖然 K-means 是簡單、快速、效果不差的演算法且可廣泛地使用在各種不 同的資料型態上,但因初始的 個群中心是隨機挑的,造成在同樣的資料下每次 的分群結果都不盡相同,若一開始挑到的群中心是較偏離的資料,則可能導致不 好的結果。 在此我們再介紹由 K-means 延伸出的模糊分群法(Fuzzy C-means,FCM)。 Bezdek 在 1981 年首先提出該方法,透過模糊理論的概念,進一步提升分群的正 確性,詳細步驟如下: 假設 筆資料分成 群; 為模糊分割矩陣指數,又稱為權重係數,用於控制 模糊重疊的程度,是介於 {. },. 之間的任意值;. 為第 群的群中心; 為. {. 的模糊矩陣,. 料屬於第 群的程度, 介於 0 到 1 之間。 步驟 1 任意填寫 中各行列位置的數值,但需符合下面條件: (1). [. ]. (2) ∑ (3). ∑. 步驟 2 計算群中心 和目標函數. },. ,其公式如下 ∑ ∑ 3. 為第 筆資料;. [ ], 為第 筆資.

(12) 步驟 3 使用以下方程式更新模糊矩陣. ∑. ‖ ‖. ‖ ‖. 步驟 4 計算目標函數. ,其公式如下 ∑∑. ‖. ‖. 步驟 5 重複步驟 2 到步驟 4 直到目標函數 函數. 小於規定的最小閥值或上一個迭代的目標. 。. 模糊分群法和 K-means 的差別在於 K-means 的分群結果中每筆資料只能屬 於一個群,而模糊分群法的分群結果中,每筆資料允許歸屬多個群。舉例來說, 假設有一組 150 筆資料分成 3 群,用 K-means 分群,則第一筆資料屬於第 1 群, 若用模糊分群法分群,則第一筆資料有 50%的機率屬於第 1 群 20%的機率屬於 第 2 群,30%的機率屬於第 3 群。最後,看資料屬於哪一群的機率高就將資料判 定到哪一群。. 階層式分群法(Hierarchical Clustering Algorithm) 階層式分群法通常是樹狀結構,依樹狀結構又細分為凝聚式階層法 (agglomerative hierarchical clustering) 和 分 裂 式 階 層 法 (divisive hierarchical clustering)。凝聚式階層法是從樹狀結構的底部層層聚合而成的(樹狀階層由下而 上),而分裂式階層法是從樹狀結構的頂部層層分裂而形成的(樹狀階層由上而下), 4.

(13) 我們將主要常用且效果較好的方法是凝聚式階層法,其概念如下,一開始將 筆 資料視為 群,計算各群之間的距離,將距離最近的兩個群進行合併,再從新計 算群與群之間的距離,重複上述步驟直到合併到 群或滿足指定的停止法則為止。 其中,這類方法在計算群與群之間的距離中有很多種方法,這將會影響分群結果 的好壞。 假設資料 與 之間的距離為. ,可用歐氏距離(Euclidean Distance)、馬氏. 距離(Mahalanobis Distance)、城市街距離(City Block Distance)等等來計算,在此 採用歐氏距離,接著再假設每筆資料視為一個群 , 離為. ,群與群之間的距. ;計算群與群之間的距離,一般採用單一聯結法(Single Linkage)、. 完全聯結法(Complete Linkage)、平均聯結法(Average Linkage)及華德法(W r ’s Linkage),其公式和介紹為: 1.. 單一聯結法(Single Linkage):群與群之間的距離為不同群中最接近的兩筆資 料的距離,可以表示為 (. 2.. ). 完全聯結法(Complete Linkage):群與群之間的距離為不同群中最遙遠的兩筆 資料的距離,可以表示為 (. 3.. 平均聯結法(Average Linkage):群與群之間的距離為不同群間各資料與各資 料距離總和的平均,其中 (. 4.. ). 華德法(W r ’s L. 、. 表示各資料的筆數,可以表示為. ). ∑. ge):群與群之間的距離為將兩群合併之後,各資料到合. 併後的群中心的距離平方和,可以表示為. 5.

(14) (. ) √ | |. ‖̅ ̅‖. ,其中 ̅ 和 ̅ 為第 群和第 群的重心,‖ ‖為歐式距離,詳細步驟如下: 步驟 1 求出群與群之間的距離 (. ). 步驟 2 將最短距離的兩群合併 步驟 3 重複步驟 1、2 直到達到指定群數或滿足停止法則. 在第四章時,我們將用分割式分群法的 K-means、模糊分群法以及階層式分 群法的單一聯結法、完全聯結法、平均聯結法和華德法做出來的分群結果和我們 提出的方法進行比較。. 6.

(15) 第2節 分群演算法之評價指標:Rand Index(RI). 在評比一些分群方法時,通常會使用一些已知分群結果的資料來評價方法的 優劣,以下介紹一個經常被使用的評價指標,首先介紹一些符號以便定義評價指 標。假設有 筆資料, s {. {. }。設. {s. }是第 筆資料所屬之群編號(介於 1 到 之間);設 {. 群方法後所產生的分群結果,其中 考慮所有資料的配對 滿足 滿足. 共有. }。 種. -. 在 中同群但在 中不同群的個數. 滿足. 在 中不同群但在 中同群的個數. 滿足. 在 中不同群且在 中也不同群的個數 。Hubert and Arabie (1985)使用 Rand. -. (1971)的概念考慮資料配對的分群結果,可看出 和. 為使用分. 在 中同群且在 中也同群的個數. 以上可以推得. 則. s }為實際分群結果,其中. 越大越好,因此定義. 的公式為 ,. 7. 和. 在 和 越相似時越大,.

(16) 第3章 研究方法 傳統分群方法主要架構大部分是依據某種距離量度將資料分割成若干群,因 此在不同資料形態下使用不同的距離量度所產生的分群結果差異極大。在未知分 群的資料下,很難判斷該用哪種距離量度做分群才是最佳,因此,在本文中我們 將提出一個新的觀點,將近年蓬勃發展的網絡分群方法應用到傳統資料上,因此 如何將資料轉變成網絡即是本方法的關鍵。 以下將提出幾個想法並以著名的生物資訊資料集鳶尾花(Iris)資料為例。想將 資料轉變成網絡,直覺會先想到計算各資料之間的距離,例如:歐式距離,找出 與該資料最接近的前幾個資料,判定兩資料之間是否相連,我們考慮兩種方法: 方法 1:資料之間有彼此都是最接近時才有相連,其結果如下:. 圖 3.1 鳶尾花(Iris)資料在直觀的方法 1 形成的網絡 由上圖可知,Iris Versicolour 和 Iris Virginica 這兩群因距離相近而混在一起造成 分群效果不佳。 方法 2:資料只要有一方是最接近就相連,其結果如下:. 8.

(17) 圖 3.2 鳶尾花(Iris)資料在直觀的方法 2 形成的網絡 其結果顯示會因資料間相連數過高且 Iris Versicolour 和 Iris Virginica 這兩群亦因 距離相近而混在一起而造成分群的效果不佳。 除此之外,上述的幾個方法還會因為各變數的距離間距和單位不同造成隱藏 性問題。因此為了解決各變數之距離間距和單位不同的問題,我們將資料的各筆 資料的距離標準化來統一距離間距和去除單位,再用上述的兩種判定是否連結的 方法型成網絡,結果如下面兩圖:. 圖 3.3 鳶尾花(Iris)的各筆資料距離標準化後以方法 1 相連形成的網絡 9.

(18) 圖 3.4 鳶尾花(Iris)的各筆資料距離標準化後以方法 2 相連形成的網絡 觀察上兩圖可得知其結果也因為資料的分佈未知造成分群結果不好,由此可 知標準化並不能改善分群結果。以下我們改變尋找資料相近的方式和提出判定是 否相連的方法。 首先,個別看每筆資料的變數值,收集與每個變數值最接近的前幾筆資料當 作擴充資訊,例如鳶尾花(iris)資料集內有 150 筆資料,分別有 4 個變數值,與第 一筆資料的第一個變數值最接近的前幾筆資料有第 1、18、20、22、24 筆資料, 我們把這幾筆資料當作是第一筆資料的擴充資訊,因有 4 個變數,分別對 4 個變 數做此步驟則可以得到第一筆資料的所有擴充資訊,又因有 150 筆資料,所以將 以上做法分別對各筆資料做一次,如此我們可取得各資料的所有擴充資訊。 接著,不再像前述的方法 1 和方法 2 直接將相近資料相連,改採用雙樣本檢 定。而雙樣本檢定中最有名的檢定方法是 Kolmogorov-Smirov 雙樣本檢定(KS 雙 樣本檢定),Székely and Rizzo (2004)中提到此檢定僅能檢定單個變量, 要將 KS 雙樣本檢定推廣到多維並不容易,因此 Székely and Rizzo (2004) 提供了另一個檢 定方法,詳細內容如下。 10.

(19) 假設有兩筆隨機資料 ( (. ). (. ). ) (. (. ) (. )。令(. )和(. ). )和(. 的累積分配函數分別為 和 。現在想檢定( 自同一分佈,則設虛無假設. )和. )是否來. 。. ,對立假設. 先由隨機資料計算統計量 ,其中 為任意距離。 [. ∑∑. (. ). ∑ ∑ ((. )(. ∑∑. ). (. )). ]. 將兩組資料合併後,令 為兩組資料合併後的總數,則. ,接著以取後. 放回的方式從中隨機抽取 個和 筆資料當作是新的兩組資料,並利用 的公式 計算新的兩組資料的值,計作 ,重複以上的步驟 次,可取得 過. 中的次數超過 95%,則拒絕虛無假設. ,若 大. 。. 我們將利用 Székely and Rizzo (2004) 方法來檢定資料間是否相連來形成網 絡。若檢定結果是接受則代表兩筆資料相連,若不接受則否,由此形成網絡,最 後再用網絡分群方法做分群。 步驟 1 假設有 筆 維的資料. ,其中. ,. 。. 步驟 2 利用歐式距離計算在第 個變數中第 筆資料與各筆資料的距離,並取前 距離最接近的資料當作是第 個資料在第 個變數的資訊,寫作. 個. ,是一個. 的矩陣,例如距離第一筆資料的第一個變數最近的資料有第 2、4、5 11.

(20) [. 筆資料,則. 們可得到. [. ],其中. 為取出當資訊的資料之百分比,則我. ]。. 步驟 3 設虛無假設. 與. :. 來自相同母體,利用 Székely and Rizzo (2004)的檢定方法來. 檢定,若來自同一分佈,則第 筆資料與第 筆資料之間有連結,因此可以得到此 筆資料形成的網絡,其中的 ,也就是任意距離,我們考慮三種距離,分別是 L 、L 、L3 ,其公式如下: L (. ). L (. ). L3 (. ). |. |. |. |. √ |. |. |. |. 因考慮到網絡中相連數過低或是資料間毫無相連造成之後的分群效果不佳, 因此為確保每筆資料至少有一個相連的對象,我們將記錄各筆資料與資料的 大 於. 的次數,若某筆資料與其他資料沒有相連時,則該資料則與大於 的個. 數中最少的資料相連。. 步驟 4 使用網絡分群演算法中的快速貪婪法 Neman (2004)為網絡做分群。快速貪婪 法的想法是建立在模塊化上,為了測試一個特定的劃分是否有意義,Newman (2003)假設網絡上的資料 計做. s. s. ,每個資料都不同群,因此 筆資料就有 群,. ,其中s 是第 筆資料所屬的群。再假設一個 12. 的對稱矩陣.

(21) e ,e 為第 群和第 群資料相連的比例, 為第 群與所有群的連接數占網絡 總連接數的比例,以下分別為e 和 的公式, e. 第 群和第 群資料之間的連接數 網絡總連接數. ∑e ,且定義模度(modularity)為 ∑ e ,其中e 為第 群群內連接數占網絡總連接數的比例。 Newman (2004)認為 值越大,分群效果越好,既然如此,乾脆優化模度 (modularity)提升分群效果,但直接優化的代價是非常大的,因此可考慮各種近似 優化方法,像是模擬退火法、遺傳法等等,在此我們使用貪婪法。接著考慮合併 各種可能的 2 群視為新群,假定是第 群和第 群被合併,此時 值重新計算為 ̅ ∑(e. 其中e e. e. e 且. ) e. ,另外 Newman(2004)證明 ̅. e. 快速貪婪法的過程主要是在現有分群結構上計算所有可能合併 2 群的 Q,讓 最大化的組合併,直到. 或只剩一群為止。. 13.

(22) 圖 3.5 鳶尾花(Iris)以 為距離使用研究方法產生的網絡. 上圖為鳶尾花(Iris)利用此方法畫出的網絡,由圖可看出圖中左邊的網絡與圖 3.1-3.4 相比已經較能將 Iris Versicolour 和 Iris Virginica 這兩群分開。 在此方法中,我們需要注意的變數有抽出資料的比例. ,以及在 Székely and. Rizzo (2004) 中的 (任意距離)和 (重複抽取的次數)。因此,我們將在下一章節中 用實際資料對這幾個變數做實驗來找出最佳的分群效果。. 14.

(23) 第4章. 實驗結果. 本章將在第一節介紹引用到的實際資料,在第二節中取部分資料針對. (抽. 出資料的比例)、 (任意距離)和 (重複抽取的次數)這三個變數做模擬,分析變數 對實驗結果的影響,最後在第三節判斷分群結果的好壞和優缺點。. 第1節 研究資料介紹. 以下將會引用幾組資料集來比較分群方法的好壞,事實上,這些資料集都是 來自於 UCI Machine Learning Repository,是來自於美國加州大學爾灣分校 (University of California at Irvine)的資訊電腦學院(Donald Bren School of Information and Computer Science),這個網站(UCI Machine Learning Repository: http://archive.ics.uci.edu/ml/)收集了各式各樣的資料並加以整理說明以便使用者 以樣式辨認或是機器學習等等方法對資料進行分類、比較,本文的資料集摘要如 下面兩表。. 15.

(24) 表 4.1 研究資料基本介紹 No.. 資料名稱. 說明. 1. Iris. 這是一筆近年在機器學習與資料探勘中具有代表性的資料集,起初是 Edgar Anderson 從加拿大的加斯帕半島得鳶尾屬花朵中提出的地理變異數據,後來 Ronald Fisher (1936)引用這筆資料作為判別分析的一個例子。. 2. Wine. 此資料是產地在義大利的葡萄酒的化學分析結果。. 3. Breast Tissue 此資料是 J. Jossinet (1996)提供正常和病理的乳腺組織做電阻測量,並由 JE Silva(2000)根據 J. Jossinet 的資料提供更進一步的分析。. 4. Seeds. 5. 此資料是犯罪現場遺留的玻璃碎片的成分分析,其玻璃種類分法如下: Glass 玻璃(214 個) Identification. 此資料是 M. Charytanowicz, J. Niewczas, P. Kulczycki, P.A. Kowalski, S. Lukasik, S. Zak (2010)提供三種品種的小麥 X 光圖。. 窗戶玻璃(163 個) 浮法玻璃(87 個). 非窗戶玻璃(51 個). 非浮法玻璃(76 個). 容器玻璃(51 個). 建物窗戶玻璃 車窗玻璃 建物窗戶玻璃 車窗玻璃 容器玻璃 餐具玻璃 燈罩玻璃 (70 個) (17 個) (76 個) (0 個) (13 個) (9 個) (29 個) 6. Parkinsons. 此資料是由 Max A. Little, Patrick E. McSharry, Eric J. Hunter, Lorraine O. Ramig (2008)中擷取受試者進行生醫聲音檢驗(biomedical voice measurements),根據不 同的聲音檢測鑑別是否罹患帕金森氏症。. 7. Ecoli. 此資料是由 Kenta Nakai and inoru Kanehisa (1992)中擷取了大腸桿菌的屬性和 種類的關係以及其發展。. 8. Vertebral. 此資料是 Henrique da Mota 醫生在應用研究骨科集團(GARO)時蒐集的數據, 可用兩種方法分類,第一種是將資料分為正常(100 名患者)或異常(210 例) 兩種,另一種則是分為正常(100 例) ,椎間盤突出症(60 例)或脊椎滑脫(150 例),在此我們使用第二種分類。 表 4.2 實驗數據的資料型態 資料名稱. No.. 資料筆數 屬性筆數 種類數. 1. Iris. 150. 4. 3. 2. Wine. 178. 13. 3. 3. Breast Tissue. 106. 9. 6. 4. Seeds. 210. 7. 3. 5. Glass Identification. 214. 9. 6. 6. Parkinsons. 195. 22. 2. 7. Ecoli. 336. 7. 7. 8. Vertebral. 310. 5. 3. 16.

(25) 我們將使用上述之資料用傳統分群方法與本文的研究方法比較分群結果之 好壞。. 第2節 研究方法中的變數選擇. 在上一章節的最後我們提到幾個需要注意的變數有. (資料被抽出的比例). 以外,還有在 Székely and Rizzo (2004)中的 (任意距離)和 (重複抽取的次數), 在此將利用上述的部分實際資料做測試,其結果如下。 表 4.3 Iris 使用研究方法分群後的指標評價 L. L. L3. L. L. L3. L. L. L3. L. 0.01 0.05 0.1 0.15. 0.812 0.846 0.776 0.778. 0.874 0.906 0.828 0.832. 0.827 0.880 0.880 0.874. 0.809 0.880 0.776 0.778. 0.861 0.906 0.828 0.927. 0.822 0.874 0.776 0.886. 0.809 0.857 0.778 0.778. 0.861 0.906 0.837 0.919. 0.822 0.880 0.880 0.886. 0.809 0.857 0.778 0.778. 0.861 0.822 0.906 0.880 0.837 0.880 0.919 0.886. 0.2 0.25 0.3 0.35 0.4. 0.880 0.779 0.886 0.886 0.892. 0.892 0.837 0.868 0.832 0.828. 0.886 0.880 0.886 0.886 0.886. 0.778 0.779 0.886 0.886 0.892. 0.912 0.837 0.832 0.832 0.837. 0.880 0.880 0.886 0.886 0.886. 0.778 0.779 0.886 0.886 0.886. 0.906 0.837 0.832 0.832 0.842. 0.880 0.880 0.886 0.886 0.886. 0.778 0.779 0.886 0.886 0.886. 0.906 0.880 0.837 0.880 0.832 0.886 0.832 0.886 0.842 0.886. 17. L. L3.

(26) 表 4.4 Wine 使用研究方法分群後的指標評價 L. L. L3. L. 0.707 0.758 0.858 0.879 0.898 0.898 0.869. 0.725 0.816 0.874 0.903 0.898 0.904 0.906. 0.729 0.74 0.734 0.719 0.715 0.712 0.719. L. L. L3. L. 0.699 0.746 0.863 0.789 0.891 0.898 0.911. 0.769 0.802 0.89 0.864 0.898 0.904 0.91. 0.729 0.74 0.734 0.712 0.715 0.716 0.723. 0.704 0.755 0.832 0.808 0.891 0.898 0.875. L 0.728 0.759 0.787 0.879 0.898 0.904 0.878. L. 0.01 0.05 0.1 0.15 0.2 0.25 0.3. 0.711 0.731 0.834 0.752 0.899 0.743 0.885 0.712 0.898 0.715 0.898 0.716 0.888 0.727. 0.731 0.709 0.744 0.755 0.734 0.824 0.712 0.91 0.727 0.891 0.716 0.898 0.73 0.885. 0.35 0.4. 0.898 0.724 0.849 0.891 0.683 0.846 0.891 0.683 0.842 0.893 0.683 0.857 0.893 0.718 0.741 0.879 0.719 0.867 0.891 0.683 0.757 0.879 0.719 0.873 表 4.5 Breast Tissue 使用研究方法分群後的指標評價 L. L. L3. L. 0.01 0.05 0.1 0.15. 0.783 0.762 0.742 0.795. 0.591 0.610 0.601 0.627. 0.639 0.715 0.760 0.723. 0.776 0.723 0.793 0.791. 0.2 0.25 0.3 0.35 0.4. 0.794 0.806 0.804 0.769 0.798. 0.628 0.616 0.616 0.625 0.623. 0.648 0.740 0.611 0.714 0.697. 0.805 0.807 0.740 0.798 0.792. L. L. L3. L. 0.588 0.728 0.601 0.627. 0.639 0.716 0.718 0.718. 0.780 0.721 0.794 0.797. 0.588 0.748 0.601 0.627. 0.639 0.719 0.723 0.719. 0.616 0.620 0.616 0.620 0.622. 0.711 0.738 0.618 0.736 0.697. 0.807 0.765 0.770 0.798 0.798. 0.610 0.616 0.616 0.616 0.622. 0.716 0.711 0.791 0.702 0.697. L. L. 0.787 0.721 0.794 0.794. 0.588 0.721 0.601 0.627. 0.639 0.719 0.722 0.717. 0.808 0.765 0.771 0.798 0.797. 0.628 0.616 0.616 0.616 0.622. 0.633 0.735 0.621 0.736 0.697. L. L. 表 4.6 Seed 使用研究方法分群後的指標評價 L. L. L3. L. L. L. L3. L. 0.01 0.05. 0.790 0.800 0.809 0.785 0.796 0.817 0.799 0.723 0.847 0.783 0.871 0.806 0.828 0.849 0.839 0.774 0.826 0.838 0.774 0.854 0.839 0.767 0.833 0.838. 0.1 0.15 0.2 0.25 0.3 0.35 0.4. 0.796 0.802 0.796 0.802 0.826 0.843 0.835. 0.847 0.823 0.844 0.867 0.864 0.848 0.837. 0.848 0.788 0.859 0.846 0.848 0.846 0.842. 0.784 0.798 0.804 0.799 0.825 0.832 0.831. 0.857 0.823 0.862 0.862 0.840 0.848 0.839. 0.831 0.796 0.821 0.848 0.848 0.848 0.862 18. 0.792 0.799 0.806 0.787 0.800 0.841 0.842. 0.857 0.825 0.862 0.867 0.867 0.848 0.840. 0.828 0.786 0.821 0.850 0.848 0.849 0.842. 0.806 0.799 0.798 0.799 0.787 0.832 0.835. 0.857 0.823 0.862 0.867 0.842 0.848 0.841. 0.828 0.786 0.816 0.850 0.848 0.849 0.842.

(27) 觀察表 4.3-4.6 的實驗數據可發現在研究方法中的變數重複抽取的次數的多寡 並不會影響分群結果的好壞,但為了維持高維度雙樣本檢定的準確度,因此我們 設定. ;而隨著. 變大而得到比較好的指標評價,但. 的資料多,這會造成實驗速度下降,且. 的變大意味著抽取. 變大到一定程度後,指標評價變好的. 程度會越來越不明顯,因此考慮到分群效果和實驗速度的因素下我們設定 最後變數 (任意距離)根據實驗結果我們認為採用L 、L3 為佳。. 19. ;.

(28) 第3節 實際數據的實驗結果. 延續上節的對變數. 、 、 的設定繼續對剩下的實際資料做實驗,其評價. 指標如下表。 表 4.7 實際資料使用研究方法分群的指標評價. L,. , 距離. 資料. L. L3. Glass Identification Parkinsons Ecoli Vertebral. 0.606 0.451 0.870 0.681. 0.592 0.498 0.814 0.711. 看完研究方法對實際資料分群後的結果後,我們接著觀察傳統方法對實際資 料的分群結果。 表 4.8 Iris 使用傳統方法分群後的指標評價 群數. K-means. single. 2. 0.764. 0.776. 0.712. 3. 0.880. 0.777. 4. 0.839. 5. 0.812. complete average. ward. FCM. 0.776. 0.776. 0.764. 0.837. 0.892. 0.880. 0.880. 0.777. 0.822. 0.881. 0.858. 0.844. 0.777. 0.776. 0.855. 0.835. 0.840. 由上表可知此筆資料在傳統方法中表現較好是群數 3 的平均聯結法、 K-means、華德法和模糊分群法。 表 4.9 Wine 使用傳統方法分群後的指標評價 群數. K-means. single. 2. 0.670. 0.342. 0.619. 3. 0.719. 0.363. 4. 0.703. 5. 0.697. complete average. ward. FCM. 0.641. 0.641. 0.669. 0.715. 0.626. 0.717. 0.711. 0.367. 0.700. 0.709. 0.687. 0.688. 0.369. 0.693. 0.687. 0.678. 0.717. 由上表可知,此筆資料在傳統方法中表現最好的前幾名分別是群數 3 的 K-means、華德法、完全聯結法和群數 5 的模糊分群法。. 20.

(29) 表 4.10 Breast Tissue 使用傳統方法分群後的指標評價 群數. K-means. single. 4. 0.494. 0.261. 0.494. 5. 0.670. 0.260. 6. 0.455. 7 8. complete average. ward. FCM. 0.261. 0.579. 0.513. 0.492. 0.492. 0.597. 0.613. 0.455. 0.455. 0.455. 0.578. 0.675. 0.754. 0.260. 0.503. 0.495. 0.695. 0.688. 0.764. 0.259. 0.686. 0.500. 0.704. 0.714. 由上表可知,此筆資料在傳統方法中表現最好的前幾名分別是群數 8 的 K-means、華德法和模糊分群法。 表 4.11 Seed 使用傳統方法分群後的指標評價 群數. K-means. single. 2. 0.733. 0.337. 0.581. 3. 0.874. 0.357. 4. 0.824. 5. 0.791. complete average. ward. FCM. 0.718. 0.712. 0.731. 0.796. 0.887. 0.872. 0.874. 0.360. 0.774. 0.881. 0.883. 0.738. 0.363. 0.802. 0.877. 0.849. 0.810. 由上表可知,此筆資料在傳統方法中表現最好的前幾名分別是群數 3 的 K-means、平均聯結法、模糊分群法和群數 4 的華德法。 表 4.12 Glass Identification 使用傳統方法分群後的指標評價 群數. K-means. single. complete. average. ward. FCM. 4. 0.494. 0.261. 0.494. 0.261. 0.579. 0.513. 5. 0.670. 0.260. 0.492. 0.492. 0.597. 0.613. 6. 0.455. 0.455. 0.455. 0.455. 0.578. 0.675. 7. 0.754. 0.260. 0.503. 0.495. 0.695. 0.688. 8. 0.764. 0.259. 0.686. 0.500. 0.704. 0.714. 由上表可知,此筆資料在傳統方法中表現最好的前幾名分別是群數 8 的 K-means、華德法、模糊分群法。 表 4.13 Parkinsons 使用傳統方法分群後的指標評價 群數. K-means. single. complete. average. ward. FCM. 2. 0.597. 0.622. 0.597. 0.597. 0.602. 0.593. 3. 0.579. 0.622. 0.593. 0.597. 0.491. 0.529. 4. 0.520. 0.597. 0.592. 0.583. 0.484. 0.504. 21.

(30) 由上表可知,此筆資料在傳統方法中表現最好的前幾名分別是群數 2 的單一 聯結法、華德法和群數 3 的單一聯結法。 表 4.14 Ecoli 使用傳統方法分群後的指標評價 群數. K-means. single. complete. average. ward. FCM. 5. 0.879. 0.324. 0.868. 0.731. 0.859. 0.806. 6. 0.832. 0.324. 0.872. 0.731. 0.799. 0.796. 7. 0.821. 0.327. 0.872. 0.733. 0.814. 0.790. 8. 0.803. 0.330. 0.846. 0.894. 0.822. 0.792. 9. 0.794. 0.333. 0.843. 0.894. 0.799. 0.783. 由上表可知,此筆資料在傳統方法中表現最好的前幾名分別是群數 5 的 K-means、群數 8 和 9 的平均聯結法和群數 6、7 的完全聯結法。 表 4.15 Vertebral 使用傳統方法分群後的指標評價 群數. K-means. single. complete. average. ward. FCM. 2. 0.642. 0.374. 0.374. 0.374. 0.446. 0.654. 3. 0.669. 0.374. 0.406. 0.375. 0.445. 0.673. 4. 0.673. 0.375. 0.602. 0.457. 0.672. 0.681. 5. 0.690. 0.375. 0.597. 0.457. 0.721. 0.686. 由上表可知,此筆資料在傳統方法中表現最好的前幾名分別是群數 5 的 K-means、華德法、模糊分群法。 觀察表 4.8-4.15 可得知 K-means 在 Wine、Breast Tissue、Glass Identification 的分群效果較好,單一聯結法在 Parkinsons 的分群效果較好,完全聯結法在 Iris、 Ecoli 、Seed 的分群效果較好,模糊分群法在 Vertebral 的分群效果最好,這結果 可看出任一傳統方法不可能對所有資料分群的結果都表現優異,且其結果有很明 顯的落差,又因在分群的過程中我們無法得資料型態造成不知道哪種傳統方法對 該筆資料做分群會是最佳選擇,因此如果能有一種方法能夠對所有的資料有相對 穩定的結果或許是件好事。 表 4.3-4.7 與表 4.8-4.15 互相比較,雖然有幾比實際資料用研究方法做出的 分群結果不如傳統方法,但是仍與傳統方法中表現最好的分群結果相去不遠。因 此,在實際分群情況中,群數未知的傳統資料並不知道資料型態屬於哪一種且傳 22.

(31) 統方法會因資料型態的變化影響分群效果,進而無法得知該資料適合哪一種傳統 分群方法,而研究方法雖無法在所有資料中都得到最好的分群結果,也相去不遠, 最重要的是可以在任何的資料型態都得到不錯的結果。. 23.

(32) 第5章. 結論. 分群方法在資料探勘的領域上是相當普遍的技術,主要的目的是將資料分成 數群,使得每群的群內資料的相似性高,而不同的群之間的資料的相似度低。分 群方法的選擇取決於資料型態、分群目的和應用,然而多數知名的傳統分群方法 其架構主要是根據某種距離量度將資料分割成若干群,分群結果經常因此受到許 多原因影響而效果不彰,像是使用的距離量度不同、資料的單位不同和資料的型 態差異等等。因此我們不使用距離作為分群的基準,利用高維雙樣本檢定將資料 轉化成網絡再引用近幾十年來倍受關注的網絡分群。 根據上一章節的實驗結果,在我們的研究方法中,在資料被抽出的比例固定 在兩成、距離選擇L 或L3 以及重複抽取 100 次的前提下,其分群結果在各種資料 型態雖不一定都是最好的,但結果穩定且有不錯的表現。 除此之外,傳統分群方法多半都必須事先知道群數,而在我們套用的快速貪 婪法中,群數已知時,則在達到要求群數就可停止,若群數未知,則挑選其模度 最高者當作群數。因此,在不清楚資料型態或群數未知的情況下,本研究方法是 一個不錯的選擇。 本文中有許多未完成或不完整的地方,以下未來研究方向可以提供後續研究 者繼續探討: (1)高維度雙樣本檢定:此方法在將兩資料合併後已取出的方法隨機抽取當作是新 的兩組資料時,會因為我們兩組資料的資訊很多而造成每次產生的. 不同,. 進而使得每次形成的網絡不同,雖然影響分群結果不大,但若能讓每次結果相同 會使分群結果更加穩定。 (2)網絡分群:目前使用結果最好的快速貪婪法,未來若能找到比模度更好的評估 群數標準,則可以提高分群的正確率。 24.

(33) 參考文獻 [1] 謝凱名 (2009),結合 FCM 及 PSO 處理動態模糊分群問題,私立大同大學 資訊經營所,研究所碩士論文。 [2] 翁碩妤(2014),網絡資料分群方法的比較,國立高雄大學統計所,研究所碩 士論文。 [3] 戴章庭(2013),高維離散型資料之 K 樣本檢定,國立高雄大學統計所,研究 所碩士論。 [4] Bezdec, J. C. (1981). Pattern Recognition with Fuzzy Objective Function Algorithms. [5] Marsaglia, G., Tsang, W. W. and Wang, J. (2003). Evaluating Kolmogorov's distribution. Journal of Statistical Software, 8, Issue 18. [6] Girvan, M. and Newman, M. E. (2002). Community structure in social and biological networks. Proceedings of the National Academy of Sciences, 99, 7821-7826. [7] Massey, F. J., Jr (1951). The Kolmogorov-Smirnov test for goodness of fit. Journal of the American Statistical Association, 46, 68-78. [8] Miller, L. H. (1956). Table of percentage points of Kolmogorov statistics. Journal of the American Statistical Association, 51, 111-121. [9] Rand, W. M. (1971). Objective criteria for the evaluation of clustering methods. Journal of American Statistical Association, 66, 846-850. [10] Seber, G. A. F. (1984). Multivariate Observations. [11] Späth, H. (1985). Cluster Dissection and Analysis. [12] Székely, G. J. and Rizzo, M. L. (2004). Mean distance test of Poisson distribution. Statistics and Probability Letters, 67, 241-247 [13] Newman, M. E. J. (2004). Fast algorithm for detecting community structure in networks. Physical Review E, 69, 066133. [14] Newman, M. E. J. (2006). Finding community structure in networks ssing the eigenvectors of matrices. Physical Review E, 74, 036104.. 25.

(34)

參考文獻

相關文件

In Case 1, we first deflate the zero eigenvalues to infinity and then apply the JD method to the deflated system to locate a small group of positive eigenvalues (15-20

 Promote project learning, mathematical modeling, and problem-based learning to strengthen the ability to integrate and apply knowledge and skills, and make. calculated

The research proposes a data oriented approach for choosing the type of clustering algorithms and a new cluster validity index for choosing their input parameters.. The

Miroslav Fiedler, Praha, Algebraic connectivity of graphs, Czechoslovak Mathematical Journal 23 (98) 1973,

To complete the “plumbing” of associating our vertex data with variables in our shader programs, you need to tell WebGL where in our buffer object to find the vertex data, and

„ An adaptation layer is used to support specific primitives as required by a particular signaling application. „ The standard SS7 applications (e.g., ISUP) do not realize that

We showed that the BCDM is a unifying model in that conceptual instances could be mapped into instances of five existing bitemporal representational data models: a first normal

Experiment a little with the Hello program. It will say that it has no clue what you mean by ouch. The exact wording of the error message is dependent on the compiler, but it might