，緒論 - 以區域性鄰集為基礎之相似度轉換方法應用於分群演算法

第一章，緒論

1.1 研究動機

分群演算法的目標是將資料集細分成多個擁有相同性質的子分群，目前已被廣泛的應用於許多領域中，例如：機器學習、影像分析、文字探勘、生物資訊等方面[1]。機器學習的主要目標是使用一種自動學習的演算法，從中獲得部分資訊後，再利用這些資訊對未知的資料進行預測分析，可以被應用至檢測信用卡欺詐、市場分析等方面。而在影像分析的領域上，分群演算法常被用來辨識影像的特徵點，或是用於分群大量影像，進而提升影像檢索的效率。除了上述二種領域外，亦可應用於文字探勘，其主要目標在於從非結構化的文字中，萃取出有用的資訊或知識。生物資訊的資料來源通常是以文字表示，其應用可包含在文字探勘的範圍內，多數學者使用分群演算法進行微陣列基因晶片的資料分析、分析蛋白質序列的排序方式，從中獲取更有價值的資訊。

分群演算法屬於非監督式學習法，多數情況下只能依靠使用者的知識提出假設，設法找出假設下的最佳解。最常見的假設是：屬於相同分群的資料具有類似的性質，而不同分群的資料具有顯著性的差異。然而，我們發現當資料的分布形態屬於非凸狀圖型(non-convex)時，將違反上述的假設而無法得到正確的分群結果。非監督式分群演算法的困難處在於如何提出合適的假設以及相似度函式的定義，不適當的假設或相似度函式都是影響分群準確率的原因。對於分群演算法的假設和相似度函式的定義並非全然依靠使用者，有時我們能夠從資料中取得少許資訊，例如：配對限制(pairwise constraints)或少數已被標記類別的資料，這些資訊都能稍稍透露資料的型態。因此，有學者提出一種新的概念，稱為半監督式分群演算法[2]。半監督式分群演算法藉由觀察少數資訊的分布形態和相似關係，

修正提出之假設或重新定義相似度函式，使得演算法的設計是以滿足少數資訊的分布形態和相似關係做為前提。

將半監督式分群演算法應用於真實世界中，取得配對限制或少數已被標記類別的資料其成本通常是相對困難，且演算法的準確性將受限於預先蒐集而來的知識(prior knowledge)。配對限制的數量的多寡，或是在資料分布中是否位在關鍵性位置等，將成為影響準確性的因素。因此，為了同時解決非監督式分群演算法中如何選擇相似度函式的問題，以及半監督式分群演算法中重新定義的相似度函式其分群準確性受限於配對限制的問題，我們提出一種以區域性(locality based) 為基礎的相似度轉換方法，它是屬於非監督式的學習方法。此方法藉由觀察任意二個資料點形成之鏈結其兩端點的區域型鄰集(local neighbors)分布情形，重新描述資料的相似關係，使得分群演算法找出的分群結果可以更加接近真實的分群情形。

1.2 目標

此篇論文提出一種屬於非監督式學習法的相似度轉換方法，它是以區域性鄰集為基礎，重新調整資料點彼此的相似度。新的相似關係受制於區域性鄰集的定義，而用來尋找區域性鄰集的方法則有相當多種。此篇論文中我們以 K 最近鄰 (K-nn)的概念出發，延伸出一種稱為可互相包含最近鄰(mutual included nearest neighbors, MI-nn)的新方法。它不僅能保有 K 最近鄰的特性，同時改善 K 最近鄰之效能受限於參數 K 的缺點。我們將調整後的相似關係應用至分群演算法，例如：K-means 演算法等，預期能夠找出更加接近真實的分群情形。

此篇論文提出的方法預期能解決：1. 在非監督式演算法中，如何選擇相似度函式的問題；2. 在半監督式分群演算法中，如何利用重新定義的相似度函式減輕分群結果被預先蒐集而來的知識(prior knowledge)所限制。

1.3 論文架構

論文架構主要分為五個章節。第一章說明研究動機、概念想法與目標。第二章簡介應用的領域，並討論多種現存的研究方法與文獻。第三章介紹此篇論文設計的方法，包含方法的各種假設、設計、演算法流程以及許多應用於方法中的統計學方法。第四章記錄實驗評量方式與實驗設計、討論。第五章總結此篇論文，

說明此篇論文所提出的方法之貢獻，並與現存的其他方法做完整的比較、討論。

在文檔中以區域性鄰集為基礎之相似度轉換方法應用於分群演算法 (頁 10-13)