第一章 緒論
1.2 研究目的
根據先前的研究,圖型探勘研究由於處理的問題不盡相同,可分為多筆圖型 探勘以及單筆圖型探勘,兩者的支持度定義並不相同。例如[2]研究化合物與毒物 間的關係,不同的化合物分子結構對應到多筆圖型資料。該論文對已知的化合物 擷取常見分子結構作為特徵建立分類模型,用來預測未知化合物的致癌性及有毒 物質。在此應用中,定義一個子圖的支持度為計算該子圖樣式出現在資料庫中的 多少百分比例的圖型中,這樣的支持度計算的意義容易理解。因為若該樣式在資 料庫中為常見子圖樣式,且特別在有毒分類的化合物中經常出現,則很可能該化 合物是形成對人體有害物質的結構。近年也有研究針對單筆複雜圖型網絡探討,
如探勘出蛋白質的交互作用關係[1]。由於蛋白質會因環境的變化產生未知的蛋白 質結構,而找出蛋白質網絡中常見的子圖樣式,可用來對未知的蛋白質進行結構 預測。
為只從一個圖中計算子圖樣式的支持度,不是 0 就是 1,無法呈現子圖樣式在單 筆圖型網絡是否為常見的意義。直覺的修改是採用子圖樣式比對到單筆圖型中不 同部分的次數,但此定義 會使圖型樣式的支持度不符合向下包含(downward
closure)特性。向下包含特性為:一個子圖結構,其支持度不會超過其父圖結構的 支持度。此特性可運用在產生候選樣式時避免產生不可能為常見的圖型樣式,以 減少記憶體使用空間跟處理時間。舉例來說,下圖 1 圖型結構中的 G 為一個論 文引用關係圖,為具有節點標示以及連結邊標示的圖型結構,且連結關係具有方 向性,其節點標示 A 意義為作者,標示 P 意義為論文,連結關係標示均為 W(Writes),
表示作者寫了一篇論文,由此圖中表示兩個不同作者與四篇論文的關係。
圖 1 圖型結構
圖 2 子圖樣式
假設圖 2 子圖樣式 的 G1和 G2皆為 G 的子圖候選樣式,若採用子圖樣式在
G 中不同位置的出現次數計算支持度,子圖樣式 G1的支持度計數值為 7,子圖樣 式 G2的支持度計數值為 9。據上述情況樣式所算出的支持度並不符合向下包含特 性,而更複雜的子圖樣式愈可能因部分邊的重複比對計算得到更高的支持度。
[9]重新定義從單一圖型網絡中計算子圖樣式支持度的算法,限定在計數子圖 樣式時不允許有共用邊的情況。若依此定義重新計算圖 2 子圖樣式的支持度,則 子圖樣式 G1支持度計數值為 4,子圖樣式 G2的支持度計數值為 2。此定義雖然符 合向下包含特性,卻不容易解釋子圖樣式支持度的意義。因此[4]針對單一圖型網 絡的探勘樣式,提出一個新的樣式定義稱為常見鄰近樣式(Frequent Neighborhood
Pattern)。一個鄰近樣式表示具一個固定標示節點的特定拓樸樣式,若該拓樸樣式 的節點數目大於設定門檻值則稱為一個常見鄰近樣式。以圖 2 子圖樣式的子圖 候選樣式 G1和 G2為例,將標示為 A 的節點設為固定節點時,可比對到圖 1 圖 型結構標示 A 的兩個 n0 及 n1,他們和鄰近節點具有和 G1的相同結構,因此子圖 樣式 G1的支持度計數值為 2,而子圖樣式 G2的支持度計數值也為 2。這兩個樣式 的支持度分別表示寫了至少一篇論文的作者數、寫了至少兩篇不同論文的作者數。
此支持度定義不僅使子圖樣式的支持度值符合向下包含特性,且較能解釋對應子 圖樣是出現頻率的意義。[5]應用常見鄰近樣式作為資料網絡內分類的依據,顯示 此種樣式為一種有效的結構特徵。但[4]中對鄰近常見樣式提出的探勘演算法類似 Apriori Algorithm [9,10]的做法,以組合常見樣式方式列舉出更大的候選樣式,其
缺點為儲存空間需求較大且可能產生在圖型中不存在的子圖樣式。
本研究考慮單一圖型結構,圖型中的點與連結邊皆具有不同的標示型態,且 邊可具有方向性。本論文的研究重點為:對單一圖型網絡中探勘常見鄰近樣式提 出有效率的演算法,同時將該演算法擴展為分散式架構 MapReduce 來處理問題。
目標是有效降低探勘過程中圖型候選樣式產生及圖型同構檢查的高計算成本和 儲存空間,並加快整體探勘回應時間(Response time)。