第二章 文獻探討
2.2 連結預測
國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
16
以及將政府職務資料形成另一種職務類型的節點,而該官員是否擔任過該職務之關係形 成人物與職務兩個不同類型節點之間的連結,在這樣的結構之下,建構出兩種不同節點 類型的異動網路,是一個 2-mode 網路結構。
2.2 連結預測
連結預測(Link Prediction)理論是以社會網路分析理論為基礎擴展而來的一嶄新研 究領域。常見的社會網路分析理論主要著重於探討資料節點的特質、彼此間的連結關係 以及整體網路結構對其行為表現的影響程度,較偏向於針對單一社會網路結構,進行靜 態形式的分析[9];而連結預測理論選擇引入了時間的概念,認為社會網路的本質是屬於 動態的架構,節點與節點彼此間可能會隨著時間的流逝而建立新的連結關係,也就是說,
對於一個在時間點 t 的社會網路,如何去預測在時間點 t’時的社會網路,哪一個鏈結會 出現:故如何能夠準確預測哪些節點彼此間未來可能會產生新的連結,即成為連結預測 理論所要探討的主要核心問題。以下將依序針對連結預測的基本理論定義以及相關的預 測演算法進行介紹。
2.2.1 基本概念與定義
連結預測理論認為社會網路的本質為一隨著時間變化的動態架構,同時隨著時間變 化其整體網路規模以及節點彼此間的連結關係也會有所變動;一社會網路可能會因為歷 經一段時間過後某些事件的發生而產生新的節點,或者原先無連結關係的節點間因應新 事件的發生,而於彼此間產生了新的連結關係。而連結預測理論主要探討的問題核心便 在於如何透過一連結預測器(Link Predictor)準確預測、判定哪些新的關係連結,將出 現於經過一段時間過後的社會網路結構中。
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
17
2.2.2 演算法
連結預測理論相關演算法的共同設計概念主要在於,針對所輸入的社會網路結構,
其中所包含的任一對點 ,若其彼此間的相似程度(Similarity)愈高,則該對點 在 未來某一時段的社會網路結構中,將愈有可能會在彼此之間產生新的連結關係;舉例來 說,在一以公司為節點、曾經共同參與一合作計畫而建立連結關係的社會網路結構中,
現有 A、B 兩公司,其彼此間未曾合作而產生連結關係,但若其各自曾經合作過的公司 節點集合相有較高的重複性,則可以合理推斷 A、B 兩公司未來將有較大的可能性相互 合作,亦即其彼此間將可能於未來產生連結關係。在上述的舉例中,是以任兩公司節點 各自的相連公司節點集合的重複性為其相似度的計算法則,而依據針對單一對點 彼 此間相似度計算法則的定義之不同,因此也就衍伸出不同的連結預測演算法。接下來,
將依序介紹目前較為常見的連結預測演算法。
1. Graph Distance:計算任意兩節點彼此間相似度高低最基礎的方法之一,即是以任 意一對點 彼此間的最短路徑距離作為計算準則;當兩節點彼此間的最短路徑距離愈 短時,相似度愈高。公式 1 所示即為其相似度計算公式;其中值得特別注意的是,當任 一對點 的最短路徑距離為 1 時,代表該對點在 training interval 階段的社會網路結構 中,彼此間已有連結關係相連,不屬於可預測範圍之內,故選擇從最短路徑距離 的 對點集合中,依照各對點所計算出的 值依降冪排序,並取出前 n 對對點以作 為連結預測的結果。
公式
2. Common Neighbors:此相似度計算公式的設計概念在於,認為在社會網路結構中任 意兩不相連的節點,若其彼此間擁有愈多的共同鄰居結點時,亦即當兩節點各自的鄰居 節點集合的內含元素重複性愈高時,則該兩節點在未來某一時段的社會網路結構中可能 產生連結關係的機會愈大。公式 2 所示即為其相似度計算公式;其中 代表節點 x 的 鄰居節點集合。
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
18
公式
3. Jaccard's Coefficient:Jaccard's Coefficient 是由 Guha 等人於 1998 年所提出,
經常運用於資訊擷取(information retrieval)領域,其主要是用於度量兩集合所屬元素 之間的相似程度,現假設有 A、B 兩集合,則公式 3 所示即為此兩集合透過 Jaccard Coefficient 所呈現的相似度值;而當運用至連結預測領域時,選擇將原先的 A、B 集合 改以網路中任意二節點 x、y 各自的鄰居節點集合來取代,如公式 4 所示,因此便可藉 由 Jaccard's Coefficient 計算出 x、y 鄰居節點集合間的相似度;若二節點其鄰居節點集 合彼此間的相似度高,則可推估該二節點未來彼此間產生新連結關係的機率可能亦會較 高。
公式
公式
4. Katz:此項理論選擇從任意兩節點彼此間相互連接的路徑數量多寡的角度切入觀 察,其認為當兩節點彼此間相互連接的路徑數量愈多,同時其中又以較短長度的路徑數 量所佔比率較多時,則可推估該兩節點彼此間的相似程度應該較高;故其相似度計算公 式是以任意兩節點彼此間不同長度路徑數量的總和,作為評量該兩節點相似程度的基準,
其中並藉由一設定參數 來調整對於不同長度之路徑的權重計算。其相似度計算公式如 公式 5 所示,其中 代表從節點 x 到節點 y 路徑長度為 的路徑集合。
公式
5. SimRank Algorithm:此演算法是由 Glen Jeh 與 JenniferWidom 在 2002 年所提出的 [10],其基本理論基礎是由一遞迴關係概念所構成,認為任意兩節點彼此間的相似程度 會因為與該兩節點相連的其他節點彼此間相似程度的高低而受到影響;舉例來說,現欲 探討 a、b 兩節點間的相似程度,其中 a 節點與 c 節點相連,而 b 節點則與 d 節點相連,
‧
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
20
二節點間相似度計算時的遞迴公式;其中 代表當進行至第 k 次遞迴時節點 x、y 間的相似度,而 k 值代表了所期望進行的遞迴次數,可依照實際計算需求自行設定;從 上述公式中可以得知,每次進行第 次相似度計算( )時,均是以第 次
( )所得的相似度值為基礎累積計算;其中並明確定義出當進行至第 0 次遞迴 計算( )時節點 x、y 間的相似度計算法則,以做為整個遞迴流程的計算終止點。
而根據 Glen 與 Jennifer 所提出的數學推論證明中可以得知,當 k 值設定趨近於無限大時,
也就是在經過無限次的遞迴計算過程後,所得的 將會趨近於 ,也就 是趨近於節點 x、y 間真正的相似度值。如公式 8 所示。
公式
而在某特定職務出缺時,上位者在考慮特定職務的實際接任人選時,曾經擔任過此 職務之歷任人選的歷任職務政府官員,較會容易受到矚目,而若某官員的歷任職務與歷 任人選的歷任職務相似時,則出線的機率會比其他官員高。基於這樣的觀察,在對特定 職務的實際繼任人選進行分析時,除了從此特定職務的歷任人選的歷任職務中,找出曾 經擔任過這些歷任職務的人,並分析這些人的歷任職務,再從中計算出實際接任人選的 預測準確值,本研究中所建構的政府官員職務異動網路是一個 2-mode 網路結構,而 Simrank 演算法不同於其他演算法多以 1-mode 網路為應用領域,Simrank 演算法可同時 適用於 1-mode 和 2-mode 網路,從網路結構分析角度來看,是運用遞迴原理,計算兩兩 節點之間相似度的方式,符合政府官員職務異動網路特性,包含人物與職務兩種不同型 態的節點,也符合本論文的研究需求,故我們選擇以 Simrank 演算法為基礎,並做適當 延伸為 Simrank for 2-mode(請參考公式 9),作為政府官員職務繼任分析的研究核心。