第二章 文獻探討
2.2 連結預測理論
點(Getoor and Diehl, 2005;Lü and Zhou, 2010)。而對於如何以某個時間點狀況下的網 路,去預測下一刻網路中的哪些節點與節點彼此間會有新的連結產生(Popescul and Ungar, 2003),因此節點與節點之間的相似度(Similarity)成為了評估產生連結關係可 能性的依據(Lin, 1998;Lü, Jin, and Zhou, 2009),又如何能夠精確地預測出正確的連結 關係,成為連結預測理論中主要注重的核心評估。以下將會依序對連結預測理論現有的 路分析的理論,能將連結預測理論方法以不同觀點的進行兩種分類(Liben‐Nowell and Kleinberg, 2007):
1. 依照鄰近點(Neighborhood)觀點的方法:
a. Common Neighbors
此計算相似度的公式是一個非常直觀的概念,從下面公式(2.1)可觀察出,
想法是認為在網路中任一對兩個不相連的節點 x 與節點 y,若是彼此間擁有共
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
同鄰近點的數量越多的話,則表示這兩個節點的相似度越高,也就是代表這 兩個節點會產生連結關係的可能性越高。
其中Γ(x)代表 x 鄰近點的集合、Γ(y)代表 y 鄰近點的集合。
b. Jaccard’s Coefficient
Guha 等人在 1998 年所提出,一般使用於資訊檢索(Information Retrieval)領 域,主要先計算兩集合的交集數量,在除上兩集合聯集的數量進行標準化
(Normalization),故計算出來的分數是介於 0 到 1 之間,從下面公式(2.2)
可見,應用在連結預測理論時,則把原先的兩個集合修改成網路中,任一對 兩個不相連的節點 x 的鄰近點集合與節點 y 的鄰近點集合來取代,想法上大 體與 Common Neighbor 相同,只是為了公平性比較進行標準化,而這個公式 一樣也是分數越高代表兩個節個節點產生連結關係的機率越高。
其中Γ(x)代表 x 鄰近點的集合、Γ(y)代表 y 鄰近點的集合。
c. Adamic/Adar
下面公式(2.3)可以觀察出 Adamic/Adar 公式,核心的想法是透過屬於兩個 集合分別為任一對兩個不相連的節點 x 的鄰近點集合與節點 y的鄰近點集合,
這兩個集合交集節點的集合,並計算集合內節點鄰近點的數量,評估這個節 點 z 對於節點 x 與節點 y 來說重要的程度,若是節點 x 與節點 y 之間重要節 點 z 越多分數也會越高,進階代表兩個節點產生連結關係的可能性越高。
其中Γ(x)代表 x 鄰近點的集合、Γ(y)代表 y 鄰近點的集合、Γ(z)代表 z 鄰近點的集合。
d. Preferential Attachment
‧
‧
的節點之間的連結關係。文獻(Liben‐Nowell and Kleinberg, 2007)中,整理出上述兩種 不同觀點的方法,計算任兩個不相連的節點,兩者產生連結關係的可能性,最後使用不 同連結關係的網路,對這些方法進行相當完整的實驗及探討。近年來的研究開始希望能 夠結合多種方法,或是使用多種 feature 進行產生連結可能性的計算。(Yang, Fu, Tang, Zhang, Hao, Gui, Ji, and Yue, 2012)在研究中透過簡單加總的方式結合多種方法,進行連 結預測,並且從實驗數據可以觀察出,這樣子的加總方式在預測結果上,確實是比只用 單一方法來得好。文獻(Murata and Moriyasu, 2007)則是透過給予已經存在連結權重,也就是權重圖,進行兩個節點相似度的計算,評估兩個節點產生連結關係的可能性。而
(Al Hasan, Chaoji, Salem, and Zaki, 2006)的研究則是使用了多種 feature,除了根據網 路中連結關係計算的 feature 之外,還根據一些其他資訊所產生的 feature,並且透過機 器學習(Machine Learning)中監督式的學習(Supervised Learning)方式,學習出每個 feature 最佳的權重值,進行連結關係的預測。而在對 2-mode 的網路進行連結預測的研 究上,大部分在連結預測方法的考量,是將 1-mode 網路上的方法經過修改後,調整成