• 沒有找到結果。

第二章 文獻探討

2.2 連結預測理論

點(Getoor and Diehl, 2005;Lü and Zhou, 2010)。而對於如何以某個時間點狀況下的網 路,去預測下一刻網路中的哪些節點與節點彼此間會有新的連結產生(Popescul and Ungar, 2003),因此節點與節點之間的相似度(Similarity)成為了評估產生連結關係可 能性的依據(Lin, 1998;Lü, Jin, and Zhou, 2009),又如何能夠精確地預測出正確的連結 關係,成為連結預測理論中主要注重的核心評估。以下將會依序對連結預測理論現有的 路分析的理論,能將連結預測理論方法以不同觀點的進行兩種分類(Liben‐Nowell and Kleinberg, 2007):

1. 依照鄰近點(Neighborhood)觀點的方法:

a. Common Neighbors

此計算相似度的公式是一個非常直觀的概念,從下面公式(2.1)可觀察出,

想法是認為在網路中任一對兩個不相連的節點 x 與節點 y,若是彼此間擁有共

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

同鄰近點的數量越多的話,則表示這兩個節點的相似度越高,也就是代表這 兩個節點會產生連結關係的可能性越高。

其中Γ(x)代表 x 鄰近點的集合、Γ(y)代表 y 鄰近點的集合。

b. Jaccard’s Coefficient

Guha 等人在 1998 年所提出,一般使用於資訊檢索(Information Retrieval)領 域,主要先計算兩集合的交集數量,在除上兩集合聯集的數量進行標準化

(Normalization),故計算出來的分數是介於 0 到 1 之間,從下面公式(2.2)

可見,應用在連結預測理論時,則把原先的兩個集合修改成網路中,任一對 兩個不相連的節點 x 的鄰近點集合與節點 y 的鄰近點集合來取代,想法上大 體與 Common Neighbor 相同,只是為了公平性比較進行標準化,而這個公式 一樣也是分數越高代表兩個節個節點產生連結關係的機率越高。

其中Γ(x)代表 x 鄰近點的集合、Γ(y)代表 y 鄰近點的集合。

c. Adamic/Adar

下面公式(2.3)可以觀察出 Adamic/Adar 公式,核心的想法是透過屬於兩個 集合分別為任一對兩個不相連的節點 x 的鄰近點集合與節點 y的鄰近點集合,

這兩個集合交集節點的集合,並計算集合內節點鄰近點的數量,評估這個節 點 z 對於節點 x 與節點 y 來說重要的程度,若是節點 x 與節點 y 之間重要節 點 z 越多分數也會越高,進階代表兩個節點產生連結關係的可能性越高。

其中Γ(x)代表 x 鄰近點的集合、Γ(y)代表 y 鄰近點的集合、Γ(z)代表 z 鄰近點的集合。

d. Preferential Attachment

的節點之間的連結關係。文獻(Liben‐Nowell and Kleinberg, 2007)中,整理出上述兩種 不同觀點的方法,計算任兩個不相連的節點,兩者產生連結關係的可能性,最後使用不 同連結關係的網路,對這些方法進行相當完整的實驗及探討。近年來的研究開始希望能 夠結合多種方法,或是使用多種 feature 進行產生連結可能性的計算。(Yang, Fu, Tang, Zhang, Hao, Gui, Ji, and Yue, 2012)在研究中透過簡單加總的方式結合多種方法,進行連 結預測,並且從實驗數據可以觀察出,這樣子的加總方式在預測結果上,確實是比只用 單一方法來得好。文獻(Murata and Moriyasu, 2007)則是透過給予已經存在連結權重,

也就是權重圖,進行兩個節點相似度的計算,評估兩個節點產生連結關係的可能性。而

(Al Hasan, Chaoji, Salem, and Zaki, 2006)的研究則是使用了多種 feature,除了根據網 路中連結關係計算的 feature 之外,還根據一些其他資訊所產生的 feature,並且透過機 器學習(Machine Learning)中監督式的學習(Supervised Learning)方式,學習出每個 feature 最佳的權重值,進行連結關係的預測。而在對 2-mode 的網路進行連結預測的研 究上,大部分在連結預測方法的考量,是將 1-mode 網路上的方法經過修改後,調整成

相關文件