因子模型因子模型因子模型因子模型

3. 研究方法研究方法研究方法研究方法

3.1. 因子模型因子模型因子模型因子模型

對於現在大多的網絡資料的研究方法都是使用相鄰矩陣(adjacency matrix)來進行實驗，而相連矩陣與網絡是 1:1 的關係，但相鄰矩陣能直接提供的網絡特徵的資訊並不多，例如：三角形的個數，以相鄰矩陣乍看之下並不能直接馬上得出有幾個三角形，而是必須透過一些運算才能得到答案。所以我們認為在網絡矩陣的形式當中，必須要有一個網絡矩陣表示法能夠直接提供網絡相關的特徵，這樣對於建立這類型的矩陣之後，作因子重抽的實驗成效性提高許多，然而作因子的重抽實驗，我們在這裡考慮研究的核心就是因子或者是團(clique)來進行。通常當一個網絡圖中，研究者如果對於分群的議題有興趣，都會利用團的做法作實驗，而我們欲利用團的特徵來作重抽樣的動作。

所謂團就是一個由單個點或多個點互相連結所組成的，像是 1-Clique(單點) 、2-Clique(兩點互相連結)、3-Clique(三點互相連結)或者是 4-Clique(四個點互相連結)等，由於團是一個很特別的特徵，通常出現在關係緊密的節點中，因此只要能建立將網絡特徵形式的矩陣，對於研究有相當大的益處。然而我們該如何建構這類型的矩陣呢? Kuo, Ho and Liu (2013)首先提出因子模型可以用來刻劃研究中所需的網絡特徵，所謂因子是虛擬的元素，解釋上有時候容易不好解釋，

例如友誼網絡中的連結，三個同學都是好友的因素，可能是因為有相同嗜好的因子或是與其他班同學有另一種興趣的因子所建立的。換言之，兩點之間的連結，

- 23 -

其實一定有什麼因素去讓他們兩點去產生連結的，而每個點連結的因素都不盡相同，Kou, Ho and Liu (2013)不在乎背後因素是什麼，統稱因子。然而他們考慮兩個假設，第一個是每個點各別都有自己的因子集，本身屬於一個因子，第二個是兩點之間的連結等價於兩點因子集的交集，而這集合為非空集合。因此只要能定義清楚每個點的因子集，就能基於前兩個敘述來建構網絡。

以下舉個例子來說明：

圖表 16: 由 8 個點所組成的網絡

由上圖 16，是由 8 個點的小網絡作為例子，假如以上述兩個假設皆成立，

利用每個點的因子集作出新的因子矩陣，此時我們可以舉出非常多種的因子集的組合來對應這張網絡圖。

舉例來說，假如我們單看一個 3-Clique 的例子(4 號、6 號、7 號) 第一種組合:

三個點都屬於一種因子集合，可以看成F_u = F_v = F_w = xf_/z 第二種組合:

三個點由三個 2-Clique 所形成的因子集合，如把 2-Clique 看成因子，最後可以看成F_u = xf_/, f z, F_v xf , f{z, Fw xf_/, f_{z

- 24 -

(a) (b)

圖表 17: 因子組合 (a)第一種組合 (b)第二種組合

在上述的兩種假設下，假如看的是整個的網絡圖，我們就會有多種可能組合，所以為了讓因子集具有唯一性，Kuo, Ho and Liu (2013)建議使用最大團 (maximal clique)來描述因子。

圖表 18: 圖 16 的各種可能的最大團

以下為每個點的因子集:

節點節點節點

節點因子集合因子集合 因子集合因子集合節點節點節點節點因子集合因子集合 因子集合因子集合 1 xf_/z 5 xf z 2 xf_/, f z 6 xf_{, f_uz 3 xf z 7 xf_{z 4 xf , f_{z 8 xf_uz

圖表 19: 各點所屬之因子集

- 25 -

我們根據上述的資訊，得知 8 個點與 4 種因子，如此一來可以建構出因子矩陣 F。

F =

|} }} }}

}~1 0 0 0 1 1 0 0 0 0 1 0 0 1 1 0 0 1 0 0 0 0 1 1 0 0 1 0 0 0 0 1•€€€€€€•

‚×u

然而我們從一張網絡圖可以得知會 1:1 對應一個相鄰矩陣，同樣的因子矩陣也會與網絡有 1:1 的對應(在無需考慮行的順序情況下)，而原因是因子矩陣是由網絡分解成數個最大團，而最大團本身具唯一性，因此因子矩陣也唯一。所以整體來說，整個網絡到相鄰矩陣再到因子矩陣彼此之間都有 1:1 轉換，且先有了因子矩陣也能反推回去到網絡的相鄰矩陣。

因子矩陣轉回相鄰矩陣作法如下：

I. 計算因子矩陣 F 與因子矩陣的轉置F^„相乘，得到矩陣 A。(A_O×O = F_O×… F_…×O^„ ) II. 將矩陣 A 的對角線設為 0，其餘不是對角且大於 1 的元素設為 1，此時的矩

陣 A 即是相鄰矩陣。

- 26 -

3.2. Factor 新因子重抽法新因子重抽法新因子重抽法新因子重抽法

從上章節中，提到的 Bootstrap 以及 Jackknife 的重抽樣方法，其實兩者都是在統計學傳統的重抽樣方法，是近年國外才有學者把完整的思維帶入到網絡分析中，其作法都大同小異，然而在緒論裡也提到目前在網絡研究的發展過程中，重抽樣的技術還未發展的成熟，Kuo, Ho and Liu (2013)則透過因子模型提出一個新的重抽樣方法來估計網絡參數的標準差，使得網絡分析重抽樣的方式更加多元。

在本節中，我們欲利用類似的手法，同樣都是利用上節所介紹的因子矩陣來建構一個新的因子重抽樣技術，與之前的作法不同。

首先我們先找到網絡的相鄰矩陣 A 所對應的因子矩陣 F，於是每個因子集就確定，接下來我們欲對每個點重新給予新的因子集，之後就會有新的因子矩陣產生，其給予的作法為：利用原網絡的邊個數去產生一個隨機數(二項分布隨機產生)，產生出來的數值再隨機給予新矩陣裡的因子元素，即為新的因子矩陣F^∗。

^A`

_O×O ^{†,‡ˆ‰Š}

‹ŒŒŒ• ^F`

_O×… ^Ž

‹ŒŒŒŒŒŒŒŒŒŒŒŒŒŒŒ• ^F

^•^~p:O(‘^’^“^, Ž^•^/‘^’^“⁾ ^∗

`

_O×Ž_•

有了新因子矩陣F^∗，因為與相鄰矩陣為 1:1 的性質，所以透過轉換的方式得到新的相鄰矩陣A^∗，接著新的相鄰矩陣A^∗同樣會有一個因子矩陣，我們欲擴充這個因子矩陣，利用擴充機制(expansion mechanism)來執行，當作最後擴充的新因子矩陣，作法為：先對網絡A^∗的點連結數(degree)採取後不放回的方式去作為新的擴充因子，然而對於擴充的原因是因為原始網絡 A 的 3-Clique 以及 4-Clique 的和新的網絡A^∗的個數不一，我們考慮按照它們之間的個數差來擴充，而被擴充的點就是利用點連結數(degree)的機率來進行選擇被擴充，點連結數高的點被擴充的機率越大，反之越小。

- 27 -

^ F

^∗

`

_O×Ž_• ^{†,‡ˆ‰Š}

‹ŒŒŒ• ^A

^∗

`

_O×O N—˜O™:šO Ž ›l˜O:™Ž

‹ŒŒŒŒŒŒŒŒŒŒŒŒŒŒŒŒ• ^F

^∗∗

`

_O×…

最後的因子矩陣F^∗∗經過轉換為相鄰矩陣A^∗∗之後，為一次的重抽樣網絡，接著重複上述動作 1000 次，即為因子重抽法。

^F

^∗∗

`

_O×Ž_• ^{†,‡ˆ‰Š}

‹ŒŒŒ• ^A

^∗∗

`

_O×O

- 28 -

Bootstrap Jackknife Factor

Density:

(den: density; tri: number of ∆; dia: diameter; clos: closeness centrality; bet:

betweenness centrality)

表格 1: ER 模型下，由 50 個點且連結機率為 0.07 的結果

- 29 -

從上表得知，因子重抽法在網絡密度、三角形個數、直徑以及近距中間度的標準差估計值，與實際的標準差最為接近，只有參與中間度的估計值略比 jackknife 的方法高一點，但兩者與實際值的標準差是相差不大的。

2.ER 模型節點為 50 的第二種情況:

Node=50 P=0.1 Times=1000 Std of den=0.0088 Std of tri =6.8565 Std of dia= 0.6073 Std of clos =0.0035 Std of bet = 0.0045

Bootstrap Jackknife Factor

Density: (den: density; tri: number of ∆; dia: diameter; clos: closeness centrality; bet:

betweenness centrality)

表格 2: ER 模型下，由 50 個點且連結機率為 0.1 的結果

從表格 2 得知，因子重抽法在網絡密度、三角形個數、直徑以及近距中間度的標準差估計值，也與實際的標準差最為接近，但是參與中間度的標準差估計值，

相較之下 jackknife 的方法好一點。

- 30 -

3.ER 模型節點為 50 的第三種情況:

Node=50 P=0.2 Times=1000 Std of den=0.0109 Std of tri =27.7669 Std of dia= 0.2564 Std of clos =0.0002 Std of bet = 0.0011

Bootstrap Jackknife Factor

Density: (den: density; tri: number of ∆; dia: diameter; clos: closeness centrality; bet:

betweenness centrality)

表格 3: ER 模型下，由 50 個點且連結機率為 0.2 的結果

從表格 3 得知，因子重抽法在網絡密度、三角形個數以及近距中間度的標準差估計值，也與實際的標準差最為接近，其中網絡密度與近距中間度估計值與真值幾乎一樣(小數點後 4 位會些微不一樣)。參與中間度的標準差估計值，相較之下雖然 jackknife 和 factor 只差些微的誤差，但還是 jackknife 的方法好一點。

- 31 -

4.ER 模型節點為 100 的第一種情況:

Node=100 P=0.07 Times=1000 Std of den=0.0037 Std of tri =11.7855 Std of dia= 0.5389 Std of clos =0.0010 Std of bet = 0.0011

Bootstrap Jackknife Factor

Density: (den: density; tri: number of ∆; dia: diameter; clos: closeness centrality; bet:

betweenness centrality)

表格 4: ER 模型下，由 100 個點且連結機率為 0.07 的結果

從表格 4 得知，當我們把點數調高到 100 個節點時，因子重抽法在網絡密度、

三角形個數、近距中間度以及參與中間度的標準差估計值，與實際的標準差最為接近，唯有直徑的標準差估計值，沒有明顯很好的表現。

- 32 -

5.ER 模型節點為 100 的第三種情況:

Node=100 P=0.1 Times=1000 Std of den=0.0040 Std of tri =23.8983 Std of dia= 0.1714 Std of clos =0.0006 Std of bet = 0.0004

Bootstrap Jackknife Factor

Density:

(den: density; tri: number of ∆; dia: diameter; clos: closeness centrality; bet:

betweenness centrality)

表格 5: ER 模型下，由 100 個點且連結機率為 0.1 的結果

從表格 5 得知，因子重抽法在直徑以及近距中間度的標準差估計值，也與實際的標準差最為接近，而網絡密度沒有明顯好的表現，jackknife 和 factor 的結果都差不多，但是三角形個數和參與中間度的標準差估計值，相較之下 jackknife 的方法好一點。

- 33 -

6.ER 模型節點為 100 的第三種情況:

Node=100 P=0.2 Times=1000 Std of den=0.0059 Std of tri =110.2543 Std of dia= 0

Std of clos =0.00006 Std of bet = 0.0003

Bootstrap Jackknife Factor

Density:

(den: density; tri: number of ∆; dia: diameter; clos: closeness centrality; bet:

betweenness centrality)

表格 6: ER 模型下，由 100 個點且連結機率為 0.2 的結果

從表格 6 得知，因子重抽法在網絡密度以及近距中間度的標準差估計值，與實際的標準差最為接近，三角形個數 jackknife 比 factor 好，然而直徑的結果為 0，

所以我們不予討論，參與中間度的標準差估計值，jackknife 和 factor 的結果都差不多。

從多個不同點數以及連結機率的 ER 模型下，我們可以得出結果，整體來看兩種傳統的重抽樣方法比較之下，jackknife 的方法比 Bootstrap 的方法較好，也驗證了(Frank and Snijders 1994)的說法。而因子重抽法的表現上也是不錯的，只是在某些情況下的特徵值的標準差估計上沒比 jackknife 還要好，所以說 factor 的方法並非精準，傳統方法其實在某些情況下也是略勝一籌的。

- 34 - Std of tri=3.6891 Std of PL=0.4805 Std of clos=0.0002 Std of bet=0.0022

Bootstrap Jackknife Factor

Triangle:

Power-Law MLE:

σ•_{¯ °} = Ÿ. ¢Ÿ ¨

(den: density; tri: number of ∆; PL=Power-Law; clos: closeness centrality; bet:

betweenness centrality)

表格 7: 由初始 3 個點每次增加兩點，增長到 50 個點的結果

從表格 7 得知，因子重抽法在三角形個數、冪率指數和參與中間度的標準差估計值，與實際的標準差最為接近，但是在近距中間度的標準差估計值，相較之下都沒來的比 jackknife 好。

- 35 - Std of tri=6.9519 Std of PL=0.2238 Std of clos=0.0001 Std of bet=0.0001

Bootstrap Jackknife Factor

Triangle:

Power-Law MLE:

σ•_{¯ °} = Ÿ. ¤ £

(den: density; tri: number of ∆; PL=Power-Law; clos: closeness centrality; bet:

betweenness centrality)

表格 8: 由初始 5 個點每次增加三個點，增長到 50 個點的結果

從表格 8 得知，因子重抽法在三角形個數、近距中間度和參與中間度的標準差估計值，與實際的標準差最為接近，但是在冪率指數的標準差估計值，相較之

在文檔中網絡特徵之統計推論與其應用 (頁 32-0)

因子模型 因子模型 因子模型 因子模型

3. 研究方法 研究方法 研究方法 研究方法

3.1. 因子模型 因子模型 因子模型 因子模型

3.2. Factor 新因子重抽法 新因子重抽法 新因子重抽法 新因子重抽法

^A`

‹ŒŒŒ• ^F`

‹ŒŒŒŒŒŒŒŒŒŒŒŒŒŒŒ• ^F

`

^ F

`

‹ŒŒŒ• ^A

`

‹ŒŒŒŒŒŒŒŒŒŒŒŒŒŒŒŒ• ^F

`

^F

`

‹ŒŒŒ• ^A

`

3. 研究方法研究方法研究方法研究方法

3.1. 因子模型因子模型因子模型因子模型

3.2. Factor 新因子重抽法新因子重抽法新因子重抽法新因子重抽法