• 沒有找到結果。

因子模型 因子模型 因子模型 因子模型

3. 研究方法 研究方法 研究方法 研究方法

3.1. 因子模型 因子模型 因子模型 因子模型

對於現在大多的網絡資料的研究方法都是使用相鄰矩陣(adjacency matrix)來 進行實驗,而相連矩陣與網絡是 1:1 的關係,但相鄰矩陣能直接提供的網絡特徵 的資訊並不多,例如:三角形的個數,以相鄰矩陣乍看之下並不能直接馬上得出 有幾個三角形,而是必須透過一些運算才能得到答案。所以我們認為在網絡矩陣 的形式當中,必須要有一個網絡矩陣表示法能夠直接提供網絡相關的特徵,這樣 對於建立這類型的矩陣之後,作因子重抽的實驗成效性提高許多,然而作因子的 重抽實驗,我們在這裡考慮研究的核心就是因子或者是團(clique)來進行。通常 當一個網絡圖中,研究者如果對於分群的議題有興趣,都會利用團的做法作實 驗,而我們欲利用團的特徵來作重抽樣的動作。

所謂團就是一個由單個點或多個點互相連結所組成的,像是 1-Clique(單 點) 、2-Clique(兩點互相連結)、3-Clique(三點互相連結)或者是 4-Clique(四個點 互相連結)等,由於團是一個很特別的特徵,通常出現在關係緊密的節點中,因 此只要能建立將網絡特徵形式的矩陣,對於研究有相當大的益處。然而我們該如 何建構這類型的矩陣呢? Kuo, Ho and Liu (2013)首先提出因子模型可以用來刻劃 研究中所需的網絡特徵,所謂因子是虛擬的元素,解釋上有時候容易不好解釋,

例如友誼網絡中的連結,三個同學都是好友的因素,可能是因為有相同嗜好的因 子或是與其他班同學有另一種興趣的因子所建立的。換言之,兩點之間的連結,

- 23 -

其實一定有什麼因素去讓他們兩點去產生連結的,而每個點連結的因素都不盡相 同,Kou, Ho and Liu (2013)不在乎背後因素是什麼,統稱因子。然而他們考慮兩 個假設,第一個是每個點各別都有自己的因子集,本身屬於一個因子,第二個是 兩點之間的連結等價於兩點因子集的交集,而這集合為非空集合。因此只要能定 義清楚每個點的因子集,就能基於前兩個敘述來建構網絡。

以下舉個例子來說明:

圖表 16: 由 8 個點所組成的網絡

由上圖 16,是由 8 個點的小網絡作為例子,假如以上述兩個假設皆成立,

利用每個點的因子集作出新的因子矩陣,此時我們可以舉出非常多種的因子集的 組合來對應這張網絡圖。

舉例來說,假如我們單看一個 3-Clique 的例子(4 號、6 號、7 號) 第一種組合:

三個點都屬於一種因子集合,可以看成Fu = Fv = Fw = xf/z 第二種組合:

三個點由三個 2-Clique 所形成的因子集合,如把 2-Clique 看成因子,最後可以看 成Fu = xf/, f z, Fv xf , f{z, Fw xf/, f{z

- 24 -

(a) (b)

圖表 17: 因子組合 (a)第一種組合 (b)第二種組合

在上述的兩種假設下,假如看的是整個的網絡圖,我們就會有多種可能組 合,所以為了讓因子集具有唯一性,Kuo, Ho and Liu (2013)建議使用最大團 (maximal clique)來描述因子。

圖表 18: 圖 16 的各種可能的最大團

以下為每個點的因子集:

節點 節點節點

節點 因子集合因子集合 因子集合因子集合 節點節點節點節點 因子集合因子集合 因子集合因子集合 1 xf/z 5 xf z 2 xf/, f z 6 xf{, fuz 3 xf z 7 xf{z 4 xf , f{z 8 xfuz

圖表 19: 各點所屬之因子集

- 25 -

我們根據上述的資訊,得知 8 個點與 4 種因子,如此一來可以建構出因子矩陣 F。

F =

|} }} }}

}~1 0 0 0 1 1 0 0 0 0 1 0 0 1 1 0 0 1 0 0 0 0 1 1 0 0 1 0 0 0 0 1•€€€€€€•

‚×u

然而我們從一張網絡圖可以得知會 1:1 對應一個相鄰矩陣,同樣的因子矩陣 也會與網絡有 1:1 的對應(在無需考慮行的順序情況下),而原因是因子矩陣是由 網絡分解成數個最大團,而最大團本身具唯一性,因此因子矩陣也唯一。所以整 體來說,整個網絡到相鄰矩陣再到因子矩陣彼此之間都有 1:1 轉換,且先有了因 子矩陣也能反推回去到網絡的相鄰矩陣。

因子矩陣轉回相鄰矩陣作法如下:

I. 計算因子矩陣 F 與因子矩陣的轉置F相乘,得到矩陣 A。(AO×O = FO×… F…×O ) II. 將矩陣 A 的對角線設為 0,其餘不是對角且大於 1 的元素設為 1,此時的矩

陣 A 即是相鄰矩陣。

- 26 -

3.2. Factor 新因子重抽法 新因子重抽法 新因子重抽法 新因子重抽法

從上章節中,提到的 Bootstrap 以及 Jackknife 的重抽樣方法,其實兩者都是 在統計學傳統的重抽樣方法,是近年國外才有學者把完整的思維帶入到網絡分析 中,其作法都大同小異,然而在緒論裡也提到目前在網絡研究的發展過程中,重 抽樣的技術還未發展的成熟,Kuo, Ho and Liu (2013)則透過因子模型提出一個新 的重抽樣方法來估計網絡參數的標準差,使得網絡分析重抽樣的方式更加多元。

在本節中,我們欲利用類似的手法,同樣都是利用上節所介紹的因子矩陣來建構 一個新的因子重抽樣技術,與之前的作法不同。

首先我們先找到網絡的相鄰矩陣 A 所對應的因子矩陣 F,於是每個因子集就 確定,接下來我們欲對每個點重新給予新的因子集,之後就會有新的因子矩陣產 生,其給予的作法為:利用原網絡的邊個數去產生一個隨機數(二項分布隨機產 生),產生出來的數值再隨機給予新矩陣裡的因子元素,即為新的因子矩陣F

^A`

O×O †,‡ˆ‰Š

‹ŒŒŒ• ^F`

O×… Ž

‹ŒŒŒŒŒŒŒŒŒŒŒŒŒŒŒ• ^F

~p:O(‘, Ž/‘)

`

O׎

有了新因子矩陣F,因為與相鄰矩陣為 1:1 的性質,所以透過轉換的方式得到新 的相鄰矩陣A,接著新的相鄰矩陣A同樣會有一個因子矩陣,我們欲擴充這個因 子矩陣,利用擴充機制(expansion mechanism)來執行,當作最後擴充的新因子 矩陣,作法為:先對網絡A的點連結數(degree)採取後不放回的方式去作為新的 擴充因子,然而對於擴充的原因是因為原始網絡 A 的 3-Clique 以及 4-Clique 的 和新的網絡A的個數不一,我們考慮按照它們之間的個數差來擴充,而被擴充的 點就是利用點連結數(degree)的機率來進行選擇被擴充,點連結數高的點被擴充 的機率越大,反之越小。

- 27 -

^ F

`

O׎ †,‡ˆ‰Š

‹ŒŒŒ• ^A

`

O×O N—˜O™:šO Ž ›l˜O:™Ž

‹ŒŒŒŒŒŒŒŒŒŒŒŒŒŒŒŒ• ^F

∗∗

`

O×…

最後的因子矩陣F∗∗經過轉換為相鄰矩陣A∗∗之後,為一次的重抽樣網絡,接著重 複上述動作 1000 次,即為因子重抽法。

^F

∗∗

`

O׎ †,‡ˆ‰Š

‹ŒŒŒ• ^A

∗∗

`

O×O

- 28 -

Bootstrap Jackknife Factor

Density:

(den: density; tri: number of ∆; dia: diameter; clos: closeness centrality; bet:

betweenness centrality)

表格 1: ER 模型下,由 50 個點且連結機率為 0.07 的結果

- 29 -

從上表得知,因子重抽法在網絡密度、三角形個數、直徑以及近距中間度 的標準差估計值,與實際的標準差最為接近,只有參與中間度的估計值略比 jackknife 的方法高一點,但兩者與實際值的標準差是相差不大的。

2.ER 模型節點為 50 的第二種情況:

Node=50 P=0.1 Times=1000 Std of den=0.0088 Std of tri =6.8565 Std of dia= 0.6073 Std of clos =0.0035 Std of bet = 0.0045

Bootstrap Jackknife Factor

Density: (den: density; tri: number of ∆; dia: diameter; clos: closeness centrality; bet:

betweenness centrality)

表格 2: ER 模型下,由 50 個點且連結機率為 0.1 的結果

從表格 2 得知,因子重抽法在網絡密度、三角形個數、直徑以及近距中間度 的標準差估計值,也與實際的標準差最為接近,但是參與中間度的標準差估計值,

相較之下 jackknife 的方法好一點。

- 30 -

3.ER 模型節點為 50 的第三種情況:

Node=50 P=0.2 Times=1000 Std of den=0.0109 Std of tri =27.7669 Std of dia= 0.2564 Std of clos =0.0002 Std of bet = 0.0011

Bootstrap Jackknife Factor

Density: (den: density; tri: number of ∆; dia: diameter; clos: closeness centrality; bet:

betweenness centrality)

表格 3: ER 模型下,由 50 個點且連結機率為 0.2 的結果

從表格 3 得知,因子重抽法在網絡密度、三角形個數以及近距中間度的標準 差估計值,也與實際的標準差最為接近,其中網絡密度與近距中間度估計值與真 值幾乎一樣(小數點後 4 位會些微不一樣)。參與中間度的標準差估計值,相較之 下雖然 jackknife 和 factor 只差些微的誤差,但還是 jackknife 的方法好一點。

- 31 -

4.ER 模型節點為 100 的第一種情況:

Node=100 P=0.07 Times=1000 Std of den=0.0037 Std of tri =11.7855 Std of dia= 0.5389 Std of clos =0.0010 Std of bet = 0.0011

Bootstrap Jackknife Factor

Density: (den: density; tri: number of ∆; dia: diameter; clos: closeness centrality; bet:

betweenness centrality)

表格 4: ER 模型下,由 100 個點且連結機率為 0.07 的結果

從表格 4 得知,當我們把點數調高到 100 個節點時,因子重抽法在網絡密度、

三角形個數、近距中間度以及參與中間度的標準差估計值,與實際的標準差最為 接近,唯有直徑的標準差估計值,沒有明顯很好的表現。

- 32 -

5.ER 模型節點為 100 的第三種情況:

Node=100 P=0.1 Times=1000 Std of den=0.0040 Std of tri =23.8983 Std of dia= 0.1714 Std of clos =0.0006 Std of bet = 0.0004

Bootstrap Jackknife Factor

Density:

(den: density; tri: number of ∆; dia: diameter; clos: closeness centrality; bet:

betweenness centrality)

表格 5: ER 模型下,由 100 個點且連結機率為 0.1 的結果

從表格 5 得知,因子重抽法在直徑以及近距中間度的標準差估計值,也與實 際的標準差最為接近,而網絡密度沒有明顯好的表現,jackknife 和 factor 的結果 都差不多,但是三角形個數和參與中間度的標準差估計值,相較之下 jackknife 的方法好一點。

- 33 -

6.ER 模型節點為 100 的第三種情況:

Node=100 P=0.2 Times=1000 Std of den=0.0059 Std of tri =110.2543 Std of dia= 0

Std of clos =0.00006 Std of bet = 0.0003

Bootstrap Jackknife Factor

Density:

(den: density; tri: number of ∆; dia: diameter; clos: closeness centrality; bet:

betweenness centrality)

表格 6: ER 模型下,由 100 個點且連結機率為 0.2 的結果

從表格 6 得知,因子重抽法在網絡密度以及近距中間度的標準差估計值,與 實際的標準差最為接近,三角形個數 jackknife 比 factor 好,然而直徑的結果為 0,

所以我們不予討論,參與中間度的標準差估計值,jackknife 和 factor 的結果都差 不多。

從多個不同點數以及連結機率的 ER 模型下,我們可以得出結果,整體來看 兩種傳統的重抽樣方法比較之下,jackknife 的方法比 Bootstrap 的方法較好,也 驗證了(Frank and Snijders 1994)的說法。而因子重抽法的表現上也是不錯的,只 是在某些情況下的特徵值的標準差估計上沒比 jackknife 還要好,所以說 factor 的方法並非精準,傳統方法其實在某些情況下也是略勝一籌的。

- 34 - Std of tri=3.6891 Std of PL=0.4805 Std of clos=0.0002 Std of bet=0.0022

Bootstrap Jackknife Factor

Triangle:

Power-Law MLE:

σ•¯ ° = Ÿ. ¢Ÿ ¨

(den: density; tri: number of ∆; PL=Power-Law; clos: closeness centrality; bet:

betweenness centrality)

表格 7: 由初始 3 個點每次增加兩點,增長到 50 個點的結果

從表格 7 得知,因子重抽法在三角形個數、冪率指數和參與中間度的標準差 估計值,與實際的標準差最為接近,但是在近距中間度的標準差估計值,相較之 下都沒來的比 jackknife 好。

- 35 - Std of tri=6.9519 Std of PL=0.2238 Std of clos=0.0001 Std of bet=0.0001

Bootstrap Jackknife Factor

Triangle:

Power-Law MLE:

σ•¯ ° = Ÿ. ¤ £

(den: density; tri: number of ∆; PL=Power-Law; clos: closeness centrality; bet:

betweenness centrality)

表格 8: 由初始 5 個點每次增加三個點,增長到 50 個點的結果

從表格 8 得知,因子重抽法在三角形個數、近距中間度和參與中間度的標準 差估計值,與實際的標準差最為接近,但是在冪率指數的標準差估計值,相較之

從表格 8 得知,因子重抽法在三角形個數、近距中間度和參與中間度的標準 差估計值,與實際的標準差最為接近,但是在冪率指數的標準差估計值,相較之