第二章 文獻探討
3.5 塊模型(Block Modeling)分析
國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
- 44 -
3.4.2 共現矩陣的建立
共現網路圖屬於社會圖(sociogram)的一種,以點(node)代表行動者,以邊(edge)
代表行動者之間的關係。各節點之間可能存在直接或間接的關係,也可能不存在任何關 係。在我們的共現網路圖中,分為兩個類型的節點。第一類是是推薦顯著標籤,第二類 則是 41 個城市標籤,而兩種標籤之間若有邊連接,就是符合我們定義的共現關係。
若我們將城市標籤獨立為一個維度,其他標籤為另一個維度,理論上會建立出 41 * 369 的 2-mode 共現發生矩陣,然而因每個城市的推薦標籤有可能會出現重複,所以最 後的 2-mode 矩陣大小應是 41 * N(N ≦ 369) 。而依此矩陣,我們就可以建立出 2-mode 的 41 城市顯著標籤共現網路圖。
3.5 塊模型(Block Modeling)分析
2-mode 社會網路圖形的分析方式有很多,本研究則是採用中心性分析以及塊模型 分析。採用前者的目的,在於想了解各情感象限關係網路中的重要城市與情感指標分別 為哪些;選用後者的理由,則是因此項分析方式針對網路結構的群聚性(Cluster)有明 確的指標可供參考,對於本研究想確認之城市的情感表現強度,可以提供最直接的佐證 資料。
2 維的塊模型分析有兩個主流作法,分別是核心--邊緣分析(core-periphery)以及 派別(factions analysis)分析。分別說明如下:
(一)核心--邊緣分析
‧
適度(fitness)以及塊模型密度(density matrix)兩個參數值來評估分群結果。配適度 越接近 1 時,表示行動者分區越接近理想圖像,此時左上角矩陣的塊模型密度也會接近 1,右下角的塊模型矩陣密度則會接近 0。本研究針對這兩種模型派別分別進行了實驗,檢視其結果發現:無論在何種情緒面 向下,核心-邊緣分析的參數表現(fitness、density)都比派別分析來的好。表 3.9 即為 兩種分析方式的配適度比較,顯示本研究的原始數據較適合採用前者的模型,因此我們 決定採用前者的實驗數據進行後續的結果分析。
表 3. 9 兩種塊模型分析方式比較(fitness)
Quadrant C-P Factions I 0.642 0.335 II 0.584 0.272 III 0.615 0.260 IV 0.559 0.255
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
- 46 -
第四章
實驗過程與結果分析
本章將呈現第三章研究方法之實際實驗過程,並進行分析討論。首先於 4.1 節中說 明本實驗所採用的模型資料的產出過程,城市標籤維度已確認為 41 個,而情感標籤維 度則因起始數量高達 2,050 個,委實過於龐大難以進行實驗,必須再次進行推薦收斂,
本小節中也進行了共現矩陣元素的二元轉換,將純量資料轉化成代表關係的二元矩陣關 係資料,此轉換引進了關係門檻值 C 的概念。
4.2 節為中心性(centrality)分析實驗,本研究採用中心性分析中最重要的三個參數 來進行分析,並與 Derudder et al.(2005)的 GNC 研究結果進行比對討論。不同於中心 性分析可凸顯網路節點的重要性,本研究針對社群網路的總體性表現則引進了 4.3 節的 塊模型分析,本研究選用了較適合我們數據的核心-邊緣方式來進行,此模型可進一步 證實城市與情感標籤之間的聚合性。4.4 則是總結本研究所提出的實驗步驟以及模型分 析,帶給我們什麼樣的成果。
4.1「城市-情感顯著」的二維模型資料
2-mode 的模型分析會有兩個維度的資料,本研究的目的是以城市導向,所以將其 中一個維度定義為城市標籤是無庸置疑的,其大小為 41。而另一個維度的資料,則選擇 與城市標籤之間有共現關係的顯著標籤,我們稱為顯著標籤共現維度資料,其資料的來 源以及維度大小,將在下個子節說明。
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
- 47 -
4.1.1 顯著標籤共現維度的資料
由 3.3 節中產生的顯著標籤,每個城市單一象限的數量就可能多達 50 個以上,若通 通採用作為共現標籤,那麼共現標籤維度的大小將可能會多達 41 * 50 = 2,050,會讓整 個資料分析難以聚焦。因此我們決定以數量排名在前幾的顯著標籤,當做共現標籤的維 度。這種取法有兩個議題需要討論:首先就是每個城市推薦的數量是否應相同,其次則 是單一城市該推薦多少個標籤。
考量到本研究的目的在於各城市的情緒表現,所以每個城市的推薦數量應該要一致,
才能讓每個城市的標籤特色都被充分的表現出來。至於推薦的數量方面,如表 3.8 的 Sao Paulo 的第一象限顯著標籤,我們可以注意到顯著標籤的數量會呈現所謂的長尾分布,
如圖 4.1 所示。以實際的統計數字來看,我們發現前 10 個的顯著標籤數量已經達到總數 量的 75%,其他象限(第二象限 63%、第三象限 57%、第四象限 83%)以及其他城市 也都呈現這樣的傾向,所以我們決定選取各城市的前 10 顯著標籤,作為共現維度的標 籤資料。
圖 4. 1:Sao Paulo 顯著標籤長尾圖(第一象限)
‧
表 4.1 所示,為 London、New York、Paris、Taipei 與 Milan 的第一象限推薦標籤,其重 複的情形以粗體字標註。總計 41 個城市推薦的第一象限標籤,去除掉重複的推薦標籤 後,最後的共現維度資料大小共計有 110 個標籤,如表 4.2。依此方式,我們也將其他象限的共現維度資料求出,第二象限的共現維度標籤計有 148 個,第三象限有 139 個,第四象限則有 163 個。
表 4. 1:London、New York、Paris、Taipei 與 Milan 的推薦標籤重複示意 London New York Paris Taipei Milan
cathedral celebrity children choir colour competition concert cosplay costume couple day delicious design dirty dj dog eat emotion enter event face family fantastic festival
fifa food football friend fun girl groom happy
holiday hollywood horse hotel joke joy jump june
laugh life light live love lovely man march
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
- 49 -
music naked nature new night north ocean oktoberfest outdoors paradise park party people play poetry pride
red ride rock run scene seen sex drive
shows skate ski smile sport street subway summer teaching theater tradition travel tv urban village water wedding weekend white woman world worldcup
4.1.2 矩陣資料的轉換
圖 4.2 為第一象限的部分 2-mode 矩陣原始資料,矩陣資料裡的值就代表城市與該 標籤在我們的 Flickr 相片庫中實際的共現照片次數。例如 K5 欄位的 501,就是表示
「barcelona」這個城市與「beauty」這個標籤在不同的 501 張照片中一起出現,我們定 義此共現矩陣為 如下:
Matrix = i 標籤 與 j 標籤 於 q 象限 時在相片中的共同出現次數,
Where
i City Tags {},1 i 41 j Significan Tags {},1 j
q Emotion Quadrant {1, 2, 3, 4},1 q 4
= {110, 148, 139, 163},1 q 4 6
6 為各情緒象限的顯著標籤維度,因各城市的推薦標籤重複程度不依所以出現不同的數值。
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
- 50 -
圖 4. 2:部分的原始資料矩陣 (第一象限)
為了將上述的數值轉化成實際的社會網路關係,並從而分析這個 2-mode 矩陣的資 料以及建構其網路圖,首先我們必須將這些純數值轉成關係二元資料,其中 1 表示兩者 之間有建立關連(relation),0 則是兩者之間沒有關連。資料轉換為 0 或是 1 的基準,
在本研究中是以該數值是否高於關係門檻值 C 來判斷。高於門檻值 C 時,表示兩者之 間的關係強度足以判定為兩者之間有關連。
門檻值 C 的訂定,對於整個矩陣資料的影響可說是極為重大,然而本研究並未考量 如何去追尋 C 的最佳值,畢竟這個值並非是本研究追求的目的。所以我們採用的方法則 是選取數個相對合理的門檻值來做數值的轉換。一群數值若要轉換成二元資料時,最直 覺的作法就是取平均值作為判別的門檻值。所以我們將此矩陣的 4,510 個元素數值加總 後平均,得知此矩陣的平均元素數值約為 510,所以我們就取 = 500 作為第一象限的 C 值。我們以同樣的邏輯,取第二象限的 = 300 (avg = 294),第三象限 = 300(avg
= 333),第四象限 = 300(avg = 304)。依此規則我們就能定義出城市-情感的關係矩
陣 如下:
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
- 51 -
Matrix = i 標籤 與 j 標籤 於 q 象限 時的關係發生矩陣,
= 1,
= 0, Where
= {500, 300, 300, 300},1 q 4
如圖 4.3 所示,就是圖 4.2 的資料在 C=500 時轉換的二元矩陣資料。矩陣中的資料 不具有數值的大小性質,而是轉成表示關係的二元指標,例如 K5 欄位值的 1,就表示
「barcelona」這個城市與「beauty」這個標籤之間存在關係。而 F11 雖然在圖 4.2 中共 現次數高達 488 次,但是在 C=500 的這個矩陣裡,仍然無法為「dublin」這個城市與「art」
這個標籤建立起關係。
圖 4. 3:部分的二元關係矩陣(第一象限,C=500)
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
- 52 -
4.2 矩陣的中心性分析
經由前述的資料處理過程,我們得到了本研究最重要的原始實驗數據。由於我們的 矩陣資料 本質上屬於關係資料中的 2-mode 數據,比起統計方法的分析方式,採用 社會網路的分析方法更為適合。
中心性分析是相當常見的 SNA 方法,可用來判斷節點在網路中的相對重要性與影 響力。透過這個方法,我們就能分別對「城市維度」與「情感標籤維度」進行節點的個 別分析,試圖找出在 Flickr 社群的城市情感網路裡,最重要的城市節點有哪些?最活躍 的情感標籤是什麼?以及其他的重要相關資訊可供挖掘。
4.2.1 二維矩陣的中心性分析(第一象限)
圖 4.4 是使用 UCINET 軟體將上一節的二元資料矩陣 進行 2-Mode Centrality 的運算後,再將結果以該軟體內建的 NetDraw 子功能繪出的網路關係圖(第一象限,
C=500),紅點代表城市角色 ,藍方塊表示顯著標籤 ,連線(關係)只會建立於城市 角色與顯著標籤之間。以目視觀察,我們勉強能分辨出部分城市集中在圖形的中心點具 有相當多的關係(degree),部分的情感標籤也有同樣特性,我們分別以兩個橘色框來標 示。而圖最左邊則有幾個標籤是無法與城市建立關連的落選者,但這樣的圖形還是太過 複雜難以判讀,所以我們採用了常見的中心性量化分析來嘗試解讀這個關係圖。
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
- 53 -
圖 4. 4:城市-情緒顯著標籤的 2-mode 網路關係圖(第一象限,C=500)
我們以 UCINET 的 2-Mode Centrality 來分析上述 矩陣資料後,可以得到實際 的中心性參數數值,我們將這些參數依大小排序製成表格來呈現,其結果如表 4.3、4.4 分別是兩個維度的 Top 5 Degree、Closeness、Betweenness 參數表。在城市維度方面,我 們可以發現 London、New York、Chicago、San Francisco、Los Angeles 這幾個城市無論 是在情緒關係的數量以及情緒關係的取得優勢都名列前茅,而 Amsterdam 與 Washington 在整體網路的中介性方面則有不凡的表現,顯示這些城市展現了正向且高強度的情感面 向。
情緒顯著標籤的維度方面,則由 love、happy、people、play、art 等標籤有較高的城 市關係數量,然而在城市關係的取得優勢方面,fun、jump、girl、party 等標籤顯然更活
情緒顯著標籤的維度方面,則由 love、happy、people、play、art 等標籤有較高的城 市關係數量,然而在城市關係的取得優勢方面,fun、jump、girl、party 等標籤顯然更活