• 沒有找到結果。

第五章 實驗結果與分析

5.2. 詞彙網絡分析

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

52

由頻率分析的結果我們可以發現,各個類別存在明顯的時序分佈差異,似乎 可以將時段中的主要分類類別變成災難發展的一個階段,如一開始的緊急救難階 段(提供情境資訊、請求救援)、失蹤協尋階段(請求協尋)、志工物資階段(志 工物資、討論反應)等。而每個資料集對於特定類別又特別具有集中性(參考圖 16),因此藉由訓練資料集所得的分類器放置於特定的頻道上收集與自動分類訊 息,監測類別的消長情形來預估災難的發展階段或進程,可以稱這樣的工具為災 難社群感知器。

5.2. 詞彙網絡分析

本研究中為瞭解不同屬性資料集中詞彙彼此間的關係,我們利用發佈的文字內容 建置詞彙共現網絡(Words Co-Occurrence Network)。網絡分析有別於其他的方 法,主要特色是以網絡個體間的關係作為分析的重要資訊。其中個體為網絡中的 點(Node),關係則為網絡中的邊(Edge)。詞彙共現網絡是使用文章中詞語共 同出現的資訊來建置,在我們的研究中,已完成中文斷詞處理與移除停用字的詞 彙,若共同出現在同一篇發文中,則為每兩個詞彙建立一個關係,然後,將每個 資料集都建置詞彙共現網絡。

由所有文章中抽取大量曾經出現過的詞彙,統計建置詞彙共現關係的資料會 非常龐大,加上並非所有出現過的詞彙都具有代表文章或分類的高相關性,因此 在研究中我們以詞彙的平均卡方值、最大卡方值與個資料集詞彙的 TFIDF 權重

圖 18、Ricks 與 Xdite 資料集專家分類逐日分佈圖

AVG-CHI MAX-CHI

Dataset Nodes Edges Density Nodes Edges Density 為資料分類時的關鍵。由既有頻道 Tainan 與 Pingtung119 的節點於連接線的關係,

與浮現頻道 Ricks 與 Xdite 比較,可以發現節點數差異不大,既有頻道的連接線

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

54

表 3、TFIDF 詞彙共現網絡結構

Nodes Edges Density Avg. Path Length Tainan119 183 177 0.004 3.884 Pingtung119 285 582 0.013 3.658 Ricks 204 606 0.014 2.986 Xdite 208 615 0.014 2.994

ADCT 239 421 0.009 4.448

TFIDF 計算所得的權重值,是用來代表一個詞彙在一個文件庫的重要性,我 們由各資料集取重要性前 300 個詞彙建置的詞彙共現網絡,得到如表 3 的網絡結 構情形。在各個資料集中節點間的連接線很少,網路的密度相當低而平均路徑長 度長,表示網絡的結構相當鬆散,如圖 19。鬆散的結構若使用來做為分類的特 徵詞彙,建立向量空間模型時將使得大部分的維度值為 0,不具有足夠的鑑別能 力,所以 TFIDF 並不適合使用做為分類特徵詞彙的選取依據。

Tainan119 Pingtung119 Ricks

Xdite ADCT

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

55

網絡的中心性(Centrality)可以幫助了解節點在整個網絡中的重要程度,其 中的 Betweenness Centrality 是量化一個節點出現在所有任兩點間最短路徑的次 數,次數越多 Betweenness Centrality 越高。在文本中。Betweenness Centrality 反 應的是一個詞彙對於其他詞彙出現在同一篇文章中的影響力,Betweenness Centrality 越高的詞彙表示對其他詞彙的共現影響越大。我們以 Betweenness Centrality 的數值做為節點的大小,模組性分群(Modularity)將詞彙叢聚分群,

繪製卡方值所選的特徵詞彙共現網絡圖,如圖 20、圖 21。

圖 19、TFIDF 詞彙共現網絡圖

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

56

Tainan119 Pingtung119

Ricks Xdite

ADCT

圖 20、平均卡方值特徵詞彙共現網絡

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

57

Tainan119 Pingtung119

Ricks Xdite

ADCT

圖 21、最大卡方值特徵詞彙共現網絡

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

58

由圖 20、圖 21 可以發現,在每個資料集中具有高影響力的特徵詞彙皆不同,

兩個縣市 119 報案電話資料屬於地點的詞彙最多,Xdite 中最具影響力的詞彙為 物資,恰好能夠呼應資料集的特性與分類的分佈概況。另外,由詞彙分群的情形 可以看出同一個群聚中的詞彙幾乎和分類的情形有關連性,如圖 20 的 Ricks 網 絡途中我們可以看到藍色的群聚(物資、志工、救災、救援)和分類中的物資志 工類別相近。綠色的群聚(聯絡、知道、消息、家人、聯絡)和分類中的請求協 尋相近。

相關文件