• 沒有找到結果。

基於改善以上兩點,Yan 等人[28]提出了 Biterm Topic Model(以下簡稱 BTM),打 破了傳統機率模型的文本即為主題的層面,他們將所有的文本建立並抽出一個 biterm 為 一個元組(tuple)集合,biterm 元組是指在一個文本中兩個字同時出現時,將這兩個字 做為一個元組,直接從 biterm 元組集合中去學習隱藏主題變量,這樣做的好處是可以較

本系統之 Users Model 與 Noun Co-Word Model 採用網路圖(Network)的視覺化方式,

因為在這兩張圖主要在呈現節點之間的關係,而網路圖是最直接且容易理解的。本研究 使用一個開源的輕量級 Javascript 的網路圖(network graph)套件-Sigma.js[29],它是一 個致力於在 Web 應用中進行圖形繪製的 Javascript 函式庫,目的在幫助開發者們創建圖 形,同時也能夠讓用戶在網頁上進行操控。它是基於 HTML5 畫布的實現,能夠生成靜 態或者動態的互動網路圖形。因為本系統是基於網路的互動系統,特別需要注意套件相

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

41

依性的問題,而這個套件是一個獨立的不依賴於第三方的圖形函式庫,支持主流的瀏覽 器,且高度的自定義性以及易於操作的 API,因此我們選擇利用此套件來實現我們的互 動視覺化。

上述提到 Users Model 以及 Noun Co-Word Model 會使用網路圖的視覺化互動方式 幫助使用者探索資料,在此說明兩個模型所使用的視覺化繪圖方式。在 Users Model 方 面,為了反映事件中使用者之間的互動關係,我們萃取推文中的使用者以及轉推者、

mention 者間的關係,當發文者 A 轉推或是 mention 使用者 B,則會有一條由 A 指向 B 的關係被建立,會隨著次數而增加邊的權重,依照使用者在這段期間被轉推或 mention 的次數給予節點大小的設定,顏色的設定使用 modularity class 的計算結果[30],布局

(layout)方式使用 Force Atlas 2 演算法[31],它是一種模仿物理世界中的引力和斥力,

計算網路節點間的力關係並對網路重新局布局直到力平衡,圖 28 為 Users Model 視覺化 示意圖。

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

42

圖 28. Users Model 視覺化示意圖

Noun Co-Word Model 內的名詞是利用結巴內建的詞性標註工具辨識出來的,其原 理為如果辭典中有這個詞,就從辭典中讀取該詞的詞性;如果辭典中沒有該詞,用 Viterbi 算法來估計。我們利用其標註後的結果取出名詞的關鍵詞,將這些關鍵詞基於推文進行 共字的統計。當同一個關鍵詞出現在同一則推文中,彼此之間將會建立連線,隨著次數 的增長權重增加,節點的大小設定依照此權重設定,顏色的設定也是使用上述提到的 Modularity class 的計算結果,布局的方式則採用 Fruchterman-Reingold 演算法[32]。它是 一種圓形布局,利用兩點間的斥力,有邊關聯的兩點有引力的概念,不斷迭代,計算出 所有點對間的斥力,再對於每個點考慮和它關聯的彈簧對它產生的引力,自動把節點排 成一個圓形。圖 29 為 Noun Co-Word Model 視覺化示意圖的範例。使用此布局的特點考 慮到詞語間的共字情形,可能會較常出現節點群體明顯的現象,也有一些少數討論的名

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

43

詞存在,從圖中可以看到有一些邊緣節點,為了不忽略這些節點,我們選擇此種布局方 式。

圖 29. Noun Co-Word Model 視覺化示意圖