• 沒有找到結果。

立 政 治 大 學

Na tiona

l Ch engchi University

21

圖 8. History Items 的系統示意圖

3.4 故事元素模型

本系統在 Browsing Room 的故事元素模型(Story Elements Model)提供了四種資料探索 方式,分別是時間模型(Time Model)、關鍵字主題模型(Keywords Model)、發文者模 型(Users Model)、名詞共字模型(Noun Co-Word Model),四個模型分別用不同的視覺 化方式呈現。這四個故事元素模型的選用原因為我們試想在一個社群媒體的故事中,記 者可能會關心且需要的內容,我們認為有:一、時間的聲量與趨勢,因為時間是重要的 故事元素之一,什麼事情在何時發生可能是記者很關心的部分;二、討論的聲音,記者 可能會想知道一起事件中的討論主題以及網友們的意見;三、活躍的使用者,例如是不 是有意見領袖在事件中引導,這也是我們認為記者可能會需要的探索角度;四、線下(Off-line)事件發生的人、事、物間的關聯,記者可能在聯想事件的關係上比較困難,我們認 為可以透過詞彙共字的關聯來發掘其中隱藏的線索。透過系統提供的四種探索模型,我 們希望能利用這些元素去塑造使用者對資料集的概念,讓他們可以快速地瀏覽一起事件 的全貌,也可以深入探索及挖掘。

起的 Tags Zone,其中的關係如圖 9,使用者探索 Story Elements Model 時,在過程中可 以透過點選故事元素來將其保存為 Tags。在時間模型,每個時間點就是一個 Tag;在關 鍵字模型,每個關鍵字就是一個 Tag,以此類推。使用者透過探索,進而留下探索後的 Tags 後,可以在 Tags Zone 調整每個故事模型的權重,控制想要聚焦的推文內容,系統 會客製化返回相關的推文,此部分的細節內容將於 4.5 節說明。

圖 9. Browsing Room 概念示意圖

以下依序分別介紹四個 Story Elements Model 的設計:

 時間模型(Time Model)

Explore Story Elements Model

Group Tags &

Adjust weights Browse Tweets

Content

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

23

另外一個時間點,使用者可以更聚焦於這個時間區段的聲量起伏,如果想要進一步聚焦 這個時間點發生的事件推文,點選任何一個時間點就可將該時間點保存成 Tag。

圖 10. Time Model 的系統介面圖

圖 11. Time Model 的局部放大功能

斷詞,並進行 Biterm Topic Model(以下簡稱 BTM)主題探勘計算,BTM 是利用兩 詞之間在每則推文的關係去學習主題建模,避免了因為每篇推文的詞稀疏性帶來的

tweets from dataset

Remove punctuati on, urls,

stop words

Tokenize every tweets

Biterm Topic

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

25

圖 13. BTM 計算後返回的十個主題與其關鍵字

我們將圖 13 的結果以視覺化的方式呈現,考量到以 BTM 模型計算後的結果,在不 同主題下會有重複的關鍵字,這個現象可以理解為同一個詞可能會有不同的討論方向,

而該關鍵字則代表了一個連接的意涵,我們將此概念視覺化成 Keywords Model(如圖 13)。每個節點(Node)為一個關鍵字,相同顏色的節點表示屬於相同的主題,一個關 鍵字可能同時討論了不同的主題,此時以邊(Edge)相交關連的詞彙,由圖 13 可以看 到紫色主題及靛色主題以"中国"這個關鍵字相連,代表這兩個主題的討論同時包含了 此關鍵字,也可以說這個關鍵字有兩個討論的主題。

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

26

圖 14. Keywords Model 視覺化

Keywords Model 代表的意涵是這個事件資料集涵蓋的主題,其元素已包含人、事、

地、物的意義,在整個事件其討論的主題會不斷的變化,為了讓 Keywords Model 可以 看到更細微的主題,我們加上了時間區段的選擇,因為在 Pilot Study 中,我們透過諮詢 專家的意見,在社群媒體中主題變化的觀察時間單位可以以"週"為一個單位去關注主 題,若以天為單位則太細,可能不會有太多討論的主題。因此我們以週為單位切分推文,

並進行主題分群,系統介面如圖 15,在左上角可以針對週期數切換探索不同週的主題討

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

27

論。

圖 15. Keywords Model 的系統介面圖

在 Keywords Model 的下方可以看到有一個時間軸的設計,我們在除了時間模型外 的其他三個模型中下方都加上了時間的概念,因為對於社群媒體的事件資料集來說,時 間是一個方便對齊各個子事件的基準線,使用者可以從時間曲線觀察,這個關鍵字的發 展是不是值得報導,討論的人數、頻率是不是代表有什麼跡象可循,因此我們在每個模

稱之為使用者可視度(User visibility)[23]。直觀地,在考慮社會網路的人物關係結構時,

Raw tweets

from connection

by RT &

影響力,我們在此引入 Centrality 的概念來描述此社會網路的概況,Centrality 是在衡量 一個節點在社會網路中重要性的指標之一,Centrality 有各式各樣的定義,在此我們選擇 Betweenness centrality [24]作為我們視覺化中節點的大小呈現,Betweenness centrality 的 核心概念為如果一個節點位於其他節點間的多條最短路徑上,那麼該節點就是核心節點,

會具有較大的 Betweenness centrality。我們認為在發文者關係網路中,記者有可能想要 先從在事件中最能居中掌握互動關係的發文者觀察起,因此我們設計以 Betweenness centrality 作為視覺化節點大小的依據。Betweenness centrality 的量化細節為計算除了該 節點外的所有節點中,任兩節點之間的路徑裡,通過該節點的路徑數除以此兩節點所有 路徑數比值的總和,當一節點在網路中扮演著連結兩個原先互不相連的集團的角色時,

該節點的 betweenness centrality 值則會較高:

Betweenness centrality(𝑛𝑖) = ∑ |𝑝𝑎𝑡ℎ𝑣𝑖𝑎 𝑛𝑖(𝑛𝑗, 𝑛𝑘)|

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

30

圖 17. Users Model 的系統介面圖

Remove punctuati on, urls,

stop words

Tokenize every tweets

Extract Nouns from same tweet

Build Co-word

Relation

Visualiza tion

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

32

圖 19 為流程圖,首先我們將推文的內容去除標點符號、網址以及停用詞後,接著 從推文中抽取出詞性為名詞的詞彙,窗口(window-size)為一則推文,如圖 20,從右圖 可以看到取出名詞可以將一些人物、角色、事件、物的元素萃取出來。

圖 20. 推文萃取出名詞的範例

若詞之間共同出現在一則推文內,彼此之間的連結強度會加一,以此類推建立出推 文的名詞共字網路圖。圖 21 為 Noun Co-Word Model 系統介面圖,為了讓視覺化共字的 網絡發揮其輔助探索的用途,我們設計了一個觀察子網絡的操作方式,使用者可以點選 感興趣的節點,系統將會從原來的網絡畫面進入其子網絡畫面,如圖 18 的範例為點選

"香港政府"而顯示的共字子網絡圖,圖 22 則為點選香港佔中事件的社運領袖之一"

黃之鋒"的共字子網路圖,透過介面右邊的按鈕讓使用者可以操作此視覺化網絡進行探 索。在 Noun Co-Word Model 下方也包含前述提到的時間軸,當使用者點選視覺化的任 一節點,就可以觀察此子網絡在整個事件區間相關推文的情形,有助於使用者瞭解子網 絡討論的聲量。根據我們的觀察,記者在意的是這個子網絡之間為什麼有關係,是因為 什麼內容將他們一起談論,因此如果想要進一步聚焦某子網絡的推文內容,點選該介面 右邊的按鈕就可將該子網絡的節點存成 Tags。

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

33

圖 21. Noun Co-Word Model 系統介面圖

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

34

圖 22. 黃之鋒之名詞共字網路圖