3.3 系統介面設計
3.3.1 資料選擇區
國
立 政 治 大 學
‧
Na tiona
l Ch engchi University
14
圖 5. 資料選擇區(Data Selection)介面圖
3.3.1 資料選擇區
如圖 5 為本系統介面第一階段的資料選擇區(Data Selection),首先是圖 5 編號 1 區塊:Data Selection,除了選擇資料集外,我們整理出推文的屬性 後,將這些屬性作為初步的過濾條件,屬性的相關說明如下,可參考圖 6 對照。
1. 提及(mention)
在推文內文中,可使用@符號後面加上其他使用者帳號名稱,來提及某位使 用者,並附帶該使用者頁面的連結。
2. 主題標籤 (hashtag)
在推文內文中,可使用#後面加上文字,直到輸入空白鍵為止,通常用來表
‧ 國
立 政 治 大 學
‧
Na tiona
l Ch engchi University
15
達該則推文的主題,並附帶 Twitter 上使用相同 hashtag 推文們的連結。
3. 網址(URL)
在推文內文中,如果含有網址時,Twitter 會自動產生一超連結。
4. 圖片(photo)
在發文時,使用 Twitter 加入相片的功能。
5. 已認證帳 號(verified account)
經過 Twitter 官方認證的帳號,在帳號名稱旁會有一個藍色勾勾符號,能被 官方認可的帳號,通常是某一領域的專家、名人、品牌等。
6. 轉推(retweet)
此推文為轉推其他使用者的推文,在 Twitter 上會顯示來源推文,且下方的 轉推圖示會亮起。這類推文抓取下來後,內文開頭會加上”RT @user: ”,user 為 來源推文使用者的帳號名稱。
7. 回覆(reply)
此推文為回覆其他使用者的推文,該推文上方會顯示回覆的來源推文,
且推文內容會提及來源推文的使用者。
8. 原生(original)
此推文為原生推文,使用者自行發表內容。
‧ 國
立 政 治 大 學
‧
Na tiona
l Ch engchi University
16
9. 地理資訊 (location)
此推文含有地理訊息。
圖 6. 推文屬性說明
我們將這些推文屬性分成四類,使用者種類(User’s type)、推文內容
(Tweet’s content)、推文種類(Tweet’s type)再加上推文語系(Tweet’s language)。User’s type 與 Tweet’s content 的屬性選項有三種狀態,分別為 包含(藍)、不包含(紅)與無此限制(白),預設皆為無此限制,使用者 可透過滑鼠點擊做切換。而 Tweet’s type 與 Tweet’s language 的屬性選項則 只有包含(藍)與不包含(紅)兩種狀態,分別至少需勾選一種屬性。當使用者 按下綠色 Update 按鈕後,會分別於圖 5 編號 2、3、4、5 區塊顯示資料集對應的 概述、字雲與推文、網站的詞語共現圖。而圖 5 下方編號 6 區塊的推文群組內的 推文數量也會隨之更新。
再來是圖 5 編號 2 的 Overview of this dataset,此區塊可瀏覽該資料集各種推 文屬性在整體所佔的比例,以期協助使用者在前面 Data selection 下參數時做出 決定。而圖 5 編號 3 的 Word Cloud【Tweet】所顯示的內容可參考圖 7,我們將 資料集所有的推文內文做文本處理後,計算各字詞在本資料集的重要程度,所採
‧ 國
立 政 治 大 學
‧
Na tiona
l Ch engchi University
17
用的統計方法為 TF-IDF(term frequency–inverse document frequency)[22, 23],
它用以評估一字詞對於整個文件庫裡其中一份文件的重要程度。假如一個詞彙在 該文件中具有較高的詞頻,而在整個文件庫中有較低的文件頻率,則 TF-IDF 的 數值會較高。此方法會傾向於過濾掉常見的詞語,保留重要的詞語。為了計算一 字詞在整個資料集中的重要程度,我們會先計算有出現該詞的各推文中,該詞各 別的 TF-IDF 值,然後加總,除以有出現該詞的推文數,最後求出該詞在資料集 的平均 TF-IDF 值,如過該詞的平均 TF-IDF 值越大,在字雲中所佔大小也會越 大。
圖 7. Word Cloud【Tweet】介面圖
圖 5 編號 4 的 Noun Co-word【Tweet】所顯示的內容可參考圖 8,我們挑選 資料集中轉推數最高的前 10%原始推文的內文,進行文本處理,並將斷詞後的結 果進行詞性分析,只保留名詞,我們認為,在使用者對於本資料集尚未有一個大
‧ 國
立 政 治 大 學
‧
Na tiona
l Ch engchi University
18
略的認識時,透過名詞與名詞之間在推文的共現關係,有助於讓使用者瞭解資料 集中有哪些可能的事件發生。而圖 5 編號 5 的 Noun Co-word【URL】的內容則 可見圖 9,其為圖 8 的延伸資料:推文中 URL 網址的內文,文本處理同上,但 資料來源則為網站內容,期盼能達到推文與網址內容比較的目的。另外這兩張詞 語共現圖皆能透過縮放與拖曳的方式瀏覽,點擊某點可進去觀看該點與其他詞彙 共現的子網路,右側兩個按鈕分別能將畫面定位回中心點、將整個網路圖重繪等 功能。
圖 8. Noun Co-word【Tweet】介面圖
‧ 國
立 政 治 大 學
‧
Na tiona
l Ch engchi University
19
圖 9. Noun Co-word【URL】介面圖
最後為圖 5 編號 6 的 Advanced Filter,透過各區塊對於資料集的描述後,使 用者可選擇利用關鍵字或者推文群組來進一步過濾資料,有關推文分群的計算會 於第 4 節做詳細的說明。當使用者按下綠色 Update 按鈕後,系統會將參數帶往 第二階段的個人篩選區讓使用者做關鍵事件參數的挑選。