國
立 政 治 大 學
‧
Na tiona
l Ch engchi University
36
社群媒體新詞分析系統頁面 4.3
根據上面的資料蒐集、後端資料庫、文章斷詞、每日排程計算結果實作之 後,社群媒體新詞分析系統實作了幾種詞的分析頁面讓使用者去觀察詞與社群 話題文章之間的關聯性,藉由透過新詞去找尋新的話題或是透過特徵詞的共現 關係去暸解文章的議題框架。
圖 4-8 每日新詞列表
根據每天的斷詞結果比對 Jieba 的當前詞典,如果該特徵詞在當日出現超 過兩次以上就會被當作新偵測出來的新詞,這裡評估超過三篇以上的新詞才具 有觀察的意義,如果該新詞出現的篇數超過十篇以上,代表這是一個新的熱門 話題,值得使用者去關注,例如(圖 4-10)中的「鈣片」,這個詞的出現是在 於台北市長提出鈣片替代牛奶提供給小學生作為鈣補充的來源,這樣的議題導
‧ 國
立 政 治 大 學
‧
Na tiona
l Ch engchi University
37
致網友的討論,透過本研究的新詞偵測的方式,可以快速掌握每天新出現的詞,
藉由此去了解每天新產生的話題。
圖 4-9 特徵詞與共現詞
有時候只有單獨的一個詞,使用者無法快速地了解到這個詞背後所代表的 涵意,當然使用者也可以直接查詢包含這個特徵詞的文章列表,但是透過共現 詞的圖表,使用者不必直接去閱讀文章就可以更快速的從共現詞去瞭解本詞背 後所代表的議題,如(圖 4-11)我們可以透過「鈣片」與「牛奶」、「小孩」、「免 費」的詞語共現關係,由此知道鈣片這個議題在講述的跟小孩免費牛奶的議題 有所相關,本圖表另外有提供雙擊功能,使用者就可以直接看到所有與鈣片相 關的文章。
‧ 國
立 政 治 大 學
‧
Na tiona
l Ch engchi University
38
熱門話題偵測演算法:
有時候我們發現只關注新詞有時候會錯過一些熱門議題,因為有一些詞可 能在其他議題已經出現過,本研究針對這個問題提出文章 Ranking 的演算方法,
針對每一篇文章十個特徵詞,透過每日詞頻統計資料庫的結果去比對昨日這些 詞出現的文章次數作為一個比較基準,如果該特徵詞今天出現的文章篇數比昨 天的次數高於 1.5 倍以上,就把該詞當作是熱門詞,如果一篇文章找出多個熱 門詞這一些就是這篇文章的 Ranking 基準,將這些熱門詞今天出現的數量加總 得出該篇文章的分數(如圖 4-13 的分數欄位),由最高分數的第一篇文章為例,
這篇文章內包含了五個熱門詞,分數基準: {寵物 => 15},{課稅 => 9},{農委會
=> 4},{飼主 => 4},{棄養 => 2},加總後得到 34 分,透過這樣的方式,可以去 補足新詞所偵測不到的熱門議題的不足。
FS: Post Frequency, each Post is represented by the Top-N words list.
𝑃𝑇 = (𝑤𝑐 ….𝑇 𝑤10𝑇 )
𝑃𝐹(𝑤𝑇) For word w at day T.
For each past P at day T, we will compute a ? score for it as follows.
𝑆𝑐𝑜𝑟𝑒(𝑃𝑇) = 10𝐾=1𝑌𝐾𝑇 ∗ 𝑃𝐹( 𝑊𝐾 𝑇)
Where 𝑌𝐾𝑇 = 1 𝑖𝑓 𝑃𝐹(𝑤𝐾𝑇) ≥ 1.5 ∗ 𝑃𝐹(𝑊𝐾𝑇−1) 0 𝑒𝑙𝑠𝑒
‧ 國
立 政 治 大 學
‧
Na tiona
l Ch engchi University
39
圖 4-10 每日新話題偵測列表
‧ 國
立 政 治 大 學
‧
Na tiona
l Ch engchi University
40