關鍵字詞分析與趨勢追蹤 - 社群資料研究：關鍵字詞分析與趨勢追蹤

9 無法指定特定領域字詞，2.命名實體辨識(Named Entity Recognition, NER)，透過觀察文章特徵的機器學習，將文章結構抽象化，從中擷的出現在單一文章的詞類頻率(Term Frequency)，表示該詞類被提及的重要程度；計算該字詞在各個文章的出現的文本頻率(Document

Frequency)，表示該字詞的應用廣泛程度，透過統計分析的方式，找出具代表性的關鍵詞類。

作為文章的前處理，考慮到來自社群網站的文章多屬自由文本 (Free Text)，即書寫文章的格式毫無規定，容易出現不必要之冗言贅字，故須進行初步的清除作業，先把每一個句子進行斷詞處理，後將多餘的停用字詞(Stopwords)移除。

圖 4 關鍵字詞分析-統計分析之簡要流程

以統計分析的方式，作為直觀的權重計算方法共有三個：(1)計算特定詞類的總出現頻率(Term Frequency, Tf) (2)計算特定詞類出現於每一篇文章頻率(Document Frequency, Df) (3)結合前述兩種計算方法，出現頻率與文章頻率倒數之乘積(TF-IDF)。

我們以尼莎海棠颱風為範例進行說明：尼莎與海棠颱風於 2017 年 7 月 26 日至 7 月 31 日影響台灣本島，本次使用共 1000 筆資料，

主要資料來源來自臉書，由圖 5 所示，可以得知使用 TF-IDF 方法的前 20 名關鍵字，其內容較難以顯示與尼莎、海棠颱風相關之關鍵字詞，相對的，單單使用 TF 或 DF 所得到的關鍵字，內容較為接近災害發生期間，民眾談論颱風災害相關的詞語。

比較三者顯示的內容，與考慮到公式的計算方法，我們可以知道：「淹水」的 TF 值為 725，而「淹水」的 DF 值為 495，TF-IDF 值則為 725/495=1.46，屬於相當低的統計結果，理應不會出現在 TF-IDF 的前 20 名中，主要因為災害發生期間，民眾討論熱度大量集中於災情上，導致相關詞頻(TF)大幅提升，這些詞類散布在各文章的比例也隨之升高，進而造成 DF 值也隨之提升，TF-IDF 值也相對降低了。

圖 5 尼莎、海棠颱風關鍵字詞分析範例

關鍵字詞分析-命名實體擷取

前述的方法乃忽略詞義，僅透過統計方式進行篩選熱門詞類，

命名實體擷取(NER)則透過人為定義的方式，進行額外的特徵賦予，也就是用人工的方式替不具意義的詞類，強行賦予一些能夠被運算的特徵，例如常見前、後綴字詞、詞性、句首(尾)、英數字、

標點符號等，利用事先建立的詞庫進行比對，為字詞增加特徵，作為機器學習的特徵使用。

針對文字處理的模式，目前主要透過人為賦予的方式，針對詞類提供人造特徵、標記欲辨識的答案，將文章抽象化成數據後，提

供程式學習文章的撰寫模式，我們將此行為稱之命名實體擷取 (Named Entity Recognition, NER)。

NER 的實作目前主要透過序列標記(Sequence Labeling)達成，必須先行將文章進行標記化(Labeling)，將每一個句子拆解成一個個標記，概念如圖 6 所示。

圖 6 序列標記範例說明

約翰這個字被標記為人名，代表我們想找的目標，我們可以藉由標記後的結果，判斷命名實體的位置。序列標記模型基於訓練資料原文、人工的標記結果，配合訓練句子本身的句型建立，常見的作法有隱性馬可夫鏈 (Hidden Markov Model, HMM) 及條件隨機域

（Conditional Random Field, CRF）。

本研究使用的 CRF 是一種模式識別及機器學習的建模方法，由 John Lafferty 等人於 2001 年提出，用於分析序列資料，如自然語言或生物序列。CRF 是一種無向性的機率圖形模型，針對給定的句子，我

們考慮相鄰的字與字之間，其標記結果是否有關係性，希望能從中找出最佳的標記組合，透過訓練資料轉換成的編碼，觀察出已知上下文的關係，並建立出一致的解釋。對於一個字來說有 5 種標記（BIESO）

可能，我們的目標為從一個句子可能產生的所有標記組合中，找出機率最有可能的配對。

圖 7 文章標記範例

圖 8 權威詞擷取範例

趨勢追蹤

趨勢追蹤在社群網路上根據時間或空間上的推移，進而觀察事件走勢或民眾討論主題變化之行為，具空間特性的地點類關鍵字可

透漏該區域可能出現嚴重災情。

我們可以由前述所獲取的熱門關鍵字作為參考，觀察不同時間下的頻率變化，推估其影響時間、嚴重程度；根據不同時間的熱門關鍵字分布，推估目前民眾的談論主題。

以颱風或地震為例：根據災害當下所獲取的地點類關鍵字，觀察其數量變化，在出現頻率急遽提升的時間點，有較高的機率是處於受到災害衝擊的 1~2 小時之時間區間內，在災害應變的過程中，

民眾討論的主題也隨著事件處理演進，逐漸由災區地點討論，轉而進行災後檢討，反映的關鍵字描述也會由地點類、災情敘述類，開始提及執政者、地方政府、經濟損失等相關字眼，這些民眾的輿論分析皆可如此從中觀察之。

在文檔中社群資料研究：關鍵字詞分析與趨勢追蹤 (頁 19-27)