9 無法指定特定領域字詞,2.命名實體辨識(Named Entity Recognition, NER),透過觀察文章特徵的機器學習,將文章結構抽象化,從中擷 的出現在單一文章的詞類頻率(Term Frequency),表示該詞類被提及 的重要程度;計算該字詞在各個文章的出現的文本頻率(Document
10
Frequency),表示該字詞的應用廣泛程度,透過統計分析的方式,找 出具代表性的關鍵詞類。
作為文章的前處理,考慮到來自社群網站的文章多屬自由文本 (Free Text),即書寫文章的格式毫無規定,容易出現不必要之冗言贅 字,故須進行初步的清除作業,先把每一個句子進行斷詞處理,後 將多餘的停用字詞(Stopwords)移除。
圖 4 關鍵字詞分析-統計分析之簡要流程
以統計分析的方式,作為直觀的權重計算方法共有三個:(1)計 算特定詞類的總出現頻率(Term Frequency, Tf) (2)計算特定詞類出現 於每一篇文章頻率(Document Frequency, Df) (3)結合前述兩種計算方 法,出現頻率與文章頻率倒數之乘積(TF-IDF)。
我們以尼莎海棠颱風為範例進行說明:尼莎與海棠颱風於 2017 年 7 月 26 日至 7 月 31 日影響台灣本島,本次使用共 1000 筆資料,
11
主要資料來源來自臉書,由圖 5 所示,可以得知使用 TF-IDF 方法的 前 20 名關鍵字,其內容較難以顯示與尼莎、海棠颱風相關之關鍵字 詞,相對的,單單使用 TF 或 DF 所得到的關鍵字,內容較為接近災 害發生期間,民眾談論颱風災害相關的詞語。
比較三者顯示的內容,與考慮到公式的計算方法,我們可以知 道:「淹水」的 TF 值為 725,而「淹水」的 DF 值為 495,TF-IDF 值則為 725/495=1.46,屬於相當低的統計結果,理應不會出現在 TF-IDF 的前 20 名中,主要因為災害發生期間,民眾討論熱度大量集中 於災情上,導致相關詞頻(TF)大幅提升,這些詞類散布在各文章的 比例也隨之升高,進而造成 DF 值也隨之提升,TF-IDF 值也相對降 低了。
12
圖 5 尼莎、海棠颱風關鍵字詞分析範例
關鍵字詞分析-命名實體擷取
前述的方法乃忽略詞義,僅透過統計方式進行篩選熱門詞類,
命名實體擷取(NER)則透過人為定義的方式,進行額外的特徵賦 予,也就是用人工的方式替不具意義的詞類,強行賦予一些能夠被 運算的特徵,例如常見前、後綴字詞、詞性、句首(尾)、英數字、
標點符號等,利用事先建立的詞庫進行比對,為字詞增加特徵,作 為機器學習的特徵使用。
針對文字處理的模式,目前主要透過人為賦予的方式,針對詞 類提供人造特徵、標記欲辨識的答案,將文章抽象化成數據後,提
13
供程式學習文章的撰寫模式,我們將此行為稱之命名實體擷取 (Named Entity Recognition, NER)。
NER 的實作目前主要透過序列標記(Sequence Labeling)達成,必 須先行將文章進行標記化(Labeling),將每一個句子拆解成一個個標 記,概念如圖 6 所示。
圖 6 序列標記範例說明
約翰這個字被標記為人名,代表我們想找的目標,我們可以藉由 標記後的結果,判斷命名實體的位置。序列標記模型基於訓練資料原 文、人工的標記結果,配合訓練句子本身的句型建立,常見的作法有 隱 性 馬 可 夫 鏈 (Hidden Markov Model, HMM) 及 條 件 隨 機 域
(Conditional Random Field, CRF)。
本研究使用的 CRF 是一種模式識別及機器學習的建模方法,由 John Lafferty 等人於 2001 年提出,用於分析序列資料,如自然語言或 生物序列。CRF 是一種無向性的機率圖形模型,針對給定的句子,我
14
們考慮相鄰的字與字之間,其標記結果是否有關係性,希望能從中找 出最佳的標記組合,透過訓練資料轉換成的編碼,觀察出已知上下文 的關係,並建立出一致的解釋。對於一個字來說有 5 種標記(BIESO)
可能,我們的目標為從一個句子可能產生的所有標記組合中,找出機 率最有可能的配對。
圖 7 文章標記範例
圖 8 權威詞擷取範例
趨勢追蹤
趨勢追蹤在社群網路上根據時間或空間上的推移,進而觀察事 件走勢或民眾討論主題變化之行為,具空間特性的地點類關鍵字可
15
透漏該區域可能出現嚴重災情。
我們可以由前述所獲取的熱門關鍵字作為參考,觀察不同時間 下的頻率變化,推估其影響時間、嚴重程度;根據不同時間的熱門 關鍵字分布,推估目前民眾的談論主題。
以颱風或地震為例:根據災害當下所獲取的地點類關鍵字,觀 察其數量變化,在出現頻率急遽提升的時間點,有較高的機率是處 於受到災害衝擊的 1~2 小時之時間區間內,在災害應變的過程中,
民眾討論的主題也隨著事件處理演進,逐漸由災區地點討論,轉而 進行災後檢討,反映的關鍵字描述也會由地點類、災情敘述類,開 始提及執政者、地方政府、經濟損失等相關字眼,這些民眾的輿論 分析皆可如此從中觀察之。
16