機器學習與分類器

第四章系統實作

4.5. 機器學習與分類器

國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

XDite：1056 筆 Ricks：1050 筆

ADCT 數位文化：1050 筆

4.5. 機器學習與分類器

經過前面的資訊前處理過程，我們已經將莫拉克風災期間網路上的發文內容，完成文字辨識、資料格式轉換、編碼轉換、移除干擾值、中文斷詞處理和專家文本分類等繁複工作，在此小節中我們將說明機器學習實作情形，機器學習的步驟與流程，如下圖 13 所示。首先，我們將計算 TFIDF 後的詞彙與數值存在資料庫中，

再以卡方值排序後選擇適當的特徵數量，每一篇文章為一個向量使用特徵詞彙做為維度 TFIDF 為向量維度內容，建置向量空間模型。最後透過 10 折交叉驗證

（10-fold Cross-validation）方式進行機器學習，與計算每一次的 F1-measure 平均值與 95%信賴區間做為績效驗證。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

圖 13、機器學習流程 - 計算 TFIDF

完成前述的資料前處理與斷詞步驟後，我們將各個不同的資料庫分別建立詞彙索引檔，將所有詞彙依照 TFIDF 的方法計算權重值，得到每個詞彙在所屬資料庫中的重要性。計算 TFIDF 權重後，連同詞彙回存於各資料庫中，準備後續建立向量時使用。

- 特徵選取

在本研究中，將會嘗試把不同頻道特性來源的資料集，透過機器學習所得到的模型進行跨資料集比較，所以需建立相同詞彙維度的向量。因此，在建立機器學習用的向量資料前，我們合併五個資料集中的所有詞彙，移除重複詞彙與停用詞成為單一詞彙的集合，總共有 10,191 個詞彙。透過已完成專家分類的抽樣文章，

Feature Selection

Vector Space Model

Cross-Validation

Training

Testing Model Database

TFIDF Vector

Result

Calculate Index 10-Fold

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

依照 3.8.3 小節中卡方分析（χ² Statistic measure）的方法，計算單一詞彙集中每個詞彙的平均卡方值（Average χ² Statistic Score）及最大卡方值（Maximum χ² Statistic Score），分別儲存於兩個檔案中。

選取特徵詞彙的方法，首先將前述已計算過卡方值的單一詞彙集合，分別依照兩項卡方值由高而低排序，當我們指定一個閾值（threshold）時，則傳回大於這個閾值以上的所有詞彙集合。這個詞彙集合，就是我們選取出來作為向量維度的特徵詞彙。

經過前述的計算，將平均卡方值與最大卡方值排序，取出前兩百個詞彙瀏覽卡方值篩選詞彙的情形，請參考附件三內容。

- 支持向量機

在本研究中，我們的資料集已事先抽樣後經過專家分類，所採用的為監督式的機器學習方法，選擇使用 SVM 訓練文件自動分類模組的演算法。SVM 為一種處理二元分類的方法，對於多類別分類的問題，使用單一的 SVM 模組無法處理，因此我們使用 OAO-SVM（one-against-one SVM）多類別架構進行 SVM 的模組訓練。OAO-SVM 會依照每兩個類別訓練一組分類器，總共會建立 n(n-1)/2 組分類器（n 為類別數量），每組分類器都是二元分類器，以投票策略（Voting Strategy）

決定預測樣本的類別，票最高者為預測樣本類別。

這次研究的 SVM 我們是以 scikit-learn 函式庫[27]進行實作，scihit-learn 是一個給 python 語言使用的開放原始碼（Open source）機器學習函式庫，scikit-learn 函式大部分使用 python 撰寫，基於效能考量其中的 SVM 則是由 CPython 包覆 LIBSVM 實作而成。使用的 scikit-learn 函式庫版本為 1.3.7，實作環境為 uBuntu Linux Server 12.04 LTS。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

進行 SVM 模組訓練的實作，將五個來源資料集中已完成專家分類、中文斷詞和 TDIDF 計算的文件取出，利用前一小節中選取出來的特徵詞彙集合作為向量維度，建立文件向量空間。建立每篇文章的向量方式，為將符合特徵維度的詞彙，以文章中該詞彙的 TFIDF 值取代，其餘不符合的則以零取代。最後，將文件向量與其類別進行 SVM 的訓練和評估。SVM 有許多不同的核心函數（Kernel function），在我們的研究中，選擇使用簡單的線性（Linear）作為訓練的核心。

- 交叉驗證與績效評估

在研究中有五個不同頻道來源的資料集，每個資料集各進行 10 折交叉驗證

（10-fold Cross Validation），將已建立好的文件向量和對應的類別集合分成十份，

其中九份作為訓練集，剩下一份作為測試集，依序進行十次訓練，每次都取得正確率（Accuracy）、查準率（Precision）、查全率（Recall）、F 度量（F-measure）

等指標，並依測試集裡的類別比例計算 Macro 的正確率、查準率、查全率、F 度量，Macro 為一種事先計算各類別的指標再進行平均的方式。最後將取得的十次結果，計算每個指標值的平均值和 95％信賴區間（95% confidence interval），作為評估 SVM 的結果。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

第五章

實驗結果與分析

5.1. 頻率分析

5.1.1.

各資料集發佈時間頻率

圖 14、每日發佈頻率

莫拉克颱風於 2009 年 8 月 8 日凌晨自花蓮登入至下午 14 點由桃園離開，在過境期間於南部降下歷史性的雨量，造成南部嚴重的水災災情。由圖 14 每日發佈頻率圖我們可以發現，每個資料集的高峰位於不同的時間點，表示這幾個頻道資料集平台在災難發生的時序上，分別扮演不同的角色。整個主要資訊的流量由莫拉克颱風發生災情以來大概持續 14 天後結束。

屏東及台南 119 兩個既有頻道的高峰位於雨量最大的 8 月 7 日與 8 月 8 日，

主要為災難發生最需要急切救助的期程。8 月 9 日後既有頻道的數量明顯減少，

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

在政府訊息傳遞不夠充足情況下，訊息流量轉往 Xdite 與 Ricks 兩個浮現型頻道，

在 8 月 11 日時達到資訊發佈量的高峰。而 Twitter 上的 ADCT 帳號屬於備援頻道，

在災難中扮演資訊篩選與公告的功能，在整個進程中一直持續穩定的發佈訊息。

兩縣市的 119 消防緊急救難單位的報案電話，因處理接獲報案資訊的方法流程不同，台南 119 為先記錄再過濾，而屏東 119 為先過濾再記錄，使得發佈數量有蠻大的落差。為減少資訊量的差異，以每個資料集的總則數標準化（Normalize）

取百分比重新繪圖，得到如圖 15 分布圖。

圖 15、各資料集每日發佈百分比分佈

在百分比分佈圖中，兩個縣市 119 既有頻道的分佈非常集中於發生災難的日期，顯示民眾在事件發生當下會優先求助救難單位，確實可以發現既有頻道無法負荷暴增的資訊量時，一旦網路等其他資訊傳遞平台浮現，資訊有轉向浮現頻道的趨勢，所以在圖 15 中，台南和屏東 119 的資訊的高峰期，也是其他資料集訊息增加斜率最高的時候。且在圖 16 中也可以發現 Ricks 與 Xdite 有蠻多提供災情和請求救援的內容分類，此兩類為兩縣市 119 的主要類別。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

5.1.2.

專家文本分類統計

C1: [資訊] 請求協尋 C6: [表達] 討論反應 C2: [資訊] 提供情境資訊 C7: [表達] 自律 C3: [資訊] 轉貼媒體或公告 C8: [其他] 公關行銷 C4: [行動] 請求救援 C9: [其他] 無法分類 C5: [行動] 志工物資

圖 16、各資料集專家文本分類統計

經過專家將文本抽樣後分類可以得到如圖 16 各資料集的分類統計圖。圖 16 專家文本分類統計圖我們可以明顯的發現，各個資料集在這次的莫拉克風災中負責了不同的資訊傳播功能。傳統上隸屬於既有頻道的 119 報案電話方式，主要為民眾提供災情資訊（C2）與請求救援（C4）的管道。後來浮現的 Ricks 與 Xdite 兩個頻道，因其型態上的不同分別在某些類別獲得重視與應用。Ricks 為一種類似電子佈告方式的網站，在協尋（C1）和提供災情（C2）的類別有較高的頻率。而 Xdite 為一種論壇形式的站台，能夠明確的將問題集中在一個主題內討論，在物資調度與志工招募（C5、C6）這類需要密集討論的分類項目中有很高的次數。

而 Twitter 這類備援頻道，則受到平台本身對於內容字數嚴格的限制，ADCT 在發佈資訊上即偏重於其他媒體資訊的媒體連結轉貼（C3）。而在所有的資料集中，

同樣的要求大家自律（C7）和混進災難資訊發佈公關行銷訊息（C8）的分類項

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

目則非常的稀少，隱約可以表現出國人在災難中還是相當具有自制力與同理心。

若我們將專家文本分類的結果，以時序方式不分資料集（全部統整後）來觀察，可以得到如圖 17 的分佈情形。

圖 17、專家文本分類逐日分佈

隨著莫拉克風災發生的進程，8 月 7 日開始主要為提供災情資訊（C2）與請求協尋（C4），8 月 8 日到達顛峰。經過媒體報導與基礎建設的毀損影響聯繫，

資訊不對等下無法獲得足夠災區親人的訊息，8 月 9 日（災後一天）請求協尋（C1）

的資訊大量增加，至 8 月 11 日達到高峰，其中大部分協尋資訊為 Ricks 資料集。

8 月 9 日開始為彌補資訊傳遞的不足，加上台灣民眾對於災情的關心與自願投入協助，志工與物資（C5）的討論需求增加。討論的情形於 8 月 14 日星期五（災後第一個周末假日前）達到高峰，志工與物資的討論資訊主要集中於 Xdite 資料集。我們也可以發現在 Ricks 和 Xdite 兩個資料集（圖 18）的分佈上也有較多的自我意見陳述與討論（C6），同時在 8 月 11 日達到資訊的高峰。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

由頻率分析的結果我們可以發現，各個類別存在明顯的時序分佈差異，似乎可以將時段中的主要分類類別變成災難發展的一個階段，如一開始的緊急救難階段（提供情境資訊、請求救援）、失蹤協尋階段（請求協尋）、志工物資階段（志工物資、討論反應）等。而每個資料集對於特定類別又特別具有集中性（參考圖 16），因此藉由訓練資料集所得的分類器放置於特定的頻道上收集與自動分類訊息，監測類別的消長情形來預估災難的發展階段或進程，可以稱這樣的工具為災難社群感知器。

5.2. 詞彙網絡分析

本研究中為瞭解不同屬性資料集中詞彙彼此間的關係，我們利用發佈的文字內容建置詞彙共現網絡（Words Co-Occurrence Network）。網絡分析有別於其他的方法，主要特色是以網絡個體間的關係作為分析的重要資訊。其中個體為網絡中的點（Node），關係則為網絡中的邊（Edge）。詞彙共現網絡是使用文章中詞語共同出現的資訊來建置，在我們的研究中，已完成中文斷詞處理與移除停用字的詞彙，若共同出現在同一篇發文中，則為每兩個詞彙建立一個關係，然後，將每個

在文檔中災難事件下新媒體資訊傳播方式分析與自動化分類設計 ─ 以八八風災為例 - 政大學術集成 (頁 48-0)

第四章 系統實作

4.5. 機器學習與分類器

國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

4.5. 機器學習與分類器

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

第五章

實驗結果與分析

5.1. 頻率分析

5.1.1.

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

5.1.2.

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

5.2. 詞彙網絡分析

第四章系統實作

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學