過去文字訊息分類

第二章相關研究

2.5. 過去文字訊息分類

國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

2.4. 網際網路在災難中的角色

近年來引起大眾注意的許多災難事件中，網際網路都扮演過去其他傳統媒體沒有的功能，人們利用各種新興網路技術的新媒體頻道來傳遞龐大災難資訊。在顧佳欣的文章[10]中指出：網際網路本身在莫拉克八八風災中扮演資訊傳達、資源募集調配的重要角色。如何以資訊傳播科技使資訊暢通，是災害發生時的關鍵。網際網路的「互動性」和「資訊空間」可以讓偵測環境的功能更為接近民眾的個人資訊需求[11]。線上社群網路和社交媒體的特點之一是他們對於信息傳播的潛力。

他們在訊息擴散的技術創新，已被有經驗的社會學家研究多年[12]。

網路現已成為平民化的傳播工具，任何的組織不需要昂貴的器材和專業的製作團隊，就可以上網發布訊息及傳遞聲音影像，而且握有較多的內容掌控權，發布新聞訊息時也不必耽心被媒體簡化或曲解。透過網路，受到災情影響的人們，

也可以簡單地將他們的經驗與需要放到網站上，和其他地方的受害者一起分享他們的想法，甚至是和救援單位溝通。過去幾年中，社群訊息網路工具（如：Twitter）

已經在災難時期被用來作為一種溝通工具，這類工具可以跨越國家、時區和文化讓人們分享訊息和知識，參與者可以找尋資料和驗證事件資訊，分享災區和失蹤人口等有關的詳細資訊[13]。

2.5. 過去文字訊息分類

在這個知識爆炸的時代，整個世界處處都充滿了「文字」。巨大的文字數量人類已無法有效的去解析這些內容。而這問題也已經引起自然語言處理（Natural Language Processing）和機器學習（Machine Learning）這些領域的研究人員注意。

過去有從簡短的文字訊息學習分類的問題，曾經有研究利用各種機器學習的演算法（像是 Naive Bayes、SVM、Logistic Regression 和 Decision Trees），來解決識別簡短訊息的垃圾訊息問題[14]，或是針對一些線上問題的對話內容（如 Yahoo

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

Answers 或 Google Answers）進行分類比對[15]。亦有利用部落格的文本內容，

自動抽取關鍵字和階層式分類改善文章註解的方式[16]，或是對醫療方面的文字訊息分類，協助非洲偏遠地區的醫療問題[17]。

近年來網路和簡易手持行動運算設備的日趨成熟，簡化了人們對於事件的參與並增加對事件內容討論的可近性。因此也提高了學者對於災難發生時，人們在網際網路上所發佈傳遞的文字訊息分析的興趣，Cornelia 在其文章中提出了 EMERSE（Enhanced Messaging for the Emergency Response SEctor）架構系統，

EMERSE 系統包含了四個元素：（1）自動的訊息分類（2）一個 iPhone 的應用程式（3）撈取 Twitter 資料元件（4）機器翻譯，收集 Twitter 上的資料在經過機器的語言翻譯後來分類災難發生時 Twitter 上的資訊[18]。

過去的訊息分類研究中，雖有針對簡訊或網路訊息分類，但缺乏災難事件下針對未翻譯的原生語言，同時具有跨不同性質資料集比較的經驗。這次我們的研究，則在單一莫拉克颱風八八水災事件下，收集了三種頻道來源共五個資料集的資訊內容，進行跨性質的資料集分析與訊息分類實驗。

‧

Fire Department

Model Research

Collection Analysis Application

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

3.1. 資料來源

莫拉克（Morakot）為 2009 年太平洋第 8 號颱風，是一個中度颱風，本身的颱風強度並不強大，但在 8 月 9 日至 8 月 11 日三日期間內帶來了罕見的驚人雨量，

符合了極端氣候的特性，單高雄市山區即帶來超過 2,500 毫米的雨量，如此雨量等同於三日內降下一年的雨量。莫拉克在短時間內狹帶超量雨水集中於台灣南部地區，形成大規模水災重創南部地區，也帶來少見的資訊洪流。

水患的災民與其親友於此次水災中，在無法得知足夠資訊的恐慌焦慮下，只能四處求援，因而癱瘓了部分應變中心的通訊系統。在既有管道壅塞的情形下引發資訊氾濫，這現象引起一些網路使用者與技術人員的注意，在相互引導下組織動員，自發性成立災情資訊頻道，提供莫拉克災情相關的資訊內容張貼和討論。

如本文開頭第一章導論中第一節網際網路的特性所述，網路是一個共同的資訊空間，資料可能會存放在網際網路某個儲存節點上，所以資訊可以累積與整合不容易流失，但災難發生時，網路上爆發的瞬間巨量資料，可能使得原本不存在的浮現型頻道因應情境誕生。通常此類頻道在災難結束後，會隨之恢復為原來的角色或淡出網路消失。所以蒐集此類頻道的資料具有時效性，當災難結束後，我們就不容易蒐集到較完整的資料，僅能透過搜尋方式找到部分已被封存在搜尋引

圖 1、自動分類系統概觀

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

擎資料庫的內容。

本研究中所選擇使用的資料，即為 2009 年發生在南台灣地區的莫拉克八八風災的頻道資料，經主事者同意授權下，利用程式將既有頻道（屏東及台南縣市 119 報案電話記錄）和網路上備援頻道（ADCT 數位文化 Twitter 資料）及浮現頻道（XDite、Ricks）等五個資料來源，整理儲存在資料庫中，以做為本次研究的基本資料集。

3.2. 系統設計與概觀

圖 2 為本研究的系統設計概觀與流程，包括撈取網路社群資料、文字辨識、文字轉碼等資料前處理步驟，並將資料儲存至資料庫中保存。而後進行專家文本分類、

移除干擾符號、中文斷詞處理和去除停用詞（Stop Words）等資料前處理。在進行機器學習前，我們抽取更具意義的特徵資料，作為建立向量空間模型的維度，

以 TFIDF 向量模型來做為分類器的訓練，在訓練時期設計交叉驗證（Cross Validation）的方法，對訓練後的各個分類模組進行驗證及比對。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

圖 2、系統概觀與流程

Twitter tweets Scan Image Original Data

Data Crawl OCR Format Convert

Database Encoding Convert

Word Segmentation Remove Noise

Feature Selection TFIDF Calculation

Expert Classification

Vector Space Model

Cross-Validation

Training

Testing Model Remove Stop Words

Database

TFIDF Vector

Result 10-Fold

Calculate Index

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

3.3. 資料收集與儲存資料集

本研究中的資料包含了莫拉克颱風八八風災期間三種頻道（既有頻道、備援頻道、

浮現頻道）內容，這些資料雖於事後收集完成但皆為發生災難當下資料。以圖形文字辨識、文件格式轉換、資料擷取過濾匯入等方式，統一儲存至關聯式資料庫。

不同來源的資料因屬性相異，我們儲存至不同的資料表中，每一筆資料給予一個不重複且獨立的編碼，方便後續的文章分析時辨識使用，這些資料系統中我們稱為「歷史性資料（Historical Data）」。

歷史性資料來自不同單位和平台，有部分儲存前已經過文字辨識或資料編碼轉換，可能有亂碼出或缺漏出現在文章內容中。為求較好的文字品質以減低文字分析時的錯誤率，在完成儲存後先做資料清查（Data Cleaning）的動作，以人力將所有經過文字辨識（Ricks）、檔案轉換（屏東及台南縣市 119 報案電話記錄）

的資料內容進行校正。

我們收集的歷史性資料有屏東及台南縣市 119 報案電話記錄、Ricks、Xdite 與 ADCT 的 Twitter 發文內容，屏東及台南縣市 119 報案電話記錄為既有頻道，

Ricks 和 Xdite 為浮現頻道，ADCT 為備援頻道。收集資料經過掃描與轉檔後，

統一儲存至關聯式資料庫 MySQL，詳細的方法如下所述：

Tainan119、Pingtung119 報案電話記錄：由於報案電話記錄屬敏感性資料無法直接獲得電子檔案，我們在主事單位同意下取得紙本記錄資料。經過掃描成圖檔再透過機器文字辨識與人工校對後，將資料儲存為逗號分隔文字檔（.csv），再編碼轉換後存入資料庫。兩個 119 資料集的欄位有：獲報時間、鄉鎮別、災害地點、災情類別、災害狀況、處理情形。總共取得資料筆數有 Tainan119 資料集 2436 筆、Pingtung119 資料集 512 筆。

Ricks：為網友自行架設的網站，我們於莫拉克風災發生期間，透過人力擷

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

取「莫拉克颱風災情資料表」網站上的資料，儲存為 Excel 檔案格式（.xls）。Ricks 的資料欄位有：發生時間、推文與否、鄉鎮市、詳細地址、聯絡方式、發生災情、

需要協助內容、最新狀態。Ricks 資料集總共取得 4193 筆資料。

Xdite：同樣為網友自發性動員架設的網站，為一種論壇形式的網站。我們取得為資料庫檔案（.sql），檔案中包含許多資料表，主要發文和回文內容資料表的資料欄位有：文章標題、文章內容、發文時間、更新時間、垃圾訊息標示。

Xdite 資料集總共取得 9499 筆資料。

ADCT：台灣數位文化協會（Association of Digital Culture, Taiwan）資料集是透過協會官方的 Twitter 帳號（@adctnpo）統一將收集整理的資訊發布至 Twitter 上。我們使用 Twitter API 將 2009 年 8 月 9 日至 2009 年 10 月 6 日期間 ADCT Twitter 的發布內容擷取下來，共取得資料 2,099 筆資料。Twitter API 是一種 RESTful

（Represental State Transfer）API，目前許多網路應用服務皆採用這種結合了 HTTP 與 URL 兩種協定的網路軟體設計架構，高效率且高靈活性。Twitter API 回傳的資料為 JSON（Javascript Object Notation）格式，JSON 為一種輕量級的資料交換語言，是獨立於語言之外的文本格式。Twitter JSON 資料中包含許多 tweets 和 User 的基本資料，轉換後我們僅保留了幾個欄位內容儲存，分別是 Tweet 編號（id）、tweet 內文（text）、發文時間（created_at）、發文者名稱（screen_name）、

轉載次數（retweet_count）。

3.4. 資料前處理

除了屏東與台南 119 報案電話紀錄，其餘已儲存的歷史性資料皆來自於網路，網路上大部分的使用者沒有受過撰文的訓練，網路發言的內容可能有較多口語化表達和語氣詞，文章結構比較隨興不夠嚴謹可能也會有文字表情符號等內容。所以進行文字分析前，對於來源為網路的資料，進行資料內容的前置處理與移除干擾

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

值，處理內容的方法將在下一章節中介紹。

3.5. 中文斷詞處理

在完成資料前處理後，對這些儲存的歷史性資料內容進行下一步中文斷詞處理。

詞彙（Word）是最小且有意義的語言單位，任何語言處理的系統都必須要先能

在文檔中災難事件下新媒體資訊傳播方式分析與自動化分類設計 ─ 以八八風災為例 - 政大學術集成 (頁 17-0)

第二章 相關研究

2.5. 過去文字訊息分類

國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

2.4. 網際網路在災難中的角色

2.5. 過去文字訊息分類

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

3.1. 資料來源

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

3.2. 系統設計與概觀

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

3.3. 資料收集與儲存資料集

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

3.4. 資料前處理

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

3.5. 中文斷詞處理

第二章相關研究

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學