第二章 相關研究
2.5. 過去文字訊息分類
國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
13
2.4. 網際網路在災難中的角色
近年來引起大眾注意的許多災難事件中,網際網路都扮演過去其他傳統媒體沒有 的功能,人們利用各種新興網路技術的新媒體頻道來傳遞龐大災難資訊。在顧佳 欣的文章[10]中指出:網際網路本身在莫拉克八八風災中扮演資訊傳達、資源募 集調配的重要角色。如何以資訊傳播科技使資訊暢通,是災害發生時的關鍵。網 際網路的「互動性」和「資訊空間」可以讓偵測環境的功能更為接近民眾的個人 資訊需求[11]。線上社群網路和社交媒體的特點之一是他們對於信息傳播的潛力。
他們在訊息擴散的技術創新,已被有經驗的社會學家研究多年[12]。
網路現已成為平民化的傳播工具,任何的組織不需要昂貴的器材和專業的製 作團隊,就可以上網發布訊息及傳遞聲音影像,而且握有較多的內容掌控權,發 布新聞訊息時也不必耽心被媒體簡化或曲解。透過網路,受到災情影響的人們,
也可以簡單地將他們的經驗與需要放到網站上,和其他地方的受害者一起分享他 們的想法,甚至是和救援單位溝通。過去幾年中,社群訊息網路工具(如:Twitter)
已經在災難時期被用來作為一種溝通工具,這類工具可以跨越國家、時區和文化 讓人們分享訊息和知識,參與者可以找尋資料和驗證事件資訊,分享災區和失蹤 人口等有關的詳細資訊[13]。
2.5. 過去文字訊息分類
在這個知識爆炸的時代,整個世界處處都充滿了「文字」。巨大的文字數量人類 已無法有效的去解析這些內容。而這問題也已經引起自然語言處理(Natural Language Processing)和機器學習(Machine Learning)這些領域的研究人員注意。
過去有從簡短的文字訊息學習分類的問題,曾經有研究利用各種機器學習的演算 法(像是 Naive Bayes、SVM、Logistic Regression 和 Decision Trees),來解決識 別簡短訊息的垃圾訊息問題[14],或是針對一些線上問題的對話內容(如 Yahoo
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
14
Answers 或 Google Answers)進行分類比對[15]。亦有利用部落格的文本內容,
自動抽取關鍵字和階層式分類改善文章註解的方式[16],或是對醫療方面的文字 訊息分類,協助非洲偏遠地區的醫療問題[17]。
近年來網路和簡易手持行動運算設備的日趨成熟,簡化了人們對於事件的參 與並增加對事件內容討論的可近性。因此也提高了學者對於災難發生時,人們在 網際網路上所發佈傳遞的文字訊息分析的興趣,Cornelia 在其文章中提出了 EMERSE(Enhanced Messaging for the Emergency Response SEctor)架構系統,
EMERSE 系統包含了四個元素:(1)自動的訊息分類(2)一個 iPhone 的應用程 式(3)撈取 Twitter 資料元件(4)機器翻譯,收集 Twitter 上的資料在經過機器 的語言翻譯後來分類災難發生時 Twitter 上的資訊[18]。
過去的訊息分類研究中,雖有針對簡訊或網路訊息分類,但缺乏災難事件下 針對未翻譯的原生語言,同時具有跨不同性質資料集比較的經驗。這次我們的研 究,則在單一莫拉克颱風八八水災事件下,收集了三種頻道來源共五個資料集的 資訊內容,進行跨性質的資料集分析與訊息分類實驗。
‧
Fire DepartmentModel Research
Collection Analysis Application
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
16
3.1. 資料來源
莫拉克(Morakot)為 2009 年太平洋第 8 號颱風,是一個中度颱風,本身的颱風 強度並不強大,但在 8 月 9 日至 8 月 11 日三日期間內帶來了罕見的驚人雨量,
符合了極端氣候的特性,單高雄市山區即帶來超過 2,500 毫米的雨量,如此雨量 等同於三日內降下一年的雨量。莫拉克在短時間內狹帶超量雨水集中於台灣南部 地區,形成大規模水災重創南部地區,也帶來少見的資訊洪流。
水患的災民與其親友於此次水災中,在無法得知足夠資訊的恐慌焦慮下,只 能四處求援,因而癱瘓了部分應變中心的通訊系統。在既有管道壅塞的情形下引 發資訊氾濫,這現象引起一些網路使用者與技術人員的注意,在相互引導下組織 動員,自發性成立災情資訊頻道,提供莫拉克災情相關的資訊內容張貼和討論。
如本文開頭第一章導論中第一節網際網路的特性所述,網路是一個共同的資 訊空間,資料可能會存放在網際網路某個儲存節點上,所以資訊可以累積與整合 不容易流失,但災難發生時,網路上爆發的瞬間巨量資料,可能使得原本不存在 的浮現型頻道因應情境誕生。通常此類頻道在災難結束後,會隨之恢復為原來的 角色或淡出網路消失。所以蒐集此類頻道的資料具有時效性,當災難結束後,我 們就不容易蒐集到較完整的資料,僅能透過搜尋方式找到部分已被封存在搜尋引
圖 1、自動分類系統概觀
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
17
擎資料庫的內容。
本研究中所選擇使用的資料,即為 2009 年發生在南台灣地區的莫拉克八八 風災的頻道資料,經主事者同意授權下,利用程式將既有頻道(屏東及台南縣市 119 報案電話記錄)和網路上備援頻道(ADCT 數位文化 Twitter 資料)及浮現頻 道(XDite、Ricks)等五個資料來源,整理儲存在資料庫中,以做為本次研究的 基本資料集。
3.2. 系統設計與概觀
圖 2 為本研究的系統設計概觀與流程,包括撈取網路社群資料、文字辨識、文字 轉碼等資料前處理步驟,並將資料儲存至資料庫中保存。而後進行專家文本分類、
移除干擾符號、中文斷詞處理和去除停用詞(Stop Words)等資料前處理。在進 行機器學習前,我們抽取更具意義的特徵資料,作為建立向量空間模型的維度,
以 TFIDF 向量模型來做為分類器的訓練,在訓練時期設計交叉驗證(Cross Validation)的方法,對訓練後的各個分類模組進行驗證及比對。
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
18
圖 2、系統概觀與流程
Twitter tweets Scan Image Original Data
Data Crawl OCR Format Convert
Database Encoding Convert
Word Segmentation Remove Noise
Feature Selection TFIDF Calculation
Expert Classification
Vector Space Model
Cross-Validation
Training
Testing Model Remove Stop Words
Database
TFIDF Vector
Result 10-Fold
Calculate Index
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
19
3.3. 資料收集與儲存資料集
本研究中的資料包含了莫拉克颱風八八風災期間三種頻道(既有頻道、備援頻道、
浮現頻道)內容,這些資料雖於事後收集完成但皆為發生災難當下資料。以圖形 文字辨識、文件格式轉換、資料擷取過濾匯入等方式,統一儲存至關聯式資料庫。
不同來源的資料因屬性相異,我們儲存至不同的資料表中,每一筆資料給予一個 不重複且獨立的編碼,方便後續的文章分析時辨識使用,這些資料系統中我們稱 為「歷史性資料(Historical Data)」。
歷史性資料來自不同單位和平台,有部分儲存前已經過文字辨識或資料編碼 轉換,可能有亂碼出或缺漏出現在文章內容中。為求較好的文字品質以減低文字 分析時的錯誤率,在完成儲存後先做資料清查(Data Cleaning)的動作,以人力 將所有經過文字辨識(Ricks)、檔案轉換(屏東及台南縣市 119 報案電話記錄)
的資料內容進行校正。
我們收集的歷史性資料有屏東及台南縣市 119 報案電話記錄、Ricks、Xdite 與 ADCT 的 Twitter 發文內容,屏東及台南縣市 119 報案電話記錄為既有頻道,
Ricks 和 Xdite 為浮現頻道,ADCT 為備援頻道。收集資料經過掃描與轉檔後,
統一儲存至關聯式資料庫 MySQL,詳細的方法如下所述:
Tainan119、Pingtung119 報案電話記錄:由於報案電話記錄屬敏感性資料無 法直接獲得電子檔案,我們在主事單位同意下取得紙本記錄資料。經過掃描成圖 檔再透過機器文字辨識與人工校對後,將資料儲存為逗號分隔文字檔(.csv),再 編碼轉換後存入資料庫。兩個 119 資料集的欄位有:獲報時間、鄉鎮別、災害地 點、災情類別、災害狀況、處理情形。總共取得資料筆數有 Tainan119 資料集 2436 筆、Pingtung119 資料集 512 筆。
Ricks:為網友自行架設的網站,我們於莫拉克風災發生期間,透過人力擷
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
20
取「莫拉克颱風災情資料表」網站上的資料,儲存為 Excel 檔案格式(.xls)。Ricks 的資料欄位有:發生時間、推文與否、鄉鎮市、詳細地址、聯絡方式、發生災情、
需要協助內容、最新狀態。Ricks 資料集總共取得 4193 筆資料。
Xdite:同樣為網友自發性動員架設的網站,為一種論壇形式的網站。我們 取得為資料庫檔案(.sql),檔案中包含許多資料表,主要發文和回文內容資料表 的資料欄位有:文章標題、文章內容、發文時間、更新時間、垃圾訊息標示。
Xdite 資料集總共取得 9499 筆資料。
ADCT:台灣數位文化協會(Association of Digital Culture, Taiwan)資料集 是透過協會官方的 Twitter 帳號(@adctnpo)統一將收集整理的資訊發布至 Twitter 上。我們使用 Twitter API 將 2009 年 8 月 9 日至 2009 年 10 月 6 日期間 ADCT Twitter 的發布內容擷取下來,共取得資料 2,099 筆資料。Twitter API 是一種 RESTful
(Represental State Transfer)API,目前許多網路應用服務皆採用這種結合了 HTTP 與 URL 兩種協定的網路軟體設計架構,高效率且高靈活性。Twitter API 回傳的資料為 JSON(Javascript Object Notation)格式,JSON 為一種輕量級的資 料交換語言,是獨立於語言之外的文本格式。Twitter JSON 資料中包含許多 tweets 和 User 的基本資料,轉換後我們僅保留了幾個欄位內容儲存,分別是 Tweet 編 號(id)、tweet 內文(text)、發文時間(created_at)、發文者名稱(screen_name)、
轉載次數(retweet_count)。
3.4. 資料前處理
除了屏東與台南 119 報案電話紀錄,其餘已儲存的歷史性資料皆來自於網路,網 路上大部分的使用者沒有受過撰文的訓練,網路發言的內容可能有較多口語化表 達和語氣詞,文章結構比較隨興不夠嚴謹可能也會有文字表情符號等內容。所以 進行文字分析前,對於來源為網路的資料,進行資料內容的前置處理與移除干擾
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
21
值,處理內容的方法將在下一章節中介紹。
3.5. 中文斷詞處理
在完成資料前處理後,對這些儲存的歷史性資料內容進行下一步中文斷詞處理。
詞彙(Word)是最小且有意義的語言單位,任何語言處理的系統都必須要先能
詞彙(Word)是最小且有意義的語言單位,任何語言處理的系統都必須要先能