• 沒有找到結果。

第五章 實驗結果與分析

5.3. 機器學習比較

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

58

由圖 20、圖 21 可以發現,在每個資料集中具有高影響力的特徵詞彙皆不同,

兩個縣市 119 報案電話資料屬於地點的詞彙最多,Xdite 中最具影響力的詞彙為 物資,恰好能夠呼應資料集的特性與分類的分佈概況。另外,由詞彙分群的情形 可以看出同一個群聚中的詞彙幾乎和分類的情形有關連性,如圖 20 的 Ricks 網 絡途中我們可以看到藍色的群聚(物資、志工、救災、救援)和分類中的物資志 工類別相近。綠色的群聚(聯絡、知道、消息、家人、聯絡)和分類中的請求協 尋相近。

5.3. 機器學習比較

本研究中使用監督式學習中的 SVM 作為機器學習自動分類的方法,以兩種卡方 值篩選文件中的特徵資料詞彙,與每個詞彙的 TFIDF 建立空間向量模型進行 10-fold 交叉驗證和 OAO-SVM 訓練,最後以 10 次 F1-measure 計算 95%信賴區 間的結果做為分類的績效評估。機器學習和比較的過程,我們先挑選出合適的特 徵詞彙數量作為整個訓練的標準,而後訓練和評估每個資料集的績效,並交叉比 較不同頻道資料集分類器的應用效果,嘗試合併相同性質頻道的資料集並比較效 果。最後,我們以訓練後的模組當做編碼員與其他專家編碼員進行相互認同度與 複合信度的計算。

- 挑選合適的特徵詞彙數量

過多的特徵資料可能成為可能會成為干擾因素,太少的特徵資料卻又可能不足以 構成分類的條件。而在過去的研究中,沒有發現針對網路中文資訊多分類的特徵 值數量可以作為研究中的參考,為選擇適合的特徵詞彙數量,在兩個卡方值排序 後,以不同的閾值作為平均卡方值(AVG-CHI)和最大卡方值(MAX-CHI)的 篩選條件,取出不同的特徵詞彙數量以進行訓練實測,特徵詞彙數量與其篩選卡 方值的閾值如表 2 所示。

Tainan119 0.81±0.04 0.81±0.04 0.82±0.03 0.82±0.03 0.82±0.03 0.83±0.02 0.81±0.04 Pingtung119 0.68±0.04 0.68±0.04 0.67±0.05 0.68±0.04 0.68±0.05 0.67±0.04 0.68±0.03 Ricks 0.51±0.03 0.53±0.03 0.53±0.04 0.52±0.02 0.53±0.02 0.54±0.03 0.52±0.03 Xdite 0.48±0.03 0.49±0.02 0.49±0.02 0.50±0.03 0.49±0.03 0.49±0.03 0.49±0.02

ADCT 0.48±0.03 0.49±0.03 0.51±0.02 0.52±0.04 0.51±0.03 0.53±0.02 0.52±0.03

表 6、不同最大卡方值特徵詞彙數量與資料集結果

MAX-CHI 2000 3000 4000 5000 6000 7000 8000

Tainan119 0.83±0.04 0.81±0.04 0.82±0.01 0.82±0.03 0.82±0.02 0.83±0.05 0.81±0.02 Pingtung119 0.69±0.03 0.70±0.04 0.69±0.03 0.68±0.05 0.69±0.04 0.67±0.04 0.69±0.03 Ricks 0.48±0.02 0.49±0.04 0.52±0.03 0.51±0.02 0.52±0.04 0.52±0.02 0.53±0.02

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

60

- 各個資料集實驗結果

由前實驗結果我們以 7000 個特徵詞彙數量,選取排序後的平均卡方值與最大卡 方 值 中 的 特 徵 詞 彙 , 對 每 個 資 料 集 都 利 用 10-fold Cross-Validation 進 行 OAO-SVM 的訓練學習,計算 10 次的 F1-measure 得到每個資料集的 F1-measure 平均值與 95%信賴區間,如表 7 內容所示。

表 7、各資料集機器學習結果

Tainan119 Pingtung119 Ricks Xdite ADCT

AVG-CHI 0.83±0.02 0.67±0.04 0.54±0.03 0.49±0.03 0.53±0.02

MAX-CHI 0.83±0.05 0.67±0.04 0.52±0.02 0.49±0.02 0.52±0.02

觀察表 5 中各資料集的實驗結果,資料集本身訓練的 OAO-SVM 分類器無 論是在平均卡方值或是最大卡方值所選的特徵詞彙,兩種訓練得到的結果表現情 形一致。在所有資料集中,兩個既有頻道 Tainan119 與 Pingtung119 訓練後的績 效表現較好,而浮現頻道中的 Xdite 訓練績效表現較差。探究可能的原因,兩個 縣市 119 報案電話記錄的內容,皆為經過消防隊救難專家書寫,記錄中的用字用 詞皆經過專業的訓練。反之,Xdite 資料集的內文完全為網路使用者自行填寫,

也就是俗民書寫的內容,一般使用者不一定有經過書寫訓練,且在緊急狀況下有 許多語句不通順及錯別字問題,都可能造成中文斷詞與分類上的困難。Ricks 雖 然和 Xdite 同樣是俗民書寫,因其內容絕大多數為情求協尋,提供的資訊正確性 相對來說較高,所以訓練的績效表現也在 Xdite 之上。而 ADCT 則受限於 Twitter 的字數限制,加上大部分的資訊為媒體連結轉貼所以較難有好的分類。

- 交叉比對不同資料集分類器

這次的研究中,我們很幸運取得不同性質頻道的資料集,所以能夠嘗試將不同資 料集訓練而得的分類器,用來預測其他資料集內容的類別,交叉比較不同性質的

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

61

資料集分類器的績效。在交叉比對的部份,我們取每個資料集在每個 Fold 中訓 練後的分類模組,對另一個資料集已完成專家文本分類的內容進行預測並比對其 結果。因為先前做 10-fold Cross-validation,所以總共會有 10 次的預測結果,分 別計算每次的 F1-measure 和最後的 F1-measure 平均值和 95%信賴區間。

AVG-CHI Tainan119 Pingtung119 Ricks Xdite ADCT Tainan119-CM - 0.24±0.00 0.13±0.00 0.03±0.00 0.04±0.00 Pingtung119-CM 0.33±0.01 - 0.13±0.00 0.03±0.00 0.06±0.00 Ricks-CM 0.76±0.01 0.27±0.01 - 0.26±0.00 0.09±0.00 Xdite-CM 0.04±0.00 0.02±0.00 0.32±0.01 - 0.07±0.00 ADCT-CM 0.16±0.01 0.05±0.01 0.17±0.00 0.11±0.01 -

*CM:Classification Model

表 9、交叉比對資料集分類器績效(最大卡方特徵詞彙)

MAX-CHI Tainan119 Pingtung119 Ricks Xdite ADCT Tainan119-CM - 0.24±0.00 0.13±0.00 0.04±0.00 0.04±0.00 Pingtung119-CM 0.33±0.02 - 0.13±0.00 0.03±0.00 0.07±0.00 Ricks-CM 0.77±0.00 0.27±0.00 - 0.26±0.00 0.09±0.00 Xdite-CM 0.04±0.00 0.01±0.00 0.32±0.00 - 0.07±0.00 ADCT-CM 0.15±0.01 0.04±0.00 0.16±0.00 0.11±0.00 -

*CM:Classification Model

在表 8、表 9 中,橫列為經過訓練後的資料集分類模組,直行為資料集名稱。

每個橫縱向的交集表示,使用橫列代表的分類模組預測縱向資料集中已分類的文 本資料,數值則為驗證後的 F1-measure 平均值和 95%信賴區間。觀察表 8、表 9 的結果,我們可以發現同屬相同頻道的資料集間具有一定的分類績效,對其他頻 道的效果不好。在兩種特徵詞彙下,屬既有頻道的兩個縣市 119 電話報案資料,

Tainan119-CM(Classify Model,分類器模組)對 Pingtung119 為 0.24±0.00、0.24

±0.00,Pingtung119-CM 對 Tainan119 為 0.33±0.01、0.33±0.02,對其他資料集則 都在 0.13 以下。屬浮現頻道的 Xdite-CM 對 Ricks 有 0.32±0.01、0.32±0.00,對其 他資料集則在 0.07 以下。屬備援頻道的 ADCT-CM 對於其他的資料集則都在 0.17

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

63

以下。

其中 Ricks-CM 比較特殊,除了 ADCT 之外,對於其他幾個資料集分類也具 有一些分類上的績效。對分類 Tainan119 的資料尤其達到 0.76±0.01、0.77±0.00 相當高的數值。而 Tainan119-CM 對於 Ricks 資料的分類績效卻不好。Ricks-CM 在分類 Tainan119 的資料時,於 C2(提供情境資訊)類別的效果最好,觀察內容,

兩個資料集在這個類別的內容,對於地點和狀況用詞都相當簡潔明確。另外,

Ricks 在類別的數量分佈上比較平均,OAO-SVM 分類投票時比較不容易產生偏 差。

- 合併相同性質頻道資料集訓練分類器

前述的情形,我們想了解資料數量對於訓練分類的影響,如果將訓練資料量放大 是不是會有更好的效果,因此我們將相同頻道性質的資料庫合併,以 10-fold 進 行 OAO-SVM 分類模組訓練後,在對每個資料集進行分類預測與績效評估。得 到如表 10、表 11 結果。

表 10、合併同質頻道訓練分類器績效(平均卡方特徵詞彙)

AVG-CHI Tainan119 Pingtung119 Ricks Xdite ADCT T+P-CM

0.95±0.03 0.86±0.05

0.15±0.00 0.04±0.00 0.06±0.00 R+X-CM 0.44±0.02 0.27±0.01

0.83±0.07 0.86±0.04

0.19±0.00

*T+P:Tainan+Ptingtung119 R+X:Ricks+Xdite CM:Classification Model

表 11、合併同質頻道訓練分類器績效(最大卡方特徵詞彙)

MAX-CHI Tainan119 Pingtung119 Ricks Xdite ADCT T+P-CM

0.94±0.03 0.85±0.04

0.16±0.00 0.05±0.00 0.06±0.00

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

64

R+X-CM 0.48±0.02 0.29±0.01

0.83±0.07 0.85±0.04

0.19±0.00

* T+P:Tainan+Ptingtung119 R+X:Ricks+Xdite CM:Classification Model

由表 10、表 11 與表 7、表 8 和表 9 比對後我們可以發現,當訓練的資料數 量增加以後,對同屬頻道的資料集分類績效明顯提高,但對於不同頻道的分類還 是沒有太大的提昇。所以,進行分類器訓練的時候還是需要有足夠的訓練資料,

才可達到比較好的分類績效。

- 合併所有資料集訓練分類器

由前幾項實驗中我們可以發現,資料本身品質較好時,即使用來訓練的數量少時 也可以獲得好的績效。或是,當訓練資料數量足夠和類別數量分布較平均的時候,

能夠得到比較好的分類績效。除了 Ricks 之外,其他各資料集的分類都相當具有 集中性,所以,我們嘗試將所有資料集合併訓練以增加數量與平衡類別間的差異,

同樣以 10-fold 進行 OAO-SVM 分類模組訓練後,在對每個資料集進行分類預測 與績效評估。結果如表 12 所示,在各資料集表現有顯著的提昇。

表 12、合併資料集訓練分類器績效

All-CM Tainan119 Pingtung119 Ricks Xdite ADCT AVG-CHI 0.93±0.03 0.86±0.05 0.83±0.05 0.87±0.05 0.87±0.03 MAX-CHI 0.93±0.04 0.84±0.04 0.82±0.06 0.86±0.05 0.85±0.04

- 將分類器當做其中一個編碼員

在完成 SVM 分類器的訓練後,可以發現當所有資料集合併訓練所得的分類器,

無論在使用平均卡方值(AVG-CHI)或最大卡方值(MAX-CHI)的特徵篩選條 件下,都可以得到比較好的預測效果。我們以這兩個分類器當做第三個編碼員,

加入先前的專家文本分類中進行預測,並與先前兩個專家編碼員的分類結果進行

Intercoder Agreement Coder1 Coder2

AVG-CHI SVM 0.68 0.72

Coder2 0.8 -

平均相互同意度(Average Intercoder Agreement) =

0.68+0.72+0.8

3

= 0.733 複合信度(Composite Reliability) =

3×0.733

1+((3−1)×0.733) =

0.892

表 14、分類器模組與專家編碼員間相互同意度(最大卡方特徵詞彙)

Intercoder Agreement Coder1 Coder2

MAX-CHI SVM 0.7 0.74

Coder2 0.8 -

平均相互同意度(Average Intercoder Agreement) =

0.7+0.74+0.8

3

= 0.747 複合信度(Composite Reliability) =

3×0.747

1+((3−1)×0.747) =

0.899

信度檢定分析的結果,與 AVG-CHI SVM 所得的平均相互同意度為 0.733,

複合信度為 0.892。MAX-CHI SVM 所得的平均相互同意度為 0.747,複合信度為 0.899。兩者複合信度值皆超過 0.80 的門檻值,表示兩種機器訓練後的分類器與

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

66

道訓練專有的分類器。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

67

第六章

結論與 未來 研究

2009 年 8 月 8 日中度颱風莫拉克颱風侵襲台灣帶來創下紀錄的雨勢,為台灣南 部地區帶來嚴重的淹水災情,造成的水患與土石流等災害,是國內近年來最大的 災難,據政府的統計總共造成 681 人的死亡和 18 人失蹤。隨著網路基礎設施與 網路新媒體平台與技術的普及,在莫拉克風災事件中,因傳統頻道發生資訊過載,

觸發人們對於媒體的創用行為,使用網路上各種新興科技頻道進行資訊的聚合。

災後我們收集來自既有頻道、浮現頻道與備援頻道,三種不同頻道資料集,透過 編寫程式對資料進行編碼轉換、中文文字訊息處理、頻率統計等方式觀察分析各 個資料集內容,最後透過機器學習專家文本分類內容,探尋自動化訊息分類的可 能性。經過分析與實驗我們得到如後述幾項結論。

頻率分析結果中,可以發現天然災難發生後,隨著時序存在著階段性的期程,

不同頻道也因本身具有的特性,在各個階段具有重點代表性。在應用上,我們可 以觀察不同階段的類別資訊多寡,瞭解災難到達哪一個階段,哪個時候進入到下 一個階段,又或者接下來應該觀察哪個類型的頻道內容。期程的開始,提供情境 資訊與請求救援資訊較多,屬於緊急救難階段應該觀察傳統頻道。接著,請求協 尋訊息增加,屬於親友協尋階段應該觀察浮現頻道中具有類似公告功能的平台。

後續,志工物資與討論訊息增加,屬於志工物資調度階段,應該觀察浮現頻道中 具有論壇討論性質的平台。最後可以觀察備援頻道的資訊數量與頻率,瞭解災難

後續,志工物資與討論訊息增加,屬於志工物資調度階段,應該觀察浮現頻道中 具有論壇討論性質的平台。最後可以觀察備援頻道的資訊數量與頻率,瞭解災難

相關文件