• 沒有找到結果。

每小時文章增加趨勢

3. BBS 看板中討論串的性質分析

3.2 異常事件回應文章數量特性分析

3.2.2. 每小時文章增加趨勢

當討論串的回應文章量用 Criterion-1 的篩選準則來判斷時以作為通知管 理者處理的條件有一主要缺點:Criterion-1 訂定的標準較高,異常討論串的回 應文章量往往必須累積半天或一天才突破該篩選值而通知管理者注意,異造成最 佳處理時機喪失之遺憾,實有必要尋找更即時的準則。

由於異常討論串的回應文章量具有短時間聚眾的效應,因此有必要分析異常 事件發生後的數小時內文章量的變化,以歸納出篩選準則。因此統計過去 17 個 月每天各小時所新增的回應文章量,如圖 3-5 所示。

08:00~07:00各小時新增的回應文章量

0 2 4 6 8 10 12 14 16

8 10 12 14 16 18 20 22 0 2 4 6 時間

篇數

圖 3-5 過去 17 個月每小時平均新增回應文章量

由此圖可發現每小時新增文章量的變化學生的作息有密切關係,由圖中可看 出一般大學生早上有些人上課,而前一天熬夜的同學還在睡眠,因此早上的回應 文章量通常不會很多;中午時,前一天熬夜的人也差不多睡醒,因此有一個較小 的峰值出現;下午的上課時間之回應文章量較中午低,但較早上多;晚上為學生 在網路上最活耀的時候,因此回應文章量隨著時間越晚數量越多,直到凌晨 1 點 時達到最高峰,之後開始有人休息,回應文章量逐漸下降,到清晨 6 點時降到谷 底。

進一步觀察異常事件發生後,每個小時回應文章量的變化情形,統計異常討 論串每小時回應文章量如圖 3-6,圖中也同時將第一篇回應文章出現後的圖 3-5 各小時平均回應文章量一併表示。

19 籌委事件發生前後每小時新增的回應文章量統計

0 20 40 60 80 100

21 23 01 03 05 07 09 11 13 15 17 19時間

篇數

回應文章量

平均的回應文章量

圖 3-6 籌委事件發生時之各時段回應文章量統計圖

由此圖可發現,異常討論串第一篇回應文章出現後每小時新增的回應文章量 就有劇增的現象,且其劇增的量超出平均值甚多,雖其曲線的波形大致上與圖 3-5 類似,但在量上卻有極大的差異。再將過去 17 個月各小時新增的回應文章 量做統計而得如圖 3-8 之分布圖,因此我們仿照Θday的方式定義Θhour,作為觀察 每小時新增回應文章量的異常情形,以該小時過去一個月的新增文章量平均值與 標準差而定義Θhour =該小時總文章量平均值+2*標準差,若某小時的回應文章量 超過該小時的Θhour,則必須進一步篩選其中的討論串。

(a)

0 10 20 30 40 50 60 70 80 90 100

21 22 23 00 01 02 03 04 05 06 07

"籌委"

討論串回應文章量 該小時回應文章量 異常値Θhour

(b)

0 10 20 30 40 50 60 70 80

16 17 18 19 20 21 22 23 00 01 02 03 04 05 06

"青年站出來!三要一反行動"

討論串文章量 總文章量 總文章異常量

圖 3-7 nctu.talk 大事件討論串文章統計

21

以Θhour來作新增文章量的篩選準則時,發現所篩選出來的時間點中回應文章量的 分布具有下列二種情形:

(1)回應文章量超過Θhour但是回應文章中並無較共同的話題

回應文章量分布於各討論串呈現類似(1, 1, 1, 1, 2, 2, 2, 3, 3)的類 型,新增文章量會增加甚多之原因是因為當天有偶發情況發生造成上網人數 增加,如颱風天放假,使上網人數變多而造成該時段的文章量因而變多,但 討論串中並沒有讓使用者特別注意的事件,因此各討論串之回應文章數不會 增加甚多。

(2)回應文章量超過Θhour,從回應文章中可以看到有共同的話題

回應文章量分布於各討論串呈現類似(1, 1, 2, 3, 3, 3, 4, 12) 的類 型,其中某一討論串的文章量特別多,表示使用者在此時間點關注某一討論 串的內容及演變,因此造成該討論串的回應文章量會超過Θhour

由於Θhour約為該小時平均回應文章量的 2 倍以上,當回應文章量大於Θhour時,

若一討論串之回應文章量超過Θhour時,表示該論串之事件已擴大的很嚴重必須提 早反應此種異常現象。除此之外,當該小時回應文章量大於Θhour,若有一討論串 之回應文章量達到該小時回應文章量的一半時,表示已超過該小時平均的回應文 章量因此若連續觀察兩小時討論串均有此現象時則必須反應給管理者。因此我們 得到下列篩選準則:

Criterion-2.1:當某一小時的回應文章量及其中最熱門討論串之文章量超 過Θhour,則應將此討論串告知管理者。

Criterion-2.2:當某一小時的回應文章量超過Θhour,且其中最熱門討論串 的回應文章量在此兩小時中均超過Θhour/2 時,則應將此討論串告知管理者。

討論串回應文章量只要有瞬間異常快速成長量,就會被偵測到,就可很快地 在異常事件發生後沒多久隨即偵測。

23

相關文件