• 沒有找到結果。

第五章 驗證與評估

第二節 驗證評估

本研究將採用準確率(Precision Rate)與召回率(Recall Rate)指標以進行評估 SR 關鍵人物發掘模組,以下簡稱 SR。其次,將會與傳統社會網絡特徵值 Closeness 與 Betweeness 進行 Top K 之比較,以擷取 Top 10 至 50 之關鍵人物清單,分別觀 察此三種方法之準確率趨勢與變化。

(一) 準確率(Precision Rate)與召回率(Recall Rate)指標

本研究採用準確率(Precision Rate)與召回率(Recall Rate)指標以進行評估,如 表 24 所示,根據問卷所蒐集的實際關鍵人物將歸類為關鍵人物(K1)與非關鍵人 物(K2)。True Positives(TP)為預測關鍵人物實際是關鍵人物;False Positives(FP) 為預測關鍵人物實際並非關鍵人物;False Negatives (FN)為實際關鍵人物但本研 究方法卻歸類為非關鍵人物;True Negatives (TN)為實際是非關鍵人物而本研究

A

C D B

視為關鍵人物

53

關鍵人物(K1) True Positives (TP) False Negatives (FN) 非關鍵人物(K2) False Positives (FP) True Negatives (TN)

(1)準確率評估指標,公式如下:

54

SR 關鍵人物發掘模組將分別計算出 8 種類別之各個使用者的 Social Rank 值,

而根據每類別將會具有不同人數,如表 25 所示,於 3C 類別中在資料量一個月 底下,本研究 SR 關鍵人物發掘模組將會挑出 109 位關鍵人物,而 Food 類別則 是會挑出 217 位關鍵人物。因此,為挑出適當人數作為實際關鍵人物清單(K1),

本研究透過實驗測試最佳門檻值,而大於此門檻值則定為本研究所預測之關鍵人 物之清單(K1),而其餘則為非關鍵人物清單(K2)。

而在門檻值設定中,本研究將從 0.2 至 0.8 來做準確率、召回率的趨勢觀測,

從表 26 得出,於準確率的變化則是介於 31%至 39%,而準確率在門檻值 0.5 時 為最高,其次為門檻值為 0.3;召回率則是隨著門檻值放寬,平均值越高,然而,

準確率則是在門檻值 0.5 之後,隨著門檻放寬,平均值越低。而 Accuracy 變化則 是介於 39%至 57%,在門檻值 0.2 時為最高,並同樣隨著門檻值放寬,其平均值 越低。綜合以上三種評估指標於各門檻值的變化,如圖 5-5 所示,可看到準確率 於門檻值 0.3 與 0.5 則是最高,而準確率與 Accuracy 則是在門檻值 0.5 之後開始 下降,因此,本研究挑選門檻值 0.3 與 0.5 來挑選實際關鍵人物數量。舉例來說,

門檻值 0.5 則是挑選 SR 總人數的前 50%作為本研究所預測之關鍵人物清單 (K1)。

圖 5-5 各門檻值準確率&召回率趨勢變化 30%

40%

50%

60%

70%

80%

90%

0.2 0.3 0.4 0.5 0.6 0.7 0.8 Precision Recall Accuracy

55

表 26 準確率&召回率於各門檻值之變化

門檻值

0.2 0.3 0.4 0.5 0.6 0.7 0.8

準確率

3C 0.608 0.529 0.527 0.5 0.415 0.368 0.333 Food 0.379 0.333 0.314 0.275 0.246 0.225 0.208 Movie 0.5 0.75 0.6 0.5 0.385 0.375 0.375 Music 0.375 0.409 0.434 0.416 0.319 0.34 0.315 Beauty 0 0 0 0.333 0.2 0.222 0.182 Game 0.5 0.454 0.5 0.5 0.5 0.467 0.467 Tourist 0.166 0.25 0.235 0.263 0.206 0.225 0.244 Sport 0.333 0.307 0.307 0.308 0.414 0.4 0.353 平均

36% 38% 36% 39% 34% 33% 31%

召回率

3C 0.666 0.85 0.904 0.952 0.964 1 1 Food 0.733 0.733 0.733 0.733 0.941 0.941 0.941 Movie 0.25 0.75 0.75 0.75 0.833 1 1 Music 0.428 0.642 0.714 0.714 0.789 0.895 0.895 Beauty 0 0 0 1 0.333 0.667 0.667 Game 0.307 0.384 0.46 0.538 0.778 0.778 0.778 Tourist 0.111 0.44 0.444 0.556 0.583 0.75 0.917 Sport 0.6 0.8 0.8 0.8 0.923 0.923 0.923 平均

39% 57% 60% 76% 77% 87% 89%

Accuracy

3C 0.692 0.634 0.634 0.596 0.585 0.489 0.404 Food 0.576 0.5 0.461 0.365 0.432 0.364 0.295 Movie 0.636 0.81 0.727 0.636 0.55 0.5 0.5 Music 0.581 0.58 0.604 0.581 0.486 0.5 0.443 Beauty 0.428 0.285 0.412 0.428 0.538 0.385 0.231 Game 0.56 0.533 0.56 0.566 0.581 0.535 0.535 Tourist 0.55 0.413 0.379 0.379 0.373 0.333 0.314 Sport 0.52 0.411 0.411 0.412 0.5 0.472 0.361 平均

57% 52% 52%

50% 51% 45% 39%

而在問卷所蒐集之使用者認知的關鍵人物清單則是定義為,具兩人以上認可 之使用者為實際關鍵人物,由於,如果是兩個人同時認為一使用者為關鍵人物時,

56

57 True Positives 為 0,其次則是,Beauty 類別文章在原始資料的數量也較少,不易 取出足夠之互動資料進行分析,因此,在 Beauty 類別文章過少且實際關鍵人物

58 於,False Positive 略高,導致 True Positive 的比率降低。然而,False Positive 的 斷定則是在於本研究認定之關鍵人物應是兩人認可才具有代表性,因此,本研究 Movie、Music、Game 與 Sport 類別中,召回率表現皆達 80%以上。此外,Beauty

0%

SR Precision

(t=0.3)

59

類別召回率則是大幅度躍升至 100%。在透過實際問卷所蒐集的 Beauty 類別關鍵 人物數量僅有 5 位,然而,SR 所挑選出的關鍵人物數量從 30%放寬至 50%時,

則獲得良好之表現。另一方面,門檻值放寬至 0.5 時,準確率的變化則是稍微下 降,其準確率最高值為 57%,落在三個月資料量的 Movie 類別,而準確率平均 落於 20%至 50%,相較於門檻值 0.3 狀況底下,表現是略為下降。

表 28 各類別準確率與召回率(門檻值=0.5)

實際 Keyuser 數

30

18 15 23

5

27 14 16 月份

3C Food Movie Music Beauty Game Tourist Sport

12 月 (一個月)

SR 人數 55 109

15 32 16 19 41 17

Precision 38% 33% 0 42% 33% 36% 20% 20%

Recall 73% 69% 0 42% 100% 57% 20% 100%

12~11 月 (兩個月)

SR 人數

102

179

28 63 26 28 84 36

Precision 50% 28% 50% 42% 33% 50% 26% 31%

Recall 95% 73% 75% 71% 100% 54% 56% 80%

12~10 月 (三個月)

SR 人數

136

223

36

78 38

39

105

39

Precision 44% 27%

57%

34% 29% 43% 26% 41%

Recall

96%

80% 80% 79% 100% 64% 60% 88%

12~09 月 (四個月)

SR 人數

145

235

39

85 44

41

108

48

Precision 42% 27% 50% 32% 25% 45% 26% 45%

Recall 96% 87% 80% 79% 100% 71% 60% 90%

全部月份 SR 人數 179 333 55 125 56

53

148 83

Precision 39% 22% 38% 33% 25% 50% 23% 41%

Recall 96% 94%

83% 84%

67%

82% 67% 92%

60

1-month 2-month 3-month 4-month all-month

SR Recall

1-month 2-month 3-month 4-month all-month

SR Precision

(t=0.5)

61

能原因在於實際關鍵人物清單數量較少,門檻值放寬等同於抓取更多之關鍵人物 清單,因此,資料懸殊的問題更為明顯,導致準確率在資料量變多的狀況底下,

無法獲得更好的準確率。

因此,綜合在門檻值的討論中,本研究則是考慮到門檻值 0.2 至 0.8 時,準 確率變化不大,而為保住一定的 Accuracy 則是挑選門檻值 0.3 與 0.5 來進行討論。

而綜合以上兩個門檻值的表現,在較為嚴苛的門檻底下(0.3),其準確率的表現則 介於 30%至 60%,而較為寬鬆的門檻底下(0.5),準確率則是位於 20%至 50%。

然而,由於問卷所蒐集的關鍵人物清單較少,各類別文章資料量也少的狀況底下,

SR 表現容易受到影響,例如於 Beauty 類別,因此,倘若在文章資料量稀少時,

可採取較為寬鬆之門檻,以維持一定的準確率,抑或者,將文章數量提昇以獲取 更高之準確率。

(二) SR、Closeness 與 Betweeness 準確率比較

此章節則是透過挑選 Top K 的機制,來進行 SR 與傳統社會網絡特徵值 Closeness 與 Betweeness 之準確率的比較。以表 29 所示,為三種方法在兩個月資 料量(12~11 月)中各 Top K 的命中百分比(其餘月份之命中率列表請參考附錄 4 至 8),與 各類別所取出的文章數與其發文人數的數量。即列出在各 Top K 階段中,三種方 法在各個類別所挑出的關鍵人物命中實際關鍵人物的百分比,即為準確率。

而可看到在前 Top 10 至 30 的資料中,本研究之 SR 模組在少部份資料是略 遜於傳統的社會網絡特徵值,然而,在大部份資料中則是與 Closeness 與 Betweeness 差 異 不 大 , 其 原 因 在 於 SR 關 鍵 人 物 發 掘 模 組 主 要 是 建 立 在 Betweeness 與 Closeness 之上,因此,在排序之上較無顯著差異。

然而,在最後 Top50 底下,如圖 5-10 所示,SR 之準確率在 3C、Food、Movie、

Beauty、Game 與 Tourist 此六種類別,皆高於 Closeness 與 Betweeness 之上。因 此,可代表 SR 關鍵人物發掘模組在透過分析使用者互動關係頻率後,更能有效 的發掘出使用者網絡中的關鍵人物。

62

圖 5-10 SR、Closeness、Betweeness 各類別於 Top 50 之準確率 0%

SR Closeness Betweeness

63

而在資料集中,可看到在 Beauty、Movie 與 Sport 類別中文章數皆小於 100 則,Game 類別則是 101 則,而 Food 與 3C 類別文章數則是位居一二名。而 Beauty 類別所取出的發文人數則是所有類別中最少,僅有 37 位使用者,其次是 Movie 與 Sport 類別,各是 59 位與 58 位使用者。然而,在 Movie、Beauty 與 Game 類 別中,其文章數較少的狀況之下,本研究 SR 在關鍵人物的發掘準確率則是比傳 統的 Closeness 與 Betweeness 來的要高,最高為 48%,而在資料集最少的 Movie 類別,則為 22%。可顯示本研究 SR 關鍵人物發掘模組在資料稀少的狀況底下,

在加入使用者互動關係頻率之後,其命中率會比傳統之社會網絡特徵值來的要高,

顯示 SR 關鍵人物發掘模組則是能夠有效的取出使用者網絡中的關鍵人物。

下列三張圖 5-11 至 5-13 為 SR、Closeness 與 Betweeness 於 Top K 之準確率 比較圖,主要則是可觀察此三種方法在 Top10 至 Top50 間的趨勢,而此階段則列 出在 3C、Game 與 Tourist 類別中三種方法的趨勢。從此三張圖可看出 SR 其趨勢 在資料量越多的狀況底下,其變化則是趨於平穩,然而,Closeness 與 Betweeness 則是隨著資料量越多,其準確率趨勢則是越來越低,整體的表現不如 SR 來的平 穩,而 SR 在 Top 50 所達到的準確率皆高於其他兩種傳統社會網絡特徵值,顯示 Closeness 與 Betweeness 運用在關鍵人物發掘中,並無法完全凸顯使用者的影響 力,單純只利用使用者間的連結並無法良好的抓取出網絡中所有可能的關鍵人 物。

64

SR Closeness Betweeness

0%

SR Closeness Betweeness

0%

SR Closeness Betweeness

65

相關文件