• 沒有找到結果。

第六章 實驗評估與討論

6.5 使用者評分

系統化的評估方式如涵蓋率、重複率及選擇率,雖然能夠以客觀的角度評量 推薦結果在各個考量下的優劣,卻無法為字詞輔助使用者的程度提供一個有效的 估算方式。因此,本論文除了藉由系統化評估之外,也透過使用者主觀的想法針 對不同推薦結果依據其主觀的感覺做評估。

此部分共進行 2 項實驗:[實驗 3-1]評估所有推薦字詞中使用者認為有幫助 的比例程度,[實驗 3-2]使用者對不同方法產生的階層推薦架構之喜好選擇,以 下分述之。

61

6.5.1 查詢測試資料

以 TREC 2009 至 2011 年在網頁分析議題上使用的 150 的查詢為挑選來源,

為觀察本論文方法對於不同長度的查詢字之處理效果,我們分別挑選 4 個長度大 於等於 3 的長查詢字以及 5 個長度小於 3 的短查詢字,共 9 個查詢字作為使用者 評估的題目。

圖 6.11 實驗 3-1 中使用者評估之方法說明

6.5.2 實驗結果

由於本論文方法是藉由美國 Google 搜尋引擎對查詢字進行搜尋,因此我們 選擇的受測者主要是以資訊工程背景且熟悉搜尋引擎使用方式的學生包含大學、

碩士生及甫畢業的非學生人士。此部分實驗是使用 Google 搜尋引擎進行查詢並 擷取查詢結果做為資料集,執行時 M_PhRank 方法中設定主題查詢字詞數量 n=5,

62

QS=25;LDA 的參數設定為 α=0.2,β=0.1,分群數則參考 n 設定為 5 群,加入亂 度之新穎程度值參數 δ=0.9,節點加權的參數 μ=1.0 並使用語意式邊權重值計算 方式。

圖 6.12 實驗 3-1 中使用者評估之題目範例

63

【實驗 3-1】 透過使用者評估比較 M_PhRank 與 LDA 所建立的階層式推薦架 構為有效推薦字詞之比例

此實驗受測者總數共 20 人,每位受測者針對同一個查詢字分別瀏覽本論文 方法產生的所有推薦字詞及 LDA 產生的結果,每個推薦字詞之間不具關係的情 形下,依據受測者個人注重的查詢需求從中選取認為能夠輔助查詢的推薦字詞,

實驗問卷如圖 6.11 及圖 6.12 所示。我們根據受測者勾選的推薦字詞我們可以計 算出整推薦中,有多大的比例是能讓使用者在查詢過程中得到幫助的。比例越大 表示該推薦架構的內容對使用者越有輔助效果,或是能夠提供語意明確易懂的推 薦字詞。

表 6.2 使用者逐一評估推薦字詞的結果(百分比)

short(<3) long>=3 total

M_PhRank 37.6 39.75 38.55555556

LDA 34.5 35.83333333 35.09259259

從表 6.2 可知 M_PhRank 的推薦字詞略勝 LDA,在 30 個推薦字詞中使用者 認為有 38.56%的推薦結果能輔助其查詢過程,而 LDA 只有 35.1%左右。另外,

M_PhRank 在長查詢字的使用者評估結果比短查詢字提升約 2%,這個結果與實 驗 1-6 不謀而合,我們認為可能是因為短查詢的概念廣泛度相對比長查詢高,又 因 M_PhRank 方法目的是產生語意明確的次主題查詢字詞,使用者對於短查詢可 能是需要概念廣泛度高的主題查詢字縮小其搜尋範圍,因此 M_PhRank 產生之語 意明確的推薦字詞在長查詢字的處理效果比短查詢來得好。

64

表 6.3 使用者評估整體階層架構(百分比)

short(<3) long(>=3) total

M_PhRank 60.8 68.5 64.22222222

LDA 33.6 29.5 31.77777778

None 5.6 2 4

圖 6.13 實驗 3-2 中使用者評估方法之說明

【實驗 3-2】 透過使用者評估比較 M_PhRank 與 LDA 所建立的階層式推薦架 構之輔助查詢效果

此實驗受測者總數共 50 人,每位受測者針對各個查詢字分別瀏覽本論文方 法及 LDA 產生的階層推薦架構,依據受測者個人注重的查詢需求從中選取認為 能夠輔助查詢的推薦架構,若認為兩種方法產生的結果皆不佳,則選擇 None,

實驗問卷如圖 6.13 及圖 6.14 所示。每一題的實驗結果中我們根據受測者勾選結

65

果,計算出 50 位受測者中有多少比例選擇 M_PhRank、 LDA 或 None。此外,

我們也將測試結果依據查詢字長短分類呈現。

圖 6.14 實驗 3-2 中使用者評估之題目範例

觀察表 6.3 可以發現受測者認為 M_PhRank 產生之階層推薦架構比 LDA 更 能在搜尋時提供幫助,整體結果中約有 64%的受測者認為 M_PhRank 方法產生 之推薦架構較能輔助其搜尋過程,約有 32%的受測者則是選擇 LDA 的推薦結果,

其餘則是認為兩方法的結果皆不佳。另外,將近 69%的受測者對於 M_PhRank

66

在長查詢字的推薦架構感到有效,所以在此實驗結果中亦呈現 M_PhRank 方法在 長查詢字明顯優於短查詢字的特點。綜合表 6.3 的評估結果,較多受測者認為整 體階層架構而言,M_PhRank 所產生的推薦結果比 LDA 更能幫助他進行查詢。

6.5.3 實驗結果討論

依據上述實驗評估結果,我們可得知受測者普遍認為 M_PhRank 產生的推薦 架構與其搜尋目的較相關,但是 M_PhRank 推薦架構中受測者認為只有約 38%

的推薦字詞是有效推薦,也就是說受測者認為階層架構中超過一半的推薦字無法 篩選出其需要的資訊。經我們詢問部分受測者的實驗心得後,發現多數人認為推 薦字詞中單字的排序不影響其語意;有部分人認為主題廣泛的推薦字詞較具篩選 效果,因此選擇 LDA 的推薦結果;另外,有人認為不應該推薦入口網站,如 Facebook、Twitter、Wikipedia 等等。以上原因顯示出每位使用者的評估準則略 有不同,但是多數使用者認為 M_PhRank 的推薦架構比 LDA 更具有輔助及篩選 效果。

67