• 沒有找到結果。

第六章 實驗結果與討論

6.2 評估查詢結果標籤階層式架構之效果

6.2.3 實驗評估結果

[實驗 1.1] 評估挑選代表標籤的步驟對於查詢結果之影響

為了比較使用代表性標籤選取步驟的效果,因此分別所採用兩種方法為:

(一) 使用 4.2 節所介紹 r_score 方法計算出候選標籤字相關程度值,從中取出 r_score 分數最高的前五十名之候選標籤字作為代表標籤字,再將這些代表標 籤字進行標籤階層式架構之建立依據。我們稱此方法為 Using filtering strategy

(簡稱成 FS)。

(二) 在不採代表性標籤選取的方法,我們將 Oq.tagset 的所有候選標籤字輸入概念 廣泛程度排名模型進行排序,取出概念廣泛程度最高的前五十名之標籤字作 為後續標籤階層式架構之建立依據。我們稱此方法為 No filtering strategy (簡 稱成 NFS) 。

同時我們想比較前述的三種類型查詢字(高、中、低頻率標籤字),針對 FS 及

NFS 兩種做法,評估其建構出語意標籤架構中不同階層所對應的代表標籤字集合,

依序列出三項評估數據。因此為了以各個評估標準來觀察 FS 及 NFS 對於所建立 標籤概念階層式架構提供查詢瀏覽的效果並且進行三種類型查詢字的實驗結果

分析討論。圖 6.1、6.2、6.3 依序為對於覆蓋率、重複程度、選擇性的評估結果。 件少(Low frequency queries)的情況下,使用 FS 方法時,其挑選出的代表標籤與 查詢字同時出現的相關性高,且因為找到的資料物件個數比較少,導致查出的物

Level 1 Level 2 Level 3

Cov er ag e

FS-HighFS-Medium

FS-Low NFS-High NFS-Medium NFS-Low

圖 6.2 採用不同挑選代表標籤字策略的標籤架構-重複程度之階層分佈圖

Level 1 Level 2 Level 3

Ov erla p

圖 6.3 採用不同挑選代表標籤字策略的標籤架構-選擇性之階層分佈圖

表 6.2 採用不同挑選代表標籤字策略的標籤架構之整體評估

FS NFS

Ave_Coverage 0.31966 0.16885 Ave_Overlap 0.13044 0.09986 Ave_Selectivity 0.97264 0.96668

綜合考量𝑐𝑜𝑣𝑒𝑟𝑎𝑔𝑒、𝑜𝑣𝑒𝑟𝑙𝑎𝑝、𝑠𝑒𝑙𝑒𝑐𝑡𝑖𝑣𝑖𝑡𝑦三項平均數據(如表 6.2),雖然在

Level 1 Level 2 Level 3

Sel ec tivi ty

FS-HighFS-Medium

FS-Low NFS-High NFS-Medium NFS-Low

以下分析三種不同類型查詢字的實驗結果:

i. 高頻率查詢字

覆蓋率的實驗結果,可以看出有使用篩選機制所建立出來的階層式架構(FS),

從第一層到第三層皆優於未使用篩選機制的方法(NFS)。重複程度的實驗結果,

可得知兩種方法在重複程度上,雖然 NFS 的方法略低於採用 FS 的方法,但其差 異沒有相當明顯。選擇性的實驗結果,FS 的方法優於 NFS 的方法。

ii. 中頻率查詢字

覆蓋率的實驗結果,可以看出有使用篩選機制所建立出來的階層式架構(FS),

從第一層到第三層皆優於未使用篩選機制的方法(NFS),在第二層和第三層尤為 明顯。重複程度的實驗結果,可得知兩種方法在重複程度上, NFS 的方法略低 於採用 FS 的方法。選擇性的實驗結果,FS 的方法則優於 NFS 的方法。

iii. 低頻率查詢字

覆蓋率的實驗結果,可以看出有使用篩選機制所建立出來的階層式架構(FS),

各階層皆優於未使用篩選機制的方法(NFS)。重複程度的實驗結果,顯示 NFS 的 方法比採用 FS 的方法得到較低的 coverage,可以解釋的原因為隨著包含查詢字 的資料物件的減少,導致我們所使用 r_score 來進行篩選標籤字的效果無法彰顯出 來。選擇性的實驗結果,僅在第一階層 FS 方法是略高於 NFS 方法,而在第二、

三層則 NFS 是有較高的 selectivity。

[實驗 1.2] 評估不同的階層式架構建立方法之比較

本實驗分別採用本論文提出的 CTC 演算法所建立的概念階層式標籤架構與

[6]提出的 MDL 演算法之概念階層式架構建立方式,比較兩者所建立的概念階層 式架構對於查詢瀏覽的效果。

如同實驗 1.1 的方式採用三種出現頻率範圍共 400 個查詢字,並使用 FS 方式 挑選代表標籤後,針對我們提出的 CTC 演算法之架構建立方法及[6]使用的 MDL 演算法架構建立方法兩種做法,評估其建構出語意標籤架構中不同階層所對應的 代表標籤字集合,依序算出三項評估數據。

我們以各個評估標準來觀察 CTC 演算法及 MDL 演算法的階層式架構建立方 法,其建立出的階層式架構能否有效輔助使用者進行搜尋資料。圖 6.4、6.5、6.6 依序對於覆蓋率、重複程度、選擇性來進行統整分析。以三種不同類型的查詢字 搭配不同的挑選代表標籤字方式之組合,系統對於每種實驗的配對組合進行各層 的評估。

首先在圖 6.4 中,我們可以得知在第一階層時,其覆蓋率會隨著包含查詢字 的資料物件個數減少而相對地上升。並且可得知使用低頻率查詢字,由於覆蓋率 高,其查詢結果的標籤概念階層式架構可以不需要太多層。而高頻率查詢字,因 為覆蓋率不高且表達的語意概念較廣,需要提供較多的查詢概念才會比較完整。

此外,我們仍可從覆蓋率的數據中得知我們提出的建構架構方法 CTC 較 MDL 的 建構架構方法可得到較高 coverage 值。

圖 6.4 採用不同建立階層式架構方法-階層累積覆蓋率折線圖

Level 1 Level 2 Level 3

Cov er ag e

圖 6.5 採用不同建立階層式架構方法-重複程度之階層分佈圖

Level 1 Level 2 Level 3

Ov er la p

圖 6.6 採用不同建立階層式架構方法-選擇性之階層分佈圖

表 6.3 採用不同建立階層式架構方法的標籤架構之整體評估

CTC MDL

Ave_Coverage 0.31966 0.31966 Ave_Overlap 0.13044 0.21632 Ave_Selectivity 0.97264 0.94934

根據𝑐𝑜𝑣𝑒𝑟𝑎𝑔𝑒、𝑜𝑣𝑒𝑟𝑙𝑎𝑝、𝑠𝑒𝑙𝑒𝑐𝑡𝑖𝑣𝑖𝑡𝑦三項平均數據(如表 6.3) 數據顯示,因

Level 1 Level 2 Level 3

Select ivit y

CTC-HighCTC-Medium

CTC-Low MDL-High MDL-Medium MDL-Low

相關文件