評估前 K 名擴展查詢字集探勘方法之效率

第六章實驗評估與討論

6.3 評估前 K 名擴展查詢字集探勘方法之效率

6.3.1 實驗評估方法

此部分的實驗評估比較的方法為相關研究方法，以 Baseline 表示，此方法是參考論文[11]的 Naïve 演算法，採用列舉的方式進行擴展查詢字集探勘，同時考慮有用性上限值與下限值的估算概念，所以能在不需讀取所有資料集的情形下，

即可得到可用性分數前 k 名擴展查詢字集。再加上本論文所提的 UT-growth 及

Dynamic UT-growth 共三種方法，比較其在探勘可用性前k名擴展查詢字集執行的效率。

我們同時採用實際資料 Flickr 和 Delicious，以及模擬資料進行測試，分別評估採用各種演算法的執行時間。實際資料根據 6.2.1 的描述，考量從不同出現頻率的標籤字，隨機取得十個查詢字來進行實驗。對於模擬資料是固定產生 50,000 筆標籤物件，我們分別控制標籤的種類數量(t_num)及每筆標籤物件的平均標籤集大小( .o tagset )來模擬產生標籤出現分布密度不同的資料集，並改變執行時輸入的_len 擴展查詢字集個數( k )和最少出現次數門檻值( r )，以四個實驗來觀察不同參數改 變對各演算法執行時間的影響。

實驗共分成五部分：[實驗 2-1]評估探勘topk_QEs演算法在實際資料的執行時間、

[實驗 2-2]評估模擬資料中標籤種類數量改變的影響、[實驗 2-3]評估模擬資料中

標籤物件的平均標籤集大小改變的影響、[實驗 2-4]評估評估模擬資料中改變k值 的影響、[實驗 2-5]評估模擬資料中改變 r 值的影響。

6.3.2 實驗結果

[實驗2-1] 評估不同演算法在實際資料探勘topk_QEs的執行時間

此實驗分別比較 Baseline、UT-growth 及 Dynamic UT-growth 在 Flickr 和

Delicious 資料集的執行時間。執行時的參數值k 設為 10 及 r 設為 5，採用 AvgDiversity 所使用的參數值w設為 0.3。

表 6.5 及表 6.6 分別顯示未採用代表標籤挑選及採用各方法對 10 個查詢的平均探勘的時間，此結果顯示本論文所提的 UT-growth 和 Dynamic UT-growth 執行時間少於 Baseline，而 Dynamic UT-growth 的執行時間又比 UT-growth 更短。表

6.6 顯示使用挑選代表標籤和演算法的執行時間，相較於表 6.5 未採用代表標籤挑選之演算法的執行時間，因為除了探勘的執行時間，還有挑選代表標籤的執行時間，所以採用挑選代表標籤的 Dynamic UT-growth 會比沒使用代表標籤的執行時間要長，但是根據 6.2 節的實驗結果發現有使用代表標籤挑選後的效果較好，且執行代表標籤並不會花費過多時間，即使在線上即時操作，其執行時間是使用者能夠接受的範圍。

表 6.5 評估未挑選代表標籤所需總執行時間(毫秒)

Baseline UT-growth Dynamic UT-growth Flickr 2439.2 366.6 192.3

Delicious 2305.3 318.9 86.6

表 6.6 評估採用挑選代表標籤 AvgDiversity 的總執行時間(毫秒) Baseline UT-growth Dynamic UT-growth

Flickr

挑選執行時間 298.4 298.4 298.4 探勘執行時間 623.8 69.5 48.2

總執行時間 922.2 367.9 346.6

Delicious

挑選執行時間 107.1 107.1 107.1 探勘執行時間 80.5 70.7 39.4

總執行時間 187.6 177.8 146.5

[實驗2-2] 評估模擬資料中標籤種類數量改變的影響

在此實驗模擬資料 .o tagset 設為 5， k 設為 5，且 r 設為 5，評估_len t_num改變為 10、50、100、200、300 及 400 時，對探勘topk_QEs演算法執行時間的變化。此外，

亦觀察不同t_num對於所找出topk_QEs中擴展查詢字集大小的變化。

依據標籤種類數量的不同，當t_num愈小時，表示此資料集的分佈愈緊密；反之，則表示資料集的分佈愈稀疏。圖 6.11 中顯示，Baseline 的執行時間不會隨著標籤種類數量的變化而有規律的增減，在t_num為 100 時，Baseline 平均執行 260 個標籤物件可以找出topk_QEs，所以需要組合的種類變多，執行時間較高；在t_num為

10 及 400 兩側平均執行 82 個標籤物件可以找出topk_QEs，因為資料變稀疏，會滿足門檻值得個數會變少，故執行時間較短。只有當t_num值較小時，UT-growth 和

Dynamic UT-growth 會有較差的執行時間，因為標籤共同出現的機率較高，在利用樹狀結構探勘更長的擴展查詢字集時，需要較多計算時間；反之，隨著t_num增加，UT-growth 和 Dynamic UT-growth 以等差的方式逐漸遞減，執行時間明顯快於 Baseline。在實際應用中，因為t_num會遠大於實驗測試的個數，所以我們的方法也能夠達到較好的執行時間。

圖 6.11 不同 t_num在各演算法的執行時間

圖 6.12 中顯示，隨著t_num愈大，也就是資料分佈較稀疏，會使得所找出topk_QEs 中擴展查詢字集的平均大小愈小；反之，所找出topk_QEs中擴展查詢字的平均大小愈大。這個結果也呼應到圖 6.11 中 UT-growth 和 Dynamic UT-growth 的執行時間。

0 50 100 150 200 250

10 50 100 200 300 400

Execution time (msec)

t_num

Baseline UT-growth Dynamic UT-growth

圖 6.12 不同 t_num對於有用性前 k 名擴展查詢字集平均大小的影響

[實驗2-3] 評估模擬資料中標籤物件的平均標籤集大小改變的影響

此實驗模擬資料t_num設為為 5， k 設為 10，且 r 設為 10，評估 .o tagset 改變_len 為 10、20、30、40 及 50 時，對探勘topk_QEs演算法執行時間的變化。此外，亦觀察不同 .o tagset 對於所找出_len topk_QEs中擴展查詢字集大小的變化。

依據標籤物件的平均標籤集大小的不同，當 .o tagset 愈長時，表示此資料集_len 的分佈愈緊密；反之，則表示資料集的分佈愈稀疏。圖 6.13 中顯示，當 .o tagset_len 較短時，因為標籤共同出現的機率較低，在利用樹狀結構無法探勘出更長的擴展查詢字集時，故 UT-growth 和 Dynamic UT-growth 所執行的時間較少；反之，隨著 .o tagset 增加，由於 Baseline 是利用列舉的方式找出擴展查詢字集，此方法執_len 行時間會大幅增加。而 UT-growth 除了建樹所花費的成本，還有建立 Header Table 的橫向連結，故會隨著標籤物件的平均標籤集大小增加，因此 UT-growth 的執行

1 1.5 2 2.5 3

10 50 100 200 300 400

Avg. length

t_num QE length

時間以等比的方式逐漸遞增。反觀 Dynamic UT-growth 在動態探勘的優勢下只有些微幅度增加。

圖 6.13 不同 o.tagset_len在各演算法的執行時間

圖 6.14 中顯示，隨著 .o tagset 愈大，也就是資料分佈愈密集，會使得所找出_len

topkQEs中擴展查詢字集的平均大小愈大；反之，所找出topk_QEs中擴展查詢字的平均大小愈小。這個結果也呼應到圖 6.13 中 UT-growth 和 Dynamic UT-growth 的執行時間。

0 4000 8000 12000 16000 20000

10 20 30 40 50

Execution time (msec)

o.tagset_len

Baseline UT-growth Dynamic UT-growth

圖 6.14 不同 o.tagset_len對於有用性前 k 名擴展查詢字集平均大小的影響

[實驗2-4] 評估模擬資料中改變k值的影響

此實驗模擬資料t_num設為 100， .o tagset 設為 30，且 r 設為 10，評估 k 值改_len 變為 5、10、15、20 及 25 時，評估探勘topk_QEs演算法執行時間的變化。此外，

亦觀察不同 k 對於所找出topk_QEs中擴展查詢字集大小的變化。

圖 6.15 中顯示，三種方法在不同的擴展查詢字集個數，當k愈大，執行時間都是以等差遞增逐漸增加。因為只是增加所需的前k名擴展標籤字集，所以執行時間才會規律的增加。

1 1.5 2 2.5 3 3.5 4

10 20 30 40 50

Avg. length

o.tagset_len QE length

圖 6.15 不同 k 在各演算法的執行時間

Baseline UT-growth Dynamic UT-growth

[實驗2-5] 評估模擬資料中改變r 值的影響

此實驗模擬資料t_num設為 100， .o tagset 設為 30，且 k 設為 10，評估 r 值改_len 變為 5、10、15、20 及 25 時，對探勘topk_QEs演算法執行時間的變化。此外，亦 觀察不同 r 對於所找出topk_QEs擴展查詢字集大小的變化。

觀察圖 6.17 及圖 6.18，依據物件包含擴展查詢字集之最少出現次數門檻值的 不同，當 r 愈高時，表示擴展查詢字集愈長，所包含的物件個數越難達到門檻值；

反之，則愈容易達到門檻值。圖 6.17 中顯示，隨著 r 增加，Baseline 方法必須讀 取更多標籤物件，列舉包含在標籤物件內的標籤集合，於是執行時間以等差的方 式遞增。反觀在 UT-growth 和 Dynamic UT-growth，因為 r 增加不會探勘更長的擴 展查詢字集，在探勘時能減少一些執行時間，但是為了累計物件包含擴展標籤字集的個數達門檻值，就必須讀取更多資料物件，造成執行時間增加，所以在折衷

(trade-off)的情形下，UT-growth 和 Dynamic UT-growth 的執行時間會維持在一定的時間，且整體觀察 UT-growth 和 Dynamic UT-growth 執行時間明顯於 Baseline，

而 Dynamic UT-growth 執行時間又比 UT-growth 更快。

圖 6.17 不同 r 在各演算法的執行時間

圖 6.18 不同 r 對於有用性前 k 名擴展查詢字集平均大小的影響 0

5000 10000 15000 20000 25000 30000

5 10 15 20 25

Execution time (msec)

Baseline UT-growth Dynamic UT-growth

1 1.5 2 2.5 3

5 10 15 20 25

Avg. length

r QE length

6.3.3 實驗結果討論

從上述實驗評估分析，本論文所提出的 UT-growth 及 Dynamic UT-growth 都明顯優於 Baseline 的執行時間，其中 Dynamic UT-growth 的執行時間又比

UT-growth 快，顯示 Dynamic UT-growth 能達到最佳的執行效率。另外，我們發現標籤種類數量及標籤物件的平均標籤集大小會影響資料分佈的密集性，越密集的資料分佈能夠探勘出擴展查詢字集較長的結果，相對地，會耗費較長的執行時間。而物件包含擴展查詢字集之最少出現次數門檻值也會影響擴展查詢字集的大小，原因是若要結合出擴展查詢字集大小較大的，就愈難達到門檻值，反之亦然。

反觀擴展查詢字集個數就無顯著影響擴展查詢字集的大小。

在文檔中有效率探勘社交標籤系統中前k名擴展查詢字集之研究 (頁 68-79)

第六章 實驗評估與討論

6.3 評估前 K 名擴展查詢字集探勘方法之效率

第六章實驗評估與討論