2
本論文之研究目的是對標籤資源提供一個查詢標籤推薦系統,針對使用者所 給予的查詢字之搜尋結果進行分析並推薦相關的標籤字詞,預期能引導使用者將 查詢字表達得更明確,使能更快速篩選找到所需資料。
1.2 研究的範圍與限制
本論文的研究範圍是針對具有被註記標籤的資料物件,當使用者給定標籤當 作查詢字時,從這些資料的標籤中找出包含有查詢字的資料物件。本論文將以這 些資料物件包含的所有標籤為候選標籤並進行分析,由於查詢結果可能資料量龐 大,考慮現今許多購物網站常使用的”面相搜尋”概念,動態推薦相關查詢標籤字 詞,由使用者勾選能更明確表達搜尋意圖的關鍵字,形成一組關鍵字集合的查 詢。
除此之外,由於經系統引導後的查詢字為集合包含查詢,本論文將探討如何 依據資料的標籤集合,建立可加速集合包含查詢的索引結構及容錯包含的搜尋方 法。
因此本論文的研究重點可分成兩個部份:<1>如何推薦與查詢字相關的關鍵字 幫助使用者形成一組更能表達查詢需求的查詢字,<2>如何針對資料集建立標籤 集索引結構來加快集合包含查詢的處理速度。
3
1.3 論文方法
關於推薦查詢標籤字的部份,本論文採用不同算式評估候選標籤與查詢字間 的相關程度及和已推薦標籤間的相異程度來決定一個標籤的關聯代表分數,再選 擇分數值最高的前 k 個標籤為推薦查詢標籤供使用者選擇,以形成一組更能表達 使用者查詢意圖的查詢字。此外,本研究採用面向搜尋的概念來呈現推薦的查詢 標籤字詞,當使用者選擇特定標籤字詞後,系統可階層式地篩選查詢結果,並推 薦其他查詢標籤字詞。
此外,本論文提出一個雙層式的索引結構,依標籤集合間的相似程度來決定 如何將相似的標籤集合聚合成群集。我們根據此索引結構提出一個雙層邊界機制 之搜尋方法來加速集合包含查詢的處理,並採用 Jaccard Containment 之評估包含 程度方法提供集合包含查詢之容錯處理。
為評估本論文所提出方法的效果,本論文進行兩部份實驗,第一部份以電腦 模擬使用者瀏覽的方式,評估系統所推薦之查詢字減少瀏覽成本的效果,實驗結 果將以搜尋的帄均成本(Average cost)跟實際搜尋到的可查詢比例(Percentage of
searchable query)來呈現。第二部份則分別評估本論文所提出之索引結構用在集合 包含查詢的處理效率。
4
1.4 論文架構
本論文以下章節內容簡介如下:第二章將說明相關文獻。第三章說明本論文之 系統架構與流程。第四章將詳述查詢標籤字的推薦方法。第五章將解釋如何進行 索引結構的建立及集合容錯包含的搜尋方法。第六章將說明本論文實驗所採用資 料及所提出方法的實驗結果。最後在第七章提出總結,並探討未來研究方向。
5