社交標籤網站等) 蓬勃發展,其中有 del.icio.us, Flickr, CiteULike 等平台。這些平
台上所有的資料皆是由使用者上傳分享而來,並可由上傳的人或其他使用者為其
標記上文字標籤 ( Tags ) 來做為描述這些資源的方式,此種標註標籤的形態被稱
為協同式標籤 ( Collaborative tagging ) 或是社交標籤 ( Social tagging )。對於一個
網路上的資源物件,其標籤使用者可以自由使用相關或是有特殊意義的字詞去標
註,由此我們認為標籤本身具備的語意,接近使用者對資源物件所聯想的相關字
詞,故標籤資訊時常被使用者使用來搜尋資料 [4]。近來有許多研究探討如何利
用這些標籤資訊,從資料量龐大的社群網站資料有效率地找到使用者認為所需相
關資源;與社交標籤相關的研究有索引結構建立 ( Index structure construction) [1]
[7] 、查詢推薦 ( Search recommandation) [16] 、查詢標籤擴展 ( Query expansion)
[14] 等。
社交標籤網站中的資料物件都具有對應的標籤集合,採用標籤搜尋物件有不
同的方式,近似查詢為其中一種常用的方法。一般來說,若兩個資料物件擁有相
似的標籤集合,我們會認為這兩個資料物件很可能具有接近的語意,所以藉由給
定一個標籤集合為查詢(本論文通稱為查詢標籤集 ),或是指定一個物件取其對
應的標籤集合為查詢,當計算資料物件和查詢標籤集的相似度後,然後從中取出
對應的標籤集和使用者輸入的查詢標籤集相似度高的物件做為查詢結果。由於現
今網路資料量成長迅速,社交標籤網站擁有龐大的標籤資料集合,因此如何提供
社交標籤系統更有效率的近似查詢方法為值得研究的課題。
1.2 研究目的與範圍限制
本論文目的是對社交標籤網站提供一個標籤集近似搜尋系統,所要解決的問
題包含以下兩部分:
(I) 論文 [7] 曾提出一個多階層式索引結構來儲存標籤資料物件,此索引結構 會將標籤物件集具有的各個標籤集合聚集成一些群集 ( Cluster ) ,並以一
個雙層邊界機制的搜尋方式,由一個群集所記錄的特徵來估算整個群集內
資料之標籤集與使用者所給的查詢標籤集距離的上限值和下限值,判斷
是否整個群集中的標籤和查詢標籤集的距離皆符合給定門檻值,以加速
相似標籤集的搜尋。除了漢明距離,[7] 提出一個修正漢明距離 ( Modified
的搜尋意圖。因此本論文將對計算標籤集間距離之不同算法進行實驗評估,
希望找到近似搜尋效果最佳的距離估算方法。
(II) 論文 [7] 中提供的標籤集近似查詢方法,使用者除了要給定一組查詢標籤 集,還需給定一個距離程度門檻值。如果兩個標籤集合計算得到的距離值
高於此門檻值,表示兩標籤集合意義上不相似;反之如果計算得到的距離
值低於門檻值,則表示兩標籤集合意義上相似,可加入搜尋結果。然而,
對使用者來說相似程度門檻值的設定並不容易,若是門檻值設定過大則回
傳結果數可能會太多,過小則回傳結果數太少。所以本論文對此索引結構
提出一個 Top-k 近似查詢處理方法,使用者只要輸入一個常數 k 值,系統
必須有效率地篩選出與使用者查詢標籤集距離最小的前 k 的標籤資料物件。
本論文針對具有被使用者標記標籤的資料物件為研究對象,實驗資料蒐集來
源為網路上現有的社交標籤網站。本論文研究重點可分成兩部分:
(I) 探討如何將不同標籤集近似距離估算方法用於此多階層式標籤集索引結構,
進行標籤集合的近似查詢,並評估其近似查詢效果。
(II) 探討如何根據此多階層式標籤集索引結構,提出一個有效率的 Top-k 近似
查詢處理方法。
1.3 論文方法
本論文方法包含兩個部分:根據 [7] 的多階層式標籤集索引結構,推導不同的距
離估算方法,以及提出有效率的 Top-k 近似查詢處理方法。
(一) 本論文提出了修正傑卡德距離 ( Modified Jaccard Distance ) 及修正重疊距離
( Modified Overlap Distance ) 來做為標籤集距離評估方式,並根據 [7] 索引
結構標籤集聚落的特徵,推導採用不同距離評估方式時和查詢標籤集合之
距離上下限值的的估算方法,並在實驗中比較各個距離評估方式在近似搜
尋結果上的效果。
(二) 本論文方法在處理 Top-k 近似查詢的過程中,使用一個動態調整的門檻值
δd來對索引結構內的資料物件進行篩選。系統會將索引結構內的群集根
據它們和查詢標籤集的距離估算下限值由小到大排序,放在候選串列中 (
Candtdate List )。門檻值 δd根據群集與查詢標籤集的距離估算值動態設定 後,即從和查詢標籤集的距離估算下限值最小的群集開始從中找出和查詢
標籤集距離小於 δd的物件為查詢結果。若查詢結果的物件個數尚未達到 k
個,會依照候選串列中索引結構項目和查詢標籤集的距離估算下限值來調
整 δd的值,並繼續對候選串列的項目進行篩選,直到查詢結果中的物件個
1.4 論文架構
本論文以下章節內容簡述如下:第二章為相關文獻探討。第三章介紹本論文
系統的架構及處理流程。第四章說明在多階層索引結構中,採用不同計算標籤集
合近似距離的方法。第五章為本論文所提出之 Top-k 近似查詢處理方法的介紹。
第六章為實驗評估與分析。第七章為本論文的結論與未來展望。