第二章 相關文獻探討
2.2 標籤資料物件查詢方式
隨著網路資源數量的上升以及種類的多元,社交標籤網站上存有的網路資源
也日益漸增。為了針對社交標籤的資料物件做查詢功能,開始有不同於傳統關
鍵字搜尋 [9] 的查詢方式被使用,主要是藉由資料物件本身擁有的標籤來幫助查
詢。標籤查詢方式也會因為標籤資料物件所儲存的資料結構而有所不同。在此我
們討論對標籤集合的三種不同的查詢方式:包含查詢、近似查詢以及範例查詢三
種查詢方式。
2.2.1 包含查詢 (Contain Search)
舉例來說:今使用者下一個標籤集合做為查詢,只要資料物件的標籤集有包
含查詢集合內的所有文字標籤,系統會回傳其為搜尋結果。藉由包含查詢的特
性,論文 [6] 提出了一個標籤推薦查詢的系統,以面相概念來呈現推薦標籤,系
統根據使用者選定的特定推薦標籤,幫助使用者逐步縮小查詢結果的涵蓋範圍。
此外使用其提出的一個雙層邊界索引結構儲存系統內部的標籤資料集,並提出一
個雙層邊界機制的包含查詢方法來加速對標籤集的查詢處理,同時使用 Jaccard
Containment 評估方式提供對標籤集包含查詢的容錯處理。
2.2.2 近似查詢 (Similarity Search)
近似查詢的概念為找出和使用者下的查詢標籤集相似的資料物件。為了評估
查詢標籤集與資料物件是否相似,會使用一個相似程度的評估方法來計算兩者的
相似程度值,經由計算後,我們認為擁有較高相似度程度值的資料物件和使用者
查詢標籤集較為相似,或是使用一個門檻值來界定相似的程度。近似查詢可以被
應用於很多地方,如對交易資料庫中相似的項目分群 [10] 或是重複文件的偵測
[13] 等。論文 [1] 對於動態更新的商品交易資料庫提出一個雙層式的索引結構並 以支援的雙層邊界機制搜尋方法來加速相似的交易資料搜尋,而對交易商品資料
項目則使用漢明距離公式 ( Hamming Distance) 來評估兩筆交易資料項目的相似
度。論文 [7] 針對網路上的標籤資料物件做一個查詢系統,並以標籤資料物件所
擁有的標籤集來做為搜尋的依據。由於資料物件擁有的標籤集內容為眾多網路使
用者所標記,本論文認為標籤之間可能也具有語意關聯,故提出一個具語意關係
的修正漢明距離計算式,做為與查詢標籤集之間的距離評估方法。查詢方法亦使
用一個其提出索引結構所支援的邊界搜尋方法來加速查詢處理效率。
2.2.3 範例查詢 (Query-by-Example Search)
範例查詢以數個標籤資料物件的標籤集來做為查詢標籤集合。範例查詢
" City ", " Summer Olympic ", " Capital " 等,今 有 一 查 詢 物 件 集 合 為 {"Beijing",
"Washington"},預期的輸出結果會是接近有標籤 {"City"}、{"Summer Olympic"}
的資料物件。關於此類方式 [5] 提出會有下列兩種問題:第一,由於標籤為人為
所標記的,難免有些會有遺漏而造成標籤遺失 ( Missing tag ) 的情形,使得系統
在計算上造成使用者查詢意圖的誤判;第二,假使有一個資源物件被標記了很
多不同的標籤,若同樣當做是查詢物件集合的話會在處理上有較多的貢獻,會
導致使用者意圖偏向於這個特別多標籤的資料物件上,造成標籤重要性偏差 (
Popularity bias ) 。故 [5] 提出兩個模型:公平投票模型與機率模型試圖解決這兩 個問題。但標籤漏失的個數事前無法知道漏失多少,只能以假設機率值估算一個
資料物件會漏失其應該有的標籤來進行實驗評估。
上述包含查詢與近似查詢兩種對標籤集合的搜尋方式,皆提出一個資料結構
來儲存系統標籤資料庫內的標籤物件,以加速線上處理的搜尋速度。對於標籤集
合依照系統目的與功能取向而有不同的查詢方式,資料結構本身具備的特性能夠
提出一個特別的搜尋方式來增進查詢效率。[5] 的範例查詢並未著重於索引結構
的建立以及使用與否,此查詢方式也是針對數個標籤物件擁有的標籤組成查詢標
籤集來進行查詢,也許能夠以現有的資料結構來支援此查詢方式。