標籤系統搜尋技術

第二章文獻探討

2.2 標籤系統搜尋技術

標籤系統的搜尋技術隨著標籤概念的流行，越來越受學者的關注。以下我們總結幾項與本論文有關的研究，分成集合式資料之搜尋處理、面相瀏覽查詢及個人化查詢進行介紹。

<1>. 集合式資料之搜尋

一筆交易資料會記載交易編號及購買商品，例如交易編號為 001 其購買商品為{ 麵包, 牛奶, 啤酒 };而一筆標籤資料會記錄物件編號及被註記之標籤，例如物件編號為 514 而其標籤集合為{ dog, apple, book }。由上述範例可知，交易資料庫與標籤資源資料庫的資料型態相似，都為集合式的資料，故可參考交易資料查詢相關技術應用在標籤資源查詢。

論文[5]對於動態更新的商品交易資料庫，提出一個雙層邊界機制的索引結

構來加速相似的交易資料搜尋，而評估兩筆交易資料之間的相似度是採用漢明距離(Hamming Distance)進行計算。作者的想法是將相似的交易資料聚集成群集，

聚集方法是考慮一筆交易資料加入群集後，所有資料的聯集與交集大小的差值，

若此值小於給定的門檻值表示這些交易資料夠相似可以加入此群集，若不符合則新建一個群集加入該筆交易資料。此外，每一個群集中會將相同大小的交易資料形成第二層的群集。配合此索引結構，作者提出一個雙層邊界機制的搜尋方法，

藉由群集所記錄的資訊，估算群集內所有資料與查詢相似程度的上限及下限值，

用來判斷群集內所有資料是否與查詢相似。若在第一層群集無法確定是否群集中所有資料與查詢字皆相似或皆不相似，則進入第二層群集採用相同概念進行處理，

若仍無法確定則再對此群集內所有交易資料逐一進行和查詢的相似度計算。

論文[6]則將論文[5]所提出之索引結構應用於標籤資源，並針對其索引結構之缺點，將群集的內部邊界控制在一定範圍，且將其單層式的群集結構改進成多層式。

論文[7]針對具容錯特性的集合包含相似度評估方法提出一個索引結構來加速搜尋，建立方法為對原始資料進行罕見集合(Minimal Infrequent Set)的評估，再對這些罕見集合建立反轉串列(Inverted List)形成資料索引，這種方式可以有效減少搜尋包含查詢字資料的執行時間。但在索引結構的更新方面，對於出現頻率高的字詞，不論插入或刪除字詞所需花費的成本較高，因需要對所有包含這些字詞的串列進行更新。

<2>. 面相瀏覽查詢

面向瀏覽查詢(Faceted

search)[22]的概念在現今許多搜尋引擎、網路書城及

購物網站等等被廣為使用，例如 Amazon⁵及 eBay⁶都有提供這種查詢方式來幫助

使用者瀏覽感興趣的商品。當使用者輸入關鍵字後，系統除了會出現符合查詢字的推薦產品外，也會出現一些與產品相關的特徵屬性供使用者選擇，而這些特徵屬性指的便是面向(Facet)。當使用者選擇某個特定屬性值，系統便會將此特徵值加入查詢條件中，更新符合的推薦商品跟相關的特徵屬性，使用者可以重複上述過程直到找到目標。這種搜尋方式不但整合了自由的文字搜尋跟結構化查詢，並

且根據所選擇的面向可以當作後續瀏覽的參考依據。

論文[16]介紹一個將面向瀏覽查詢應用於維基百科(Wikipedia)文件上的瀏覽系統，Facetedpedia。當系統找出與查詢字最相關的前 K 筆維基百科文件後，系統會動態運用 Wikipedia 文章中的超連結及文件被指定的分類資訊，產生與查詢相關的面向查詢介面，讓使用者進一步縮小搜尋的範圍並進行瀏覽。

論文[23]則提出一個 TEXplorer 系統，將具有結構化屬性資料的文件集，例如記錄有各種規格屬性的商品評論文件資料，視為一個具有多維度屬性的文件資料庫，整合查詢相關文件排序跟資料瀏覽功能。當使用者給予查詢字後，系統將

動態提供和查詢結果相關性高屬性及屬性值篩選介面，藉由使用瀏覽指引的方式，

5 http://www.amazon.com/

6 http://www.ebay.com/

階層式的幫助使用者找到和查詢相關的資料及文件。瀏覽指引所呈現的方式是計算查詢字與相關文件及文件屬性維度的相關性，再回傳重要性程度最高的 K 個屬性維度，當使用者選擇特定維度屬性值進行瀏覽，系統將依同樣方法再進行下一層的指引。

<3>. 個人化查詢

近年來，隨著標籤系統在網際網路上的流行，越來越多的網站允許使用者在書籤、照片、部落格等開始使用標籤來當作註記[8]，應用標籤於個人化搜尋也是近來相當熱門的研究。在社交標籤系統上，使用者曾註記過的標籤可作為描述使用者興趣的使用者側寫資料來源，而資料被不同使用者所給予的標籤則可形成資料的側寫。目前大多研究個人化查詢的方法，在考慮一筆資料是否符合使用者個人喜好時，大多採取使用者側寫跟資料側寫之間的相似度來評估。

論文[24]認為只考慮出現頻率(TF、TF-IDF)之類的方法來評估使用者側寫跟資料側寫的關係並不客觀，因此提出評估一筆資料與使用者查詢的相關度計算方法。若一筆資料的標籤滿足越多使用者的需求，則應該提升資料與使用者查詢之間的相關程度，而對一筆資料跟使用者個人喜好的關聯分析也應用此概念，最後綜合二者的分數對資料進行個人化的排序。

論文[9] 提出一個適用於 Flickr 的個人化搜尋模式，藉由使用者及使用者好友的側寫資料來預測使用者可能感興趣的照片。此搜尋模式利用共同分群的方法，

從使用者與使用者好友所分享的照片中擷取出隱藏的興趣維度，最後利用

rank-SVM 的方法將查詢字結果進行排序。

綜合上述與搜尋方法相關的研究，許多研究採用面向查詢的概念，探討如何透過階層結構的介面選取查詢篩選條件來縮小搜尋結果的範圍，以增進搜尋的效率。除此之外，如何藉由社交網站提供的個人化資料來動態調整不同使用者的搜尋結果也是近來熱門的研究。

在文檔中社交標籤系統中瀏覽式標籤推薦查詢之研究 (頁 15-19)

第二章 文獻探討

2.2 標籤系統搜尋技術

search)[22]的概念在現今許多搜尋引擎、網路書城及

第二章文獻探討