社交標籤系統中瀏覽式標籤推薦查詢之研究

全文

(1)國立臺灣師範大學資訊工程研究所碩士論文. 指導教授：柯佳伶. 博士. 社交標籤系統中瀏覽式標籤推薦查詢之研究 Browsing-based Query Recommendation and Query Processing for Social Tagging Systems. 研究生：姜光庭中華民國. 一百零一. 撰年. 七. 月.

(2) 摘要社交標籤系統中瀏覽式標籤推薦查詢之研究姜光庭. 使用者對標籤資源進行查詢時，大多給予簡短的查詢字，搜尋出包含查詢字為標籤的資料物件。當查詢字為涵義較廣的字時，常造成查詢結果回傳大量資料物件，導致使用者需要費時對龐大的物件一一瀏覽，才能找到真正需要的資料。因此，本論文對社交標籤系統，探討如何由使用者給定的查詢字提供進一步的查詢標籤推薦，使能快速篩選找到所需資料。我們從包含查詢字為標籤的物件，以這些物件包含的所有標籤為候選標籤，評估與查詢字間的相關程度及和已推薦標籤的相異程度來決定一個標籤的關聯代表分數，再選擇分數值最高的前 k 個標籤為推薦查詢標籤。我們採用面相查詢的概念呈現推薦標籤，當使用者選擇特定推薦標籤後，系統將根據所選擇標籤推薦下一層可進一步篩選結果的查詢標籤，幫助使用者逐步縮小查詢結果涵蓋範圍。此外，本論文提出一個雙層式索引結構來加速社交標籤系統的查詢處理，而此索引結構也可支援可容錯的集合包含查詢處理。實驗結果顯示本研究方法可有效減少使用者搜尋資料所需的瀏覽成本，而所提出的索引結構亦可有效增進容錯集合包含查詢的處理效率，且對於關鍵字個數較多的查詢字效果越佳。. 關鍵字: 社交標籤系統、查詢標籤推薦、索引結構、集合包含查詢.

(3) ABSTRACT Browsing-based Query Recommendation and Query Processing for Social Tagging Systems By Guang-Ting Chiang Most users are used to giving brief keywords to query a social-tagging system for getting the objects whose tag sets contain the given query keywords. When the query keyword is a general term, the system usually returns a lot of objects as the query result. Accordingly, the users have to spend much time to browse all the returned objects to get the data he needs. For solving this problem, this thesis proposes a query recommendation method for social tagging systems. According to the given query keyword, we study how to provide some more tags as additional query terms for helping the user to effectively filter the dataset to find the required data quickly. At first, we find out the query result which consists of all the objects whose tag sets contain the query keyword. All the tags of these objects are called candidate tags. Next, for each candidate tag, we consider the relatedness with the query and the diversity with the selected recommendation tags to decide its representation score. According to the representation scores, the top-k tags are chosen to be recommendation tags. Then we adopt the concept of facet search to present the recommended tags. After users choose a specific recommended tag, the system will add the chosen tag into the query and perform tag recommendation recursively. Furthermore, this thesis proposes a two-level index structure, which aggregate similar tag sets into clusters according to the similarity between tag sets. A two-level bounding mechanism is proposed to deal with query processing of tag set containment queries. Besides, the Jaccard Containment function is used to evaluate the degree of set containment for supporting set containment search with error tolerant allowed. The experimental results show that the proposed method of query recommendation can effectively reduce the cost of user-browsing. Moreover, the proposed two-level index structure and query processing strategies provide better performance on execution time for tag set containment queries, especially for queries consisting of many tags. Keywords: social-tagging system, query tag recommendation, index structure, set containment search.

(4) 目錄附圖目錄......................................................................................................................... i 附表目錄........................................................................................................................ii 第一章緒論 ................................................................................................................. 1 1.1 研究動機與目的 ............................................................................................. 1 1.2 研究的範圍與限制 ......................................................................................... 2 1.3 論文方法 ......................................................................................................... 3 1.4 論文架構 ......................................................................................................... 4 第二章文獻探討 ......................................................................................................... 5 2.1 標籤蒐集方法 ................................................................................................. 6 2.2 標籤系統搜尋技術 ......................................................................................... 8 2.3 標籤聚落分析 ............................................................................................... 12 第三章系統架構與流程 ........................................................................................... 16 第四章查詢標籤之推薦 ........................................................................................... 18 4.1 相關名詞定義 ............................................................................................... 18 4.2 標籤與查詢相關性程度評估方法 ............................................................... 19 4.3 挑選推薦查詢標籤方法 ............................................................................... 21 4.3.1 查詢標籤推薦 ..................................................................................... 21 4.3.2 階層式推薦查詢標籤挑選方法 ......................................................... 25 第五章索引結構之建立與搜尋方法 ....................................................................... 30 5.1 包含查詢 ....................................................................................................... 30 5.2 物件標籤集索引結構 ................................................................................... 31 5.2.1 建立索引結構中聚集門檻值之定義 ................................................. 31 5.2.2 物件標籤集索引結構之建立 ............................................................. 32 5.3 搜尋方法 ....................................................................................................... 39 5.3.1 雙層式邊界機制之搜尋方法 ............................................................. 39 第六章實驗評估 ....................................................................................................... 47 6.1 實驗資料來源及環境設定 ........................................................................... 47 6.1.1 實驗資料來源 ..................................................................................... 47 6.1.2 資料前處理 ......................................................................................... 48 6.1.3 實驗環境 ............................................................................................. 48 6.2 評估推薦查詢標籤方法之效果 ................................................................... 48.

(5) 6.2.1 測詴資料 ............................................................................................. 49 6.2.2 實驗方法 ............................................................................................. 50 6.2.3 實驗評估 ............................................................................................. 51 6.2.4 實驗結果 ............................................................................................. 62 6.3 評估索引結構與搜尋方法之效果 ............................................................... 63 6.3.1 測詴資料 ............................................................................................. 63 6.3.2 實驗方法 ............................................................................................. 63 6.3.3 實驗評估 ............................................................................................. 64 6.3.4 實驗結果 ............................................................................................. 68 第七章結論與未來研究方向 ................................................................................... 69 7.1 結論 ............................................................................................................... 69 7.2 未來研究方向 ............................................................................................... 70 參考文獻...................................................................................................................... 71.

(6) 附圖目錄圖 2.1 以 WEB2.0 為主要關鍵字的標籤雲 ................................................................. 13 圖 3.1 系統流程圖........................................................................................................ 16 圖 4.1 註記標籤之範例圖 ........................................................................................... 20 圖 4.2 階層式推薦查詢標籤之架構圖 ....................................................................... 26 圖 4.3 查詢推薦標籤之實例........................................................................................ 27 圖 5.1 建立索引結構之流程圖.................................................................................... 33 圖 5.2 範例資料庫 TDB 之第一層索引結構.............................................................. 38 圖 5.3 範例資料庫 TDB 之完整索引結構.................................................................. 39 圖 6.1 各不同出現頻率查詢字實際可查詢比例........................................................ 61 圖 6.2 各不同出現頻率查詢字帄均瀏覽成本............................................................ 62 圖 6.3 評估不同個數關鍵字的查詢在不同聚集門檻值中的搜尋執行時間............ 65 圖 6.4 評估不同集合包含程度門檻值在不同聚集門檻值中的搜尋執行時間........ 66 圖 6.5 不同個數關鍵字的搜尋執行時間.................................................................... 67 圖 6.6 不同集合包含程度門檻值之搜尋執行時間.................................................... 68. i.

(7) 附表目錄表 4.1 表 5.1 表 5.2 表 5.3 表 6.1 表 6.2 表 6.3. 標籤資源範例 ................................................................................................... 19 範例標籤資源資料庫 TDB .............................................................................. 38 第一層檢查的狀況列表 ................................................................................... 43 第二層檢查的狀況列表 ................................................................................... 45 實驗 1.1 所使用的相關性方法 ........................................................................ 52 評估不同相關性計算方法之結果 ................................................................... 53 實驗 1.2 所使用的關聯代表性方法 ................................................................ 54. 表 6.4 評估不同相關性和多樣性計算方法之結果 ................................................... 54 表 6.5 各組合使用查詢字”ROCK”之推薦字詞 ........................................................... 54 表 6.6 各組合使用查詢字”APPLE”之推薦字詞 .......................................................... 55 表 6.7 推薦不同個數標籤字詞之瀏覽成本 ............................................................... 57 表 6.8 評估單層及雙層式查詢標籤推薦對瀏覽成本之影響結果 ........................... 58 表 6.9 評估推薦不同個數雙層式推薦字詞對效果的影響結果 ............................... 59 表 6.10 不同計算關聯代表性程度權重值之瀏覽成本 ............................................. 60 表 6.11 本論文所提出的查詢標籤推薦方法之設定值 ............................................. 62. ii.

(8) 第一章緒論 1.1 研究動機與目的隨著網際網路發展及 Web2.0 帄台的興起，有許多社交網站出現例如 Flickr1、 YouTube2、Del.icio.us3、CiteULike4等，這些網站提供在網路上分享資源的功能，且提供使用者上傳多媒體資源時可註記標籤[17]。越來越多人習慣在社交網路上分享資料，使得網際網路上的資料快速增加，而社交標籤(Social tagging)也開始被大量地使用而形成一股趨勢，所以如何運用標籤幫助使用者從龐大的社交網路資料中找到正確且有幫助的資訊變得格外重要。一般的標籤搜尋方式是透過輸入關鍵字，由系統回傳包含有查詢關鍵字為其標籤的物件為搜尋結果。然而大多數的使用者在進行查詢時，大多都習慣給予簡短的查詢字，而當查詢字涵義較廣時，常造成查詢結果回傳大量資料物件，導致使用者需要再費時對龐大的搜尋結果進行瀏覽，才能找到自己真正需要的資料。舉例來說，若使用"apple"來當作關鍵字時，查詢結果可能會出現水果中的蘋果、蘋果電腦公司的相關產品，或者可能是紐約市(俗稱大蘋果)等相關資料。所以，若能夠藉由推薦與使用者查詢字相關的關鍵字，讓查詢字能夠更明確的表達使用者的搜尋意圖，相信可以有效縮小使用者所需瀏覽的資料量。. 1 2 3 4. http://www.flickr.com/ http://www.youtube.com/ http://delicious.com/ http://www.citeulike.org/ 1.

(9) 本論文之研究目的是對標籤資源提供一個查詢標籤推薦系統，針對使用者所給予的查詢字之搜尋結果進行分析並推薦相關的標籤字詞，預期能引導使用者將查詢字表達得更明確，使能更快速篩選找到所需資料。. 1.2 研究的範圍與限制本論文的研究範圍是針對具有被註記標籤的資料物件，當使用者給定標籤當作查詢字時，從這些資料的標籤中找出包含有查詢字的資料物件。本論文將以這些資料物件包含的所有標籤為候選標籤並進行分析，由於查詢結果可能資料量龐大，考慮現今許多購物網站常使用的”面相搜尋”概念，動態推薦相關查詢標籤字詞，由使用者勾選能更明確表達搜尋意圖的關鍵字，形成一組關鍵字集合的查詢。除此之外，由於經系統引導後的查詢字為集合包含查詢，本論文將探討如何依據資料的標籤集合，建立可加速集合包含查詢的索引結構及容錯包含的搜尋方法。因此本論文的研究重點可分成兩個部份:<1>如何推薦與查詢字相關的關鍵字幫助使用者形成一組更能表達查詢需求的查詢字，<2>如何針對資料集建立標籤集索引結構來加快集合包含查詢的處理速度。. 2.

(10) 1.3 論文方法關於推薦查詢標籤字的部份，本論文採用不同算式評估候選標籤與查詢字間的相關程度及和已推薦標籤間的相異程度來決定一個標籤的關聯代表分數，再選擇分數值最高的前 k 個標籤為推薦查詢標籤供使用者選擇，以形成一組更能表達使用者查詢意圖的查詢字。此外，本研究採用面向搜尋的概念來呈現推薦的查詢標籤字詞，當使用者選擇特定標籤字詞後，系統可階層式地篩選查詢結果，並推薦其他查詢標籤字詞。此外，本論文提出一個雙層式的索引結構，依標籤集合間的相似程度來決定如何將相似的標籤集合聚合成群集。我們根據此索引結構提出一個雙層邊界機制之搜尋方法來加速集合包含查詢的處理，並採用 Jaccard Containment 之評估包含程度方法提供集合包含查詢之容錯處理。為評估本論文所提出方法的效果，本論文進行兩部份實驗，第一部份以電腦模擬使用者瀏覽的方式，評估系統所推薦之查詢字減少瀏覽成本的效果，實驗結果將以搜尋的帄均成本(Average cost)跟實際搜尋到的可查詢比例(Percentage of searchable query)來呈現。第二部份則分別評估本論文所提出之索引結構用在集合包含查詢的處理效率。. 3.

(11) 1.4 論文架構本論文以下章節內容簡介如下:第二章將說明相關文獻。第三章說明本論文之系統架構與流程。第四章將詳述查詢標籤字的推薦方法。第五章將解釋如何進行索引結構的建立及集合容錯包含的搜尋方法。第六章將說明本論文實驗所採用資料及所提出方法的實驗結果。最後在第七章提出總結，並探討未來研究方向。. 4.

(12) 第二章文獻探討隨著網路的快速發展，許多網站提供標籤系統讓使用者上傳多媒體資源時可以給定標籤，以便後續搜尋資源使用。論文[1][2]針對標籤越來越受人們重視與歡迎的原因分析如下:. <1>. 標籤可以直觀地檢索以前看過的資源。 <2>. 標籤允許使用幾個簡單的字詞來達成分類資源的目的。 <3>. 標籤系統的成本較低，它不要求一定以嚴格的層次結構來標記標籤。 <4>. 使用者標記標籤的動機為資源共享、引起他人關注、遊戲與競爭、意識. 型態的呈現、金錢和流行趨勢。 <5>. 用戶可以共享資源，藉此連接或發現有相同興趣的人。. 有鑑於標籤的廣泛使用，近來有許多研究探討標籤系統相關的技術與應用。以下我們將依序介紹與本論文相關的研究，將其分成標籤蒐集方法、標籤系統搜尋技術及標籤聚落分析。. 5.

(13) 2.1 標籤蒐集方法由於標籤系統的流行，近來出現許多標記標籤資料的方式，如由使用者自由標記、以固定分類讓使用者標記、推薦標籤等，以下將對幾種不同的標記標籤方式進行討論。. <1>. 使用者自由標記由使用者依自我意志去註記標籤，不對使用者所註記的內容作任何格式、型態上的干涉，提供最大的自由度跟彈性。但是，這種方法所註記的標籤資源在進行查詢時容易因標籤字詞常有出現生冷字詞、無意義之字詞、同義字及多義字等問題，而造成效率及效果上的影響。 ESP 遊戲(ESP-game)也是一種註記標籤資源的方式，這種概念最早是由(Luis von Ahn, 2004)[3]所提出並應用在標註照片上。論文[4]提出一種以遊戲的方式讓使用者觀察一個網頁並聯想可能的關鍵字為何，並且附帶分數獎勵，讓玩家以競爭的方式提升遊戲動機，進而獲得與此網站相關的概念字詞，而這些標籤資源便可以用來增進搜尋引擎的檢索效果。這種資料收集的方式成本極低，但在需要專業知識分析的網站上效果較差。. <2>. 以固定分類讓使用者標記此種對資源給予標籤的方式，是先由專家制定出固定的分類格式，再由使用 6.

(14) 者依照這些分類進行選擇。論文[25]提出一個由專家制定的固定分類格式讓使用者進行標籤註記，此方法應用在生物資訊(bioinformatics)及知識管理(knowledge management)上有較好的效果，但是這種標記方式卻有分類項目難以制定、更新緩慢及專家與使用者認知差異等問題。. <3>. 推薦標籤有鑑於上述兩種註記標籤資源方式的缺點，由系統推薦熱門標籤字詞的方法包含上述兩種方法之特色，系統會根據已標籤的資源去統計出熱門或概念明確之關鍵字供使用者參考，但不強求使用者一定要使用系統所推薦的字詞，以保留自由度。如此一來，既可有效提升查詢時的效率，也可保全大眾分類法的優點。而這種推薦熱門關鍵字的做法常被應用在註記標籤資源跟查詢時提供標籤推薦(tag recommendation)。論文[10]認為以往大部份對標籤系統進行推薦的研究大多只單獨推薦標籤或者物件，但在實際的標籤註記行為中可以發現，使用者都是因為該物件資料所涵蓋的某個主題才註記此標籤，故二者是有關係存在的。傳統的方式大多只採用標籤之間的關係來進行標籤推薦，並沒有考慮使用者的喜好及註記標籤的習慣，而沒有辦法分辨所推薦的標籤是否是使用者感興趣的主題。因此作者藉由蒐集使用者、標籤和資料物件的相關資訊形成一個三元關係的矩陣，考慮整體標籤資料間的共同發生資訊，依照這些資訊來進行標籤和資料物件的合作推薦。 7.

(15) 論文[12]考慮現今許多研究在進行標籤推薦時，無法推薦與標籤相關的概念詞組，故提出一個利用標籤字相關概念對照片推薦標籤的方法。首先逐一計算 81 個由專家所制定的候選分類，計算對整體資源的共同出現頻率形成一個標籤關係圖，藉由對這 81 個圖形進行模組分群(Modularity Clustering)後得到的群組來進行概念偵測，進而得到各分類可能包括的概念及字詞。當使用者註記了一個標籤，系統將依此標籤相關概念的關係字供使用者作為標籤推薦的依據。. 2.2 標籤系統搜尋技術標籤系統的搜尋技術隨著標籤概念的流行，越來越受學者的關注。以下我們總結幾項與本論文有關的研究，分成集合式資料之搜尋處理、面相瀏覽查詢及個人化查詢進行介紹。. <1>. 集合式資料之搜尋一筆交易資料會記載交易編號及購買商品，例如交易編號為 001 其購買商品為{ 麵包, 牛奶, 啤酒 };而一筆標籤資料會記錄物件編號及被註記之標籤，例如物件編號為 514 而其標籤集合為{ dog, apple, book }。由上述範例可知，交易資料庫與標籤資源資料庫的資料型態相似，都為集合式的資料，故可參考交易資料查詢相關技術應用在標籤資源查詢。論文[5]對於動態更新的商品交易資料庫，提出一個雙層邊界機制的索引結 8.

(16) 構來加速相似的交易資料搜尋，而評估兩筆交易資料之間的相似度是採用漢明距離(Hamming Distance)進行計算。作者的想法是將相似的交易資料聚集成群集，聚集方法是考慮一筆交易資料加入群集後，所有資料的聯集與交集大小的差值，若此值小於給定的門檻值表示這些交易資料夠相似可以加入此群集，若不符合則新建一個群集加入該筆交易資料。此外，每一個群集中會將相同大小的交易資料形成第二層的群集。配合此索引結構，作者提出一個雙層邊界機制的搜尋方法，藉由群集所記錄的資訊，估算群集內所有資料與查詢相似程度的上限及下限值，用來判斷群集內所有資料是否與查詢相似。若在第一層群集無法確定是否群集中所有資料與查詢字皆相似或皆不相似，則進入第二層群集採用相同概念進行處理，若仍無法確定則再對此群集內所有交易資料逐一進行和查詢的相似度計算。論文[6]則將論文[5]所提出之索引結構應用於標籤資源，並針對其索引結構之缺點，將群集的內部邊界控制在一定範圍，且將其單層式的群集結構改進成多層式。論文[7]針對具容錯特性的集合包含相似度評估方法提出一個索引結構來加速搜尋，建立方法為對原始資料進行罕見集合(Minimal Infrequent Set)的評估，再對這些罕見集合建立反轉串列(Inverted List)形成資料索引，這種方式可以有效減少搜尋包含查詢字資料的執行時間。但在索引結構的更新方面，對於出現頻率高的字詞，不論插入或刪除字詞所需花費的成本較高，因需要對所有包含這些字詞的串列進行更新。 9.

(17) <2>. 面相瀏覽查詢面向瀏覽查詢(Faceted search)[22]的概念在現今許多搜尋引擎、網路書城及購物網站等等被廣為使用，例如 Amazon5及 eBay6都有提供這種查詢方式來幫助使用者瀏覽感興趣的商品。當使用者輸入關鍵字後，系統除了會出現符合查詢字的推薦產品外，也會出現一些與產品相關的特徵屬性供使用者選擇，而這些特徵屬性指的便是面向(Facet)。當使用者選擇某個特定屬性值，系統便會將此特徵值加入查詢條件中，更新符合的推薦商品跟相關的特徵屬性，使用者可以重複上述過程直到找到目標。這種搜尋方式不但整合了自由的文字搜尋跟結構化查詢，並且根據所選擇的面向可以當作後續瀏覽的參考依據。論文[16]介紹一個將面向瀏覽查詢應用於維基百科(Wikipedia)文件上的瀏覽系統，Facetedpedia。當系統找出與查詢字最相關的前 K 筆維基百科文件後，系統會動態運用 Wikipedia 文章中的超連結及文件被指定的分類資訊，產生與查詢相關的面向查詢介面，讓使用者進一步縮小搜尋的範圍並進行瀏覽。論文[23]則提出一個 TEXplorer 系統，將具有結構化屬性資料的文件集，例如記錄有各種規格屬性的商品評論文件資料，視為一個具有多維度屬性的文件資料庫，整合查詢相關文件排序跟資料瀏覽功能。當使用者給予查詢字後，系統將動態提供和查詢結果相關性高屬性及屬性值篩選介面，藉由使用瀏覽指引的方式， 5. http://www.amazon.com/. 6. http://www.ebay.com/ 10.

(18) 階層式的幫助使用者找到和查詢相關的資料及文件。瀏覽指引所呈現的方式是計算查詢字與相關文件及文件屬性維度的相關性，再回傳重要性程度最高的 K 個屬性維度，當使用者選擇特定維度屬性值進行瀏覽，系統將依同樣方法再進行下一層的指引。. <3>. 個人化查詢近年來，隨著標籤系統在網際網路上的流行，越來越多的網站允許使用者在書籤、照片、部落格等開始使用標籤來當作註記[8]，應用標籤於個人化搜尋也是近來相當熱門的研究。在社交標籤系統上，使用者曾註記過的標籤可作為描述使用者興趣的使用者側寫資料來源，而資料被不同使用者所給予的標籤則可形成資料的側寫。目前大多研究個人化查詢的方法，在考慮一筆資料是否符合使用者個人喜好時，大多採取使用者側寫跟資料側寫之間的相似度來評估。論文[24]認為只考慮出現頻率(TF、TF-IDF)之類的方法來評估使用者側寫跟資料側寫的關係並不客觀，因此提出評估一筆資料與使用者查詢的相關度計算方法。若一筆資料的標籤滿足越多使用者的需求，則應該提升資料與使用者查詢之間的相關程度，而對一筆資料跟使用者個人喜好的關聯分析也應用此概念，最後綜合二者的分數對資料進行個人化的排序。論文[9] 提出一個適用於 Flickr 的個人化搜尋模式，藉由使用者及使用者好友的側寫資料來預測使用者可能感興趣的照片。此搜尋模式利用共同分群的方法， 11.

(19) 從使用者與使用者好友所分享的照片中擷取出隱藏的興趣維度，最後利用 rank-SVM 的方法將查詢字結果進行排序。綜合上述與搜尋方法相關的研究，許多研究採用面向查詢的概念，探討如何透過階層結構的介面選取查詢篩選條件來縮小搜尋結果的範圍，以增進搜尋的效率。除此之外，如何藉由社交網站提供的個人化資料來動態調整不同使用者的搜尋結果也是近來熱門的研究。. 2.3 標籤聚落分析標籤資源的分群與文件分群的目的相同，都是希望經由自動化整理資源以達到讓使用者可以更有效率的瀏覽或增進搜尋的效果，而標籤雲是近來熱門的一種標籤聚落呈現方式。以下依序介紹標籤雲的建立及其用在輔助標籤查詢的相關研究。. <1>. 標籤雲的建立標籤的視覺化適合於使用者進行標籤資源的資訊瀏覽、分類資料物件及摘要整理。特別是標籤雲(Tag Cloud)在部落格、照片分享網站(Flickr)、書籤分享網站 (Del.icio.us)及搜尋引擎等等都已開始被廣泛利用。根據論文[15]之定義，標籤雲的目的是對某一群資料物件呈現最相關的且最重要的標籤，通常是根據標籤出現的頻率來挑選，再利用標籤的大小、權重、顏 12.

(20) 色等文字屬性作為呈現相關字詞的特徵。標籤雲採用簡單的視覺化圖形來表達內容主題的索引，可以由字體的大小看出其占整體的熱門程度，標籤雲之範例如圖 2. 1 所示，而標籤雲的標籤選擇以及如何利用標籤雲來引導瀏覽是近來很受關注的研究議題。. 圖 2. 1 以 Web2.0 為主要關鍵字的標籤雲. 論文[13]認為標籤雲適合於對標籤資源進行摘要整理跟瀏覽，但目前並沒有太多有關如何選擇好的標籤形成標籤雲的討論。因此作者針對此議題提出許多形成標籤雲的評估方法，例如考慮標籤雲中標籤之間的涵蓋資料筆數(Coverage)、重複程度(Overlap)、相關性(Relevance)等，且對不同的評估方法提出對應的演算法找出標籤雲。論文[14]則針對以出現頻率作為排序挑選標籤是否為最適合的方法進行實驗，提出許多對標籤進行排名的方法，例如考慮標籤間的出現頻率(Frequency)、多樣性(Diversity)、在標籤圖形上採用隨機漫走(random walk)方法計算出標籤重 13.

(21) 要性等，並評估這些方法所形成的標籤雲用來進行資料搜尋、瀏覽及推薦時的效果。. <2>. 輔助標籤查詢在標籤系統進行搜尋跟瀏覽時，常受到標籤語法表示的差異、同義字、多義字等影響查詢效果，因此[11]提出語意標籤聚落查詢方法來解決這些問題。此方法主要分成三個步驟，首先綜合考量標籤之間的正規化 Levenshtein 距離及餘弦相似度值計算出其相似程度值，再將相似度高的標籤聚合在一起以解決標籤語法上變化的問題。關於產生語義標籤聚落的方式，先將每個標籤都自成一個群集，若該群集中各標籤與出現物件所形成的特徵向量之餘弦相似度值大於設定門檻值則加入此群集，之後再進行群聚的合併以減少不同群集有重複標籤的情況。最後依所產生出的群聚結果提供一個查詢系統，供使用者在以查詢標籤進行搜尋時，提供包含查詢標籤的語意群集供使用者選擇，避免搜尋結果包含不同語意的資料。許多網站的標籤雲標籤都以超連結的方式呈現，供使用者瀏覽時發掘相關感興趣的議題或快速連結到相關的主題。論文[18]提出一個名為 P2P Wikipedia 的系統，利用 Text2Tag 工具從 Wikipedia 文章中擷取重要關鍵字形成標籤，並將這些相關資訊上傳到一個點對點(peer-to-peer)的分享架構 Tribler 中建立瀏覽系統。在此系統中，當使用者給定查詢後，系統將產生一組標籤雲來引導使用者瀏覽維 14.

(22) 基百科網站的內容，且允許使用者藉由滑鼠選擇不同的關鍵字動態產生不同的標籤雲，且提供一些個人化的選項，例如最受歡迎的標籤、最近使用過的標籤等。論文[19]則針對網路電台”last.fm”中使用者的使用行為產生主題模型，利用標籤雲的方式進行音樂推薦，此研究亦依據使用者動態點選推薦標籤雲的內容自動修改查詢，使搜尋結果更符合使用者需求。. 15.

(23) 第三章系統架構與流程本論文所提出之查詢標籤推薦及查詢處理系統，其系統架構主要可分成兩部份，第一部份為查詢字之推薦處理，第二部份則是索引結構之建立及查詢處理方法。整體流程如圖 3. 1 所示。以下簡述本系統架構各單元的處理步驟。. 圖 3. 1 系統流程圖. <1>. 查詢字之推薦處理當使用者給予查詢字後，系統將先搜尋出包含查詢字為標籤的物件，分析及評估這些資料物件中所包含標籤字詞與查詢的關聯代表性程度，綜合採用相關性 16.

(24) 與多樣性作為評估方法，推薦相關程度最高的 K 個標籤字詞供使用者選擇，經使用者選擇後，形成更完整描述使用者查詢意圖的查詢。. <2>. 索引結構之建立與查詢處理方法資料前處理會對原始標籤資源中的標籤進行字詞原型化(Stemming)處理，將不同字詞形態以其原型取代。而索引結構建立則採用一種雙層式的索引結構，將經前處理過的標籤集合依固定門檻值將相似的標籤集合聚合成群集並建立索引結構。本系統的搜尋會對一組給定的查詢標籤集合及集合包含程度門檻值，利用已建立之索引結構進行雙層邊界機制的搜尋，找出其標籤集與查詢標籤集合之集合包含程度大於等於門檻值的的物件。. 17.

(25) 第四章查詢標籤之推薦當使用者輸入查詢字後，系統將找出包含查詢字的物件，並分析這些物件中的標籤字詞與查詢之間的關聯代表性程度，再依照關聯代表性程度分數選取程度值最高的 K 個字詞當作查詢字的推薦。以下將依序介紹本論文所使用符號及其定義、計算相關性分數方法及挑選推薦查詢標籤方法。. 4.1 相關名詞定義令 DB 表示一個標籤資源的資料庫，其中每一筆資料物件記載一個物件 ( object ) o 與標籤集合( tagset ) o. tagset ，一個標籤集合是由一個或一個以上的標籤 t 所組成的集合。範例如表 4.1 所示，若物件 o 編號為 211998135，則標籤集合 o. tagset 為{ apple, computer, mac, macbook }。令使用者所給予的查詢為 q ，查詢 q 是由一個或一個以上的標籤字詞所形成之集合。 Oq 為一個項目集(itemset)，記錄在 DB 中有那些物件 o 的標籤集合. o. tagset 包含 q ，以集合表示為 Oq  { o | o  DB  o. tag  q } 。如表 4.1，若查詢為{ apple }，則 Oq 為 { 211998135, 528322247 }。候選標籤字詞(Candidate tags). COq 為由 Oq 中所有物件的 o. tagset 之聯集結果，也就是 COq . oi Oq. 上例 COq 為{ apple, computer, mac, macbook, cinema, display, pro }。. 18. oi . tagset ，承.

(26) 表 4.1 標籤資源範例物件編號. 標籤集合. [211998135]. apple computer mac. [161386659]. brick light. [528322247]. apple cinema display mac pro. [885221049]. elephant. [533905737]. design. macbook. neon store. hangar ile. machine nantes. flyngm. 4.2 標籤與查詢相關性程度評估方法根據對大多數使用者註記標籤的觀察，使用者對一個物件給予標籤時，此標籤集合中各標籤通常代表相關的概念，例如下圖 4.1 使用者可能會給予的標籤所形成的集合為{ sunset, sky, orange, sea, cloud, red }，這些標籤字詞都是跟圖中內容海邊及夕陽相關的字詞或形容詞。因此，我們認為從包含查詢標籤字的物件，分析候選標籤字詞與查詢中標籤出現的相關性程度，可決定候選標籤字詞與查詢的關聯代表性程度。. 19.

(27) 圖 4.1 註記標籤之範例圖. 本論文計算 COq 中每個候選字詞 ta 與查詢 q 的相關性，考慮下列兩種不同的評估方法: <1>. Confidence(q  ta ) . f ( q, t a ) f (q). (算式一). 此算式所得數值是指其標籤集合包含查詢 q 的物件中，包含標籤的條件機率值。 <2>. Jaccard (q, ta ) . f ( q, t a ) f (q)  f (ta )  f (q, ta ). (算式二). 此算式則是指在出現 q 或出現的物件中，查詢 q 與字詞一起出現的機率值。上述二式中，各項符號代表意義說明如下: f (q) 、 f (ta ) :各別表示查詢 q 、字詞在整體資料 DB 中的出現次數。. f (q, ta ) :表示查詢 q 與字詞在整體資料 DB 中一起出現的次數。. 20.

(28) 評估候選標籤字詞 ta 與查詢 q 之間相關性的方法，我們採用 r _ score(q, ta ) 表示，可代入 Confidence(q  ta ) 及 Jaccard (q, ta ) 兩種評估方法中，至於何種評估方法在本研究中有較好效果，將在第六章的實驗中評估採用不同方式對推薦查詢字的效果影響。. 4.3 挑選推薦查詢標籤方法本小節將依序介紹進行推薦查詢標籤挑選的基本概念以及如何進行階層式查詢標籤推薦。. 4.3.1 查詢標籤推薦本系統將針對使用者所給予之查詢 q 及想要回傳的推薦數量 k，從物件集合中計算 COq 中各候選標籤字詞與查詢字的相關性分數。最直覺的想法是取相關性程度值最高的前 k 個標籤字詞當作推薦標籤，但我們發現若只考慮相關性可能會造成系統所推薦的字詞都是相似的概念。舉例來說，若使用者所給予的查詢字是“apple”，而系統將依序回傳 “mac”、“macintosh”、“computer”、“ipod”、“office” 等，這些回傳的推薦字詞都是與”蘋果電腦公司”相關的概念字詞，卻沒有”水果中的蘋果”及”紐約市”的概念字詞。為了在挑選推薦字詞時，能找出代表查詢不同語意概念的字詞，故本研究評 21.

(29) 估候選字詞與已挑選推薦字詞之間的多樣性，當作衡量標籤字詞與查詢間關聯代表性程度的另一個重要特徵。在此令 RTq 表示已挑選出的推薦字詞所成的集合，在選取下一個候選字詞時，必頇考慮其和 RTq 中字詞的差異性。令 ta 表示候選字詞 COq 中一個候選字詞，tb 表示已挑選之推薦字詞 RTq 中的一個字詞，則其差異性可採用下列二種(算式三、算式四)不同差異性程度的計算方式:. diversity (ta , tb ) . 1 1  Jaccard (ta , tb ). (算式三). Jaccard (ta , tb ) 表示候選字詞 ta 與已挑選推薦字詞 tb 之間的相關程度，計算式之意義同算式二。算式三的計算方法為將算式二取倒數再加上整數值 1，因此當 Jaccard (ta , tb ) 所計算出來的值越高，差異性分數則越低。在分母部份加上整數值 1 之目的為將相異性程度值界定於 0 到 1 的範圍之間。 non _ overlap score(ta , tb )  1  {. O(ta , Oq )  O(tb , Oq ). } min{ O(ta , Oq ) , O(tb , Oq ) }. (算式四). 算式四使用整數值 1 去扣除一個限制在 0 到 1 之間的資料重複程度值，此數值所呈現的意義為 Oa 和 Ob 出現在物件中不重複的程度值。. 22.

(30) 上述二式中各項符號代表意義說明如下: O(ta , Oq ) : 在包含查詢 q 的資料物件 Oq 中，包含字詞的資料個數。. O(tb , Oq ) : 在包含查詢 q 的資料物件 Oq 中，包含標籤的資料個數。 O(ta , Oq )  O(tb , Oq ) : 表示 Oq 中同時具有標籤及標籤的物件集合之大. 小。因此評估一個候選字詞與已挑選推薦字詞 RTq 的相異性，如以下算式五及算式六所示: diversity (ta , RTq ) . 1 RTq. . tb RTq. 1 (算式五) 1  s(ta , tb ). non _ overlap score(ta , RTq )  1  max tb RTq {. o(ta , oq )  o(tb , oq ). } (算式六) min{ o(ta , oq ) , o(tb , oq ) }. 算式五計算候選字詞 ta 與已挑選推薦標籤 RTq 中所有標籤字詞之差異性分數的帄均值，以此帄均差異性分數表示標籤字詞與已挑選推薦標籤 RTq 的多樣性。算式六則對候選字詞 ta 與已挑選推薦標籤 RTq 中所有標籤字詞間，採用整數值 1 扣除挑選出物件重複比例值最高者，表示與 RTq 中所有標籤字詞的不重覆比例。評估候選標籤字詞 ta 與已挑選推薦標籤 RTq 之間多樣性的方法，採用. d _ score(ta , RTq ) 表示，可代入 diversity(ta , RTq ) 及 non _ overlap score(ta , RTq ) 兩種評估方法中。當 RTq 為空集合時，則 d _ score(ta , RTq ) 等於 0。兩種不同計算多樣性方法亦在實驗中進行評估對推薦標籤字的效果。 23.

(31) 綜合考量相關性與多樣性特徵，本論文評估查詢字與候選標籤之間的關聯代表性程度的方法如算式七。. score(q, ta )  w  r _ score(q, ta )  (1  w)  d _ score(ta , RTq ). (算式七). 其中參數 w 為一個介於 0 到 1 之間的實數，用來調整考量相關性與多樣性特徵的比例。以下詳述本系統挑選推薦標籤的處理流程。對使用者給定的查詢 q 及想要回傳的推薦數量 k，系統將根據標籤資源的資料庫 DB 及參數 w ，依照下述步驟進行推薦標籤的挑選: 步驟<1>: 讀取資料庫，找出標籤集合包含 q 的物件，並加到 Oq (Line2)。步驟<2>: 分析 Oq 中各物件的標籤集合，將各候選標籤記錄於 COq (Line3)。步驟<3>: 依下述做法進行 k 次推薦標籤的挑選(Line4)。對 COq 中所有候選標籤進行與查詢關聯代表性程度的計算(Line5)，挑選出關聯代表性程度最高者 ti (Line7)，將其加入已挑選的推薦字詞 RTq (Line8)，並將 ti 從 COq 中刪除(Line9)。步驟<4>: 輸出 RTq 為查詢推薦標籤(Line10)。挑選查詢推薦標籤之完整演算法如下演算法 1。. 24.

(32) Algorithm 1 Pick Recommend Tag Algorithm Input: keyword query q , corpus DB, pick recommend tag size k, parameter w. 1: 2: 3: 4: 5: 6: 7:. BEGIN = FetchRelatedObject( q , DB); 𝐶𝑂𝑞 = ParseObject( );. 8: 9: 10: 11:. 𝑅𝑇 . ADD( 𝑖 ); 𝐶𝑂𝑞 . REMOVE( 𝑖 );. REPEAT k times FOR EACH tag t in 𝐶𝑂𝑞 DO Compute score( q , t); 𝑖=. pick t with the highest score( q , t). Output recommend tag 𝑅𝑇 ; END 演算法 1 挑選推薦查詢之演算法. 4.3.2 階層式推薦查詢標籤挑選方法根據前述挑選推薦查詢字方法，雖然可針對查詢 q 得到 k 個推薦標籤字詞供使用者參考，但若所給定之查詢語意涵蓋太廣時，只增加一個查詢字仍會回傳過多物件。故本論文採用”面向查詢”的概念，得到第一層的推薦字後，針對使用者已點選之推薦字詞 tb ，再加上使用者原給予的查詢 q ，即 q '  q { tb} 。然後再以 q ' 進行一次查詢標籤的推薦，概念圖如下圖 4.2 所示。系統將基於上層的推薦字，縮小推薦範圍，再找出相關的推薦字。如此一來，能幫助使用者以更精確能表達查詢意圖的查詢字進行搜尋，以增進使用者查詢效率。. 25.

(33) 圖 4.2 階層式推薦查詢標籤之架構圖. 然而採用此方法後觀察實際執行結果，可發現下層推薦字與上層推薦字有字詞重複的情況發生。舉例來說，從圖 4.3 顯示的結果中，以第一層所推薦的關鍵字“sky”再次進行查詢字推薦時，會出現“nature”；而以第一層關鍵字“nature”進行查詢字推薦時，會出現“sky”，也就是說有出現推薦 sky 結合 nature 兩次的情況。此情況的發生是因為包含查詢字 rock 的物件中，有許多標籤集合都同時標記”sky” 及”nature”，故兩者會有高度語意上的關聯。. 26.

(34) 圖 4.3 查詢推薦標籤之實例. 因此本論文根據上述的推薦查詢標籤方法，結合一個避免重覆的挑選機制來解決上述問題。以下詳述避免重複挑選推薦標籤的處理流程:對使用者給定的查詢 q 、想要回傳的推薦數量 k 及一個給定門檻值  ，系統將根據標籤資源的資料庫 DB 及參數 w ，依照下述步驟進行推薦標籤的挑選: 步驟<1>: 讀取資料庫，找出標籤集合包含 q 的物件，並加到 Oq (Line 2)。步驟<2>: 分析 Oq 中各物件的標籤集合，將各候選標籤及其在 Oq 中所有物件的出現頻率記錄於 COq (Line 3)。步驟<3>: 依下述做法進行 k 次推薦標籤的挑選。步驟<3.1>: 對 COq 中所有候選標籤進行與查詢的關聯代表性程度計算. 27.

(35) (Line 5)，挑選出關聯代表性程度則最高者 ti (Line 7)，將其加入已挑選的推薦字詞 RTq (Line 8)，並將 ti 從 COq 中刪除 (Line 9)。步驟<3.2>: 將所挑選出的推薦標籤字詞 ti 與 q 合併於 q ' (Line 10)，將查詢 q ' 、資料庫 C、數值 k 及參數 w 代入演算法 1，得到推薦字詞集合 RTq ' (Line 11)。對 RTq ' 中所有已挑選推薦標籤進行與查詢的相關性程度計算(Line 12)，若計算出的相關性程度大於門檻值  (Line 14)則從 COq 中刪除 (Line 15)。步驟<4>: 輸出 RTq 為查詢推薦標籤。避免重複的挑選查詢推薦標籤之完整演算法如下演算法 2。. 28.

(36) Algorithm 2 Enhanced Pick Recommend Tag Algorithm Input: keyword query q, corpus C, pick recommend tag size k, parameter w, threshold  . 1: BEGIN = FetchRelatedObject(q, C); 2: 𝐶𝑂𝑞 = ParseObject( ); 3: 4: 5: 6:. REPEAT k times FOR EACH tag t of 𝐶𝑂𝑞 DO Compute score(q, t);. 7: 8: 9:. pick t with the highest score(q, t); 𝑅𝑇 . ADD( 𝑖 ); 𝐶𝑂𝑞 . REMOVE( 𝑖 );. 10:. q '  q  { ti } ;. 11: 12: 13: 14:. 𝑅𝑇 ′=execute Algorithm 1 (q', C, k, w) ;. 15: 16: 17: 18:. 𝑖=. FOR RACH tag t of 𝑅𝑇 ′ DO Compute r-score(q’, t); IF( the value of r-score(q’, t) >  ) 𝐶𝑂𝑞 . REMOVE( t ); END IF OUTPUT recommend tags 𝑅𝑇 END 演算法 2 避免重複的挑選推薦查詢之演算法. 29.

(37) 第五章索引結構之建立與搜尋方法為避免每次進行搜尋時，都必頇逐一對資料庫中所有物件進行比對，本論文參考並修改[6]中所提出之索引結構，提出一個雙層式的階層化索引結構，用來加速搜尋集合式包含查詢的效率。本研究是針對一個查詢進行容錯包含查詢，依一個容錯程度值找回包含查詢字的標籤集合及其所對應的物件，而論文[6]與本論文之研究目的不同，論文[6] 是針對一組標籤集合尋找相似的標籤集合，而本研究則是針對一個查詢進行容錯包含查詢，依一個容錯程度值找回包含查詢字的標籤集合及其所對應的物件。此外，本索引結構亦提供可容錯的包含查詢，以下將對包含查詢、索引結構及搜尋方法依序進行介紹。. 5.1 包含查詢本論文所考慮的查詢是對標籤物件的搜尋，根據使用者所給的查詢，對於被註記標籤的物件，找出其標籤集合中包含查詢中所有標籤字的物件。但使用者對物件給予標籤時，相當自由，所以不一定會註記所有相關的標籤，故本論文提出一個支援容錯的包含查詢方法。為了支援容錯包含查詢，本論文採用 Jaccard Containment 之運算方式，評估一個物件 o 之標籤集合包含查詢的包含程度，如算式九所示。該算式表示物件標 30.

(38) 籤集合 o. tagset 包含 q 中的標籤個數( q  o. tagset )相對於查詢字詞個數( q )的比例值，包含程度值若為 1 表示查詢中的標籤完全被包含於物件標籤集合，若包含程度值小於 1 則表示物件標籤集合中未完全包含查詢。 JC (q, o. tagset ) . q  o. tagset (算式九) q. 當給定集合包含程度門檻值  ，可計算 JC (q, o. tagset ) 的包含程度，若大於或等於  則將此物件視為與查詢相關，反之則視為不相關。舉例來說，若 q  {apple, fruit}，而門檻值設定為 0.5 則物件標籤集合只需包含 {apple} 或 { fruit} 即視為查詢結果，若門檻值設定為 1.0 則物件標籤集合需包含查詢中所有標籤字詞。. 5.2 物件標籤集索引結構本論文建立標籤集索引結構的基本概念是將各標籤集合聚集成一些群集，而決定標籤集合該聚集到哪一個群集的評估方法，則藉由計算群集內各標籤集合的聯集(CO)和交集(CI)之差集大小作為相似程度的估計標準。. 5.2.1 建立索引結構中聚集門檻值之定義本論文採用兩個不同的門檻值來控制索引結構內群集建立的依據，這兩個門檻值的符號及定義如下: 31.

(39) <1>. 門檻值 MaxD  用來控制索引結構中，各群集所屬標籤集合間之相似程度。 <2>. 門檻值 Object size  是用來決定當一個群集內標籤集合數量超過  時，需再進行第二層的分群。此門檻值可將各群集所包含的標籤集合數量控制在小於等於  的範圍內。. 5.2.2 物件標籤集索引結構之建立本小節將介紹物件標籤集索引結構之建立方法。圖 5.1 所示為本論文建立索引結構之流程圖:首先，我們將依圖 5.1 建立第一層索引結構；接下來，依序檢查第一層各群集所包含標籤集合，若群集的標籤集合數目超過門檻值 Cluster size  則對此群集中的標籤集合進行第二層索引結構的建立。. 32.

(40) 圖 5.1 建立索引結構之流程圖. 以下依序介紹建立索引結構所使用的相關符號、第一層索引結構建立方法及第二層索引結構建立方法: 索引結構的建立採用群集概念組成，相關符號定義如下: 1.. D(DataSet):建立索引結構之資料集。. 2.. t(tagset): t  D ，資料集中的一筆標籤資料集合。. 3.. 每一個群集 C 會記錄下列資訊: 3.1 群集內各標籤集合的聯集( C. CO )及交集( C. CI )。 3.2 群集內各標籤集合及其物件編號，將群集內所有標籤集合的集合令為 C. tags 。. 3.3 若此群集中有建立第二層索引結構則記錄其子群集( C.subclusters ) 4.. R(Index Structure):記錄所建立的索引結構，即各群集編號及其資訊。 33.

(41) <1>. 第一層索引結構建立方式第一層索引結構建立方法如演算法 3，分成以下步驟: 步驟<1>: 逐一對物件 o 之標籤集合 o. tagset 進行新增，決定應該放置在那一個群集中。針對所有已存在的群集，逐一進行檢查(Line 9)此標籤集合. o. tagset 該擺放在哪一個群集中。我們要求在加入此標籤集合後，群集內聯集和交集的差集大小( Co  Ci )必頇小於 MaxD  值且 |Ci | 必頇大於或等於 1(Line 11)，也就是群集內的物件至少要有一個共同的標籤。若有多個群集皆滿足所設定的條件，則選擇差集大小最小者加入。步驟<2>: 若有適合擺放的群集則更新此群集的聯集和交集(Line 18)，若加入的群集為 Ck ，則群集的聯集則為 Ck .CO  (CO  o. tagset ) ，而交集則是. Ck . CI  ( CI o. tagset )。若沒有適合加入的群集，則另建一個新的群. CNEW 加入 o. tagset (Line 23)，而此新群集之聯集則為 CNEW .CO  o. tagset ，而交集是 CNEW .CI  o. tagset 。步驟<3>: 輸出索引結構。. 34.

(42) Algorithm 3 1st  LV Index Construction Input: DataSet D, MaxD  1: BEGIN FOR EACH tagset o. tagset of o in D 2: 3: 4: 5: 6: 7: 8: 9: 10: 11: 12: 13: 14: 15: 16: 17: 18: 19: 20: 21: 22:. SET small a very large value, smallest = null; FOR EACH Cluster Ck in R. CO '  (Ck .CO  o. tagset) , CI '  (Ck .CI  o. tagset) ; IF(|diff(𝐶 ′, 𝐶𝐼′)| ≤ θ) AND (|𝐶𝐼′| ≥ 1) IF(|diff(𝐶 ′, 𝐶𝐼′)| < small) small=|diff(𝐶 ′, 𝐶𝐼′)|; smallest= Ck ; END IF END IF IF(smallest is not null) INSERT o. tagset into the Cluster Ck UPDATE Ck . CO  CO ' , Ck . CI  CI ' ; UPDATE R ; ELSE CREATE a new Cluster CNEW ; SET CNEW . CO  o. tagset , CNEW . CI  o. tagset ; UPDATE R ; END IF Output Index structure R ; END 演算法 3 建立第一層索引結構之演算法. 35.

(43) <2>. 第二層索引結構建立方法為避免群集的標籤集合數量過多，故進行第二層索引結構之建立，本論文使用一個門檻值進行設定，若群集標籤集合數目大於門檻值 Cluster size  則進行第二層索引結構的建立。第二層索引的建立方法概念類似演算法 3，對第一層索引結構中各群集檢查所屬標籤集合數量(Line 3)，若此群集標籤集合數量大於  則對此群集中各標籤集合，再建立第二層索引結構。以下簡述第二層索引結構之建立步驟，詳細演算法如演算法 4: 步驟<1>: 已知群集 Ck 內有共同包含的標籤，故建立索引的門檻值必頇跟著群集. Ck 的交集個數( | Ck .CI | )進行調整(Line 4)，調整算式如下算式十，也必頇對群集 Ck 中的各標籤集合扣除掉 Ck 的交集(Line 6) 並將調整後的標籤集合加入 Ck .D 中(Line 7)。. Ck .  '    Ck . CI. (算式十). 步驟<2>: 將經調整過的群集 Ck 中各標籤集合的集合 Ck .D 及門檻值 Ck .  ' 帶入演算法 3 (Line 8)。步驟<3>: 更新群集第一層群集 Ck 的子群集(Line 9)。步驟<4>: 輸出索引結構. 36.

(44) Algorithm 4 2  LV Index Construction nd. Input: Index Structure R , MaxD  ,Threshold  . 1:. BEGIN FOR EACH Cluster Ck in R. 2:. IF( Ck .size() >  ). 3: 4:. SET Ck .  '    | Ck . CI |. 5:. FOR EACH tagset o. tagset in Ck .tags. 6:. SET o. tagset '  o. tagset  Ck . CI ;. 7:. Ck .D. ADD(o. tagset ');. 8:. Ck .subclusters  execute Algorithm 3(Ck .D, Ck . '). 9:. UPDATE Ck .subclusters in R ; Output Index structure R ; END. 10: 11:. 演算法 4 建立第二層索引結構之演算法. [範例5-1] 以表 5.1 為範例標籤資源資料庫，給定門檻值 MaxD  =4 及 Object size  =3。. 37.

(45) 表 5.1 範例標籤資源資料庫 TDB 標籤集合編號. 標籤集合內容. 標籤集合編號. 標籤集合內容. T1. {A, B}. T5. {C, D, E}. T2. {A, C}. T6. {B, E}. T3. {A, B, C, D}. T7. {C, D, E, F}. T4. {A, B, C, E}. T8. {C, F}. 依演算法 3 的處理步驟逐一新增物件 T1 至 T8 於索引結構中，建構完成的第一層索引結構如圖 5. 2 所示:. 圖 5. 2 範例資料庫 TDB 之第一層索引結構. 檢查已建立之第一層索引結構中各群集標籤集合個數，若大於門檻值 Object size  ，則建立第二層索引結構。本範例中將對群集 C1 、 C2 進行標籤集合. 內容及門檻值的調整並建立第二層索引結構，如演算法 4 之處理步驟。建構完成 38.

(46) 之完整索引結構如圖 5. 3 所示:. 圖 5. 3 範例資料庫 TDB 之完整索引結構. 5.3 搜尋方法本節將介紹如何運用前小節所提出之索引結構，以雙層式邊界機制搜尋方法加快集合包含式查詢的速度。. 5.3.1 雙層式邊界機制之搜尋方法本論文所提出之雙層式邊界機制搜尋方法，將對索引結構中各個群集 C 估算其中所包含物件之標籤集與查詢包含程度的上限及下限值，在此包含程度的上限與下限的估計是採用群集內所記載的資訊 C.CO 及 C.CI 進行評估，故進行檢查 39.

(47) 時可決定該群集中所有標籤集是否都包含查詢或都不包含查詢，避免頇對群集內各標籤集合進行包含程度的計算。雙層式邊界機制搜尋之完整演算法如下演算法 5。. Algorithm 5 Search Algorithm Input: query q , Index structure R, Search threshold  1:. Begin. . 0. 2:. Set of tagsets. 3:. FOR EACH Cluster C in R. 4:. Compute 1st  UB( q, C ) , 1st  LB( q, C ) ;. 5:. IF( 1st  UB( q, C ) <  ). 6: 7: 8: 9: 10: 11: 12:. continue; ELSE IF( 1st  LB( q, C )   ).  .  {t | t  C} ;. ELSE IF(C contains C.subclusters ) UPDATE  new  (. ( q   )  q  C.CI ) , qnew  ( q  C.CI ) ; q  C.CI. FOR EACH Cluster C ' in C.subclusters. 13:. Compute 2nd  UB( qnew , C ') , 2nd  LB( qnew , C ') ;. 14:. IF( 2nd  UB( qnew , C ') <  new ). 15: 16: 17:. continue; ELSE IF( 2nd  LB( qnew , C ')   new ). 40.

(48) . 18: 19: 20:.    {t | t  C '} ;. ELSE FOR EACH tagset t ' in C '.tags IF( JC ( qnew , t ' )   new ). 21: 22:. . 23:. END IF. 24: 25: 26: 27: 28:. END IF END IF ELSE FOR EACH tagset t in C.tags IF( JC ( q, t )   ). . 29: 30: 31:.   t ;. END IF END IF. 32:. END IF. 33:. OUTPUT. 34:.   t ' ;. . ;. END 演算法 5 雙層式邊界機制搜尋之演算法. 以下依序介紹如何進行第一層群集的搜尋，何時需要進入第二層索引結構進行搜尋，及第二層的搜尋方法。. <1>. 第一層之邊界搜尋機制首先，針對一組集合式查詢 q 跟集合包含程度門檻值  逐一對索引結構中第一層的各群集進行檢查(Line 3)。而第一層的檢查主要有二個部份，分別是計算 41.

(49) 查詢 q 與群集 C 中各標籤集包含程度上限 ( 1 -UB( , 𝐶 )) 與下限 ( 1 LB( , 𝐶))(Line 4)，算式之制定如下式。 1 -UB( , 𝐶) :. (q  C.CO) q. 1 - LB( , 𝐶) :. (q  C.CI ) q. (算式十一). (算式十二). 第一層的檢查共有四種可能狀況，如表 5. 2 所列: 1.. 若1 -UB( , 𝐶)小於 (Line 5)，則此群集內所有物件之標籤集合包含程度都小於門檻值，故此群集內所有的標籤集合 C.tags 都不會符合容錯包含程度。. 2.. 如果1 - LB( , 𝐶)大於或等於 (Line 8)，則此群集內所有標籤集合都在容錯包含程度的範圍內，故將此群集所包含的標籤集合都當作符合容錯包含程度，並將這些標籤集合所對應的物件視為搜尋結果。. 3.. 若兩個狀況都不符合且無第二層之索引(Line 27)，則對此群集內的標籤集合 t 都進行容錯包含程度的計算。若 JC(q , )大於或等於則回傳 t 所對應的物件為搜尋結果。. 4.. 若兩個狀況都不符合且有第二層之索引(Line 10)，則進入第二層索引進行檢查。. 42.

(50) 表 5. 2 第一層檢查的狀況列表案例 1.. 描述. 1 -UB( , 𝐶) <. 表示此群集內所有標籤集合都不符合容錯包含程度。. 2.. 1 - LB( , 𝐶) ≥. 3.. 1 - UB( , 𝐶) ≥. 表示此群集內所有標籤集合都可以當作搜尋結果。 < 必頇再檢查 C 中每個 t 是否 JC(q , ) ≥. 1 - LB( , 𝐶). 。. 且 C.subclusters   4.. 1 - UB( , 𝐶) ≥. <. 1 - LB( , 𝐶). 進入第二層索引進行檢查。. 且 C.subclusters  . <2>. 門檻值與查詢字之調整由於本索引結構建立時，對每一個群集 C 都要求群集內標籤集合的交集個數 ( C.CI )需大於或等於 1，也就是說每一個群集內都必定有一些標籤是所有標籤集合都共有的，所以頇修正查詢內容跟集合包含程度門檻值。進入第二層索引進行搜尋之前，將對照第一層索引群集的交集內容，對查詢跟集合包含程度門檻值進行調整(Line 11)，調整算式如下:. qnew  (q  C.CI ) (算式十三).  new . ( q   )  q  C.CI q  C.CI. (算式十四). 43.

(51) 查詢的調整同算式十三，將原查詢字與 C.CI 進行相減。而集合包含程度門檻值的調整則使用算式十四，以查詢字長度還原門檻值的比例，再扣除掉 C.CI 的部份，並進行標準化的比例調整，將門檻值設定在 0 到 1 之間。. <3>. 第二層之邊界搜尋機制在得到一個調整後的查詢字. 跟集合包含程度門檻值. 後，進行第二層. 索引的檢查。第二層的檢查概念同第一層，對 C 的第二層群集 C.subclusters 中各子群集 C ' 進行檢查(Line 12)，對群集所記載資訊計算包含程度上限(. (qnew , C ') )跟下限(. -UB. - LB (qnew , C ') ))(Line 13)並進行檢查，算式如下所示:. -UB (qnew , C ') :. qnew  C '.CO qnew. - LB (qnew , C ') :. qnew  C '.CO qnew. (算式十五). (算式十六). 第二層的檢查有三種狀況，如表 5.3 所列: 1.. 若. -UB (qnew , C ') 小於. 程度都小於此門檻值. (Line 14)，則此群集內所有標籤集合包含，故此群集內所有標籤集合 C '.tags 都不會符. 合容錯包含程度。 2.. 如果. -LB (qnew , C ') 大於或等於. (Line 17)，則此群集內所有物件. 都與查詢字 q 相似，故將此群集所包含的標籤集合都當作符合容錯包含程度，並將這些標籤集合所對應的物件視為搜尋結果。 44.

(52) 3.. 若兩個狀況都不符合(Line 20)，則對此群集內的標籤集合 t ' 逐一進行容錯包含程度的計算，若 JC (qnew , t ') 大於. 則為回傳 t ' 所對應的物件為. 搜尋結果。. 表 5.3 第二層檢查的狀況列表案例. 描述表示此群集內所有標籤集合都不符合容錯包. -UB (qnew , C ') <. 1:. -LB (qnew , C ') ≥. 2:. -UB (qnew , C ') ≥. 含程度。表示此群集內所有標籤集合都可以當作搜尋結果。必頇再檢查 C ' 中每個 t ' 是否 JC( qnew , t ' ). 3: <. -LB (qnew , C '). ≥. 。. [範例5-2] 本範例採用圖 5. 3 之索引結構進行容錯包含查詢。給定集合包含程度門檻值 =0.5 及查詢 q  {B, E} 進行搜尋，依下列順序進行檢查: 1.. 對群集 C1 進行1 -UB 的檢查，經計算數值為 1  不符合判斷條件，所以需再對1 -LB 進行檢查，經計算結果為 0< ，故頇進行第二層的檢查，先對門檻值進行調整. =0.5 而 q’={B, E}，並對所屬子群集 C11 及 C12 進行第. 二層的檢查。. 45.

(53) 1.1. 對群集 C11 檢查. -UB 結果為 0.5  ，所以繼續檢查. -LB 結果. 為 0.5  表示此群集內所有標籤集合都可以當作搜尋結果，回傳 T1、T3 當作搜尋結果。 1.2. 對群集 C12 檢查. -UB 結果為 1  ，所以繼續檢查. -LB 結果為. 0< ，則對此群集所屬標籤集合 T2’、T4’進行容錯包含程度的計算， JC(q’,T2’) =0<. ，表示不符合容錯包含程度，JC(q’,T4’)=1 回傳. 為搜尋結果。 2.. 對群集 C2 進行1 -UB 的檢查，經計算數值為 1  不符合判斷條件，所以再對1 -LB 進行檢查，經計算結果為 0.5  ，表示此群集內所有標籤集合都可以當作搜尋結果，回傳 T5、T6、T7 當作搜尋結果。. 3.. 對群集 C3 、 C1 進行1 -UB 的檢查，經計算數值為 0< 符合判斷條件，表示此群集內所有標籤集合都不符合容錯包含程度。. 46.

(54) 第六章實驗評估本論文實驗主要分成兩部份進行。第一部份為評估不同推薦查詢標籤方法減少查詢瀏覽成本的效果，第二部份則評估所提出索引結構在處理標籤包含查詢的執行效率。以下將詳細介紹實驗資料來源及環境設定、各部份的實驗資料、實驗方法及實驗結果。. 6.1 實驗資料來源及環境設定本小節將說明實驗資料來源及如何對這些資料進行前處理，並說明實驗的環境設定。. 6.1.1 實驗資料來源本論文以[20]所提供的資料集進行研究，此資料集是由新加坡國立大學的 T.-S. Chua 等人由社交網站 Flickr 中所蒐集而來，並開放資料集的下載於網站 NUS-WIDE7。蒐集方法為根據專家所制定的 81 個概念，從大約 5,000 名使用者所分享的照片中擷取 269,648 張的照片標籤資訊。. 7. http://lms.comp.nus.edu.sg/research/NUS-WIDE.htm 47.

(55) 6.1.2 資料前處理由於使用者進行標籤註記時所使用的字詞，通常單、複數字詞所指的大多表示相同意義。為避免系統因字詞的單複數變化將這些字當作不同的字，使得在評估字詞重要性程度時造成影響，故必頇先進行字詞的原型化處理。本論文採用 The Porter Stemming Algorithm 進行字詞的原型化處理，此演算法由 M.F. Porter 於 1980 年所提出，是目前最被認同且最廣為使用的字詞原型化演算法。本論文並不深入考慮其它時態或文法上的變化，因考慮使用者進行標籤註記時，時態或語法上的變化可能是指不同的概念或意義，故本論文只採用 The Porter Stemming Algorithm 進行單複數變化的原型化處理。. 6.1.3 實驗環境本論文中的實驗是使用 Windows 7 作業系統環境底下的個人電腦來進行實作。個人電腦的硬體配備為 Intel Core i5 之處理器和 6G 的 DDR3 記憶體。程式語言則使用 JAVA 電腦程式設計語言在 NetBeans 開發環境中進行編譯。. 6.2 評估推薦查詢標籤方法之效果第一部份的實驗為評估系統所挑選出來的推薦標籤字詞能否有效減少使用者查詢時的瀏覽成本。關於這方面的實驗，大多數的研究都採用使用者來評估系統的效能，但是這種評估方式可能受限於使用者有無相關背景知識、使用習慣等。 48.

(56) 此外，使用者能實際測詴的數量有限，且不同使用者測詴的結果也較不穩定，容易影響整體數據的分析結果。為解決上述問題，我們採用電腦模擬使用者瀏覽的方法來進行推薦查詢字詞的查詢效果評估。評估推薦標籤字詞的方法，我們考慮的特徵有相關性跟多樣性。而這兩種特徵皆可採用不同的計算方法，本節將實驗不同方法的組合所挑選出來的推薦標籤字詞進行查詢時對查詢瀏覽成本的影響。此外，亦會評估各種不同狀況對效果的影響。因此這部分將進行下列七個實驗，其目的分別為[實驗 1.1] 評估不同相關性計算方法，[實驗 1.2] 評估不同相關性結合多樣性之計算方法，[實驗 1.3] 評估推薦不同個數的標籤字詞對效果的影響，[實驗 1.4] 評估單層及雙層式推薦字詞對效果的影響，[實驗 1.5] 評估推薦不同個數雙層式推薦字詞對效果的影響，[實驗 1.6] 評估計算關聯代表性程度時不同參數對效果的影響，及[實驗 1.7] 評估不同出現頻率查詢字所推薦字詞對效果的影響。. 6.2.1 測詴資料本論文採用電腦模擬的方法產生測詴資料，每筆測詴資料是從資料集中隨機挑選一個物件，再由此物件所包含的標籤集合中隨機挑選一個出現頻率大於 100 的標籤當作查詢字，並分別記錄這組物件的編號跟查詢字。因考慮出現頻率過低的查詢字在實際使用上鮮少有使用者使用，故要求查詢字出現頻率需大於 100。 49.

(57) 我們採取此方法取出 1,000 組不同的物件編號跟查詢字，並以此作為第一部份實驗的測詴資料，進行推薦標籤字詞在瀏覽成本的效能評估。另外，我們亦評估不同出現頻率的查詢字對推薦標籤字詞效果的影響，故分別蒐集出現頻率在 10-200、200-400、400-600、600-800、800-1000、1000-1200、 1200-1400、1400-1600、1600-1800 及 1800-2000 各 100 筆查詢字。. 6.2.2 實驗方法我們假設使用者瀏覽一個推薦標籤所需花費的成本為 Costt (目前設為整數值 2)，而瀏覽一個物件所需要的成本為 Costo (目前設為整數值 1)。這些成本值的大小設定是認為使用者瀏覽推薦標籤字詞時，必頇花費較多時間思考推薦字詞和查詢之間的關係，相較之下，瀏覽一個物件可以很直觀、快速的判斷。此外，假設使用者會由上而下依照系統所計算出的關聯代表性程度高低排名進行瀏覽，且進行瀏覽時使用者清楚了解系統所推薦的標籤字詞跟查詢之間的關係，若是與查詢無關的推薦標籤則不會對包含此標籤字詞的物件進行瀏覽。在以上假設下，我們以章節 6.2.1 中所述的 1,000 筆測詴資料的查詢字分別輸入本系統進行查詢。查詢標籤之推薦，由電腦依系統所推薦的第一名推薦標籤加入為查詢進行搜尋，並檢查搜尋結果可是否有包含該測詴資料之物件編號。若有找到，則計算此次搜尋所需花費成本；若找不到，則改用系統所推薦的下一個推薦標籤字詞加入查詢，並依同樣方法進行實驗。若在所推薦的第 i 個推 50.

(58) 薦字詞加入查詢進行搜尋後，該搜尋結果可找到該測詴資料所對應的物件編號，且搜尋結果共包含 j 個物件，則搜尋成本如算式十七. Cost  Costt  i  Costo  j. (算式十七). 倘若所推薦的標籤字詞都找不到測詴資料所對應物件的物件編號，則算作無法搜尋到。我們針對 1,000 筆不同的物件編號跟查詢字進行實驗，以可搜尋到的查詢所花費瀏覽成本之總和 ( total cos t ) 除以實際可搜尋到的查詢字數量 ( # of searchable query )，計算出每筆查詢的帄均瀏覽成本( Avg _ c os t )，如算式十八。 Avg _ c os t . total cos t # of searchable query. (算式十八). 此外也針對這 1,000 筆資料，以實際可搜尋到的查詢字數量除以整體查詢字數量，計算能實際搜尋的查詢字之比例，如算式十九所示。 SQ _ rate =. # of searchable query (算式十九) # of query. 6.2.3 實驗評估 [實驗1.1]. 評估不同相關性計算方法. 這個實驗中分別評估章節 4.3.1 中所述兩個計算相關性分數的方法所推薦查詢標籤進行查詢時 Avg_cost 及 SQ_rate 的效果，分別為相關性方法一(算式一， Confidence)及相關性方法二(算式二，Jaccard)。 51.

(59) 相關性方法一及相關性方法二，系統將會依其計算方法挑選出相關性程度值最高的前 25 個標籤字詞當作推薦字。 Random walk with restart 方法是藉由計算節點跟節點之間的連結關係程度，評估各節點在圖形結構中的重要性分數。而本論文將此概念應用在標籤字詞與標籤字詞之間，藉由將標籤字詞間的相關性分數作為連結關係的重要性分數值，以 Random walk with restart 方法得到各標籤字詞在字詞間的重要性分數並依照高低進行排名。本論文也將評估相關性方法一及相關性方法二加上 Random walk with restart [21]後對效果的影響。相關性方法三是依照相關性方法一計算方法挑選相關性程度值最高的前 100 名，再進行 Random walk with restart 的程度值收斂，且將收斂次數設定為 30 次，經收斂後也同樣挑選出前 25 名當作推薦標籤。而相關性方法四則是使用相關性方法二的計算方式，以同樣方法挑選推薦標籤。表 6.1 為[實驗 1.1]所使用的各相關性方法:. 表 6.1 實驗 1.1 所使用的相關性方法方法名稱. 計算方法. 相關性方法一. Confidence. 相關性方法二. Jaccard. 相關性方法三. Confidence with Randomwalk. 相關性方法四. Jaccard with Randomwalk 52.

(60) 表 6.2 為僅考慮相關性分數做為計算關聯代表性程度的評估結果，實驗結果中綜合考量 SQ_rate 及 Avg_cost 兩項數據，可以發現相關性方法四所需花費之 Avg_cost 高於相關性方法一，而相關性方法二則略高於相關性方法一。相關性方法三雖然 Avg_cost 大幅低於相關性方法一，但相關性方法三的 SQ_rate 卻相當低。就整體而言，使用相關性方法一或相關性方法二作為計算相關性程度的方法都可以得到有效的結果，但仍然無法決定出一個最好的評估依據，故以下將再採取相關性方法一及相關性方法二繼續進行實驗的評估。. 表 6.2 評估不同相關性計算方法之結果相關性方法一. 相關性方法二. 相關性方法三. 相關性方法四. SQ_rate. 75.60%. 65.80%. 25.50%. 43.50%. Avg_cost. 1174.0. 1248.75. 393.1. 1450.29. [實驗1.2]. 評估不同相關性結合多樣性之計算方法. 在這個實驗中，我們將評估同時考慮相關性和多樣性來做為評估關聯代表性程度的方法，將採用兩種不同相關性方法，分別為相關性方法一及相關性方法二。多樣性方法則採用章節 4.3 中所介紹的兩種方法，多樣性方法一以算式五為計算方法，多樣性方法二則採用算式六。以上述兩種相關性方法及兩種多樣性方法組合共四種計算方式如下表 6.3，且相關性與多樣性比重的設定(算式七中參數 w) 設為 0.5，挑選出 score 值最高的前 25 個做為推薦標籤進行實驗。 53.

(61) 表 6.3 實驗 1.2 所使用的關聯代表性方法方法名稱. 計算方法. 關聯代表性方法一. 相關性方法一+ 多樣性方法一. 關聯代表性方法二. 相關性方法一+ 多樣性方法二. 關聯代表性方法三. 相關性方法二+ 多樣性方法一. 關聯代表性方法四. 相關性方法二+ 多樣性方法二. 由表 6.4 顯示的結果可以發現，四種組合不論在 SQ_rate 或 Avg_cost 兩方面的效果都十分接近。. 表 6.4 評估不同相關性和多樣性計算方法之結果關聯代表性方法一. 關聯代表性方法二. 關聯代表性方法三. 關聯代表性方法四. SQ _ rate. 75.90%. 74.40%. 68.90%. 68.10%. Avg_cost. 1172.9. 1092.52. 1236.7. 1083.18. 從”個案研究”的方式來看，使用查詢字”rock”所回傳的前 5 個推薦查詢字如表 6.5 所示。表 6.5 各組合使用查詢字”rock”之推薦字詞 query: rock. 關聯代表性方法一. 關聯代表性方法二. 關聯代表性方法三. 關聯代表性方法四. 1. water. water. water. water. 2. music. band. music. band. 3. sky. carving. stone. split. 4. landscape. rockface. wave. carving. 5. nature. redrock. mountain. rockface. 排名. 54.

(62) 從表 6.5 的案例中可發現雖然四種不同的評估方法都找出”water”及音樂概念相關的字詞如”music”、”band”。但從所推薦的其他字詞中發現關聯代表性方法一所推薦之字詞都是比較具廣泛概念的字詞，而其他三個方法所推薦之字詞都是難以分辨出特定概念的字詞或概念過於特定、小眾的字詞。此外，以查詢字”apple”所回傳結果則如表 6.6 所示，我們發現採用關聯代表性方法一得到的推薦標籤可明確的找出蘋果電腦公司、水果中的蘋果、紐約市這三種概念的推薦字，而其他三種方法雖也能找出蘋果公司及水果這兩種概念，但是卻不能明確找出”紐約市”這個概念。雖然關聯代表性方法二有找出”city”與紐約市相關的字詞，但就查詢字與語意上的關係而言，此字詞仍不夠明確。. 表 6.6 各組合使用查詢字”apple”之推薦字詞 query: apple. 關聯代表性方法一. 關聯代表性方法二. 關聯代表性方法三. 關聯代表性方法四. 1. mac. mac. mac. mac. 2. fruit. fruit. fruit. fruit. 3. newyork. city. ipod. attraction. 4. macintosh. photo. macintosh. watertower. 5. ipod. animal. big. bite. 排名. 經上述結果分析，我們認為應該要以包含查詢字的物件作為衡量相關性程度的基準，相關性方法一以包含查詢字的物件個數作為分母，可以有效避免因候選字詞在 DB 中出現次數極為頻繁或極為罕見而使推薦標籤字詞難以分辨出概念或概念過於特定的問題。而在多樣性的衡量方面，我們認為應該要同時考量已推 55.