緒論 - 有效率探勘社交標籤系統中前k名擴展查詢字集之研究

1.1 研究動機

隨著 Web2.0 平台技術的興起，許多具有社交性且提供標籤服務的社交平台紛紛地出現，像是 Flickr¹、Delicious²、Facebook³、Twitter⁴等，使用者可以上傳自己喜歡的多媒體檔案到不同類型的網站，同時也可以替這些多媒體檔案給予貼切的文字標籤，越來越多人習慣在社交平台上分享資源，導致網路上具社交性的資源快速膨脹。標籤是集合眾多使用者對網路資源進行的標記，由於標籤被大量的使用而逐漸形成趨勢，藉由豐富的標籤資源可以提供大量資訊，因此人們經常從社交平台中藉由標籤查詢所需資料。

在 Flickr、Delicious 等標籤式的資源進行搜尋時，大多數使用者只會輸入一個或兩個廣泛觀念的查詢字，例如：“apple”、“rock”等，像是“apple 就包含水果、電腦品牌、紐約等不同的語意概念。因此，在 Flickr 利用 apple 當查詢字，

回傳大量包含 apple 為標籤的照片中，還包含呈現許多不同語意概念的照片，這些語意概念通常可由照片的標籤表示出來，例如：回傳照片所包含的標籤可能為

{apple, fruit, red}、{apple, mac, computer}或{apple, newyork, bigapple}等。為了從數量龐大的回傳結果中找到符合使用者感興趣的照片，使用者一一瀏覽會很耗費時間。查詢結果中的某些標籤或標籤集合，像是 {fruit} 、{newyork}、{mac,

1 http://www.flickr.com/

2 http://delicious.com/

3 http://www.facebook.com/

4 http://twitter.com/

computer}、{mac, company}等能夠表達出搜尋目的不同的語意概念，這些標籤所形成的集合稱為擴展查詢字集( query expansion ,QE)。若能自動推薦這些擴展查詢字集給使用者進行挑選加入為查詢關鍵字，則可以篩選出不同概念的物件，有效減少查詢回傳結果。

此外，使用者下查詢後通常會想找到較受歡迎或品質好的查詢結果，近來有許多網站可以藉由使用者評分的機制決定物件受歡迎的程度或資料品質的優劣，

例如：點擊率、滿意度、按讚等，這些資料可視為物件資料的可用性( object utility )。

若在挑選擴展查詢字集時考慮回傳物件資料的可用性，則將輔助使用者藉由選取擴展查詢字集找到受歡迎或品質高的物件資料。

1.2 研究目的

本研究對於擴展查詢字集提出一個可用性評分方式，因為不希望回傳物件的 個數太少，故由一個指定之 r 值限定擴展標籤字集包含物件個數的最小回傳數量，

並由其中前 r 名可用性最高的物件之可用性值加總，作為該擴展查詢字集的可用 性分數。

舉例來說，如表 1.1 所示之範例，令QE 表示一個擴展查詢字集{A,B}、₁ QE₂ 表示另一個擴展查詢字集{C,D}，則標籤集合QE 所涵蓋的物件有₁ { ,o o o 、₁ ₂, ₄} QE₂ 所涵蓋的物件有{ ,o o 。若 r 取 2，則₃ ₄} QE 前兩名高的物件可用性分別為 0.9 及₁

0.7(o 及₁ o )，擴展標籤字集₂ QE 的可用性分數值則為 0.9+0.7=1.6，而₁ QE 的可用₂

中包含有所有查詢字的物件資料，再由這些物件資料所包含的全部標籤進行探勘，

找出可用性分數值最高的前 k 名擴展查詢字集，每一個擴展查詢字集都能回傳至 少 r 個資料物件。如下圖 1.1 所示，本系統將依使用者輸入之查詢字集及參數，

最後輸出前 k 名擴展查詢字集。

圖 1.1 系統輸入與輸出示意圖

因此本論文的研究重點分成兩個部分：

<1>.如何有效從查詢結果中挑選具代表性的標籤，在形成擴展查詢字集時，

減少標籤構成擴展查詢字集的組合情況。

<2>.如何減少需列舉檢查的擴展查詢字集的數目，提升找出前 k 名擴展查詢 字集的探勘效率。

1.4 論文方法

本論文提出的方法主要分成挑選具代表的標籤及有效率地探勘前 k 名擴展查 詢字集，以下將詳細介紹這兩個部分。

首先，我們運用論文[15]中的兩種挑選具代表性標籤的方法。第一個方法為平均差異性( AvgDiversity )，評估候選標籤在查詢結果中的出現頻率，並且考慮已挑選標籤間在所有物件中不重覆的程度，以這兩個特徵決定一個標籤的關聯代表分數；另一個方法是新穎性( Novelty )，挑選標籤的依據是計算所涵蓋的查詢結果 個數越多越好。接著依據每一個標籤的分數值，選定最高的前 n 個標籤為代表性 標籤。

接下來，本論文擴展 FP-tree 的結構，設計一個稱為 UT-tree 的樹狀結構，並 提出一個有效率探勘可用性前 k 名擴展查詢字集的演算法。我們先將回傳資料物 件的可用性由高至低排列(non-increasing order)，依序讀取資料物件中的標籤集，

儲存在 UT-tree 中，UT-tree 中的節點儲存標籤名稱，以及有對應標籤集的資料物件個數及物件編號。此樹狀結構用來儲存可形成擴展查詢字集的標籤集資訊，避免產生過多不必要檢查的擴展查詢字集。我們修改 FP-growth 演算法[16]，提出一 個稱為 UT-growth 的演算法，可從 UT-tree 中有效率找出可用性最高的前 k 名擴展 查詢字集，且不會產生過多的擴產查詢字集。此外，我們動態估算一個擴展查詢字集可用性分數的上限值(upper bound)和下限值(lower bound)，提出一個動態建立 UT-tree 的方法，並提出 dynamic UT-growth 演算法，動態更新所找到可用性前 k 名

的擴展查詢字集，若第 k 名擴展查詢字集的下限值比第k1名的擴展查詢字集上限值高，即可提前結束 UT-tree 的建立及探勘，因此可提供比 UT-growth 演算法更有效率的處理。

為了評估本論文所提出方法的效果，本論文的實驗主要分成兩部分，第一部 份採用實際資料，評估採用挑選代表標籤方法後進行可用性前 k 名擴展查詢字集 探勘的效果，評估的依據是計算所找出可用性前 k 名擴展查詢字集對查詢結果的 涵蓋率(coverage)、重覆率(overlap)及選擇率(selectivity)；第二部份則同時採用實際資料與模擬資料，進行本論文提出的 UT-growth 及 dynamic UT-growth 演算法與相關研究方法之探勘執行效率比較。

1.5 論文架構

本論文以下章節內容簡介如下:第二章說明相關文獻探討。第三章說明本論文相關名詞及問題定義。第四章將介紹挑選代表性標籤的方法。第五章詳細說明本論文所提出 UT-tree 樹狀結構及兩個探勘演算法。第六章將說明本論文實驗評估方法及實驗結果。最後第七章歸納總結，並描述未來研究方向。

在文檔中有效率探勘社交標籤系統中前k名擴展查詢字集之研究 (頁 9-15)