以標籤階層式架構輔助查詢之技術

第二章文獻探討

2.2 以標籤階層式架構輔助查詢之技術

而我們認為需要組織起標籤字間的關係，因而用以輔助使用者查詢的採用方式為階層式標籤架構。

雖然標籤雲能夠顯示出標籤的被使用率多寡，能夠透過字體大小來區分出重要程度，但卻無法看出標籤彼此間的語意關係。標籤若能以樹狀的方式呈現並具備[階層關係]的特性，則可顯出標籤彼此間的語意包含關係，為廣泛或是較為狹義的標籤概念 (concept)。舉例來說，Sport 可能涵蓋著國家籃球協會(nba)、國家橄欖球聯盟(nfl)…等多項運動比賽項目。我們認為若將標籤字間的關係組織起來，

能有效地輔助使用者查詢進行查詢，因此我們以建立語意階層式標籤架構為主要研究目標。

在許多針對如何有效地輔助使用者下查詢字 (query)，找到所要的目標物件之研究上，絕大部分著重在於如何清楚地得知使用者搜尋的意圖，給予使用者明確的推薦字詞來縮小回傳結果的範圍。因而在查詢字推薦(query recommendation)的研究一般有兩種做法，(1)可利用從網頁蒐集資料，從網頁內容利用機率的分析找尋與查詢字相關的字詞[15][16]，或是(2)透過使用者之前使用過的關鍵字來當成搜尋紀錄(search logs)，可以知道那些查詢字是比較經常被使用，亦或是修改原來的查詢字並且而新查詢字來取代的關鍵字，如表 2.1 所示也可稱作擴展字(expand keyword)就能當成推薦字[17][18]。

表 2.1 搜尋紀錄之範例

Query Modification Pattern

ladies song → ladies lyrics song→ lyrics university map → college map university→ college university map →university location map→ location

根據上述的推薦的標籤字挑選方式外，因而衍伸出階層式架構之研究探討。

[17]運用了上述的第二種類型(參考搜尋紀錄)以及[5]使用了上述兩種類型的結合 (以搜尋紀錄為基礎而衍伸的機率模型) ，兩者皆是在找出推薦的標籤字後，將這些標籤字語意關係組織起來並建構出語意階層式架構。

[7]探討將標籤架構當作引導使用者瀏覽查詢標籤系統的階層式資料目錄是否有用，比較了不同的演算法建立的標籤架構。演算法有把資料物件視作圖形中的節點，計算每一節點彼此間的相似程度值來進行組織建立的作法。此外其他的做法也有運用了分群演算法進行標籤架構的建立方式。經過分析發現雖然標籤架構理論上可支援瀏覽查詢，但架構中同一層的子類別也必須要有限制，否則過多的子類別數並不容易讓使用者一一瀏覽及挑選，這一點若以使用者角度來看是相當直觀且必要的。因而如何建構出有效幫助使用者獲取具體需要的資料是相當重要的。

過去的研究中，對於語意階層式架構又可分成兩種組織架構的方式來幫助使用者達到查詢意圖，分別為<1>分析標籤字間的語意關係進行建立以及<2>將物件進行分群後，並從每一群的資料物件找出代表標籤字進行建立的作法，於以下兩小節作說明。

2.2.1 以標籤字間的語意關係之建立方式

[6]提出一個演算法，將標籤間的語意關係以一個樹狀結構的分類階層式架構顯示。其做法首先藉由概念廣泛程度之排名(ranking)來決定加入階層式架構的順序，因此該架構可以顯示出標籤的語意概念上下對應關係，愈上層的標籤表示其語意概念較廣，愈下層的標籤表示其語意概念較為狹義。而樹狀結構中兩個標籤是否存在著相連邊則以它們會被同時用來標記同一個物件的可能性來決定，因而作者提出了三項特徵，分別為標籤字出現頻率、涵蓋該標籤的資料物件個數以及標籤對於主題之亂度值(entropy)。當系統在建立階層式架構時，以每一次加入一個新的節點-標籤字 tj，此時需要先計算與目前所建立階層式架構中的每一個標籤 ti的距離，距離 d(ti ,tj)即為架構中標籤 ti 到標籤 tj所經過的權重邊值的加總。以圖 2.1 為例，假設左圖為目前已建立的階層式架構 THA，並同時附有各個邊的權重值-綜合以上三項特徵值得出。因此會先計算 t1到 t2、t1到 t3、t2到 t3兩兩的距離，d(t¹,t²)=0.3+0.4=0.7、d(t¹,t³)=0.1、d(t²,t³)=0.4+0.3+0.1=0.8。並且將所有的距離作加總(0.7+0.1+0.8)當作 THA 所花費的建立成本(THA 建立成本值

為 1.6)。右圖顯示當有一個新加入的標籤 t₄時，所需作的考量。假設標籤 t₄接在

THA 中的各標籤下的權重值為 0.2，則在依序的計算 t4 與 t_i的距離 d(t4 ,t1)、

d(t4 ,t2)、d(t4 ,t3)，將這些值加總後加上左圖 THA 建立的成本值(1.6)，即可表示當標籤 t₄加入 THA 時所需花費的建立成本。例如，當標籤 t₄接在 t₁底下，則 d(t4,t1)=0.2、d(t4 ,t2) =0.9、d(t4,t3) =0.5，t₄加入 THA 時所需花費的建立成本共是 1.6+0.2+0.9+0.5=3.2。接著針對標籤 t₄接在其他 t_i的可能都分別計算，取出花費的建立階層式架構成本最低即為標籤 t₄最適合擺放的位置。

圖 2.1 概念階層式架構之範例

因此此篇所採用的方式為在處理過程中，根據以上的範例敘述，作者認為每一個標籤所取出的特徵值，其兩兩標籤的特徵值之差是作為判別語意概念關係之依據。當差值愈小則認為這兩標籤是有語意包含關係，因此每回合依照此依據將標籤加入到階層式架構中。同時也把偏頗樹(skew tree)的情況去除掉，接著將標籤架構的結果運用在標籤推薦，結合標籤語意概念層次、標籤分類的相似性以及

對應資料內容進行標籤推薦。不過作者所認定其特徵值之差的做法並非可以絕對顯示出概念廣度的包含關係，因此我們將在後續實驗部分，將本論文與此參考文獻的階層式架構之建立方法做比較。

在[5]主要是針對學校網域的資料進行探討，因為網頁內容變化性較低，所以採取以上所述的兩個方法-(1)網頁內容利用機率的分析找尋與查詢字相關的字詞，

以及(2)透過使用者之前使用過的關鍵字來當成搜尋紀錄(search logs)，獲取可推薦字詞，預測出是否有歸納(Subsumption)關係在，所謂的歸納關係代表著一個標籤

tj為另一個標籤 t_i的子概念，因此標籤 t_j被歸納於標籤 t_i之下。以兩兩標籤字組(t_i, tj)判定具備歸納關係與否，所建立成階層化(hierarchy)的架構來進行分析。

2.2.2 階層式分群之建立方式

當我們想要對搜尋標籤資訊建立一個標籤架構，而方法的實現是可以根據外部資源(Wikipedia ,ODP 等)事前預設要找到的語意關聯來建立之。以將資料物件進行分群(Cluster)並從中挑選該群的代表標籤字之方法為例，可將資料物件中的標籤集合作語意上具有相似的概念的字詞進行比較，依照不同的概念產生出多個群聚。

而[12]開發出一項具個人化的搜尋引擎平台"ClusteringWiki"，強調結果以個人化之方式呈現，並以類似階層式目錄方式(將以一查詢字的回傳結果進行分群)。

一般傳統上的搜尋引擎只列出相關文件，文字過度繁複使得使用者還得去判別每一個內容是否為使用者所需再進一步瀏覽，倘若我們可藉由分群後的結果將這些

結果做資訊篩選之動作(為了避免資訊過載的問題)，則可讓使用者更加明確地找到需要的資料。

此外，也有處理時間、地點、物體等語意類別之參考，物件可能被附上的標籤會有年份、月份、節慶的字眼出現，或是處理照片事件(大多在拍攝時是在描述當時發生的事件情況 ) 之分類，則可運用外部資源 (Wikipedia、ODP(Open

Directory Project)、Wordnet…等)來進行標籤的組織架構[13][14]，為另一種階層式架構架立方式。

綜合上述對於輔助使用者查詢的方式簡介，不論是以比較兩兩標籤的語意關係建立階層式架構還是以資料物件進行分群，再將標籤對應的資料物件進行組織的作法上，皆是著重於如何建立出幫助使用者瀏覽查詢結果的階層式架構為最終目的。而目前本論文所使用的方式則是以建立起具備語意關係的階層式架構來輔助使用者檢索資料，並將[6]提出的階層式架構建立演算法作為比較對象。

在文檔中社群標籤系統中查詢結果標籤階層式組織技術之研究 (頁 18-23)

第二章 文獻探討

2.2 以標籤階層式架構輔助查詢之技術

第二章文獻探討