• 沒有找到結果。

第二章 相關研究探討

2.2 以標籤輔助查詢之技術

有鑑於標籤數量龐大,若只有用一個至兩個標籤字作為查詢字進行搜尋,則 回傳的資料物件數量會非常多,造成使用者需要花費許多時間進行篩選。標籤資 料的分群與文件分群的目的相同,都是希望經由自動化整理資料讓使用者可以更 有效率的瀏覽或增進查詢效果。有許多學者研究探討如何有效地從一組標籤中挑 選出代表標籤,以下將分別探討標籤雲探勘、解決標籤語意概念差異。

2.2.1 標籤雲探勘

標籤雲(tag cloud)是一個典型且能將一群資料所具有的標籤視覺化顯示的方 法,主要利用標籤的頻率找出前 n 個最常被使用的標籤形成一個集合,且根據標 籤出現頻率決定字體大小或是顏色深淺表示其重要程度[18],如圖 2.1 所示。有許 多研究探討如何挑選標籤建構出標籤雲以及利用標籤雲來引導資料瀏覽。

圖 2.1 標籤雲之範例

論文[15]透過標籤的出現頻率(frequency)及相異性(diversity)提出各種對標籤 進行評分排名的方法,例如:採用同時考慮標籤的出現頻率及普遍性的 TFIDF 值、

在標籤資料形成的圖形結構上採用隨機漫走(random walk)[10]來計算標籤資料的 重要性分數、考慮標籤所屬物件資料涵蓋率的 Novelty 值等。利用以上挑選標籤 的評分方法計算一組標籤雲的重要性分數值,再找出分數值最高的標籤雲。

許多網站以標籤雲的方式呈現推薦標籤,使用者藉由瀏覽標籤雲找尋相關感 興趣的議題,快速連結到相關主題。論文[13]提出以標籤的受歡迎程度(popularity)、

共同出現(co-occurrence)和社交關係(social relationship)等資訊選取標籤雲。該論文 採用網路電台“last.fm”中的使用者行為進行音樂的標籤推薦,由推薦標籤雲的 內容,點選的標籤會自動修改查詢,使查詢結果更符合使用者需求。論文[4]則研 發一個 P2P Wikipedia 的系統,當使用者給定查詢後,利用 Text2Tag 工具從

Wikipedia 查詢出的文章中擷取重要關鍵字形成一組標籤雲,透過此標籤雲引導使 用者瀏覽維基百科的內容,而且允許使用者藉由點選不同關鍵字動態產生與點選 關鍵字相關的標籤雲。

2.2.2 解決標籤語意概念差異

在標記相同主題的物件資料時,使用者常常會有文字使用上的差異,像是在 一張照片會標記“sea”,而在另一張類似的照片卻標記“ocean”。論文[19]談論 到社交標籤可以無拘束的由使用者決定,但是會造成語意上的問題,也就是一詞

多義或多詞同義的情形,而這樣的情況往往會造成使用者在搜尋及瀏覽的效能降 低。論文[12]根據上述缺點提出改進方法,將物件資料形成一個獨立領域,考慮 使用者的歷史紀錄,以語意為基礎提出一個語意相似性的測量方法,避免推薦語 意類似的標籤。

同樣為了解決上述問題。論文[17]採用 normalized Levenshtein distance 以及標 籤共同出現(co-occurrence)情況的餘弦相似度(cosine similarity)來評估標籤間的語 意相似度,將相似度高的標籤聚集在一起。根據產生的語意標籤聚落,讓使用者 點選符合自己感興趣的標籤,每筆資料再針對其所包含標籤和所指定查詢標籤聚 落中標籤的平均相似值篩選出查詢結果,並依據查詢結果的分數進行排序。

2.2.3 查詢之關鍵字推薦

近來有許多研究在探討如何從查詢結果中的物件標籤進行選取,並且能將標 籤進行組織,利於讓使用者找到進一步可篩選查詢結果的標籤。論文[9]提供一個 階層式關鍵字的推薦,透過推薦的關鍵字可以有效地過濾查詢結果,幫助使用者 更明確地得到與查詢意圖相符的查詢結果。但是在此論文中,對於最後回傳的查 詢結果並未考慮物件的品質好壞,無法確保使用者瀏覽的查詢結果都是受歡迎 的。

論文[11]則考慮到物件的可用性分數,提供查詢結果物件的標籤字結合而成 的擴展查詢字集。在探勘擴展查詢字集時,採用標籤字所形成的 Lattice 架構,以

列舉的方式產生候選擴展查詢字集,並考慮可用性分數上下限邊界值的估算方法,

最後找出可用性前 k 名擴展查詢字集,透過推薦的前 k 名擴展查詢字集能夠讓使 用者找到較受歡迎的回傳結果。但是此篇論文存在一個問題,對於每一個擴展查 詢字集可找到的物件個數,無法確保都能滿足一定的數量。若推薦的擴展查詢字 集,其可用性分數值很高,但是只對應到一個物件,會造成使用者能夠瀏覽的資 料物件過少。

總結上述研究,由於標籤物件筆數通常很龐大且物件包含的標籤集大小不一,

直接列舉整個標籤集的子集作為候選擴展查詢字集,將需要很高的計算成本,我 們將針對以上缺點進行改善。因此探討如何利用資料結構的設計來儲存所需的資 訊,以避免產生過多的擴展查詢字集,即可找出可用性分數前 k 名擴展查詢字集,

是我們研究的重點所在。