標籤聚落分析

第二章文獻探討

2.3 標籤聚落分析

標籤資源的分群與文件分群的目的相同，都是希望經由自動化整理資源以達到讓使用者可以更有效率的瀏覽或增進搜尋的效果，而標籤雲是近來熱門的一種標籤聚落呈現方式。以下依序介紹標籤雲的建立及其用在輔助標籤查詢的相關研究。

<1>. 標籤雲的建立

標籤的視覺化適合於使用者進行標籤資源的資訊瀏覽、分類資料物件及摘要整理。特別是標籤雲(Tag Cloud)在部落格、照片分享網站(Flickr)、書籤分享網站

(Del.icio.us)及搜尋引擎等等都已開始被廣泛利用。

根據論文[15]之定義，標籤雲的目的是對某一群資料物件呈現最相關的且最重要的標籤，通常是根據標籤出現的頻率來挑選，再利用標籤的大小、權重、顏

色等文字屬性作為呈現相關字詞的特徵。標籤雲採用簡單的視覺化圖形來表達內容主題的索引，可以由字體的大小看出其占整體的熱門程度，標籤雲之範例如圖

2. 1 所示，而標籤雲的標籤選擇以及如何利用標籤雲來引導瀏覽是近來很受關注的研究議題。

圖 2. 1 以 Web2.0 為主要關鍵字的標籤雲

論文[13]認為標籤雲適合於對標籤資源進行摘要整理跟瀏覽，但目前並沒有太多有關如何選擇好的標籤形成標籤雲的討論。因此作者針對此議題提出許多形成標籤雲的評估方法，例如考慮標籤雲中標籤之間的涵蓋資料筆數(Coverage)、

重複程度(Overlap)、相關性(Relevance)等，且對不同的評估方法提出對應的演算法找出標籤雲。

論文[14]則針對以出現頻率作為排序挑選標籤是否為最適合的方法進行實驗，提出許多對標籤進行排名的方法，例如考慮標籤間的出現頻率(Frequency)、

多樣性(Diversity)、在標籤圖形上採用隨機漫走(random walk)方法計算出標籤重

要性等，並評估這些方法所形成的標籤雲用來進行資料搜尋、瀏覽及推薦時的效果。

<2>. 輔助標籤查詢

在標籤系統進行搜尋跟瀏覽時，常受到標籤語法表示的差異、同義字、多義字等影響查詢效果，因此[11]提出語意標籤聚落查詢方法來解決這些問題。此方法主要分成三個步驟，首先綜合考量標籤之間的正規化 Levenshtein 距離及餘弦相似度值計算出其相似程度值，再將相似度高的標籤聚合在一起以解決標籤語法上變化的問題。關於產生語義標籤聚落的方式，先將每個標籤都自成一個群集，

若該群集中各標籤與出現物件所形成的特徵向量之餘弦相似度值大於設定門檻值則加入此群集，之後再進行群聚的合併以減少不同群集有重複標籤的情況。最後依所產生出的群聚結果提供一個查詢系統，供使用者在以查詢標籤進行搜尋時，

提供包含查詢標籤的語意群集供使用者選擇，避免搜尋結果包含不同語意的資料。

許多網站的標籤雲標籤都以超連結的方式呈現，供使用者瀏覽時發掘相關感興趣的議題或快速連結到相關的主題。論文[18]提出一個名為 P2P Wikipedia 的系統，利用 Text2Tag 工具從 Wikipedia 文章中擷取重要關鍵字形成標籤，並將這些相關資訊上傳到一個點對點(peer-to-peer)的分享架構 Tribler 中建立瀏覽系統。

在此系統中，當使用者給定查詢後，系統將產生一組標籤雲來引導使用者瀏覽維

基百科網站的內容，且允許使用者藉由滑鼠選擇不同的關鍵字動態產生不同的標籤雲，且提供一些個人化的選項，例如最受歡迎的標籤、最近使用過的標籤等。

論文[19]則針對網路電台”last.fm”中使用者的使用行為產生主題模型，利用標籤雲的方式進行音樂推薦，此研究亦依據使用者動態點選推薦標籤雲的內容自動修改查詢，使搜尋結果更符合使用者需求。

在文檔中社交標籤系統中瀏覽式標籤推薦查詢之研究 (頁 19-23)

第二章 文獻探討

2.3 標籤聚落分析

第二章文獻探討