• 沒有找到結果。

第二章 文獻探討

2.1 社群標籤產生方式與應用

社群標籤產生方式主要可分作專家分類(Taxonomy)及大眾分類(Folksonomy) 兩種。根據[1]提及到專家分類是由專業的人士來定義標籤資源分類的項目,使用 者需要參考這些分類項目,以指定特定的類別去進行標籤標註、搜尋標籤字及其 資料物件內容,因此此方式缺乏大眾所追求對於物件自由標註標籤之理念且專家 與一般使用者對於一個字詞可能有多方解讀,所以容易發生無法符合使用者所需 求的資料之情形;反觀當採用大眾分類則強調讓使用者按照自我觀感去對想要描 述的物件進行下標籤的動作,對於編輯、產生、修改等行為相當容易。

在知名的社群網站平台(e.g. Flickr, del.icio.us)也是使用大眾分類規則來供使 用者任意對於物件進行標註,所以現今考量的重點主要圍繞著如何有效地將這一 些自由標註標籤的資源進行分析討論及應用,希望透過資料物件的標籤分析標籤 語意,將一群的資料物件之摘要資訊顯示出來亦或是用以分類、群聚資料物件來

做處理。並在[2]提及到大眾分類法,一般會擁有三個重要的角色在,分別為資源

(resources)、標籤(tags)、使用者(users),用以做預測分析與討論。因此我們使用大 眾分類(Folksonomy)方式所獲取的標籤資源中,其包含眾多使用者對於資源(資料 物件)給予標籤標記的資訊來作為主要的研究對象。

由於大眾分類法的標籤產生方式比較自由,所以標籤可能在語意上,會有一 詞多義的問行產生。所以在研究上,標籤雲(tag cloud)是常見的一種將一群社群標 籤資源中的主題呈現出來之方式。舉例來說,當我們從社群標籤網站中取得一個 標籤雲,會以不同的字型大小來顯示它的重要性,而這字體大小則是依據頻率出 現的多寡來決定字體大小,也就是說出現頻率高→字體大、出現頻率低→字體小 的視覺化效果,進而判斷對於每一個物件是否具有相關及擁有某種程度上的重要 性存在,此方式是最直覺且容易實現的衡量基準。因此標籤雲可顯示出最主要的 主題為何,使用者可透過選取來得到資料,至於該如何挑選出好的標籤呈現在標 籤雲中是值得研究探討的。[4]將目標設定在如何對一個查詢所得到的結果集合中,

挑選出適合當作摘要結果內容的標籤。作者訂定了許多評估一組標籤集合是否適 合選為標籤雲的評分方法,包含考慮<1> 標籤集合中的標籤涵蓋之資料筆數、<2>

標 籤 集 合 中 不 同 標 籤 涵 蓋 資 料 的 重 複 程 度 、 <3> 標 籤 集 合 中 的 凝 聚 力

(Cohesiveness)-以計算標籤集合中包含這些標籤字的資料物件彼此的相似度值來 表達該集合中的這些標籤字彼此關聯性的高低、<4> 在標籤集合中的標籤與原先 所下查詢字的關聯性以及<5> 標籤集合中的標籤之普及度(Popularity),也就是在

查詢字搜尋結果集合中的出現物件次數等特徵,作者再依不同評估標準提供對應 的演算法,挑選出可幫助使用者了解查詢結果摘要的標籤集。

雖然在選取各項評估方法有多方面的考量,但是大多普遍常見的仍使用到標 籤字之出現次數來當作一種重要特徵。為了與傳統方法以頻率排名方式做比較,

因此[3]提出許多方法以達到標籤雲(tag cloud)查詢方式的效能增進。作者認為除 了利用頻率的方式外,是否仍有其他方法可以有更佳的效果存在,因此作者舉出 了一些策略來實施、比較,包括 <1> 對於出現頻率來挑選標籤,直接計算各個 標籤出現在多少個資料物件中、 <2> TF-IDF 之分數-即統計特定的一個字詞在一 個資料物件中出現的次數,倘若該字詞出現在該資料物件過於頻繁,則該字詞的 重要性也相對降低的設計理念,以及 <3> 將標籤表示成圖形結構中的節點,再 對圖形架構進行 random walk 計算出各節點所對應標籤的重要性,另外也考慮

<4> 標籤間的歧異性(diversity)和 <5> 標籤在物件之標籤列中的排名位置,標籤

的排名愈前面,則分數高,反之分數低。以上所述的五種計算分數方式,來分別 評估各種挑選標籤雲的方法運用在資料查詢、瀏覽、及群組推薦上的效果好壞,

在實驗發現使用歧異性或是標籤出現在標籤列的排名位置相較於以頻率多寡為 考量的方法,有所增進標籤雲查詢方式的效能。

相關文件