• 沒有找到結果。

第四章、 實驗過程與結果討論

4.1 標籤分析

4.1.1 摘要標籤定義

此章節介紹標籤分析,以及如何利用論文資料集來做實驗。這論文資料集內 的每篇文章包括論文的摘要、這篇論文所屬的類別和網路上使用者給這篇論文標 籤;標籤通常是對這些文章分群的重要資訊,因為標籤通常代表文章的關鍵字,

所以這部分是分析要如何使用標籤來輔助論文的分群,讓分群的效果達到最好的 情況。

第五章實驗的部分利用了許多的方法來對這些向量組合方式進行實驗,分析 哪種情況下的組合,使得多數方法會有明顯的效果提升,表示在這種組合的情況 下,能夠達到最好的效果。

3.2 節在介紹論文資料集的取得方式,是從哪些網站收集而來,說明這些網 站所提供的資源,要如何利用這些得知的資源進行查詢,最後是論文資料集的架 構,說明此資料集的結構。

3.3 節在介紹摘要和標籤的組合方式,要怎麼利用這些組合表示一篇文章的 向量,使得分群的效果提升。

4.1.2 論文資料集收集

本論文利用 Microsoft Academic Search1提供的論文資訊進行資料的收集,

在這個網站中有列出每個類別下重要的期刊資訊,如下圖 4-1 所示,圖中 1.是 代表類別 Databases、2.是代表在 Databases 下的期刊名稱。

1 http://academic.research.microsoft.com/

圖4-1:Microsoft Academic Search

從 Microsoft Academic Search 取得每個類別的期刊名稱後,到 CiteULike2 論文網站進行搜尋,搜尋這些期刊的論文清單,如下圖 4-2 所示,利用關鍵字 journal 搜尋 Databases 類別下的“IEEE Transactions on Knowledge and Data Engineering"期刊。

圖4-2:CiteULike期刊搜尋

搜尋之後會有許多的文章,其中一篇的文章格式如下圖 4-3,主要是抓取這

2 http://www.citeulike.org/

23

篇文章的摘要部分以及標籤的部分。

圖4-3:CiteULike期刊格式

我們收集了類別下許多的期刊,每個期刊下又有許多的論文,所以抓下來的 論文資料集會如下圖 4-4 所示,最上層會是類別,中間層會有這類別下的期刊,

每個期刊下有論文文章,然後每篇文章會有摘要和標籤。

本論文此部分目的在研究摘要和標籤要如何組合,會使得每篇論文分到類別 的正確率最好。

圖4-4:論文資料集架構

4.1.3 摘要標籤向量表示 (一)摘要標籤定義

一篇文章包含摘要和標籤兩個部分,標籤通常代表一篇文章的關鍵字或者屬 性,所以理論上,標籤有助於文章的分類。以下討論摘要和標籤要如何以向量表 示,分成下列四種組合方式:

1.只有摘要(Words Only)

字的集合為所有文章中摘要的字,一篇論文用摘要字的集合表示成一個向量,

每一個向量數值表示一篇文章摘要的字出現在字的集合的次數,最後再對此 向量作正規化(Normalize)的處理。

2.只有標籤(Tags Only)

與只有摘要(Words Only)狀況類似,只用標籤來表示文章,標籤的集合為出 現在所有文章標籤中的字,一篇論文即可用此標籤的集合表示成一個向量,

向量數值表示一篇文章標籤的字出現在標籤的集合的次數,最後再對此向量 作正規化(Normalize)的處理。

3.摘要標籤個別比例(Words+Tags)

字的集合為所有出現在摘要中的字,標籤的集合為所有出現在標籤中的字,

摘要和標籤有個別的向量,由個別的集合算出現次數,做正規化(Normalize) 處理時,摘要和標籤向量依不同的比例組合。

4.標籤當成摘要字(Tags as Words)

結合字的集合和標籤的集合為一個新的集合,也就是對這兩個集合取聯集,

標籤的權重為 n,假設一篇論文摘要出現“big"一次,標籤也出現“big",

則 big 這個字在向量中權重為 1+n,最後一樣做正規化(Normalize)處理。

25

(二)摘要標籤例子 字的集合為:a b c d e 標籤的集合為:c f 某一篇文章的摘要:a b 某一篇文章的標籤:c f

以下則為某一篇文章的向量表示方式:

1.只有摘要(Words Only)

a b c d e

vector 0.5 0.5 0 0 0

2.只有標籤(Tags Only)

c f

vector 0.5 0.5

3.摘要標籤個別比例(Words+Tags)

a b c d e c‘ f

vector 0.4 0.4 0 0 0 0.1 0.1

Words+Tags 當比例為 8:2 的情況

4.標籤當成摘要字(Tags as Words)

a b c d e f

vector 0.1 0.1 0.4 0 0 0.4

當標籤權重 n 為 4

相關文件