文獻探討 - 以標籤為基礎之個人化文件推薦

在本章節中，主要介紹本研究相關的文獻，其中包括資訊過檢索、協同過濾推薦法、

內容式過濾推薦法。

2.1. 大眾分類法

大眾分類法(folksonomy)名稱為 Thomas Vander Wal 創造[21]，指群眾自行對照片、

文件、音樂等媒體內容定義關鍵字。許多網站採用標籤標記服務，如：分享書籤網站

「del.icio.us⁴」、相片分享網站「Flickr⁵」、音樂評論網站「GenieLab⁶」。傳統分類法(taxonomy) 由專家或是系統開發者事先對資訊內容進行分類而建立階層式分類架構；而大眾分類法則是使用者為本身需求以自己熟悉的語言標記內容，形成扁平無階層關係分類結構。

大眾分類法滿足用戶視覺偏好以及讀圖心理，較搜尋引擎的輸入框更直接。定義的標籤來自於使用者共同建立，容易取得使用者認同感。不過，由於個人可以使用的詞彙未受控制，加上不同人以各自不同方式標記，因而產生語意含糊[16][23]。另外，群眾對同樣事物存在著各種不同的見解，但隨者定義標籤數量的增加，最後能夠產生數個趨近一致、並且收歛的共識標籤。大眾分類法不盡然是個完美分類方案，表2-1 為其優缺點。

表 2-1 大眾分類法之優缺點

優點缺點

z 具回饋性，創造溝通與分享空間。

z 直接反應使用者需求。

z 可以包含少數人的分類觀點。

z 個人可以任意的詞彙，又因不同人價值觀與認知不一樣，易造成語意模糊。

z 過多詞彙組成一個標籤或者是一句話，如：美食義大利麵捷運站附近。

4 del.icio.us http://delicious.com/

5 flickr http://www.flickr.com/

6 genieLabhttp://genielab.com/

z 以標籤來搜尋，可以挖掘使用者意想不到的資訊內容而增加驚喜感。

z 同義字的困擾，蘋果、麥金塔、麥金塔電腦都是指蘋果麥金塔電腦。

2.2. 資訊檢索

資訊過濾是可用來解決資訊超載問題的有效工具，其運作原理主要是藉由分析使用者行為來獲取其偏好或興趣，進而過濾或篩選出使用者所需的資訊。其概念為根據對使用者特徵檔(user profile)的長期學習模式，自動定義出使用者的資訊需求，找出符合使用者需求的資訊文件[6]。資訊過濾除了應用傳統資訊檢索的技術外，主要著重於使用者特徵檔學習的技術和演算法，以提高資訊需求的正確性及有效性。資訊擷取必須被動地等待使用者下達自行定義的查詢語(query)才能進行後續的分析運算，而資訊過濾則是經過長時間學習使用者特徵檔，以及根據使用者對文件的評分，主動協助使用者找出他有興趣或有需求的相關資訊，進而達到資訊過濾和擷取的效能，這種方法目前已廣泛地應用在知識管理和推薦的系統中。

資訊檢索在文件的應用上非常的廣泛，最終目的是根據使用者的查詢語，找到符合使用者的文件，滿足使用者的資訊需求。目前主要的技術有三種，分別為布林模式 (boolean model)、向量空間模式(vector space model)及機率檢索模式(probabilistic retrieval model)。布林模式是利用三個邏輯運算子 AND、OR、NOT 來比對文件內容，將文件視為一群索引詞，以1 和 0 代表相似度，1 為符合，0 為不符合，也就是說，文件中的索引詞要和使用者所下查詢完全符合才會成為檢索結果。該模式之運作方式上較為簡單、

檢索速度快、可以用不同欄位資料來限定檢索範圍，對主題明確的檢索（如明確的作者名稱、標題名稱）非常有效，然一般使用者比較難以利用此種模式表達較為複雜的查詢。

機率檢索模式是計算文件中出現的關鍵字屬於某類別的機率，若關鍵字未出現在測試文件中則代表不相關，反之則代表相關，再計算相關性，最後分類結果是屬於機率最大的類別。常見分類器有Naïve Bayes 分類器、決策樹分類器、KNN 分類器、TFIDF 分類器等。向量空間模式是將文件內所有詞彙轉換至空間向量，計算關鍵字彼此之間的相似

程度，下一節將針對向量空間模式說明。其中向量空間模式是資訊檢索中較被廣為應用的方法[18]，將文件和查詢語(query)以多維度的向量形式表示，例如，以二維度的方式表達文件，其中包含關鍵字及權重。當使用者透過查詢語找尋資訊時，則比較文件和查詢語之間的相似程度，最後將相似度高的文件以重要性排序的方式或門檻值設定的方式，回饋給資訊需求者。

將一篇文章擷取出重要的關鍵字以表示該文章的內容和屬性，在資訊檢索的領域中 TF-IDF (Term Frequency/Inverse Document Frequency)應用最為廣泛[18]。TF-IDF 概念為字詞在文章中出現的次數，若出現次數愈高，則表示重要性愈大，即中的 TF；字詞在其他文章中出現的次數，若出現次數愈高，則其鑑別率會愈低，即中的 IDF。TF-IDF 的計算方式如下：

i j

i i j i j

i n

TF N IDF TF

W_, = _, × = _, ×log ( 2.1 式)

2.3. 協同過濾推薦方法

最早利用協同過濾推薦方法的是由Goldberg 等學者提出的 Tapestry[5]，目的是過濾電子郵件，透過使用者定義的查詢語，挖掘出符合使用者興趣的電子郵件。爾後，協同過濾推薦方法相關的系統大量地被提出，其中最有名的是GroupLens[9]，主要針對使用者感興趣的新聞進行推薦，有別於 Tapestry 中藉由使用者查詢語定義的過濾方式，

GroupLens 則透過相似鄰居的計算方法，主動地找到具共同興趣的鄰居，以進行新聞的推薦。另外，Siteseer[17]利用相鄰使用者的書籤(bookmark)進行推薦，Knowledge Pump 錯誤! 找不到參照來源。對使用者感興趣之文章進行推薦，Ringo[18]對音樂進行推薦，

其他應用包括電子商務、學術論文等。

協同過濾主要是利用群體觀點來產生推薦項目給特定的個人使用者，故強調的是一種人與人之間的合作，利用過去的歷史記錄，計算各使用者間偏好行為的相似度，找出

喜好相近的鄰居者(neighbors) 並透過這些鄰居者所組成的群組之意見或建議，來產生目

2.4. 內容式過濾推薦法

內容式過濾推薦方法的觀點是個人在面對選擇之時，往往會選擇和印象中接近或是相似的物件，而這些物件會包含個人喜好的特徵。內容式過濾推薦的基礎是先對物品內容的分析而形成物件特徵檔(content profile) ( 2.7 式)，再依據使用者歷史行為記錄建立個人特徵檔(user profile) ( 2.8 式)；當進行推薦時，比對物件與個人特徵檔相似度( 2.9 式)，

2.5. 整合標籤於推薦系統

不少網站已經採用標籤標記服務，也衍生很多其他相關應用，將標籤整合於推薦系統是其中一例。標籤最常見用於改善使用者相似度計算[14][15]。另外也有將標籤與物件內容進行分群以進行推薦[19]。Shiwan 等學者藉由 WordNet 建立標籤語意以計算標籤語意相似度來改善尋找相似鄰居[26]。Nakamoto 等學者提出演算法的雛形未進行實驗，

利用標籤改善尋找相似鄰居；同時，求出鄰居之所有標記物件與推薦候選物件相似度之最大值作為鄰居對此推薦候選物件之評分。爾後，該名學者又進行改良，以 ded.icio.us 網站為實驗資料，先蒐集部分資料當作訓練資料，利用EM 演算法切割出 100 主題領域，

計算每個網站在各個主題領域的比重，以及每名使用者使用的標籤在各個主題領域的比重，以改善推薦品質[14]。

Andriy 等學者以標籤結合分群概念進行推薦。其概念如圖 2-1，將單一使用者的標籤進行分群，然後對全部使用者所產生的標籤進行分群；接著藉由全部使用者所產生的標籤分群把推薦項目與使用者連起來[19]。上述研究都假設標籤為相同意義，沒有區分相同標籤在使用者間會具有不同意義。

圖 2-1 應用標籤於推薦之分群技術概念

在文檔中以標籤為基礎之個人化文件推薦 (頁 14-20)