• 沒有找到結果。

一、 基於自信息的新穎性

Zhou et al. (2010)提出自信息(self-information)是一個可以用來衡量新穎 性的指標。假設給定一個項目為 a 以及使用者總數 u,則隨機一位使用者選 取到此項目的機率可表示為𝒌𝒂/𝒖,那麼我們可以得到自信息的算法如下:

𝑰𝒂 = 𝐥𝐨𝐠𝟐(𝒖/𝒌𝒂)

上面式子中,𝒌𝒂為選到 a 項目的使用者人數,u 為使用者總數。在符合 one deleted link 的前提之下(Zhou et al. 2010),我們藉由自信息來計算出單一 使用者推薦清單的新穎性𝑰𝒖(𝑳),其中 L 為某位使用者的推薦清單長度。One deleted link 的概念是由某位使用者的 top-N 推薦中,至少要有一筆推薦的項 目能與測試資料集中互相對應,否則該使用者的新穎性則不列入計算。如 此,才能將所有使用者的新穎性加總後取平均,得到整個推薦清單的新穎 性結果𝐈(𝐋)。

二、 基於發現和距離的項目新穎性架構

de Máster, T. F. (2012)提出一個架構來分析使用者和項目之間的三個關 係,分別為:(1)發現(Discovery):一個項目被使用者看過或是對使用者來 說是熟悉的項目。(2)相關性(Relevance):一個項目被使用者所使用、挑選、

選擇、消費或購買等等。(3)選擇(Choice):一個項目被使用者所喜歡、享受 或有用的等等。另外該研究也提出情境的概念,一個通用的情境變數θ,可 以經由不同角度來定義:某個人(目標使用者、一個集合的使用者、所有使 用者)、某個時間點(過去特定的一段時間、正在進行的會話、從來沒有)、

某個地方看過(過去的推薦、現有的推薦、其他系統的推薦、任何地方)。依 據此架構及概念提出了兩種不同的新穎性衡量:

1. 發現為基礎的項目新穎性,其公式為:

nov(i|θ) = 1 − p(seen|i, θ)

一般來說,p(seen|i, θ)表示使用者在 θ 的情境之下,會看到項目的機率。

得到的結果若為高新穎值,表示很少使用者會選擇到的長尾項目,而低新 穎值就是使用者常常選擇到的受歡迎頭項目。Vargas(2014)提到,θ 的定義 取決於我們使用的資料類型,若將θ 作為使用者與項目之間的交互集合,

並且我們使用的資料是由使用者對項目評分所組成,如此就可以使用以下 式子來做計算:

p(seen|i, r)~ |𝐢|

|𝒰| =|{u ∈ 𝒰|r(u, i) ≠ ∅}|

|𝒰|

其中 i 為曾經評過項目 i 的使用者所形成的集合,r(u, i) ≠ ∅為使用者 u 對項目 i 的評分是已知的。

2. 距離為基礎的項目新穎性,其公式如下:

nov(i|θ) = ∑j∈θp(choose|j, θ, i)d(i, j)

j∈θp(choose|j, θ, i)

式子中,p(choose|j, θ, i)表示為當使用者已選擇項目 i,在 θ 的情境之下,

使用者會選擇項目 j 的機率。d(i,j)通常是以 1-sim(i,j)來計算(公式 4),並且 正規化讓所得到的值為 0 到 1 之間。

第肆章 實驗結果

本論文使用三個不同的資料集完成三組實驗,第一組實驗使用

MovieLens 100k 的電影資料集,第二組實驗使用 MovieLens 1m 的電影資料 集,第三組實驗使用 Jester 笑話資料集,我們將這三個資料集的 80%當訓練 集,20%當測試集,做 5 等分交叉驗證。利用 Apache Mahout 提供的工具,

實現項目為基礎和使用者為基礎的協同過濾,並加上 LDA 主題模型實現另 外兩種推薦,分別為結合 LDA 與項目為基礎之 CF 和結合 LDA 與使用者為 基礎之 CF,共四種推薦方法。

最後,我們沒有使用精確度及召回率來衡量推薦的正確性,原因是因為 精確度及召回率通常是用於 0/1(沒購買/有購買)的情境,電影和笑話資料集 具有評分等級上的差異,因此我們使用 MAE 來衡量。除此之外,本論文還 加入多樣性(Diversity)和新穎性(Novelty)指標,希望能由不同構面的指標衡 量,針對其結果來建議使用者選擇較好的推薦方法,讓使用者對推薦感到 更滿意。

相關文件