第二章 文獻探討
2.4 總結
國
立 政 治 大 學
‧
N a
tio na
l C h engchi U ni ve rs it y
10
本研究也使用了 Hyuk Cho 等人所提出的兩種計算方式進行實驗。使用該演算法需要先輸 入矩陣資料集欲取得的行與列 Cluster 數量,使用 Batch Iterative Algorithms,利用所提的 兩種方法,先計算 Column 的 Cluster,再計算 Row 的 Cluster,直到收斂為止,最後輸出 行與列的分群。
2.3 如何使用 Co-Clustering 做推薦系統
現今,Co-Clustering 在演算法的開發及應用上受到關注,研究範圍相當廣,其中較廣 為人知的,是在癌症基因上的研究。除了在醫學方面的研究外,Co-Clustering 也被使用在 其他的研究,例如推薦系統。研究[9]就是以加權 Co-Clustering 演算法,在做推薦預測時,
同時考慮到使用者和推薦項目的個人偏見,該研究並提出一個新的協同過濾推薦方法。而 [10]則是結合了協同定位建議(Collaborative Location Recommendation)的框架做推薦。研究 [a55]運用協同過濾推薦系統,同時結合了使用者喜好進行推薦演算法、廣告的受歡迎程度 進行推薦演算法與考慮擴充矩陣的雙分群演算法,顯示出在缺乏已知資料的議題上能藉由 同時應用多重矩陣之間的資訊而能夠產生更佳的結果。
2.4 總結
總結上述討論,整理了表 1。如下,橫軸表示推薦系統的應用,縱軸則呈現其使用技 術,依照類別在以下各小節做說明。
‧
在電影相關研究中,有許多是以 MovieLens 或 NetFlix 的資料來做實驗。
MovieLens(http://grouplens.org/datasets/movielens/)是由美國明尼蘇達大學電腦科學與工程 學系的 GroupLens 研究小組,針對研究用途所提供之網站的電影評分資料。NetFlix 公司 是一家網路串流媒體的供應商,在 2007 年舉辦了一個 Netflix Prize 的競賽
(http://www.netflixprize.com/),利用客戶的資料,希望能找出最好的影片推薦方法,2009 年九月,由 BellKor’s Pragmatic Chaos 團隊拿下了首獎。然而,由於隱私權問題備受爭議,
NetFlix 公司已在 2010 年取消這個比賽13。
以協同過濾方法做研究,使用 MovieLens 資料的文獻如[11],對 Apache Mahout 實作,
使用的 Mahout Distributed Item Base Recommendation System 進行分析,修改的該實作中花 費較多執行時間的 Similarity Matrix 計算部分進行修改,實作出兩個 Distributed
13資料來源:http://en.wikipedia.org/wiki/Netflix
‧
Performance 和 Accuracy 的表現都優於原系統。[12]提出一個新的方法於動態協同過濾法 (Dynamic Similarity Collaborative Filtering,DSCF)上,衰減人與人之間的相似度,並比較 預測值與實際值的結果,讓每個使用者在不同時間點,都有適合個人的相似度衰減值。實 (Statistical Attribute Distance,SAD)的 Multi-Tier Granule Mining Algorithm 方法,提出一個 回饋推薦機制架構在協同過濾器下的推薦系統。[18]是在 CF 框架下,透過實驗,在不同 的組合中發現,使用結合個人的資訊和社群的意見,能產生更好的推薦。[17]分析了不同 的基於項目(Item-Based)的推薦演算法,透過實驗使用不同的技術(Basic Cosine/Adjusted Cosine/Correlation)來計算項目項相似之處並做評估,與基本的 K-Nearest Neighbor 方法比 較,發現基於物品(Item-Based)的算法比基於用戶(User-Based)的算法,有更好的性能。[20] 驗使用 Bayesian Learning 和 Decision Tree Learning 方法,發現基於案例推理(Case-Based) 能夠提供比由專家使用以規則基礎(Rule-Based)的預測更加準確,並且可以擴充系統。[24]
‧ 國
立 政 治 大 學
‧
N a
tio na
l C h engchi U ni ve rs it y
13
則是使用 Compaq Systems Research Center 提供的 EachMovie1 資料,採用基於內容的預測,
使用 Neighborhood-Based Algorithm 以加強現有的使用者資料,然後透過協同過濾,使用 Bag-Of-Words Naive Bayesian Text Classifier,提供個性化建議。
[19]使用了 MovieLens 的資料,提出兩個方法,一為考慮個別商品內容差異性的協同 過濾推薦技術,解決傳統協同過濾技術不考慮商品異質性的缺點,研究結果顯示,可以提 高準確度,另一個則是結合傳統協同過濾技術的混合方法,其實驗顯示該方法可以達到與 傳統協同過濾技術相同的可預測涵蓋範圍,且有較佳的推薦效果。
[25]提出了一種歸納學習方法(Inductive Learning),即能夠同時使用評比的資訊和其他 形式的資訊,預測用戶的偏好。
2.4.2 景點/餐廳
推薦系統文獻中,也有以地點相關做的研究。例如[26]使用協同過濾方法,採用公式 計算使用者之間的興趣相似程度,配合各相對年齡層做不同權重值分數評價調整,以花蓮 為主要推薦旅遊景點,並且嵌入 Google Map API 作為旅途路徑規劃,是一套景點查詢及 規劃旅遊行程之整合型推薦系統。[10]提出了協同定位建議(Collaborative Location
Recommendation(CLR))的框架做推薦。在推薦過程中考慮了活動(例如:喜好)和不同的使 用者類別(例如:一般使用者或旅行中的使用者),CLR 能夠產生更精確和完善的建議。此 外,CLR 採用動態分群演算法 CADC,當新的 GPS 軌跡資料產生時,可以有效的將資料 做分類,該研究也證明的 CLR 的方法較一般方法更能提出精確的推薦。
在內容過濾的基礎下,[27]使用 Facebook 建構了一個即時餐飲商店推薦系統,以機器 學習法,在多為空間中以分群法,推薦適合的餐飲商店。
‧ 國
立 政 治 大 學
‧
N a
tio na
l C h engchi U ni ve rs it y
14
[28]提出一個以標籤為基礎之混合式推薦系統,資料採用於文化資產與歷史古蹟資料 庫,建議適合使用者參訪的景點和觀覽路徑。[29]使用一種新的方法 EntreeC,結合了基 於知識(Knowledge-Based)推薦和協同過濾(Collaborative Filtering),使用 KDD 資料庫中的 Entrée 資料,做餐館的推薦。
2.4.3 電子商務
電子商務方面,使用協同過濾方法的研究如[30],該研究以一著名的網路音樂 CD 販 售網站 Joy Audio (http://www.joyaudio.com.tw/)為例,先將音樂進行屬性建置成模糊語意知 識庫,收集買方每次的音樂採購偏好,開發出音樂推薦系統的雛形。研究使用歐幾里德距 離(Euclidean Distance)公式計算離異度,結果顯示,使用模糊語意法進行產品推薦之動作,
可提供使用者在音樂產品上做良好的選擇。[31]根據一個音樂推薦系統 RINGO(A
Personalized Music Recommendation System),利用其網站使用者資料,並使用四個演算法 進行實驗,發現 The Constrained Pearson R Algorithm 表現最好。[32]使用自動產生評比的 機制,利用使用者的網頁瀏覽紀錄,由實驗觀察,發現該研究所使用隱藏式評比(Implicit Rating)之協同過濾機制所得之結果較前人研究使用明顯是評比(Explicit Rating)的結果佳。
[33]不同於傳統兌換商品的系統,將網頁伺服器及資料庫和網路作結合,並加入協同過濾 推薦機制及個人化的技術,透過分析每位消費者察看及兌換商品的紀錄,找出其個人的偏 好,並為其建立一個專屬的個人化推薦機制。[34]探討 Amazon 網站使用 Item-To-Item Collaborative Filtering 推薦的方法與技術。
使用內容過濾法的研究如[35],該研究探索電子商務模型,透過問卷調查方式了解線 上消費者的行為,運用資料探勘決策樹方法,去探索蒐集到的問卷資料,並將商品推薦分 為「一般商品推薦」及「互補商品推薦」計算模型,計算消費者對商品的喜好,進而推薦 商品給使用者。[36]探索基於內容過濾的書籍,透過應用自動化的文本分類方法,從網上
‧ 國
立 政 治 大 學
‧
N a
tio na
l C h engchi U ni ve rs it y
15
摘錄的半結構化文本,使用 LIBRA,提取網頁在 Amazon.com 的圖書資料庫,使用標題內 容的 Meta-Data,而不是圖書本身的實際文本,使用 Bayesian Learning 法,產生的最值得 推薦的結果。
混合式推薦的研究,則有[37],該文提出了一個混合推薦系統,結合了協同過濾和 Knowledge-Based 的方法,說明可以結合各種知識庫來做推薦系統。[38]則是結合協同過 濾和基於內容的方法,提出一種新的混合推薦系統,使用 Music Machines 的資料,透過實 驗證明新的方法比使用基於內容的建議或協同過濾推薦算法,更準確的預測和更適當的建 議。
2.4.4 文本資料
推薦系統的文獻中,也有與文本資料相關的研究,[39]以協同過濾方法,使用銘傳大 學網路虛擬教室網站上的專家系統課程學生瀏覽記錄,提出階段式向前序列與興趣向量來 做為隱性評比的方式,並使用多種常見的相似度計算方式做實驗,比較其對推薦準確率的 效能。
使用混合式推薦方法的研究,如[40],該研究提出一個混合式的文件推薦方法,使用 Digg.com 的資料,結合了共同興趣使用者的喜好與使用者原本的喜好來做推薦,第一階段 將使用者原本的喜好藉由協同過濾來拓展使用者的喜好,第二階段則是從拓展的喜好建立 使用者對文件字詞的喜好,再利用潛在語意檢索提高推薦結果的準確率,結果顯示該研究 所提的方法在實務上更具實用性。[41]提出一套個人化的學習系統,將學習測驗結果,應 用電腦適性化中試題反應理論,與學習歷程結果及問卷調查的個人偏好作為參考依據,來 做英文文章的推薦,幫助學習者增進興趣及學習效率。在[42]當中,使用 Fab
System(Stanford University Digital Library Project),自行蒐集使用者看過的文件當作測試資 料,推薦其感興趣的文件。
‧ 國
立 政 治 大 學
‧
N a
tio na
l C h engchi U ni ve rs it y
16
2.4.5 健保
推薦系統研究,也有與健保相關的論文,如[43],該研究以內容過濾方法,結合資料 探勘的技術,使用決策樹做分類,開發營養資訊輔助推薦系統,將結果交由執行系統決策 的營養師,進行評估做決定,並結合雲端運算的技術,讓使用者可在任何時間、地點使用。
而[44]則是藉由患者知識本體的架構建立患者項目,利用多準則方法,將重要性的熵 量度運算將資料的用藥程度作出計算,使用藥品知識本體座結合排序並推薦適用的藥品類 型。
2.4.6 社群網路服務
社群網路服務方面,利用協同過濾方式的研究,[45]結合 Facebook API 自行收集實驗 資料,取得 135 使用者樣本資料,並分析使用者的社會網絡,經由分析社會網絡中成員的 偏好,運用正規概念分析(Formal concept analysis,FCA)關聯矩陣理論進行資料分析,預測 使用者的潛在興趣。[46]使用協同過濾推薦系統,結合基於使用者的喜好、及基於廣告受 歡迎程度,並考慮擴充矩陣的共分群演算法,該研究實驗的資料來源取自一個 Financial Social Web-Site - Ad$Mart,結果顯示出在缺乏已知資料的議題上能產生更佳的處理結果。
[47]使用 Facebook 的資料,結合 Co-occurrences Relationship 和 Mutual Friend
Relationship,提出一個新穎的方法來對人臉標註做推薦,有別於其他方法中單純分析照片 上傳者在社群網站中與其他人的關係,該研究考慮了欲被標註的那群人臉之間的群組關係。
2.4.7 手機應用程式
‧ 國
立 政 治 大 學
‧
N a
tio na
l C h engchi U ni ve rs it y
17
在智慧型手機發展下,手機應用程式的推薦研究,大多以協同過濾為基礎。如[48]提 出一個 AppFunnel,利用 App 安裝的次數、使用者是否使用過此 App、使用 App 的時間
在智慧型手機發展下,手機應用程式的推薦研究,大多以協同過濾為基礎。如[48]提 出一個 AppFunnel,利用 App 安裝的次數、使用者是否使用過此 App、使用 App 的時間