• 沒有找到結果。

以興趣關聯圖為基礎之推薦系統研究

N/A
N/A
Protected

Academic year: 2021

Share "以興趣關聯圖為基礎之推薦系統研究"

Copied!
96
0
0

加載中.... (立即查看全文)

全文

(1)

摘要

摘要

摘要

摘要

本研究應用社會網路的概念於推薦系統,將興趣之間的共有關係轉成類似 社會網路的「興趣關聯圖」,然後以興趣關聯圖上不同興趣之間的連結強 度作為以興趣推薦興趣的依據。本研究的主要目的為確認此種以興趣關聯 圖為基礎的推薦系統的可行性,同時比較此方法在即時性與動態系統上相 對於一般推薦系統的優勢。 當某人同時喜愛兩個興趣,則二興趣間即產生關聯;透過多組興趣與多人 的搭配重複此關聯動作,由此過程建立興趣關聯圖。利用興趣間的關聯強 度給予使用者推薦之後,一方面計算擊中興趣個數占推薦興趣個數的比 例,此值表示關聯圖預測興趣的精確程度;二方面則計算擊中興趣個數占 使用者實際選擇興趣個數的比例,此值可反應使用者回應推薦系統的程 度、即回應率;經衡量精確程度與回應率,本研究以精確程度與回應率來 判斷系統之可行性。 本研究認為以興趣關聯圖為基礎的推薦系統其即時性可透過動態系統演 算法達成,經此過程而解決一般推薦系統需定時更新推薦內容之疑慮,隨 時更新系統推薦伴隨的優點則是使用者因此而得到最新推薦,或可提升推 薦系統品質與使用者之信任。其次影響的是改善推薦系統效率,動態系統 允許時時刻刻檢視系統內部興趣關聯圖的現況與更新,使得推薦系統既可 時時處於運算狀態、同時也可視為時時處於備妥狀態,只等使用者輸入嗜 好即可判別所應輸出之結果。 根據以上理由,本研究提出的以興趣關聯圖為基礎的推薦系統,的確可行 且較傳統推薦系統有其局部優勢。 關鍵字 關鍵字 關鍵字 關鍵字::::興趣關聯圖興趣關聯圖興趣關聯圖、興趣關聯圖、、、推薦系統推薦系統推薦系統、推薦系統、社會網絡、、社會網絡社會網絡社會網絡、、、協同過濾、協同過濾、協同過濾協同過濾、、動態系統、動態系統動態系統動態系統

(2)

Abstract

By applying the concept of social network into recommendation system, we convert the relationships between interests into ‘Interest Map’, just as the social network looks like. According to the association strength, the system could recommend users interests from interests. The goal of study is to verify if the recommendation system based on Interest Map is feasible, and to compare the relative advantages of immediate computation, and dynamic system over the general recommendation systems.

The relationship between two interests, here we call it association, is built when someone likes these two interests at the same time. Repeating the process of association-building, we make Interest Map. After recommendation, which is selected from the strongest strength of associations, we compute the precision rate and recall rate to verify if the recommendation system based on Interest Map is feadible.

Our study suggests that the feature of immediate computation is achieved by the dynamic algorithm, and meets the need of routine update of the general recommendation systems. By this process, users could get the newest recommendation at any time, and may enhance the recommendation and user trust. Besides, dynamic system improves the efficiency of recommendation system. The feature of dynamic system allows the recommendation system to check the Interest Map inside and update in time, and makes the recommendation system at a prepared condition to response users’ request.

Owing to the reasons above, the recommendation system based on Interest Map is feasible and has some relative advantages over the general recommendation systems.

Keywords: InterestMap, Recommendation System, Social Network, Collaborative Filtering, Dynamic System

(3)

誌謝

誌謝

誌謝

誌謝

一日為師,終身為父;由衷感謝指導教授楊千老師。 兩年來感於老師在人生指引與學術指導的啟發,實獲益匪淺,使學生得以 初窺智慧之門、增加探索未知的勇氣;感謝老師耐心地容許學生的無知與 放肆、感謝老師持續澆水使學生茁壯。 感謝院長毛治國教授對學生的照顧;感謝同為楊門的博士班學長盧文民、 劉顯仲與湯凱喻,三位學長給予許多學業內外、非常重要的協助與建議; 同時,感謝陳光華教授與 EMBA 學長們於論文過程的督促與砥礪。 本論文的完備更要感謝給予意見的胡均立教授、曾芳代教授與兩位熱心且 專業的口委,國防大學傅振華教授及中央大學洪秀婉教授。 朋友永遠是我最堅實的後盾:呂昀芳同學教我輕鬆使用 excel、顧家盛同學 教我解讀 SAS 結果、資工所廖哲瑩同學協助 C 程式與 Perl 程式寫作、台 大資管所蕭舜文同學、蔣耀毅學長與政大企研所陶哲仁同學協助論文更加 通暢。 生活上,感謝經管所助理(王小姐、廖小姐、謝小姐、蕭小姐、戴小姐)及 所有經營管理研究所的同學與親愛的好朋友們,允許我各式各樣天馬行空 的言行舉止;倘若缺少你們的陪伴,天空就不再湛藍、我就不再是我。 最後,深深感謝我的家人。父兼母職的父親與早熟的弟弟,都是我最堅強 的支柱、每天活力的泉源;謝謝你們,我最愛的家人。 實在很想只用一句話把所有的感謝傳達到每位收件者手中,不意還是這麼 長一串。謝謝,給所有與我度過這段時間的每一個你。 陳怡如 謹誌 國立交通大學經營管理研究所 中華民國九十六年七月

(4)

目錄

目錄

目錄

目錄

摘要 ... i Abstract... ii 誌謝 ... iii 目錄 ... iv 表目錄 ... vi 圖目錄 ... viii 第一章 緒論... 1 1.1 興趣關聯應用廣泛... 1 1.1.1 電子商務時代來臨之前 ... 2 1.1.2 電子商務時代到來 ... 2 1.2 推薦系統影響電子商務銷售之途徑... 2 1.3 電子商務推薦系統實例 ... 3 1.4 本文架構 ... 4 第二章 文獻探討 ... 5 2.1 推薦系統實務... 5 2.2 推薦系統之主流演算法 ... 7 2.2.1 協同過濾原型... 8 2.2.2 社會網絡原型...11 2.2.3 比較協同過濾原型與社會網絡原型 ... 13 2.3 協同過濾推薦系統... 13 2.3.1 項目導向演算法 ... 14 2.3.2 使用者導向演算法 ... 15 2.4 推薦系統之特性... 16 2.5 社會網絡 ... 16 2.6 興趣關聯圖 ... 18 第三章 研究目的 ... 20 3.1 相似性 ... 20 3.2 準確度 ... 21 3.2.1 評估觀點... 22 第四章 資料蒐集與建立模型 ... 23 4.1 第一階段:問卷蒐集 ... 23 4.1.1 問卷設計... 23 4.1.2 問卷發放與填寫 ... 23

(5)

4.1.3 問卷回收與整理 ... 24 4.2 第二階段:建立興趣關聯圖 ... 25 4.2.1 推薦系統實作資訊 ... 30 4.3 第三階段:測試推薦系統 ... 39 第五章 研究結果 ... 45 5.1 嘗試解決之問題... 45 5.2 實驗方式 ... 45 5.3 準確度評估過程... 46 5.4 實驗結果 ... 47 5.4.1 全部樣本之實驗結果 ... 47 5.4.2 男性樣本之實驗結果 ... 53 5.4.3 女性樣本之實驗結果 ... 59 5.4.4 測試檢驗結果... 65 第六章 結論與建議 ... 74 6.1 特點與改良 ... 74 6.2 結論... 75 6.3 研究限制 ... 76 6.4 未來研究之建議... 77 參考文獻 ... 78 附錄一 ... A-1 附錄二 ...B-1 附錄三 ...C-1

(6)

表目錄

表目錄

表目錄

表目錄

表 1 十八組樣本數目 ... 24 表 2 樣本整理三個階段 ... 45 表 3 不分性別之樣本、單一興趣類別圈選限制為 1~8 項之結果... 47 表 4 不分性別之樣本、單一興趣類別圈選限制為 1~7 項之結果... 48 表 5 不分性別之樣本、單一興趣類別圈選限制為 1~6 項之結果... 49 表 6 不分性別之樣本、單一興趣類別圈選限制為 1~5 項之結果... 50 表 7 不分性別之樣本、單一興趣類別圈選限制為 1~4 項之結果... 51 表 8 不分性別之樣本、單一興趣類別圈選限制為 1~3 項之結果... 52 表 9 男性樣本、單一興趣類別圈選限制為 1~8 項之結果 ... 53 表 10 男性樣本、單一興趣類別圈選限制為 1~7 項之結果 ... 54 表 11 男性樣本、單一興趣類別圈選限制為 1~6 項之結果... 55 表 12 男性樣本、單一興趣類別圈選限制為 1~5 項之結果 ... 56 表 13 男性樣本、單一興趣類別圈選限制為 1~4 項之結果 ... 57 表 14 男性樣本、單一興趣類別圈選限制為 1~3 項之結果 ... 58 表 15 女性樣本、單一興趣類別圈選限制為 1~8 項之結果 ... 59 表 16 女性樣本、單一興趣類別圈選限制為 1~7 項之結果 ... 60 表 17 女性樣本、單一興趣類別圈選限制為 1~6 項之結果 ... 61 表 18 女性樣本、單一興趣類別圈選限制為 1~5 項之結果 ... 62 表 19 女性樣本、單一興趣類別圈選限制為 1~4 項之結果 ... 63 表 20 女性樣本、單一興趣類別圈選限制為 1~3 項之結果 ... 64 表 21「不同性別之推薦精確程度與使用者回應率差異」之變異數分析(P-value) ... 65 表 22「不同性別之推薦精確程度」之平均值... 66 表 23「不同性別之使用者回應率差異」之平均值 ... 66 表 24「不同圈選限制條件之推薦精確程度與使用者回應率差異」之變異數分析 (P-value)... 67 表 25「全部樣本針對不同圈選限制條件之推薦精確程度」之平均值 ... 68 表 26「男性樣本針對不同圈選限制條件之推薦精確程度」之平均值 ... 68 表 27「女性樣本針對不同圈選限制條件之推薦精確程度」之平均值 ... 69 表 28「全部樣本針對不同圈選限制條件之使用者回應率差異」之平均值... 70 表 29「男性樣本針對不同圈選限制條件之使用者回應率差異」之平均值... 70 表 30「女性樣本針對不同圈選限制條件之使用者回應率差異」之平均值... 71 表 31「不同訓練與受測樣本分佈之推薦精確程度與使用者回應率差異」之變異

(7)

數分析(P-value) ... 72 表 32 精確程度因訓練與受測樣本分佈細緻程度而不同之平均值 ... 72 表 33 回應率因訓練與受測樣本分佈細緻程度而不同之平均值... 73 表 34 全部樣本依圈選限制條件與等分後,測試樣本數之上下限 ...C-1 表 35 男性樣本依圈選限制條件與等分後,測試樣本數之上下限 ...C-1 表 36 女性樣本依圈選限制條件與等分後,測試樣本數之上下限 ...C-2

(8)

圖目錄

圖目錄

圖目錄

圖目錄

圖 1 本研究架構圖 ... 4 圖 2 現行推薦系統架構圖 ... 5 圖 3 協同過濾模型示意圖 ... 9 圖 4 協同過濾模型矩陣 ... 9 圖 5 協同過濾模型推薦過程示意圖 ... 10 圖 6 協同過濾模型推薦過程之矩陣 ... 10 圖 7 個體分散之社會 ...11 圖 8 關係連結之社會 ... 12 圖 9 網絡分群之社會 ... 12 圖 10 準確度(accuracy)之集合示意圖 ... 21 圖 11 興趣關聯圖之兩層示意圖 ... 25 圖 12 建立〈人—嗜好〉連結... 26 圖 13 投影〈人—嗜好〉連結轉為〈嗜好—嗜好〉連結 ... 26 圖 14 各項目層之〈嗜好—嗜好〉連結投影於總和項目層... 27 圖 15 總和項目層(興趣關聯圖)連結強度示意圖 ... 29 圖 16 以興趣為基礎之推薦系統實作程式之 UML 案例圖... 31 圖 17 以興趣為基礎之推薦系統實作程式之 UML 案例情境... 32 圖 18 以興趣關聯圖為基礎之推薦系統實作程式之 UML 詳細案例圖 ... 34 圖 19 以興趣關聯圖為基礎之推薦系統實作程式流程圖(一) ... 35 圖 20 以興趣關聯圖為基礎之推薦系統實作程式流程圖(二):核心概念... 36 圖 21 以興趣關聯圖為基礎之推薦系統實作程式流程圖(二):產生推薦... 37 圖 22 以興趣關聯圖為基礎之推薦系統實作程式流程圖(二):準確度計算... 38 圖 23 已建置之興趣關聯圖... 39 圖 24 依據模型給予推薦之過程... 40 圖 25 以「文藝片」為主、內含全部嗜好之興趣關聯圖 ... 41 圖 26 以「文藝片」為主、各類取少數嗜好之興趣關聯圖... 42

(9)

第一章

第一章

第一章

第一章 緒論

緒論

緒論

緒論

現實社會中每個人都有不同類別的興趣,甚至在同一興趣(interest)類別中 也還有多項嗜好(taste)。就像有些人表示最喜愛的料理是中式料理,但依 然會在某些特別的聚會時間選擇和朋友一起享受日式燒烤;就像小學生養 了魚,仍會興沖沖地想再多養一隻貓、一條狗;身邊也不乏朋友休閒時喜 歡上網找人聊天、但也可能寧願選擇獨處聽音樂……;有些大男孩既喜歡 和同學在戶外打籃球、也同時喜歡窩在宿舍打打電動。 人們總是習慣性地有刻板印象。 通常我們會假設年輕人喜歡動感舞曲;又會繼續假設相對於老年人,年輕 人是更喜歡吃速食快餐的群體。反之,總會認為喜歡台語歌曲的人相對觀 念上喜好傳統、甚至認為這群人理應是年長者,而年長者似乎不像年輕人 般地喜好速食快餐,也許他們喜歡吃的是傳統的中式料理、以便慢慢品味 食物的原味。 上面的情境是否覺得相當熟悉?或者說,不否認地,如此推理過程似乎言 之成理,事實上也常常發生於日常生活之中。其實,上述這些種種假設, 雖然可以透過統計迴歸的方式解釋其關係;但在實務操作上,尤其是在每 人每天所經驗的、各式各樣的買方與賣方市場中,所需要的是更加直覺、 更為實用的一套邏輯。 基於此等理由,本研究欲藉由興趣關聯圖,以視覺化的方式引入社會網絡 的概念,呈現日常生活慣用的「直覺與連結」;因此研究以興趣關聯圖為 基礎之推薦系統為本研究之主軸。

1.1 興趣關聯應用廣泛

興趣關聯應用廣泛

興趣關聯應用廣泛

興趣關聯應用廣泛

一家經營中式料理的餐廳,如果在店內播放動感舞曲,似乎與所欲帶給消 費者的印象不太協調;相對地,經常在麥當勞裡消費的族群,倘若總是在 麥當勞裡聽到古典音樂可能也會感到些微地不自在。透過這樣的預期心 理,實際上,興趣關聯在生活上的種種應用比我們想像中的更廣泛。

(10)

1.1.1 電子商務時代來臨之前電子商務時代來臨之前電子商務時代來臨之前電子商務時代來臨之前

站在類似百事達這樣的影音出租服務店的立場而言,自然希望每一位上門 的消費者離開時所帶走(租)的影片,比當初踏進店門時計畫的更多,也因 此曾經短暫地使用店內自助式服務亭(in-store kiosks),這類服務亭將依據 會員過往消費的紀錄,提供影音推薦(Ansari, Essegaier, &Kohli,2000);如 果消費越多,影音出租服務店的收益也越高。 再例如,Levis 服飾店則希望:原本入門時消費者只想購買一條牛仔褲, 當他離開門市時多消費一件風格相似的上衣。對賣方來說,消費者每增加 消費一單位,賣方就因此增加一筆收益。 當然,興趣關聯的概念並不只應用於商業範疇;尤其在這個越來越傾向晚 婚的社會裡,婚友社藉由媒合興趣相似的男男女女而存在,透過以興趣為 基礎、協助男女雙方發展感情,這正是婚友社存在的利基與所創造的價值。 1.1.2 電子商務時代電子商務時代電子商務時代電子商務時代到來到來到來 到來 自從 1990 年代電子商務興起之後,賣方尤其需要花費心思猜測買方屬性、 與商品屬性的連結、甚至交易過程,希望透過屬性瞭解消費者與商品之間 的關係,最終目的依然是希望能夠盡可能準確地預測買方的購買行為。 即便是在電腦另一端的買方,也因為網路環境所能給予的資料太繁雜、使 得對於「滿足慾望」的需求更加強烈;此「慾望」是希望有人瞭解消費者 心目中想得到的產品或服務1,而非任由消費者獨自無助地在瑣碎的資料中 漫無目的地翻找。

1.2 推薦系統影響電子商務銷售

推薦系統影響電子商務銷售

推薦系統影響電子商務銷售之

推薦系統影響電子商務銷售

之途徑

途徑

途徑

途徑

推薦系統得透過以下三種方式,影響電子商務的銷售狀況(Schafer, Konstan, &Riedl,1999): 1 本研究之商品(item)意涵產品(products)與服務(services);並同時將 item 視為品項以順暢語意。

(11)

1、 瀏覽者成為購買者:鮮少有經常瀏覽網路商店卻不購物的使用者;Jeff Bezos(Amazon.com 的執行長)曾說過這樣一段話「If I have 2 milliom customers on the Web, I should have 2 million stores on the Web.」正說明 他對於網路購物的信心。

2、 交叉銷售:情境就如同放在便利商店收銀機旁的口香糖,推薦系統也

可以在網路消費者結帳前,依據購物籃中已選擇的商品決定推薦何種 內容的商品(Linden, Smith, &York, 2003);得宜的推薦系統將使消費總 額增加。 3、 忠誠度:Griffin(1995)認為顧客忠誠度表現的具體表現是重複購買的行 為;換言之,如果只消費一次便不再上門的消費者不被認為具有忠誠 度。 從以上三方面,不難發現經由各式各樣的方式,從表面的消費者購買行 為、到深層的暗示性廣告,推薦系統針對消費者與廠商進行滲透、並改變 雙方之間的買賣模式。

1.3 電子商務推薦系統實例

電子商務推薦系統實例

電子商務推薦系統實例

電子商務推薦系統實例

Amazon.com 成功地將推薦系統發展成眾所皆知的特點,藉由記錄每位使 用者2的購買清單,與資料庫內其他消費者購買紀錄兩相比對,得以產生一 系列的推薦清單(Linden et al., 2003)。 試想,假設一位來自亞洲的使用者X進入 Amazon.com,購買了「CSI 犯罪 現場」系列影集;此時,Amazon 從比對資料庫過程中,發現多數購買此 影集的亞洲消費者之購買紀錄中尚選擇了「名偵探柯南」的漫畫集。於是, Amazon.com 便據此推薦使用者X是柯南漫畫集。 2 本研究之「使用者」泛指一般網際網路使用者之外,在推薦系統內指的是「正在進入系統欲取 得推薦之使用者」;同時,「消費者」是指「在推薦系統資料庫中已儲有消費紀錄的人」。

(12)

1.4 本文架構

本文架構

本文架構

本文架構

實務 理論

電子商務 推薦系統

協同過濾 社會網絡 其他

Schafer J.B., K. Joseph and J. Riedl, 1999

Sawar, B., G. Karypis, J. Konstan and J. Riedl, 2001

Palau, J., M. Montaner, and B. Lopez, 2004

Liu, H. and P. Maes, 2005 Huang, Z., W. Chung and H. Chen, 2003

第二章 文獻探討 第三章 研究目的 第四章 資料蒐集與 建立模型 以興趣關聯圖為基礎之推薦系統之研究 1. 傳統推薦系統缺乏即時性,需定時更新資料與推薦結果 2. 應滿足使用者需求:希望得到迅速且有效的推薦品質 建立興趣關聯圖 資料蒐集 評估系統準確度 測試資料 第五章 研究結果 第六章 結論與建議 準確度評估:回應率與精確程度 1. 性別之影響:女性使用者受推薦系統影響之程度較高 2. 可圈選上限之影響:可圈選條件寬鬆程度不顯著回應率 3. 訓練樣本與測試樣本分佈之影響:分佈越細緻回應率越高 以興趣關聯圖為基礎之推薦系統 特點與改良 1. 即時性 2. 動態系統 3. 系統可行性 研究限制 1. 對樣本之強烈假設 2. 樣本數量與可信程度 3. 興趣類別之權重取捨 圖 1 本研究架構圖 本研究第二章始盡可能地將理論與實務結合,同時亦將協同過濾與社會網 絡相結合,於第三章以「興趣關聯圖」呈現之,此興趣關聯圖即為本研究 之雛形。 隨即在第四章與第五章分別實作建立模型並衡量推薦之準確度,比較各組 測試之準確度發現:回應率與精確程度受不同因素影響的程度。 第六章總結本研究之目的、發現與建議,且初步認為以興趣關聯圖為基礎 的推薦系統應為可行。

(13)

第二章

第二章

第二章

第二章 文獻探討

文獻探討

文獻探討

文獻探討

應用於電 子商務之推薦系統 起源可以追溯自 Negroponte(1970) 與 Kay (1984);兩位學者提出推薦系統的初始概念後(Ansari et al., 2000),結合電 子商務的研究使得推薦系統於 1990 年代末期的相關應用更加興盛。

2.1 推薦系統

推薦系統

推薦系統實務

推薦系統

實務

實務

實務

目前多數使用推薦系統之架構如圖 2 所示: 使用者 推薦系統 使用者介面 使用者 資料 交易 紀錄 商品屬性資料 功能: 1) 儲存資料 2) 整理資訊 3) 給予推薦 尋求推薦 系統回應 給予推薦 資料輸入 消費者 購買紀錄 包含: 1) 消費者資料 2) 購買資訊(交易紀錄) 3) 被購商品屬性 圖 2 現行推薦系統架構圖 消費者:已經經由過往的交易歷史而被儲存於資料庫中的人,在其交易歷 史紀錄中可以提供各種推薦系統所需之資料。諸如:交易人的職業、收入、 教育水準、居住地區等等;交易內容又可區分其平均購買頻率、購買途徑 為瀏覽商品目錄後購買、經由彈跳式廣告進入網站的衝動性購買、或是直 接搜尋目標商品;此外,商品屬性部分則包含價格、類別、…等。

(14)

使用者介面:於交易時將推薦系統所需之資料輸入資料庫,並透過各種不 同的演算法處理資料、產生推薦,甚至預先將推薦結果儲存於資料庫(在 此,推薦系統可使用窮舉法將各種可能情況或常見組合預先存入)。 當一使用者(可為此推薦系統之新使用者或已有資料存於資料庫之舊使用 者)進入推薦系統要求推薦時,推薦系統可以採取兩種方式給予推薦:一是 推薦系統已在資料庫中預先儲存常用的推薦條件與推薦結果、二是當使用 者要求時系統隨即運算給予推薦結果。 圖 2 是推薦系統的基本架構;實務面則因應使用者取得推薦方式之異同、 交易資料取得難易程度,使系統設計需隨之微調。 因此,Schafer et al.(1999)從提供推薦的方式、使用的技術與所需蒐集的資 料型態三方面著手,比較六個橫跨影音、書籍、拍賣與服飾等不同領域的 服 務 網 站 , 得 到 推 薦 系 統 實 證 性 的 結 論 ; 此 六 個 服 務 網 站 分 別 是 Amazon.com、CDNOW、eBay、Levis、Moviefinder.com 及 Reel.com。 雖然 Schafer et al.(1999)尚未將推薦系統的應用方式劃分清楚,卻已充分顯 示電子商務與推薦系統彼此互相影響的普遍程度與其重要性。 其中 Amazon.com 所提供的推薦方式顯得相對豐富,計有:相似項目(Similar Item)、電子郵件(Email)、暢銷商品(Top N List)、平均評等(Average Rating) 與心得感想(Text Comments)。

除此之外,Moviefinder.com 的 We Predict 功能尚有一項為 Amazon.com 所 沒有的自製型搜尋結果(Ordered Search Results);同時,Reel.com 在 Movie Map 功能下也有特殊的瀏覽(Browsing)功能。

除了推薦結果的呈現方式,Schafer et al.(1999)亦針對四種使用的推薦技術 進行比較,分別為非個人化推薦(Non-Personalized Recommendations)、屬 性導向推薦(Attribute-Based Recommendations)、項目之間的相關性(Item to Item Correlation)及使用者之間的相關性(People to People Correlation)。

不同推薦技術採用不同的使用者資料型態。常用資料型態諸如:購買資料 (Purchase data)、理克量表(Likert)、文字敘述(Text)與編輯推薦(Editor’s choice)。

(15)

以使用者立場而言,尋找推薦的途徑則有以下幾種方式:架構式瀏覽 (Organic Navigation)、要求推薦列表(Request Recommendation List)、選擇 選項(Selection Options)與關鍵字搜尋(Keyword/Freeform)。 儘管 Schafer et al.(1999)等人並沒有指明各網站所使用的推薦方式是隸屬 於何種演算法,卻為 1990 年代末期的電子商務興盛與推薦系統做一個強 而有力的註解。

2.2 推薦系統

推薦系統

推薦系統之

推薦系統

之主流

主流

主流

主流演算法

演算法

演算法

演算法

一般而言,推薦系統除了可以演算法區分之外,也可以從輸入的資料劃 分;兩者實質上,互為一體之兩面。 演算法是輸入資料處理的方式,受限於資料的可取得性;通常視可取得之 資料類型而採用不同演算法。反之,如為特殊需求與目的而率先決定採用 某種特定演算法時,則會限制所需取得的輸入資料型態。 輸入的資料可以分為三種:一為商品屬性、二為消費者屬性、三為消費者 與商品之間互動的關係(諸如:購買紀錄、評等、瀏覽紀錄…等)。(Huang, Zeng, &Chen, 2005) 當演算法所需輸入的資料是以商品屬性或消費者屬性為主要來源時,多使 用統計迴歸(regression)與分類(classification)的技巧;此類演算法的特徵在 於極度倚賴高品質的輸入資訊。 相對地,倘以消費者與商品互動資料為主的演算法則企圖忽略消費者屬性 與商品屬性,改以雙方先前的互動關係(例如:購買紀錄、目錄瀏覽紀錄) 來暗示雙方互通的特點(Huang et al., 2005);此類演算法以協同過濾為主 流。 推薦系統設計尚須考慮實際應用時所遭遇的議題:通常消費者並不願意對 公眾主動揭露關於個人的資訊,或著消費者所願意揭露的資訊程度有限 (Kautz, Selmen, &Sheh, 1997)。

因此,建構在協同過濾或社會網絡基礎上的推薦系統,便成為兩大熱門選 擇。

(16)

2.2.1 協同過濾協同過濾協同過濾協同過濾原型原型原型原型

協同過濾概念的基礎 (Peter Andrews)可追溯到人際關係「六度分隔」 (six-degrees of seperation phenomena)的現象(Kautz et al., 1997)。

雖然單一消費者不願意揭露充足的資訊、或是單獨任何一位專家沒有足夠 能力或意願針對眾多種類的使用者給予適切的推薦,但是透過群體中「小 世界」(the small world, Stanley Milgram, 1967)的存在,使推薦問題由「找 到一塊塊拼湊起來,可以使用於推薦的資訊」轉化為「找到一群消費者, 這些人之間的關係為均與某位具有專業知識的專家有關,並且找出他們共 同的推薦」的過程。

協同過濾推薦系統正是透過每位消費者所提供的有限資訊集結之後,幫助 其他使用者過濾、改善推薦效果;Xerox Polo Alto 發展的 Tapestry 電子郵 件系統即為一例(Goldberg, Nicols, Oki, &Terry, 1992)。

典型的協同過濾模型(Linden et al., 2003)如下: 1、 推薦系統資料庫中,計有 m 位消費者購買 n 種商品的紀錄,消費者與 商品互動關係的資訊為已知3。本例4中,消費者A已購買之商品為為 編號 1、3、4、5、6…,消費者B已購買之商品為編號 1、2、3、4…, 還有消費者C、D、…的購買資訊5 3 所謂「已知」為儲存於資料庫之資訊。 4 於圖 33 與圖 55 中,已著色大圓圈表示消費者、未著色大圓圈表示新進系統之使用者;著色 小圓圈表示消費者已購買之商品,未著色小圓圈表示未被消費者購買之商品。 5 為簡化模型範例,此處「購買資訊」僅指單一消費者是否購買此商品,不包含交易時間、交易 方式、評等等資訊。

(17)

圖 3 協同過濾模型示意圖

通常以數學之矩陣形式6表示之(Sawari et al., 2001):

Item 1 Item 2 Item 3 Item 4 Item 5 Item 6 … … Item n

Consumer A Consumer B … … Consumer m Consumer X 圖 4 協同過濾模型矩陣 2、 如今有一使用者X需要推薦時,系統經資料庫比對結果後、發現消費 者A與使用者X的歷史購買紀錄最相似;因此,系統將「消費者A與 使用者X兩者之購買紀錄中,忽略雙方互有重疊的部分,所剩下的消 費者A有購買之商品」即列為針對使用者X之推薦。 此例中,消費者A與使用者X均購買了商品 1、3、4、5……,而消費 者A還比使用者X多買了商品 6,因此系統認為使用者X可能會喜歡 商品 6;進而推薦之。 6 著色區域表示推薦系統內消費者已購買商品的資訊;其中 ConsumerX是新進使用者。 Item 1 Item 2 Item 3 Item 4 Item 5 Item 6 Consumer A Consumer B Consumer C、D、… … m Item … n

(18)

圖 5 協同過濾模型推薦過程示意圖

同樣,以矩陣形式7表現如圖 6:

Item 1 Item 2 Item 3 Item 4 Item 5 Item 6 Item n

Consumer A Consumer B … … Consumer m Consumer X 圖 6 協同過濾模型推薦過程之矩陣 7 著色區域表示推薦系統內消費者已購買商品的資訊;其中 Consumer X是新進使用者,被推薦 商品為 Item 6(矩陣內以菱格狀表現之)。 Item 1 Item 2 Item 3 Item 4 Item 5 Item 6 Consumer A Consumer B Item 1 Item 2 Item 3 Item 4 Item 5 Item 6 User X Consumer C、D、… … m Item … n Item … n

(19)

2.2.2 社會網絡原型社會網絡原型社會網絡原型社會網絡原型 介紹完協同過濾的傳統模型之後,同樣隸屬於使用消費者與商品間互動的 另一個模型:社會網絡,則為本研究架構之主要概念。 社會網絡概念主要發源自社會心理學的範疇,之後被應用於各方面。簡化 後之社會網絡架構如下: 1、 單點表示社會中的每一個個體,乍看之下無法觀察出其間關聯性。 圖 7 個體分散之社會 2、 社會網絡則由許多單點組合而成,佐以連接線呈現彼此之間的關係。 所謂「關係」可以是個人友誼、電子郵件聯絡人、部落格(blog)或相簿 的好友連結8、校友會、產業協力廠商、分散各地的教會組織…等。 8 如國內無名小站(http://www.wretch.cc/)或國外 Orkut(http://www/orkut.com) A B C D E F G H I

(20)

圖 8 關係連結之社會 3、 從中可以進一步觀察到比較緊密的一群人、或著非常孤獨的單點。 例如,在示意圖(參見圖 9)中,個體B、C、E、F四點彼此之間的 連結較強烈而緊密,它們即被視為同一群。 個體A、G、H則均只有一條向外與其他點相連的連結線,它們相對 孤單;然而最孤獨的是個體I,與外界沒有任何接觸、沒有任何連結, 代表也沒有任何訊息進出。 個體D在此社會網絡中則扮演類似於訊息傳達中繼站的角色,負責將 個體C或個體F所得到的群體資訊傳往A、G。 圖 9 網絡分群之社會 A B C D E F G H I G I F H D E B C A

(21)

4、 社會網絡的應用實例:依各種不同的分群方式,可以解讀許多現象、 並從中利用其力量。 近年來利用電子郵件轉寄信的方式協助尋找失蹤家人即為一例,藉由 從一個群體散佈到另一個群體,接觸到廣泛的人群以達到近似廣播的 效果。 同時,2006 年五月的新聞指出美國國家安全局利用電話通聯記錄追蹤 恐怖份子的行蹤9,這也是利用網網相連的概念才能得到如此有效的結 果。 2.2.3 比較比較比較比較協同過濾協同過濾協同過濾原型協同過濾原型原型與社會網絡原型與社會網絡與社會網絡與社會網絡原型原型原型原型 協同過濾著重於將雙方互動的連結,對應(mapping)到消費者身上;而應用 社會網絡的興趣關聯圖雖然同樣處理雙方的互動連結,但對應於商品部 分。

2.3 協同過濾推薦系統

協同過濾推薦系統

協同過濾推薦系統

協同過濾推薦系統

由上可知,協同過濾與社會網絡是近代推薦系統比較常被探討的二種應用 方式,Ansari et al.(2000)形容協同過濾為「類似人類口耳相傳的互動過程」。

Ansari et al.(2000) 利 用 層 級 貝 氏 推 薦 系 統 (a Hierarchical Bayesian Recommendation System)使五種不同型態的輸入資訊得以結合,此五種輸 入資訊分別為:使用者外顯偏好、其他消費者偏好、專家評估、項目特性 與使用者特性。即將難以量測的項目特性與顧客特性之間的互動,將使用 者偏好的異質性與產品異質性一併考慮在內。 以其他消費者偏好加以適當權重計算後所得之結果,視為某單一個體(使用 者)偏好的預測值,是 Anwari et al.(2000)與過往學者僅就外顯的歷史資料分 別之處;尤其現實情境是多數使用者並不願意被詢問繁瑣的問題,應此需 求而提出「善加利用顯性與隱性資料,可以幫助在搜尋目標範疇內給予更 準確的推薦,使推薦系統所需資訊比傳統市場調查方式為少、卻能得到更 精準結果」的概念。 9 新聞出處:http://www.usatoday.com/news/washington/2006-05-10-nsa_x.htm

(22)

此外,比較協同過濾與內容過濾之間的差異(Ansari et al., 2000)發現:前者 主張使用者的個體偏好受其他消費者偏好的線性組合影響,後者則針對使 用者本身之於產品特性的偏好而決定推薦;相較之下,協同過濾比內容過 濾更強調「人」(使用者以外之消費者)的影響。 但是,協同過濾最大缺點在於必須使用足量的資料。 倘若新進商品其相關資料稀少(假設相對購買人數未達足額),則系統所產 生的推薦其信賴度降低、甚至無法產生推薦;儘管內容過濾可以整合不同 消費者偏好以適用於新進商品,但準確度尚待驗證的缺點依然存在。同 時,兩者均尚無合理解釋推薦依據的能力、也因為未使用統計模型而使處 理(預測)不確定性的能力相形薄弱。 協同過濾推薦系統,又可劃分為使用者導向與項目(商品)導向;以下針對 兩種常用的協同過濾演算法探討。 2.3.1 項目導向演算法項目導向演算法項目導向演算法項目導向演算法 在眾多的項目導向協同過濾演算法中比較,Sarwar et al.(2001)發現藉由預 先計算項目相似度的模型,可以增加推薦系統在線上使用的規模。 同時,與典型的使用者導向演算法相比,不論是在處理龐雜的資料量或是 推薦品質二個面向,項目導向演算法皆表現較佳。  規模增進與品質提升之議題 Sarwar et al.(2001)更指出在協同過濾演算的過程中,向來具有挑戰的兩大 議題: 1、 推薦系統本身:當使用者人數或是個別使用者的歷史資料(例如,購買 紀錄)增加時,推薦系統如何在資料規模增進與保有即時功能間取得平 衡? 2、 使用者角度:推薦品質的提升具有絕對關鍵的影響力,使用者需要的 是值得信賴、可以幫忙找出所需項目的推薦。當使用者發現推薦系統

(23)

無法滿足他們的需求時,使用者便會拒絕使用此一推薦系統以表示他 們的不滿足。 最困難的卻是此二議題本身互斥:當推薦系統必須處理龐大資料以便取得 優良的推薦結果時,將因為計算速度拖累、進而降低使用者滿意度。 因此,兼顧推薦系統預測的準確程度以及計算速度即為目前推薦系統必須 面對的挑戰之一。 2.3.2 使用者導向演算法使用者導向演算法使用者導向演算法使用者導向演算法 使用者導向演算法與項目導向演算法之差異在於後者比較商品屬性而前 者則是比較使用者屬性。 類似於項目導向演算法面臨的困難點,使用者導向演算法也有相同必須改 善的缺點。  資料離散與規模增進之議題 受協同過濾演算法無可避免之限制,使用者導向演算法也有如下兩大挑 戰: 1、 資料離散不易使用:對於一個電子商務網站而言,使用者相對於販售 商品而言,其購買率是相對少量(Amazon.com 販售書籍的 1%即是 20,000 冊(Sarwar et al., 2001),枉論個別使用者難以達到如此購買量); 如何在離散程度高的資料之中得到令使用者滿意的推薦是使用者導向 演算法最大的困難。 2、 推薦系統本身:同協同過濾推薦系統本質問題。但當資料規模增進時, 對使用者導向演算法所代表的意義是「同時增加使用者數目與項目數 目」,雙重的規模增加使規模增進更加困難。

(24)

2.4 推薦系統之特性

推薦系統之特性

推薦系統之特性

推薦系統之特性

推薦系統經常使用的另一主流方式即為社會網絡;人們信任是隱藏在與其 他人交換資訊、互動過程中產生的結果。 之所以 Ansari et al.(2000)主張個體偏好會受其他人偏好組合的影響,背後 支持的理由正是假設因為信任對方、認同對方與自己是物以類聚、興趣相 似。 Schafer et al.(1999)的實證研究則表現許多使用暢銷商品、平均評等、文字 評論等方式也同樣尋求其他可能與個體相似的使用者、從中預測個體的使 用(消費)行為。 協同過濾推薦系統更強調使用者數目與單一使用者歷史資料的數量,演算 法就是為了依個體與他人過去的歷史行為預測未來,正是依賴個體自己與 其他個體之間的相似程度(Sarwar et al., 2001)。

2.5 社會網絡

社會網絡

社會網絡

社會網絡

儘管經由前述討論,協同過濾推薦系統已改良許多,但就如同 Ansari et al.(2000)提及的個體所能取得之項目選項隨時間改變;非但如此,Palau, Montaner, &Lopez(2004)更提出個體偏好會隨著時間而改變,進而影響推薦 品質。 若欲改善因時間推移而導致推薦品質的改變,就必須建立動態模型以便模 擬此一情況;Palau et al.(2004)建議社會網絡恰可呈現使用者之間某一時點 的動態關係。 因此,將社會網絡與協同過濾結合是研究動態推薦系統發展的起點。 結合協同過濾與社會網絡的模型是將使用者視為節點(node)、節點之間的 (信任)關係則以連結(tie)表示,並藉由探討以下測量變數分析特定網絡:

(25)

 點數多寡(size):用於計算其他測量變數。當網絡越大時,越容易呈現 分群(partitioned groups)的現象。  密度(density):公式可表示為實際存在之連結數目 可能存在之連結數目 10  程度中心性(Degree Centrality):某單一節點所擁有之連結數目。可分 為進次數(in-degree)與出次數(out-degree)。當進次數高者表示得到他人 信任程度大、影響力較強;當出次數高則表示信任的對象多,容易得 到更多建議、不依靠單一建議來源。

 網 路 集 中 程 度 (Network Centrality) : 可 細 分 為 程 度 中 心 性 (degree centrality)、緊密中心性(closeness centrality)、居間中心性(betweenness centrality)及流量中心性(flow centrality)。如果集中程度高則表示有部 分使用者其階度(in- and/or out- degree)高而部分使用者之階度較低;如 果不集中則表示每位使用者居於類似的基礎、擁有類似的影響力與被 影響程度。  成員子集合(Clique Membership):當部分節點相對於網絡中其他部分 其彼此之間的連結更為緊密時,產生子集合(clique);子集合表示存在 至少一個社群(community)關係。  次團體(Faction):研究者可自行設定網絡的次團體數目。 網絡圖可藉由以上測量做為推薦與比較群體間的依據;也可藉由設定信任 門檻(trust threshold)而縮小推薦的發散程度(Palau et al., 2004)、也許得因此

而提高推薦品質。11 以上脈絡多依循推薦系統的應用,不但未涉及個人興趣等多層面的相關討 論、也未探討可能引發的網絡個人資訊使用問題;雖然針對給予使用者有 效的推薦以取得信任有諸多討論,卻缺乏「在此之前如何讓使用者感到安 全以便獲取其個人資訊」的探討。 10

完整圖形(complete graph)可能存在之連結數目為size×(size-1)。 11

本文未使用以上測量值,但粗略介紹指標是重要的,一方面方便得到更完整清楚的圖形輪廓; 再者,本研究未來發展欲朝向社群關係探討,故有提及之必要性。

(26)

2.6 興趣關聯圖

興趣關聯圖

興趣關聯圖

興趣關聯圖

承襲以上脈絡之後,本研究主要依循以下兩篇期刊文章的概念而發展,茲 就主要的參考文獻解釋其精義:

1、 InterestMap: Harvesting Social Network Profiles for Recommendations: 引入圖形概念做為興趣關聯的呈現方式啟發本研究之議題 與本研究最大之不同在於 InterestMap 利用機器學習分辨語意;而本研究的 輸入資訊則是一致化的問卷、並在輸入資訊之際即已進行簡化以便後續處 理。 目前國內針對興趣關聯圖的研究多著重於圖書館的個人化服務部分,然則 本研究的興趣關聯概念則承自於 InterestMap。Liu, &Maes(2005)認為推薦 系統不應該侷限在特定範圍的應用,而應有能力產生廣泛的興趣推薦;因 此兩位作者藉由機器學習語意分辨的過程,分析十萬筆個人部落格(blog), 此十萬筆樣本分別來自兩個各自涵蓋美國與全世界的部落格。 Identity descriptor 指的是使用者對於自己身份的認同,像是「愛狗的人」、 或是「巴西迷」;所謂的 interest12 descriptor 多是指某一種興趣類別,可 為「書」、「某位作者的著作」、「某種文體體裁」、「某種音樂類型」 等;並藉此將使用者與興趣清楚地劃分為兩層。

不論是使用者層的 identity descriptor 或是興趣層的 interest descriptor,彼此 間直接連結的權重為 1;同時為補充由於語意分辨方面因為機器學習所產 生的不明確與遺漏,還增加了間接連結的概念(權重依距離遞減,每次遞減 為之前權重的 75%)。

使用者層的 identity hubs 是 identity descriptor 匯集處,得以突顯某種身份 認同的人其興趣所在。興趣層 taste clique 則是某一「橫跨不同的興趣子集 合」的興趣,以暗示擁有某一特定興趣的人也喜歡另一個興趣;例如「拉 丁美學」此一 clique 所暗示的前幾名興趣為「Manu Chao」(一位法籍拉丁 民謠歌手)、「森巴音樂」等。

雖然使用者層與興趣層分屬不同的網絡,因為彼此連結,所以均可以影響 興趣推薦的結果,即 InterestMap 一文概念上將之前文獻對於分別處理項目

12

(27)

(項目導向演算法)與人員(使用者導向演算法)的方式,以圖形為介面整合在 一起。

2、 A Graph Model for E-Commerce Recommender Systems:提供本研究架 構建立與評估依據之雛形

Huang, Chung, &Chen(2003)發現當關聯探勘搭配協同過濾演算法,此時精 確程度表現最佳;同時在使用者對推薦系統的回應率部分也有顯著的效 果。故本研究方法即依循此架構建立模型與評估的依據。 Huang et al.(2003)視兩層圖形的連結為不同的資料輸入:在前述文獻所處 理的輸入資料型態可以是使用者屬性、項目屬性或著兩者之間的互動關 係;對應於圖形模型則分別是使用者層內不同使用者之間的連結、項目層 內不同項目之間的連結、以及兩層之間互動的連結。 連結:於協同過濾方式中連結被賦予多種意義。使用者與項目之間的互動 可為單一使用者購買了A與B兩項目的互動關係、或是不同的使用者X與 Y購買同樣的A項目;此部分定義依系統建置依據而定。 演算法(approach):如果僅使用項目層連結關係,則為以內容為基礎的演算 法;如果使用使用者層連結與兩層間的連結關係,則為協同過濾演算法; 如果兩者演算法皆使用則為 Huang et al.(2003)所發展的混合法(hybrid approach),其方式是單純地將前二者的推薦結果結合。 尋求推薦的方法(method):三位作者共同建立並比較以下三種方法,分別 為直接檢索(direct retrieval)、關聯探勘(association mining)與高階關聯探勘 (high-degree association retrieval)。

關聯探勘利用關聯規則(association rule):以內容為基礎時,N個項目就會 產生N條關聯規則,協同過濾演算法則是以M個使用者的購買歷史紀錄為 主;其所附帶的 lift value 則暗示其關聯強度。 高階關聯探勘與關聯探勘最大之不同在於前者可以處理間接連結(得依照 需求增加處理階數)、後者僅處理單一階數。 本研究即依照上述概念,以社會網絡的概念發展以興趣關聯圖為基礎之推 薦系統,且嘗試評估其準確度。

(28)

第三章

第三章

第三章

第三章 研究目的

研究目的

研究目的

研究目的

本研究希望得到「以興趣關聯圖為基礎之推薦系統為推薦系統的可能方式 之一」的結論,因此必須衡量準確度以支持(或否決)其可能性。 本研究利用以往推薦系統之研究訂出精確程度作為衡量指標之一,同時也 利用推薦系統使用者心理預期而將使用者回應率納入考量;將兩項指標綜 合即為本研究所指之準確度評估。

3.1 相似性

相似性

相似性

相似性

通常採用協同過濾的推薦系統,是找到與使用者最相似的、且存在於資料 庫中的消費者兩相比對;因此「相似程度」常以 cosine 方式呈現(Deshpande, &Karypis, 2004): ( , ) cos( , ) A B similarity A B A B A B • = = ∗ ur ur ur ur ur ur ur ur 不論衡量對象(A、B)是消費者或是項目,均內含多個屬性;將屬性一致 化後可得到向量表示(A ur 、B ur ),以向量呈現此衡量對象。藉由處理向量得以 數學方式衡量兩對象的相似程度。 舉例說明(參見圖 6):矩陣中每一個項目含有許多維度,諸如產品類別 (書)、產品價格(新台幣 250 元)、產品屬性(浪漫小說)、產品製造商(作者或 出版社)、…。以項目導向演算法為基礎的推薦系統藉向量A ur 、B ur 的維度分 別代表以上資訊;協同過濾(消費者是否購買品項)之向量、則分別表示每 一列(Consumer A, Consumer B, …, Consumer m)的購買紀錄(已購買表 示為 1;未購買表示為 013

)。

(29)

3.2 準確度

準確度

準確度

準確度

本研究中,則以二個項目之間的連結強度衡量相似程度。 研 究 過 程 中 衡 量 準 確 度 (accuracy) 的 方 式 分 為 兩 種 : 一 為 精 確 程 度 (precision)、二為回應率(recall),本研究中兩者衡量方式皆使用。此二評估 方式之定義如下: 1、 精確程度(precision):藉由興趣關聯圖所產生的推薦中,有多少百分率 是使用者「真實購買」的項目;於興趣關聯概念中,此行為表現於使 用者外顯的興趣。 2、 回應率(recall):使用者所有真實購買的項目之中,有多少百分率與興 趣關聯圖推薦的項目一致,此數值表示使用者回應推薦系統的程度、 受推薦系統影響的多寡。 以數學式(Huang et al., 2003)、邏輯表示式與圖形表現如下: 既是系統推薦又是使用者購買之項目個數 精確程度(precision) ×100% 推薦系統給予之推薦項目個數 ∩ = = A B A 既是系統推薦又是使用者購買之項目個數 回應率(recall) ×100% 使用者實際購買之項目個數 ∩ = = A B B 圖 10 準確度(accuracy)之集合示意圖 推薦系統 之 推薦項目 【A集合】 使用者實際 購買項目 【B集合】 既 是 推 薦 又 購 買 之 項 目 ∩ A B A ∩ A B B

(30)

3.2.1 評估觀點評估觀點評估觀點評估觀點 由於推薦系統依使用者需求而設計,故本研究採用上述準確度指標。理由 如下(參見圖 10): 精確程度:表現以興趣關聯圖為基礎之推薦系統預測之命中率程度。依推 薦系統觀點,得據此與其他使用不同演算法之推薦系統進行效能之比較。 回應率:推薦系統是為了使用者的便利而發展、存在,因此從使用者角度 再一次確認以關聯興趣圖為基礎之推薦系統的推薦結果占使用者實際購 買的比例。 傳統上,現存文獻多以推薦系統效能評估(即本研究之精確程度)為效能衡 量主軸;而本研究則參考 Huang et al.(2003)所發展的概念,將對使用者影 響的效果(使用者回應率)納入考量,再再地強調推薦系統因使用者而存在 的觀點。

(31)

第四章

第四章

第四章

第四章 資料蒐集與建立模型

資料蒐集與建立模型

資料蒐集與建立模型

資料蒐集與建立模型

本研究使用以問卷為基礎的資料,取其中部分資料建立興趣關聯圖、依此 作為推薦系統的依據,剩餘部分資料則為受測樣本、以為計算系統準確度 (accuracy)的依據,計有三階段:

4.1 第一階段

第一階段

第一階段:

第一階段

:問卷蒐集

問卷蒐集

問卷蒐集

問卷蒐集

問卷蒐集分為問卷設計、問卷發放與填寫、問卷回收與整理三部分。 4.1.1 問卷設計問卷設計問卷設計問卷設計 依據週遭同學廣泛的興趣類型、同時參考網路資料,篩選淘汰與分類後, 將興趣類型分為八大類型,依序為:電影類型、音樂類型、喜愛寵物、休 閒地區、興趣、旅遊偏好、旅遊地區、料理類型,共計 81 項嗜好;編列 為一頁內容問卷。 問卷初始版本尚有「其他」與「科系」等選項,經過先測後刪減之,以達 降低複雜度、增加準確度;問卷修改後如附錄一所示。 4.1.2 問卷發放與填寫問卷發放與填寫問卷發放與填寫問卷發放與填寫 發出五百份問卷、回收率達 77.6%,總計有十六所14大學學生參與問卷填 寫;扣除無效問卷計有 79 份、總結有效問卷為 309 份。 1、 有效問卷下限設定 14 參與問卷填寫的大學(依比劃排序):中央大學、中原大學、中國科技大學、元智大學、台中 教育大學、台灣大學、台灣科技大學、明新科技大學、南台灣科技大學、政治大學、致理技術學 院、國立體育學院、清雲科技大學、萬能科技大學、實踐大學、輔仁大學。

(32)

本推薦系統假設情境係針對商業用途。因此當使用者進入推薦系統,倘若 未輸入任一個嗜好,則推薦系統難以針對特定使用者服務;因此凡在任何 單一興趣類別內未填入任何選項之問卷認定為無效問卷。 2、 有效問卷上限設定 本研究之初於問卷設計階段( 4.1.1 )時,希望使用者在任何興趣類別內圈選 一至三項嗜好。但真實情境並非如此:多數樣本均圈選超過所限制的範圍 (通常會在同一興趣類別之中圈選超過 1~3 的嗜好選項)。此現象同時表示 問卷設計應符合使用者習慣;因此在後續處理問卷時,繼續使用已回收之 問卷,惟使用方式修正如下: 首先,在八個興趣類別之中,計有六個興趣類別內含嗜好數目為八個嗜 好,此「八個嗜好」為眾數;其次,「八個嗜好」亦為任一個興趣類別中 嗜好個數之最小數目,因此選擇「八個嗜好」做為有效問卷的認定標準之 二。 即凡在單一興趣類別(電影類型、音樂類型、…、興趣、…、或料理類型) 中圈選超過八個嗜好者為無效問卷。 4.1.3 問卷回收與整理問卷回收與整理問卷回收與整理問卷回收與整理 將有效問卷樣本依各校與人員給予代碼、整理至 excel 檔後,依據不同限 制條件(圈選上限依序由八遞減至三)得到六組樣本數目;初步以性別劃 分,共計十八組樣本: 表 1 十八組樣本數目 性別 圈選限制 所有樣本數 男性樣本數 女性樣本數 1~8 309 146 163 1~7 298 138 160 1~6 286 134 152 1~5 264 122 142 1~4 222 107 115 1~3 161 77 84

(33)

茲就上表舉例說明:假設以「圈選限制為 1~8 項嗜好、樣本不分男女」為 對象,本研究將樣本隨機劃分為兩部分:第一部分計 231 份樣本、約占四 分之三,於後續第二階段製作興趣關聯圖;第二組共 78 份樣本、約占四 分之一,於後續第三階段測試推薦系統並評估推薦系統準確度。

4.2 第二階段

第二階段

第二階段:

第二階段

:建立興趣關聯圖

建立興趣關聯圖

建立興趣關聯圖

建立興趣關聯圖

1. 概念上將興趣關聯圖分為兩層(參見圖 11),上層是項目層(共八類興趣 15、81 項嗜好)、下層則是樣本層(取有效樣本之四分之三,即 231 人): 圖 11 興趣關聯圖之兩層示意圖 2. 連結建立的方式依照下列順序進行:樣本 VU1001 共有二十一項嗜 好,其中電影類型偏好喜劇片、科幻片、恐怖片,音樂類型方面則喜 好國語歌、動感舞曲、古典音樂,喜愛的寵物是狗與鳥,…,興趣關 聯圖則根據樣本 VU1001 所勾選的每項嗜好將〈人—嗜好〉連結(參見 圖 12): 15 為方便圖示,將興趣類別以較大圓圈表示,將嗜好置於其中、以小圓圈表示。 VU1001 VU1002 CY1009 SC2011 CT1006 … … 電影類型 音樂類型 喜愛寵物 … … 項目層:八類、共八十一項嗜好 樣本層:共 231 個樣本

(34)

圖 12 建立〈人—嗜好〉連結 3. 將此兩層圖投影到項目層(參見圖 13)。如此原先的〈人—嗜好〉連結 即投影至項目層,當單一樣本擁有多於一項嗜好時,即可將任兩條 〈人—嗜好〉連結轉為一條〈嗜好—嗜好〉連結: 圖 13 投影〈人—嗜好〉連結轉為〈嗜好—嗜好〉連結 VU1001 電影類型 音樂類型 喜愛寵物 … … 註:(1) 僅依樣本 VU1001 之嗜好繪製 (2) 為簡化圖形以便呈現,僅將電影類型之科幻片、恐怖片, (2) 音樂類型之國語歌與喜愛寵物之狗彼此連結。 VU1001 VU1002 CY1009 SC2011 CT1006 … … 電影類型 音樂類型 喜愛寵物 … … 項目層:八類、共八十一項嗜好 樣本層:共 231 個樣本 喜 劇 片 科 幻 片 恐 怖 片 記 錄 片 國語 歌 動 感 舞 曲 古 典 音 樂 台 語 歌 曲 爬 蟲 鳥 狗

(35)

4. 依序重複 1 到 3 步驟,將眾多建立於樣本層與項目層之間的連結,一 一投影於共同之項目層(供模型使用),即完成興趣關聯圖: 於本例中,即使用 231 個樣本建立模型。每一個樣本建立屬於各自的 項目層,共可得到 231 個屬於各樣本的項目層,此 231 個項目層各自 代表 231 個樣本的興趣關聯;於圖 14 中,樣本 VU1001、CY1009、 SC2011、…等,231 個樣本都有獨自代表自己的項目層: 圖 14 各項目層之〈嗜好—嗜好〉連結投影於總和項目層 電影類型 音樂類型 喜愛寵物 … … 項目層:八類、共八十一項嗜好 電影類型 音樂類型 喜愛寵物 … … 電影類型 音樂類型 喜愛寵物 … … 共 2 3 1 個 樣 本 … … VU1001 CY1009 SC2011 電影類型 音樂類型 喜愛寵物 … … 以下 231 個樣本均投影於此項目層

(36)

以興趣關聯圖為基礎之推薦系統其模型所使用的項目圖位於圖 14 最 上方,是藉由將「代表 231 個樣本的 231 個項目層」的每一條〈嗜好— 嗜好〉連結線加總,加總後形成每一條具有不同關聯次數的關聯線。 本研究利用關聯線顯示「每一樣本所建立的項目層所擁有的連結線加 總後的結果」。其中,關聯次數是指具有相同〈嗜好—嗜好〉連結線 的樣本數一共有多少人,它以 1+1+0+1+0+0+…的方式形成,其中 0 或 1 代表單一樣本是否圈選此一組嗜好。 換言之,本研究使用之問卷皆由台灣的大學生所填寫,亦即視「台灣 的大學生」為母體,因此隨意挑出樣本 VU1001 與樣本 VU2097 兩者 的〈狗—中式料理〉連結線所貢獻的比重相同。 當樣本 VU1001 同時喜愛狗與中式料理時,此樣本即存在〈狗—中式 料理〉連結線,此時系統在關聯次數上累計一筆(+1)。 反之,當另一樣本只喜歡狗(例如,樣本 VU1011)或是只喜歡中式料理 (例如,樣本 VU1052)、或是兩者皆不喜歡時(例如,樣本 VU1043), 則此三樣本的〈狗—中式料理〉連結線即不存在,此時系統的關聯次 數不做任何動作(+0)。 本研究模型中,其中一次隨機挑出的 231 個樣本之中,共同喜愛〈狗— 中式料理〉的大學生計有 184 人,因此在當次建立的模型中,〈狗— 中式料理〉關聯次數就是 184 次。 藉由連結線加總形成關聯線,將諸多粗細不一的關聯線置於共同的項 目層(參見圖 14 的最上方),便形成興趣關聯圖的模型。 關聯線數目計算方式是針對任何一個嗜好關聯到「來源嗜好之外的其 他嗜好」;本研究針對 81 個嗜好,每一項嗜好均有可能關聯到「另外 80 個目標嗜好」,因此關聯線數目最多可達 6480(81×80=6480)條。 關聯線粗細表示不同的關聯次數;關聯線條愈粗者表示相對於關聯線 條細者,其關聯次數較多。 此例中,因為模型是由 231 個樣本所建立,所以最高可能關聯次數是 231 次;假設恰好這隨機選中的 231 個樣本皆有相同的〈嗜好—嗜好〉

(37)

連結,即可加總出 231 次的關聯次數。此時呈現於系統模型中,最粗 的關聯線即是此具有最高關聯次數的〈嗜好—嗜好〉關聯線。 反之如果有一〈嗜好—嗜好〉只有一個樣本共同喜好,亦即只有一個 樣本貢獻其〈嗜好—嗜好〉連結線,則此〈嗜好—嗜好〉關聯線所具 有的關聯次數即為 1,將會是呈現在系統模型中最細的一條關聯線。 最極端的例子為如果存在一組〈嗜好—嗜好〉是完全沒有樣本同時喜 愛的,則此〈嗜好—嗜好〉關聯線因為具有的關聯次數為 0,而無法 呈現於系統模型中。 以上從使用者角度看待形成總和項目層的過程;本研究由總和項目層呈現 興趣關聯圖。以下就興趣關聯圖進一步說明: 5. 當不只樣本 VU1001 這個人同時喜好科幻片與國語歌,而還有其他人 也同時喜好科幻片語國語歌的時候,每多一人則〈嗜好—嗜好〉之間 的線條就多一條,假設樣本 VU1005 也是同時既喜愛科幻片也喜愛國 語歌,則〈科幻片—國語歌〉之間的連結就從一條增加為兩條;當發 現 VU1009 也是如此時,則連結線增加為三條;…,當越多樣本同時 喜愛相同的一組嗜好時,則〈嗜好—嗜好〉連結越強;反之,當沒有 任何樣本同時偏愛兩嗜好時,則此兩嗜好之間就毫無關聯。 圖 15 總和項目層(興趣關聯圖)連結強度示意圖 6. 興趣關聯圖之圖形分析:每一個項目視為節點(node),在此計有 81 項 嗜好,呈現 81 個節點;節點之間的關聯強度由連結線數目的多寡計算 電影類型 音樂類型 喜愛寵物 … … 註:(1) 依樣本 VU1001、VU1005 、VU1009 之嗜好繪製 (2) 為簡化圖形以便呈現,僅將電影類型之科幻片、恐怖片, (2) 音樂類型之國語歌與喜愛寵物之狗彼此連結。 (3) VU1008 不喜歡恐怖片,因此圖中凡關於恐怖片之連 結均較其他組連結為弱。 科 幻 片 國 語 歌 狗 恐 怖 片

(38)

得知,亦可經由標準化(normalized)計算以便於比較不同組嗜好之間的 關聯強度。 最終使用 Pajek 軟體將興趣關聯圖以圖形呈現,Pajek 圖呈現於圖 25(第 41 頁)與圖 26(第 42 頁);詳細內容於圖 25 與圖 26 部分再行解 說。 4.2.1 推薦系統推薦系統推薦系統推薦系統實作實作實作實作資訊資訊資訊 資訊 本研究藉由撰寫程式建立興趣關聯圖(含後續之測試推薦系統階段),以下 為實作過程之硬體環境、軟體工具與流程:

1. 硬體環境:IBM X24, Mobile Intel Pentium Ⅲ CPU-M, 1066MHz, 730MHz, 384MB RAM

2. 軟體工具:Microsoft Visual C++ 6.0

(39)

以興趣關聯圖為基礎之推薦系統 新進使用者 舊有消費者 系統維護者 尋求推薦 給予推薦 建立興趣關聯圖 簡化推薦報告 推薦效果評估 僅應要 求輸出 僅應要 求輸出 僅應要 求輸出 圖 16 以興趣為基礎之推薦系統實作程式之 UML 案例圖 圖 16 粗略描述於實作程式之中,參與推薦系統的各種角色可以從中得到 的回饋。

(40)

圖 17 以興趣為基礎之推薦系統實作程式之 UML 案例情境 圖 17 則將圖 16 以情境的方式說明。系統的使用方式一共可分為三種情 境,以下分別就不同參與角色敘述。 使用案例情境一: 因資料來源為問卷,因此實作過程是藉程式模擬系統與使用者互動的 過程:在受測試之使用者問卷中,任選一興趣類別(A)設為推薦系統 選定的興趣類別,將此興趣類別(A)中使用者所圈選的嗜好(p, q, r,…) 依個數不同(允許上限由八個嗜好降為三個嗜好)分別測試;並將同一 份問卷另一興趣類別(B)視為受測試之使用者欲知的興趣類別,並依 興趣關聯圖為基礎給予推薦。 在八類別之中,每一份問卷共可得到 56 次的測試。 受測試之使用者問卷的「欲知興趣類別」中,真實圈選的嗜好(i, j, k, …) 則可以在系統維護者所面臨的使用案例情境三中,為推薦系統提供評 估準確度的依據。 使用案例三情境 1. 使用者將自己興趣類別(A)之中喜愛的數個嗜好(p, q, r,…)輸入推薦系 統,其中興趣類別(A)由推薦系統選定;推薦系統給予使用者關於欲得知 之興趣類別(B)的三個推薦嗜好(x, y, z)。 2. 當消費者在勾選各興趣類別嗜好時,推薦系統即將資料分別儲存,一種 是儲存為某位消費者所有的已勾選的嗜好列表、另一名單則儲存某一嗜 好的愛好者;並且將所有的連結關係對應到嗜好,於是系統得到一張興 趣關聯圖。 3. 系統維護者藉由推薦系統將興趣關聯圖所給予的建議回饋新進使用者; 或可以將興趣關聯圖關聯次數給予正規化、得到簡化後的興趣關聯圖。 同時,系統維護者可以藉由比較使用者真實的勾選狀況與系統推薦的比 對得到關於推薦效果的準確度衡量。

(41)

使用案例情境二: 當新增一筆完整的資料時,系統一共反應兩個動作:依每一個人建立 被圈選嗜好的連結;同時將任選一被圈選嗜好做為中心、依據此人新 增的資料增加嗜好之間的關聯強度,此動作會依此人圈選n個嗜好而 重複n次。 使用案例情境三: 系統與系統維護者可以依據所需的要求(可能由使用者提出或做為系 統維護者檢視之用)而有不同的輸出結果:使用者希望的是系統給予推 薦,因此系統必會給予推薦;系統維護者希望獲得宏觀的資訊(諸如系 統推薦的準確度是否能達到使用者的信賴、整體而言嗜好 q 會推薦哪 種嗜好以便製作以某一嗜好為中心的興趣關聯圖、…)等所需的初級資 料。 上述輸出資料因使用者或系統維護者之要求而產生。

(42)

以興趣關聯圖為基礎之推薦系統 新進使用者 舊有消費者 系統維護者 尋求推薦 給予推薦 建立興趣關聯圖 簡化推薦報告 推薦效果評估 輸入 來源嗜好 取得 推薦 提供 眾多嗜好 建立單一嗜好 的愛好者名單 建立單一個人 的嗜好列表 要求嗜好關聯 正規化 要求 推薦列表 取得新進使用者 實際圈選狀況 實際 圈選 僅應要 求輸出 僅應要 求輸出 僅應要 求輸出 圖 18 以興趣關聯圖為基礎之推薦系統實作程式之 UML 詳細案例圖 經過圖 17 與上列描述,圖 18 將圖 16 進一步詳述。經由展開每個步驟, 圖 18 更詳盡地以使用者的角度描述資料輸入後,系統對於資料的處理方 式;以及當使用者提出每一項需求之後,推薦系統所做的動作(計算推薦結 果)與回應(將推薦結果輸出、進一步計算準確度)。 於 UML 活動圖部分,由於程式包含輸入已知資訊、建立模型並將問卷模 擬為使用者尋求推薦,因此改以程式流程圖呈現。

(43)

4. 程式流程圖: 開始 手動輸入 使用者需求 檔案輸入 問卷資料 檔案讀取 檔案分析 網絡建立 (1) 若手動輸入為「int」, 則處理檔案、輸出相關紀錄檔資訊 (2) 若手動輸入為「int K(n)」, 則除(1) 動作之外,並將關聯次數依多寡分為(n)組 (3) 若手動輸入為「int B (x)」,則除(1) 動作之外,並依指定的嗜好(x)為中心建構子網絡 其中(n)為一數值,表示系統使用者欲依照關聯次數多寡分類的程度 (x)為一嗜好名稱,表示系統使用者欲以此嗜好為中心建構網絡 輸入檔案名稱:Int.txt 第一行資訊:81個嗜好、訓練樣本個數(# of sample)與測試樣本個數(# of test) 第二行資訊:81個嗜好名稱 第三行之後:問卷樣本編號、是否圈選81個嗜好(各自以0/1表示未圈選或已圈選) 函數 read_matrix {

call subfunction parse_matrix_2nd_line ; //處理第二行資訊

call subfunction parse_matrix_line ; //處理第一行資訊;初始化後將各點資料依序置入 } 函數 analyze_network { 針對每一個嗜好,透過嗜好與樣本之間的連結,依序建立其與其他嗜好的連結;//(4) 藉由樣本與嗜好的連結,建立項目層;//(5) 本研究使用項目層以為興趣關聯圖 } 其中

(4) for each hobby do {

if this hobby is not checked yet, then

call subfunction mark_components ; //(6) depth-first-search set the number of connecting hobbies to this hobby ; set the number of connecting training_samples to this hobby ; }

(5) for each training_sample do {

if this training_sample selected more then two hobbies, then

//針對某一樣本所圈選的任兩個嗜好 for each pair hobbies selected by this training_sample do{

//將此二嗜好之間的關聯次數互相增加一次 add the number of connections between these two hobbies ;

} }

(6)子函數 mark_components { //針對圈選某一嗜好的每個樣本 for each training_sample who selects this hobby do {

//如果有樣本尚未確認,則將樣本狀態設為已確認 if this training_sample is not checked yet, then

make this training_sample checked ; //並將圈選此嗜好的樣本數增加一次 add the number of training_samples owned by this hobby ;

//針對此樣本所圈選的每個嗜好,重複子函數動作 for each hobby selected by the same training_sample do {

call subfunction mark_components ; } } } 依手動輸入 選擇動作 建立 紀錄檔 增建關聯次數 一致化網絡 增建 嗜好網絡 int B (x) int K(n) int 結束 計算準確度 此處之核心演算法請參考下方流程圖(二) 圖 19 以興趣關聯圖為基礎之推薦系統實作程式流程圖(一)

(44)

圖 19 大致呈現本研究撰寫的程式流程。 內容描述從程式的開始、經資料輸入,直至資料處理、建立興趣關聯 圖的網絡模型、使用者決定所需的輸出資訊直至系統給予推薦並評估 其效果(回應率與精確程度)。 圖 20 以興趣關聯圖為基礎之推薦系統實作程式流程圖(二):核心概念 圖 20 呈現系統建立帶有關聯次數的興趣關聯圖,並據此針對八大興 趣類別各自產生三項推薦,最後由此三項推薦與原始的樣本資料比 對、進一步評估使用者對於推薦的回應率與系統推薦的精確程度。 系統指定嗜好的來源興趣類別與目標興趣類別: 針對每一受測樣本的每一個來源興趣類別嗜好: 找出來源嗜好向外關聯次數最多的前三項目標嗜好、設為系統推薦 //(7)系統推薦產生過程 開始計算推薦系統準確度: 步驟一://(8) 計算「個人、由單一來源嗜好至目標嗜好」的準確度 步驟二://(9) 將步驟一所得之數值相加,得到「個人由單一來源興趣類別至單一目標興趣類別」 的準確度 步驟三://(10) 將步驟二數值計算其算數平均數,得到「平均每人由單一來源興趣類別至單一目 標興趣類別」的準確度 步驟四://(11) 將不同的來源興趣類別與目標興趣類別組合所得的步驟三數值、計算其算數平均 數,得到「平均每人整體推薦」的準確度

(45)

圖 21 以興趣關聯圖為基礎之推薦系統實作程式流程圖(二):產生推薦 圖 21 呈現的是圖 20 中所提及的「推薦產生過程」部分。 針對每一個受測樣本,根據受測樣本在不同的興趣類別中所選擇的嗜 好、經由先前由訓練樣本建立的興趣關聯圖,循序找出這幾項嗜好連 向目標興趣類別(系統欲推薦的興趣類別)的嗜好。 找出與「來源興趣類別中被選擇的嗜好」有相連的「目標興趣類別中 的嗜好」後,依據連結上帶有的關聯次數,從中選出具有關聯次數最 多的前三項嗜好,此三項嗜好即為系統推薦。 針對每一個受測樣本,此「產生推薦過程」的動作一共重複 56 次。使 用者回應率與系統推薦的精確程度均依據這一過程產生的推薦作為評 估的依據。 上述計算推薦系統準確度的程式碼如圖 22 以興趣關聯圖為基礎之推 薦系統實作程式流程圖(二):準確度計算:

//(7) begin of generating recommendations for each hobby of this testing_sample do { if this hobby is in the source category, then

for each out-degree link of sourcing_hobby do { //自測驗樣本來源嗜好的向外連結中

//找出關聯次數最多的前三項目標嗜好

find out the first three targeting_hobbies with the most weighting ; }

set these three targeting_hobbies as the recommendations ; //(7) end of generating recommendations

數據

圖  3 協同過濾模型示意圖
圖  5 協同過濾模型推薦過程示意圖
圖  8 關係連結之社會  3、  從中可以進一步觀察到比較緊密的一群人、或著非常孤獨的單點。  例如,在示意圖(參見圖  9)中,個體B、C、E、F四點彼此之間的 連結較強烈而緊密,它們即被視為同一群。  個體A、G、H則均只有一條向外與其他點相連的連結線,它們相對 孤單;然而最孤獨的是個體I,與外界沒有任何接觸、沒有任何連結, 代表也沒有任何訊息進出。  個體D在此社會網絡中則扮演類似於訊息傳達中繼站的角色,負責將 個體C或個體F所得到的群體資訊傳往A、G。  圖  9 網絡分群之社會 A B  C D
圖  12 建立〈人—嗜好〉連結  3.   將此兩層圖投影到項目層(參見圖  13)。如此原先的〈人—嗜好〉連結 即投影至項目層,當單一樣本擁有多於一項嗜好時,即可將任兩條 〈人—嗜好〉連結轉為一條〈嗜好—嗜好〉連結:  圖  13 投影〈人—嗜好〉連結轉為〈嗜好—嗜好〉連結 VU1001 電影類型 音樂類型 喜愛寵物 …  … 註:(1)  僅依樣本  VU1001  之嗜好繪製          (2)  為簡化圖形以便呈現,僅將電影類型之科幻片、恐怖片,      (2) 音樂類型之國語歌與喜愛寵物
+7

參考文獻

相關文件

好了既然 Z[x] 中的 ideal 不一定是 principle ideal 那麼我們就不能學 Proposition 7.2.11 的方法得到 Z[x] 中的 irreducible element 就是 prime element 了..

This flipbook is designed to display a collection of students’ works selected from the winning entries of the SOW Picture Book Design Competition organised in the 2020/21 school

volume suppressed mass: (TeV) 2 /M P ∼ 10 −4 eV → mm range can be experimentally tested for any number of extra dimensions - Light U(1) gauge bosons: no derivative couplings. =>

For pedagogical purposes, let us start consideration from a simple one-dimensional (1D) system, where electrons are confined to a chain parallel to the x axis. As it is well known

The observed small neutrino masses strongly suggest the presence of super heavy Majorana neutrinos N. Out-of-thermal equilibrium processes may be easily realized around the

incapable to extract any quantities from QCD, nor to tackle the most interesting physics, namely, the spontaneously chiral symmetry breaking and the color confinement.. 

(1) Determine a hypersurface on which matching condition is given.. (2) Determine a

• Formation of massive primordial stars as origin of objects in the early universe. • Supernova explosions might be visible to the most