基於偏態排序最佳化探討圖形學習表示法之分佈於推薦系統 - 政大學術集成

全文

(1)國立政治大學資訊科學系 Department of Computer Science National Chengchi University 碩士論文 Master’s Thesis. 立. 政治大. ‧ 國. 學. 基於偏態排序最佳化探討圖形學習表示法之. ‧. 分佈於推薦系統. er. io. sit. y. Nat. Exploring Distribution of Graph Embedding Based on Skewness Ranking Optimization for n. al v Recommender Systems ni C hengchi U. 研究生：莊喻能指導教授：蔡銘峰. 中華民國一百零九年六月 June 2020. DOI:10.6814/NCCU202000474.

(2) 基於偏態排序最佳化探討圖形學習表示法之分佈於推薦系統 Exploring Distribution of Graph Embedding Based on Skewness Ranking Optimization for Recommender Systems 研究生：莊喻能指導教授：蔡銘峰. 政治大國立政治大學資訊科學系碩士論文. 學. ‧ 國. 立. Student：Yu-Neng, Chuang Advisor：Ming-Feng, Tsai. sit. y. ‧. Nat. A Thesis. n. er. io. submitted to Department of Computer Science a l Chengchi University iv National n Ch U e n of h iRequirements in partial fulfillment g cthe for the degree of Master in Computer Science. 中華民國一百零九年六月 June 2020. DOI:10.6814/NCCU202000474.

(3) 致謝. 回首兩年多的歷程，雖然一路上充滿著困難與壓力，但看著自己的碩士學位論文逐漸完成，所有的努力也就值了。戰戰兢兢地進入資訊科學的領域，抱著不成功便告別碩士生涯的決心，如今看來，除了在專業領域上更加熟稔，對於未來藍圖的描繪也更加鮮明。這些成就與收穫，絕非一人所成，是由於許多師長、家人朋友的指導與幫助，才得以造就今日的我。首先，我必須感謝我的碩班指導教授–蔡銘峰老師。很感謝蔡老師收留剛剛轉入資訊科學領域的我，讓我進入 CLIP 實驗室學習。當時的我對於這個領域一竅不通，蔡老師不計我基礎薄弱的狀態，帶領我走向推薦系統相關的研究領域，開啟我對於資訊科學莫大的興趣。除此之外，蔡老師也讓我參與了 KKBOX 的產學計畫，有機會實際接觸業界的資訊，累積更多實務上處理問題的經驗；也很感謝老師給予我前往新加坡管理大學 LARC 實驗室訪問的機會，在那邊我接觸到許多厲害同儕，使我受益良多。再來，我也要謝謝中研院的王釧茹老師，與蔡老師一同帶領我兩個專案論文發表。王老師非常清晰的邏輯與堅強的學術能量，總能帶著初踏學術研究的我，依循老師思考的脈絡，繼而完成一系列的研究成果。老師不吝於分享自己的想法，放下身段親自與我們面對面討論的態度與研究能量，深深地影響我兩年的碩士班生涯與看事情的角度與眼界。最後，謝謝兩位老師的信任與指導，讓這篇論文順利被 UAI’20 所接受，也謝謝蘇家玉老師在口試時給予許多重要的建議。我也要感謝實驗室的各位夥伴們。感謝志明學長最後這一年來的幫助，在與學長合作了兩篇會議論文的投稿，從中學習到了非常多推薦系統領域的相關知識，對學長的感謝實在無法以隻字片語已矣。還有也要感謝中研院 CFDA 的 RA 們，Jack、Matt、小白、Sean、Joli 以及 CLIP 的昇芳、裕勝兩位學長的辛苦幫忙。也要謝謝碩一的先灝、韋勝、均捷、佳妤及寶鈞的陪伴，讓我快樂的度過在實驗室做研究的苦悶時光。當然，我要謝謝我的家人們一路上無條件的支持我追逐自己的夢想，讓我可以無後顧之憂的完成碩士學位。對於看不起我跟質疑我的人，也要謝謝你們。因為你們讓我更想證明自己，繼而成長。謝文最後，我要期許自己未來在面對更多挑戰的時候，能夠更堅定自己的道路，不因為他人的旁言左語而影響，讓自己踩穩腳步、發揮所長。願歲月靜好，現世安穩。. 立. 政治大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i Un. v. 莊喻能國立政治大學資訊科學系 June 2020. 1. DOI:10.6814/NCCU202000474.

(4) 基於偏態排序最佳化探討圖形學習表示法之分佈於推薦系統. 中文摘要近年來大數據以及機器學習技術的蓬勃發展，推薦系統被廣泛應用於各種資訊系 ( Information Systems ) 上。如何有效地利用這些巨量的資料增進推薦系統效能，成為具有挑戰的工作。圖形學習表示法 ( Graph Embedding ) 便是一種特徵提取 ( Feature Extraction ) 的技術，此方法目的在於如何有效的將不同節點以及節點間的關係投射到低維度向量空間並賦予特徵向量。因此，如何有效率且精準的描述這些向量空間的概念，也被加入到圖形學習表示法的領域。本論文基於非對稱常態分佈 ( Skew Normal Distribution) 之特性，提出以機率分佈重新檢視表示法向量空間，並針對使用者與喜好物品在非對稱常態分佈上會趨向正向偏態 ( Positive Skewness ) 的特性，將偏態之概念加入目標函式中進行優化。特別的是，本論文所提出之偏態項優化式為一通用優化項，能適用於過去各種 State of The Art 推薦演算法上，進而重塑各種推薦演算法所構建之向量空間。從理論面來論述，我們證明了如何在優化各種推薦演算法上之餘，同時優化基於非對稱常態分佈之 Shape 參數，此參數與分佈之偏態值為正相關。此外，針對所提出之演算法能同時最大化接收者操作特徵曲線 ( Receiver Operating Characteristic Curve ( ROC Curve ) ) 之論述，我們也提出一數學證述來解釋與分析。在數據實驗上，本文以將此偏態優化項主要實驗於矩陣分解類之推薦算法上，且為了展示方法的一致性，我們也將此偏態優化項實驗在基於圖形學習表示法的推薦演算法上，來做驗證本方法的可行性與正確性。而為了驗證此方法，本文實驗於五種不同的真實世界巨量資料上，並且針對兩種常見的推薦任務： Top-N 推薦任務以及 Query-based 推薦任務上皆有所比較與操作。最後，在實驗結果的部分，結果呈現出我們所提之演算法與過去各種 State of The Art 之推薦演算法中實際比較後皆取得更優的表現。. 立. 政治大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. 2. i Un. v. DOI:10.6814/NCCU202000474.

(5) Exploring Distribution of Graph Embedding Based on Skewness Ranking Optimization for Recommender Systems. Abstract In recent years, machine learning technology has drastically improved in adapting big data among various fields, including commercial streaming online service and recommendation systems. Especially in recommendation systems case, the user-based recommendation systems or personalized recommendation is one of the most challenging tasks. In this paper, hence, we propose a novel optimization criterion that leverages features of the skew normal distribution to better model the problem of personalized recommendation. Specifically, the developed criterion borrows the concept and the flexibility of the skew normal distribution and also based on three hyperparameters to not only provide the degree of freedom in optimization and also highly attached to the optimization criterion. Moreover, we both provide the relation of optimization of the proposed criterion and the shape parameter in the skew normal distribution from theoretical point of view and provide the analogies and provide the theoretical proof on asymptotic analysis of the area under the ROC curve to our proposed method. Experimental results conducted on five large-scale real-world datasets reveal that our proposed optimization criterion significantly achieve the best performance of the state of the art and yields consistently on all tested datasets.. 立. 政治大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. 3. i Un. v. DOI:10.6814/NCCU202000474.

(6) 目錄致謝. 1. 中文摘要. 2. y. sit. io. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. n. er. Nat. al. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. ‧. ‧ 國. 立. 政治大. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 學. Abstract 第一章緒論 . . . . . . . . . . . . . . . . . . . . . . . . . . 1.1 前言 . . . . . . . . . . . . . . . . . . . . . . . . . 1.2 研究目的 . . . . . . . . . . . . . . . . . . . . . . 1.3 研究動機詳述 . . . . . . . . . . . . . . . . . . . 第二章相關文獻探討 . . . . . . . . . . . . . . . . . . . . . 2.1 圖形學習表示法 . . . . . . . . . . . . . . . . . . 2.2 推薦系統 . . . . . . . . . . . . . . . . . . . . . . 2.3 表示法空間調整 . . . . . . . . . . . . . . . . . . 第三章研究方法. . . . . . . . . . . . . . . . . . . . . . . . 3.1 個人化推薦系統 . . . . . . . . . . . . . . . . . . 3.1.1 問題定義 . . . . . . . . . . . . . . . . . . 3.1.2 先備相關知識 . . . . . . . . . . . . . . . 3.2 偏態排序優化 ( Skewness Ranking Optimization ) 3.2.1 觀察與動機 . . . . . . . . . . . . . . . . 3.2.2 優化準則 . . . . . . . . . . . . . . . . . . 3.2.3 模型理論敘述與證明 . . . . . . . . . . . 3.2.4 AUC分析 . . . . . . . . . . . . . . . . . . 第四章實驗結果與討論 . . . . . . . . . . . . . . . . . . . 4.1 資料集 . . . . . . . . . . . . . . . . . . . . . . . 4.2 比較基準模型 . . . . . . . . . . . . . . . . . . . 4.3 實驗設定與驗證標準 . . . . . . . . . . . . . . . 4.3.1 實驗設定 . . . . . . . . . . . . . . . . . . 4.3.2 驗證標準 . . . . . . . . . . . . . . . . . . 4.4 實驗結果 . . . . . . . . . . . . . . . . . . . . . . 4.4.1 Top-N 推薦任務表現 . . . . . . . . . . . 4.4.2 敏感度分析 . . . . . . . . . . . . . . . . 4.4.3 機率分佈之討論 . . . . . . . . . . . . . . 4.4.4 估計量之差異分析 . . . . . . . . . . . . 第五章結論 . . . . . . . . . . . . . . . . . . . . . . . . . . 參考文獻 . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. Ch. engchi. i Un. v. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 3 1 1 3 4 5 5 6 8 9 9 9 10 12 13 14 16 19 21 21 22 23 23 23 24 24 26 30 32 34 35. DOI:10.6814/NCCU202000474.

(7) 圖目錄圖 1.1. Illustration of toy example on the graph of user-item interaction graph. 圖 3.1 Skew normal distributions (ξ = 0, ω = 1). 圖 3.2 Distributions of xûij learned from BPR. . . 圖 3.3 Increasing function κ(α). . . . . . . . . . 圖 3.4 Increasing function γ(α). . . . . . . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. . . . .. 2 . . . .. 12 13 17 18. 圖 4.1 圖 4.2 圖 4.3 Sensitivity analysis on η. (ξ = 12, ω = 3) . . . . . . . . . . . . . . . . 圖 4.4 Sensitivity analysis for η = 3 (first row) and η = 5 (second row). . . . 圖 4.5 Learned distributions with different location parameters. . . . . . . . . 圖 4.6 Learned distributions and the skew normal distributions for η = 3 (first row) and η = 5 (second row). . . . . . . . . . . . . . . . . . . . . . . . .. 26 27 27 29 30. 治政 Gradient smoothing (ξ = 8, η = 3). . . . . 大 . . . . . . . . . . . . . . . 立 Sensitivity analysis on η. (ξ = 11, ω = 3) . . . . . . . . . . . . . . . . ‧. ‧ 國. 學. Nat. n. al. er. io. sit. y. 31. Ch. engchi. i Un. v. DOI:10.6814/NCCU202000474.

(8) 表目錄 Dataset statistics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Recommendation performance. . . . . . . . . . . . . . . . . . . . . . Recommendation performance on different estimator. . . . . . . . . .. 立. 21 28 33. 政治大. 學 ‧. ‧ 國 io. sit. y. Nat. n. al. er. 表 4.1 表 4.2 表 4.3. Ch. engchi. i Un. v. DOI:10.6814/NCCU202000474.

(9) 第一章緒論. 1.1. 前言. 立. 政治大. ‧ 國. 學. 在網際網路的時代，消費者的行為已逐漸從實體商店開始轉變至各電商平台。而近年研究顯示多數的消費者已經選擇在網路上進行購物，同時也說明現階段消費者的購買習慣已經開始慢慢從實體店面到電子平台。在電子商務發達開始後，消費者的耐心開始下降，因此像 PChome 等電商平台開始慢慢推出24 小時內到貨等. ‧. 服務。目前電子商務雖慢慢成熟化，但仍然有待改進的缺點，例如尚有一些電子商務的網頁介面缺乏個人化的推薦系統，而缺乏個人化的功能往往會讓消費者降. Nat. sit. y. 低到電子平台購物的意願，因此電子商務的服務應該要能更精確的掌握消費者的. io. n. al. er. 使用習慣，這使推薦系統在現今成為電商平台能脫穎而出的重要項目。. v. 推薦系統是一種訊息過濾系統，主要使用於預測使用者對於商品的未來偏. Ch. i Un. 好。而近年來由於消費習慣的轉換，消費習慣逐漸由實體消費化成虛擬消費，因此推薦系統便廣泛運用於各類商品與服務中。舉凡電影、新聞、音樂、期貨甚至. engchi. 衍伸性金融商品或投資組合的規劃，皆是推薦系統能夠應用的範圍。目前依據不同的推薦系統演算法及目的，主要可以分成三種類型: 協同過濾式 ( Collaborative Filtering ) 、內容導向式推薦 ( Content-based Recommondation ) 與混合式推薦 ( Hybrid Recommondation ) 。協同過濾式主要透過使用者的聆聽、訂閱、搜尋、點擊、評價等行為進行分析，並利用相似行為紀錄使用者群的來進行推薦的工作。內容導向式推薦主要針對於使用者對於物品的使用特徵，像是類別、屬性等，來推薦類似性質的相似物品。例如我們常以推薦相同類別標籤的商品給予消費者，來預測消費者未來可能喜愛的產品。混合式推薦則是將上述兩種方法融合起來以期達成更佳的推薦效果。目前的電子商務公司都將目光聚焦在相互競爭下，大量的商品、使用者紀錄能為推薦系統所使用。雖然這些紀錄含有豐富的訊息與特徵，但在一些運算資源與硬體的限制下。雖然所負擔的成本雖相較從前來的低，但如何以考量在有限計算的複雜度成本下，利用這些資訊變成為一個相當具有挑戰性的任務。. 1. DOI:10.6814/NCCU202000474.

(10) 由於實作上的彈性與成效，圖形表示法學習 ( Graph Embedding ) 在深度學習與機器學習領域上被廣泛使用。表示法學習的技術主要為將一物件的屬性資訊，透過鄰近物件資訊或者關係投影至低維度向量空間中並產生相對應之向量表示式。最典型的例子莫過於自然語言處理領域中的 Word2vec ， Word2vec 即是透過類神經網路的學習後，將字詞跟語意透過字與字的語序關係，投影至屬於字詞的向量空間中並產生文字向量表示式。此一技術由於其方便性及具有延展性，已在許多領域與應用上為廣泛的應用。而在推薦系統 (Recommender System) 裡，由於物件資訊過多的關係，所以如何精準的學習每個使用者的表示法，抑或是每個商品的表示法，目前仍為業界實務上的一大挑戰。圖形學習表示法 ( Graph Embedding ) 是一種基於 Word2vec 的圖形表示法。我們能將使用者與使用者之間的交互關係想像成詞彙與詞彙間的關係，並使用表示法學習技術將使用者節點投影至較低維度的向量空間中，作為後續在分類 (. 政治大如：DeepWalk、LINE、HPE等，都被廣泛地運用在資料探勘、社群網路分析、推立薦系統等領域上。而現行的推薦演算法也常基於在此向量空間下，進一步根據. Clustering ) 抑或是推薦等工作上應用。目前有許多圖形表示法的演算法模型，例. ‧ 國. 學. 使用者的喜好紀錄，投影至相對應的向量空間的表示。例如：Matrix Factorization (MF)、Bayesian Personalized Ranking (BPR)、Weighted Approximate Rank Pairwise. ‧. (WARP) 等，都是非常經典的推薦演算法，目前也都成為在各大推薦相關研之 State of The Art 。因此本篇論文將以上述所提及之推薦演算法為基礎，發展與. n. al. er. io. sit. y. Nat. 優化整體向量空間的表示，以達成更好的推薦效果。. Ch. engchi. i Un. B. v. C C. D D. E E (a) Like-dislike user feedback graph.. (b) Weighted user feedback graph.. 圖 1.1: Illustration of toy example on the graph of user-item interaction graph. 2. DOI:10.6814/NCCU202000474.

(11) 1.2. 研究目的. 許多過去的演算法皆透過使用者的喜好 ( User Preference ) ，成為在向量空間中以使用者對於物品的喜惡當作投影至向量空間的依據，但對於向量空間的分佈卻鮮少有研究。傳統的矩陣分解 ( Matrix Factorization ) 的做法是將使用者與喜好的物品於向量空間的分佈中拉近。貝氏個人化排序演算法 ( Bayesian Personalized Ranking ) 則是不僅強調在向量空間中將使用者所喜好的物品拉近，也著眼於將使用者所厭惡之物品放遠。此兩種現行之演算法皆未明確定義與優化「拉近距離」的步驟。換句話說，就是上述兩種推薦演算法皆無法優化拉近的程度亦或者是推多遠的大小。因此，如何有效地限制並優化向量空間的分佈，並在不影響推薦效能與效率的情況下，成了一個非常具有研究空間的議題。. 政治大. 本論文旨在探討如何有效的限制表示法向量空間的生成，以及如何以機率分佈的角度切入並且優化分佈。透過偏態的優化項，我們能有效地控制物品表示法與使用者表示法於向量空間中的嵌入，而這些表示法向量空間往往與推薦成效有. 立. ‧ 國. 學. 著非常大的相關性。因此，我們首先觀察現行不同基於排序學習 ( Ranking-based ) 方法下所造之機率分佈。透過觀察，我們發現多數的機率分佈大多呈現單峰且. ‧. 為正偏態的情況，因此非對稱常態分佈 ( Skew Normal Distribution ) 因其具備上述的特色的情況下，成了非常值得去討論機率模型。本論文將基於上述動機提出兩. Nat. 個方向的論述。其一為基於非對稱常態分佈的先驗假設，設計ㄧ新的推薦演算法. sit. y. 改善推薦的成效。其二是提出相關的理論敘述來說明並佐證本文所提及之論點。. er. io. 我們提出一推薦演算法名為 Skewness Ranking Optimization (Skew-OPT) ) ，帶有非對稱常態分佈中的兩項參數，分別為 Location 和 Scale 並與應機率分佈之位置與. al. n. iv n C hengchi U 參數，其中 Shape 參數與非對稱常態分佈之偏態數值為正相關。我們. 寬窄有關，更甚本推薦演算法在優化「距離」時，也能同步最大化非對稱常態分佈之 Shape. 將針對上述提出理論上的分析與說明；且針對本文所提出之推薦演算法對於最大化接收者操作特徵曲線 ( ROC curve ) 下方的面積提出理論上的分析。本論文之主要貢獻整理如下:. • 針對表示法向量空間的優化，最直觀的方式不外乎直接依據給定的機率分佈進行擬合。然而需要知道一個空間的機率分佈有時候所需的計算成本是是. 非常昂貴的。除此之外，就算成功求得機率分佈後，要精準且完美的擬合無論是於實務上或是於理論上皆是非常困難的，特別是在已有特定目標導向的推薦問題上。本文以偏態之觀點，提出一基於偏態優化演算法通式，能直接應用於各推薦演算法之目標函式，進而突破既有演算法的表現上界 ( Preformace Upper Bound ) ，達成更好的推薦效果。 • 推薦問題主要分為兩種任務：一為以使用者推薦物品為導向之 Top-N 推. 薦任務 ( Top-N Recommendation Problem )，二為以物品推薦物品為導向 3. DOI:10.6814/NCCU202000474.

(12) 之 Query-based 推薦任務 ( Query-based Recommondation Problem) 。本論文使用之推薦演算法模型有：Matrix Factorization (MF) 、 Bayesian Personalized Ranking (BPR)、High-order Proximity Recommendation (Hop-Rec) 以及 Hetrogeneous Preference Embedding (HPE)，其中針對 Top-N 推薦任務之推薦演算法為前三者；最後者為針對 Query-based 推薦任務。然本文另一貢獻為提出之優化偏態項，能同時使兩種推薦任務皆有顯著改善的趨勢，並存取訓練過後之使用者向量 ( User Embedding ) 與物品向量 ( Item Embedding ) 進而應用於未來更多的問題上。 • 本文提出一系列之理論證述，主要證明在最大化 Skew-OPT 的同時，亦能同. 時最大化非對稱常態分佈中的 Shape 參數，並最大化接收者操作特徵曲線下方的面積 ( AUC )。. 政治大. • 我們將本文所提出演算法 Skew-OPT 實驗於五種不同的巨量真實資料上皆有顯著的改善。而我們也開源相關的程式碼在 Github ，以供所有對於此議題. 立. 學. ‧ 國. 有興趣的研究人員使用。. 1.3 研究動機詳述. ‧. y. Nat. 本文在旨在提供一演算法 Skewness Ranking Optimization ( Skew-OPT ) 去間接最大. sit. 化給定估計量機率分佈之偏態值。我們僅是透過間接優化的方式來達到重新模化. er. io. 所期望之機率分佈而已，並非是針對直接調整分佈所設計之一目標函式。。通常在重新模定一機率分佈時，往往需要考慮計算到所有的樣本點，並且需要一次性的來去考量樣本集合中的統計量的分佈與呈現，最後會依據每一個樣本點所給予. n. al. Ch. engchi. i Un. v. 的特性，施予所欲模改之分佈上的限制後，進而去來做做修正與調整。然而，通常我們在執行個人化推薦任務時，常使用的行為資料往往具有成千上萬個使用紀錄與數萬個使用者與商品。如果我們想要直接逕行調整從行為資料所訓練出的表示法機率分佈時，我們就必須得去針對此行為資料中所有的樣本點進行模改，這樣將會消耗非常龐大的運算資源，在實作上是非常不符合實際效益的作法。因此本文透過設計 Skew-PT 來間接去調整示法向量空間之機率分佈，此方式不僅能夠省下大量的運算資源，在優化的過程中以抽樣的方式來減少訓練的時間。 Skew-OPT 透過抽樣訓得的方式，來使生成的表示法空間之機率分佈具有我們所期待的特性，該特性會有助於個人化推薦任務上的表現，而我們也會在接下來的章節中，更詳細的介紹這些細節。. 4. DOI:10.6814/NCCU202000474.

(13) 第二章相關文獻探討 2.1. 圖形學習表示法. 立. 政治大. ‧ 國. 學. 詞向量 ( Word Embedding ) [11] 於今自然語言處理等領域中儼然是一種非常實用且彈性的技術，特別的是這已成為一種常用的特徵並且被廣泛的使用。有鑒於傳統模型當中，例如 One-hot 表示法 ( One-hot Representation ) 或是 Term Frequency-. ‧. Inverse Document Frequency ( TF-IDF )，這類型的詞向量維度通常非常大且稀疏，. y. Nat. 這不僅會導致運算上的昂貴成本，也對於大量的文本分析上造成非常大的障礙。. sit. er. io. 為了解決上述的缺點，透過神經網路學習，並將詞語項投影至低維度的向量空間中使向量變得稠密，有助於節省計算上成本，其彈性更有助於發展更近一步的應用。事實上，圖形學習表示法 ( Graph Embedding ) 即是從此概念延伸，並將一關. n. al. Ch. i Un. v. 係網路關係圖透過節點間交互連結之結構，映射到低維度的向量空間中，並廣泛運用於多個不同的領域。. engchi. 自從詞向量的概念被提出後，許多基於詞向量得概念應勢而生，許多人陸續地根據概念發展。 Deepwalk [15] 將向量的概念應用於網路圖學 ( Network Graph ) 中，並參考了 word2vec 的特性，將網路節點比擬成詞，透過隨機遊走 ( Random Walk ) 的方式產生節點序以模擬詞句的前後文形式，最後再透過 Skip-gram 模型訓練得出節點之向量表示法。 Node2vec [3] 則重新定義了兩種遊走策略，一種為基於廣度優先搜尋 ( Breadth-first Search )走動策略；另一種為深度優先搜尋 ( Depth-first Search ) 的走動策略。並透過遊走策略的彈性選擇，使模型於生成節點表示法時，有更佳的表現。 Large-scale Networ Embedding ( LINE ) [17] 提出一方法以解決大型網路圖的節點表示法生成問題，其中定義了網路中節點之間的一階相似度 ( First-order Proximity ) 以及二階相似度 (Second-order proximity) 後，結合負樣本抽樣 ( Negative Sampling ) 的更新方式，以處理巨量的網路節點之表示法生成。. 5. DOI:10.6814/NCCU202000474.

(14) 2.2. 推薦系統. 與現今的推薦系統相比，早期的推薦系統其實是一種資訊檢索工具，是一種主動輸入給定的關鍵字，將物件根據關鍵字搜尋回來並且排序呈現的技術後，再根據這些被搜尋回來的候選物件的細部特徵進行排序。而這門學問在這近年內逐漸成為一門特殊且獨立的學術領域，發展出一系列的演算法。 GroupLens 是第一個提出自動化推薦系統的研究團隊，他們使用了協同過濾 ( Collaborative Filtering ) 技術，而這也成為現今推薦系統相關領域非常重要的演算法之一，影響甚鉅。此後 Adomavicius 等人將推薦系統依據其演算法的不同，分為3個主要類別，分別是協同過濾式 ( Collaborative Filtering ) 、內容導向式推薦 ( Content-based Recommondation ) 與混合式推薦 ( Hybrid Recommondation ) 。於2009年 Koren 等人順應提出了矩陣分解 ( Matrix Factorization ) 的推薦系統，此不僅於學術界成為經典的基準模型作為比較，也是在業界實作中常見的使用方法。協同過濾法主要可. 政治大以分成基於使用者 ( User-based ) 和基於物品 ( Item-based ) 等兩種類型，兩種類型立皆是以假設在網路節點中的共享節點越多，給定節點的相似節點之偏好紀錄，就. ‧ 國. 學. 有可能成為該給定節點的潛在推薦目標。例如在歌曲推薦中，某使用者聆聽了某首音樂，那他可能會因為相似使用者同時聆聽相同的音樂，而被推薦相似使用者所點選過的其他音樂聆聽紀錄中的其中一首歌曲。然而，此推薦方式可能會因資. ‧. 料過於稀疏 ( Spasity ) 、較容易推薦出熱門物件、無法處理冷啟動 ( Cold Start )推. sit. y. Nat. 薦等問題面臨困難的挑戰。. er. io. 於推薦系統工作上，常以兩種任務作為主要工作，分別為 Top-k 推薦任務導向 [7, 14, 16, 22, 24, 21, 6, 2] 以及 Query-based 推薦任務導向 [1, 10] 。 Top-k 推薦是. al. n. iv n C U h e n g c h i Point-wise 結果，因此有效排序變成了一大任務，其主要分為 Learning 和 Pair-wise 推薦任務中，最為實際且最常使用的技術之一，因為使用者往往只在乎前幾位的. Learning 。而 Query-based 推薦任務主要則是以物品推薦物品為主要目標，也是目前電商業界最為常見的推薦任務。 Point-wise 的方式主要是針對單一使用者與物件的關係；於訓練時只在乎使. 用者與一件物品的使用紀錄與喜好來進行優化，例如矩陣分解 [8, 9, 12] ( Matrix Factorization) 以及分解機 ( Factorization Machine ) 就是典型的例子。矩陣分解的原理便是將原先的使用者與物品的使用關係 ( Observed User-item Interaction ) ，建立比鄰矩陣 ( Adjacency Matrix ) ，藉由隨機梯度下降法 ( Stochastic Gradient Descent ) ，將使用比鄰矩陣分解為使用者特徵矩陣與物品特徵矩陣，而這些存於特徵矩陣內低維度特徵值便能成為代表使用者與物品的向量特徵表示法；分解機則是將多類別特徵，例如是評分、屬性等，並考慮特徵之間並非完全獨立，而是有某種程度的關係。例如在運動商店中，購買滑雪板的人即是常為購買滑雪外套的客群。因此分解機則是強調藉由學習特徵之間的交叉關係，建立使用者與物品特徵之向量作為評估物品的相關程度之依據。然而，我們很難去使用傳統的矩陣分解演. 6. DOI:10.6814/NCCU202000474.

(15) 算法在 implict feedback 的問題中，因為傳統矩陣分解不僅僅是忽略了 unobserved user-item interaction 的重要性，也直接省略 unobserved user-item interaction 為負樣本的重要假設。因此 WRMF [7, 14] ( Weighted Regularized Matrix Factorization ) 便是在考慮了 unobserved user-item interaction 為負樣本為重要假設的前提之下，使用樣本權重來去減少抽樣所容易造成的更新誤差。 Pair-wise 則是針對使用者與兩件物品間的相對之相關性的排序，在訓練時我們常以使用者之正抽樣樣本 ( Positive Sampling ) 物品及負抽樣樣本 ( Negative Sampling ) 作為兩件物品，作為個人化排序推薦演算法的始祖，貝氏個人化排序 [16] ( Bayesian Personalized Ranking ( BPR ) ) 提供了一通用優化準則，透過使用者與正向回饋之物品 (Positive Implict Feedback ) 以及負向回饋 ( Negative Implict Feedback) 之物品之間的關係，作為訓練及更新上的依據。而基於貝氏個人化排序的優化通則下， Weighted Approximate-Rank Pairwise ( WARP ) Loss [22] 則是在優. 政治大成更好的排序結果。 k-Order Statistic (k-OS) [23] 則是在基於 WARP Loss 的最佳化立過程中，一次考慮k組正抽樣樣本，進而得到更好的推薦效果。而當 k = 1 時， k化過程中，針對不同的抽樣樣本對，即時調整不同權重於每次的更新過程，以達. ‧ 國. 學. Order Statistic 則退化成 WARP Loss 。此外，也有許多模型考慮了 High-order 的資訊於其演算法當中， Hetrogeneous preference Embedding (HPE) [1] 便是利用隨機遊. ‧. 走 ( Random Walk ) 的特性，在訓練時將物品與物品的相對關係強化。High-order Proximity Recommendation ( Hop-Rec ) [24] 除了透過隨機遊走取得使用者的 High-. y. Nat. order 資訊融入優化中外，還使用基於貝氏個人化排序作為優化的基礎，並藉由調. sit. 整不同 order 的更新權重的關係達成更好的推薦效果。Neural Graph Collaborative. n. al. er. io. Filtering ( NGCF ) [21] 為一藉由學習使用者與物品二元圖的連結關係，並基於類神經網路遞迴更新使用者與物品表示法，並直接將高階資訊加入優化過程，成為. Ch. 目前在過去研究中，表現最優的推薦演算法之一。. engchi. i Un. v. 上述的相關工作大部分皆是在基於學習純使用者與喜好物品間的關係。然而隨著數據資料以及硬體設備的崛起，許多學者也開始將外部資料加入或者是將物品或者使用者之特徵、敘述文字等元資料 ( Metadata ) 來增進推薦系統的表現。重新建立的相關圖譜遂命名為知識圖譜 ( Knowledge Graph ) 。近年來，許多工作皆致力於探勘與研究如何有效利用知識圖譜中的資訊，萃取品質良好的特徵表示法。 Knowledge Graph Convolutional Networks for Recommender Systems ( KGCN ) [19] 則是透過圖形卷積網路 ( Graph Convolution Neural Net) 將知識圖譜中的資訊嵌入表示法中，為將知識圖譜運用在推薦任務上的經典工作。此外，也有部分學者將外部資訊整合成知識圖譜 ( Knowledge Graph ) ，並以知識圖譜加入協同過濾推薦系統中，KGAT: Knowledge Graph Attention Network for Recommendation ( KGAT ) [20] 就是將知識圖譜結合使用者與物品偏好關係圖 ( User-item Interaction Graph ) ，並導入協同過濾演算法以及 TranR [5] 演算法，並結合 Attention 的權重機制，以取得更好的推薦效果，而 KGAT 也是目前相關模型之集大成。. 7. DOI:10.6814/NCCU202000474.

(16) 2.3. 表示法空間調整. 所有的特徵在壓縮為低維度的特徵表示法時，其壓縮演算法 ( Embedding Algorithm ) 的皆是在描述節點特徵的專屬向量空間。因此在每一次的隨機梯度下降法的優化過程，皆會得到不同的向量空間。目前針對圖形學習表示法以及推薦系統的領域皆很少有針對特徵表示法向量空間做空間的再優化，僅只是將樣本點根據抽樣的標籤，在向量空間中將彼此的距離拉近或推遠，也鮮少有針對表示法向量空間優化的相關工作。而在圖像辨識的領域中 ( Pattern Recongnition ) ， Learning Spread-out Local Feature Descriptors (GOR) [25] 將圖片集透過標記的相關性，試圖優化傳統卷積神經網路 ( Convolution Neural Network ) 的連續特徵萃取後所產生的特徵向量空間，並加上特殊歸一項，並分散 ( Spread-out ) 標記不同的特徵向量，較傳統分類模型有更精準的分類結果。 Second Order Similarity Regularization for Local Descriptor Learning ( SOSnet ) [18] 則提供一通用歸一項 (. 政治大 SOS Regulariation Term ) 藉由透過探索二階 Second-order 之資訊，來優化圖像於表立示法向量空間的分佈，以提升分類結果。除此之外， Md. Abul Hasnat 等人 [4] 提. ‧ 國. 學. 出基於 von Mises-Fisher Distribution 的深度類神經網路將之應用於臉部辨識， von Mises-Fisher Distribution 為一種特殊的機率分配，能在高維度的資料上有著顯著的. ‧. 分群效果，因此其便是透過深度類神經網路的操控，來去強制改變原本臉部圖片所形成之向量空間，使之強制服從於 von Mises-Fisher Distribution 以達成更好的辨. n. al. er. io. sit. y. Nat. 識與分類效果。. Ch. engchi. 8. i Un. v. DOI:10.6814/NCCU202000474.

(17) 第三章研究方法政治大以及演算法，並提及相關知識以備後續模型介紹所用；在 3.2 小節主要介紹本文立. 本章節主要分為兩個部分，在 3.1 小節中主要介紹常見的個人化推薦系統的原理. 所提出一全新之個人化推薦演算法，並闡述當前主流個人化推薦系統所遇到的困. ‧ 國. 學. 難，以及一個優化準則以提升推薦的成效；而在 3.3 小節中，我們將會闡述相關定理佐以解釋與證明本文所提之演算法的正確性，並針對 AUC 的面向來做更近一. y. Nat. io. sit. 個人化推薦系統. er. 3.1. ‧. 步的解釋模型的優勢。. al. n. iv n C hengchi U 者資料能應用於其商業用途上愈加感到興趣，其中以個人化推薦系統最為困難。. 隨著近年大數據以及機器學習的崛起，許多電商對於手中可用的商品資料與使用. 個人化推薦系統提供一經過排序的個人化推薦結果給予不同的使用者，而這些排序的結果往往會根據其點選商品的個人習慣，以及他本身的個人化資訊去做擷取與應用。在本論文中，我們也將針對使用者來做個人化的推薦分析，主要是將使用者點選商品的個人習慣資料視作隱含使用者回饋 ( Implicit User feedback ) ，亦即將使用者直接點選的商品視作使用者喜愛商品的訊號，而未點選的商品則視為使用者不喜歡的表徵。. 3.1.1. 問題定義. 在協同過濾法的任務導向中，我們常常將使用者與物品的喜好以及交互關係視作一 Implicit Feedback 。今天我們假設使用者集合為 U ，而物品的集合為 I 。在給定一基於使用者集合與物品集合下之 Implicit Feedback S ⊆ U × I，我們的目標. 是在基於此假設下學習使用者與物品的表示法向量矩陣 Θ ∈ R|U ∪I|×|d| ，其中|d|為 9. DOI:10.6814/NCCU202000474.

(18) 表示法的維度。我們藉由計算使用者表示法 θu 與物品表示法θi 間的內積值來完成 top- N 導向之推薦任務，其中 u ∈ U 、i ∈ I 且 θu 與 θi 為 Θ 的列向量。. 3.1.2. 先備相關知識. 以下小節，我們將針對一經典的個人化排序演算法，貝氏個人化排序 ( BPR ) ，做一詳細的介紹以及 BPR 之原理解釋。此外，我們也會針對本篇核心概念偏態以及重要分佈非對稱常態分佈做一些概敘。. 貝氏個人化排序. 政治大. 現行有許多個人化排序推薦演算法擁有十分卓越的成效，其中最為經典的演算法就屬貝氏個人化排序 ( BPR ) [16]。BPR旨在透過使用者與物品間的關係來加以建模，並且考慮使用者不喜歡的物品，來優化輸出之個人化排序結果。在此演算法. 立. ‧ 國. 學. 下， BPR 於優化的過程中，創造了一樣本集合DS : U × I × I，此樣本集合為基於. 某個給定的使用者下，從隱性使用者回饋中所抽取與給定使用者之正相關與負相關的物品三重態樣本集合 (u, i, j) 。因此我們將DS 定義為：. ‧. y. Nat. . DS = (u, i, j) | ∀u ∈ U, i ∈ Iu+ ∧ j ∈ I \ Iu+ ,. io. sit. 其中(u, i, j) ∈ DS ，且每一使用者 u 喜歡物品 i 多過於物品 j 。. n. al. er. 為了清楚表示使用者對於物品的喜好，我們將使用者 u 喜歡物品 i 多過於物. i Un. v. 品 j 表示為 i >u j 。 BPR 的通用優化準則，行列於為下列數學推導中：. Ch. engchi. ln P (Θ | >u ) = ln P (>u |Θ)P (Θ) Y P (i >u j|Θ)P (Θ) = ln. (3.1). (u,i,j)∈DS. =. X. ln P (i >u j|Θ) + ln P (Θ). (u,i,j)∈DS. =. X. (u,i,j)∈DS. ln g (ˆ xuij (Θ)) − λΘ kΘk2 ,. 其中ˆ xuij (Θ)為一任意實數函式，包含模型參數並記錄使用者 u 喜歡物品 i, j 之間的關係；ln g (·) 則定義為 (u, i, j) 之似然函數 P (i >u j|Θ)；λΘ 則為一任意正則項之超參數。在 BPR 優化通用式中，作者假設 p(Θ) 之先驗分配為平均數為 0 且變異數共變異數矩陣為 ΣΘ 之常態分配，記作 p(Θ) ∼ N (0, ΣΘ )。而對於函式 g(ˆ xuij )，作者 10. DOI:10.6814/NCCU202000474.

(19) 將之表示為估計量 xûij 之 Sigmoid 函數並定義為 g(ˆ xuij ) =. 1 1 + e−ˆxuij. 其中估計量 xûij 在 BPR 的優化框架下，ˆ xuij 可由 xûi 和 xûj 所組成，記為 xûij = xûi − xûj 。對於 xûi ，ˆ xui 則為 θu 與 θi 之內積值 ( xûi = hθu , θu i ) 。而在本篇論文當. 中，我們將廣泛運用與貫穿此概念於我們所提出之演算法。何謂偏態. 偏態是一衡量指標，用於衡量一實數機率分佈相對於其期望值之對稱程度。一般而言，我們可以量化一隨機變數 X 之偏態值 γ 為 X 之三階標準動差，其定義為. 治 # 政 " 大 X −µ 3. 立γ = E. s. ,. ‧ 國. 學. ‧. 其中 µ 和 s 為隨機變數 X 之期望值與標準差。通常對於一單峰機率分佈 ( Unimodal Distribution ) ，我們將負向偏態 ( Negative-skewed Distribution ) 定義為其厚尾落於機率分佈之左測；將正向偏態 ( Positive-skewed Distribution ) 定義為其厚. y. Nat. 尾落於該機率分佈之右測。而對於標準常態分佈 ( Standard Normal Distribution ) 而. sit. er. io. 言，其為一之於期望值為 0 之對稱分佈 ( Symmetric Distribution ) 。而大部分的情況下，我們可以將負向偏態之偏態值為負值、正向偏態之偏態值為正值與對稱分佈之偏態值為 0。通常偏態值為 0，其機率分佈之兩尾皆會對稱於給定之期望值，. n. al. Ch. i Un. v. 但有時可能發生於非對稱分配，例如一非對稱分配其一尾為長且高、另一尾為寬. engchi. 且厚就有可能造成偏態值為 0 情況發生。非對稱常態分佈. 在機率論以及統計學中，非對稱常態分佈 ( Skew Noraml Distribution ) 為一連續且允許非零偏態值出現之常態分佈。而此分佈通常可透過三種不同意涵之參數來定義其機率密度函數 ( Probability Density Function (PDF) ) ，分別是位置參數 ( Location Parameter) ξ ∈ R 、比例參數 ( Scale Parameter ) ω ∈ R+ 以及外型參數 ( Shape Parameter ) α ∈ R。非對稱常態分佈之機率密度函數可表示為下列 2 f (x) = ϕ ω. . x−ξ ω. . x−ξ Ψ α , ω. (3.2). 其中ϕ(·)和Ψ(·)分別代表標準常態分佈之機率密度函數與累積分配函數 ( Cumulative Distribution Function (CDF) ) 。而對稱常態分佈之累積分配函數則可定義為 11. DOI:10.6814/NCCU202000474.

(20) F (x) = Ψ. . x−ξ ω. . − 2T. . x−ξ ω. . . ,α ,. (3.3). 其中T (h, a) 是歐文氏 T 函數( Owen’s T function )。因此藉由上述的定義下，我們接下來便可以闡述一非對稱常態分佈之偏態值 γ，特別的是 γ 與 α 的函數定義為 . 4−π γ(α) = 2 . √ α 1+α2. 1−. q 3 2 π. 2α2 π(1+α2 ). 32 .. 0.7 0.6. 政治大. 0.4. 立. 0.3. 0.1 0.0. γ γ γ γ. = -0.45, α = -2 = 0.00, α = 0 = 0.45, α = 2 = 0.78, α = 4. 學. 0.2. −4. −2. 0. 2. 4. ‧. ‧ 國. f (x). 0.5. (3.4). sit. y. Nat. x 圖 3.1: Skew normal distributions (ξ = 0, ω = 1).. al. er. io. 圖 3.1 則是描述了當我們固定位置參數 ξ = 0 和比例參數 ω = 1 後，搭配不. v. n. 同的外型參數所呈現的機率分配圖 ( 本圖以 α = −2, 0, 2, 4 為例 ) 。而圖中觀察得知，如果 α 與偏態值 γ有著正相關的關係，例如 α 越大我們就可得到越大的偏態. Ch. engchi. i Un. 值 γ。我們也觀察到，在固定的位置參數 ξ = 0 和比例參數 ω = 1 的條件下，擁有越大的偏態值 γ則能使 p(x > 0)，而這也跟 AUC 有著非常大的關係，我們會在接下來的 3.2.4 章中討論。. 3.2. 偏態排序優化 ( Skewness Ranking Optimization ). 在本章節當中，第 3.2.1 小節中，我們將透過觀察 BPR 所學習之表示法所形成之機率分佈來闡述我們的動機。此外，於第 3.2.2 小節中，我們將解釋本論文所提出之演算法，偏態排序優化 ( Skewness Ranking Optimization (Skew-OPT) ) ，著手更近一步的解釋與目標函式之推導。更者，於第 3.2.3 小節中，我們將近一步解釋本論文所提出之演算法，並提供相關理論上的輔助證明以解釋該演算法之合理性。最後，我們將在第 3.2.4 小節中，針對 AUC 與本演算法之間的關係進行一系列的分析。 12. DOI:10.6814/NCCU202000474.

(21) 觀察與動機. 3.2.1. 大部分的個人化排序演算法，像是 BPR [16] 或者是 WARP [22] 皆著重在於，透過最大化使用者喜歡與不喜歡的物品所呈現的後驗機率，有效率的去學習使用者習慣的表示法。然而這些先前的工作，並未提及甚至詳細討論該算法中估計量 ( Estimator ) 之機率分佈。例如在 BPR 中，文章中並未討論到估計量 xûij (Θ) 的分佈。但往往估計量之機率分佈為影響演算法表現的重要因素之一。圖 3.2 中，我們就畫出將經過 BPR 訓練後之估計量 xûij (Θ) 的機率分佈，並同時算出其偏態值。我們這裡展示了三種不同的現實世界之資料於圖中，而從圖 3.2 中，我們可以觀察到所有的機率分佈皆為單峰且有就偏態的情形發生。圖 3.2a 和圖 3.2b 揭示了在 Epinions-Extend 和 Last.fm-360K 兩種資料中，其機率分佈之偏態值就分別達到了 γˆ = 1.09 以及 γˆ = 0.373，屬於正偏態的機率分佈。而圖 3.2c 則揭示了. 政治大. 在 Amazon-Book 之偏態值為 γˆ = 0.08，雖然趨近於零，但也屬於居有正偏態現象. 500. 50 00. 0. 00. # Pairs # Pairs. 100. 5. 10 0 5 xûij =xûij xûi=°xˆxûiuj° 5 10 0 5 xûij =xûij xûi=°xˆxûiuj°. 10. xûj. 10 xûj. 80 60. al. 100 50. 0. 5 500. 20. 20 00. 10. 5. 10. 400 400. 400 350 350 400. ∞ˆ =0.08 ∞ˆ =0.08. 350 300 300 350. 60 40. 0. xûij = xˆ0 ui ° xûj xûij = xûi ° xûj 5 0 10 5 10 xûij = xûi ° xûj xûij = xûi ° xûj. 80. 40. 0. 250 200 200 150 150 100. 0. 300 250 250 300 250 200 200 250 200 150 150 200 150 100 100 150 100 50 100 50 500. 0 xûij. 5. 10 10 15 =xûij xûi=°xˆxûiuj° xûj 5. 0. y. 100 50. 100. 0. sit. 100 50. io. 150 100. 120. Nat. 150 100. 120. 500. ∞ˆ =1.09. 0. 500. 0. 0. er. 200 150. 250 200 200 150. ∞ˆ =1.09. # Pairs # Pairs. 200 150. 250 200. 300 250. # Pairs # Pairs. 300 250. # Pairs. 300 250. 350 300. 300 250. 100 50. 140. 400 350. 350 300. 150 100. 140. # Pairs. 350 300. # Pairs # Pairs. 350 300. ∞ˆ =1.09∞ˆ =1.09. 400. 400 350. ‧. # Pairs # Pairs. 400 350. Amazon-Book Amazon-Book ∞ˆ =0.08 ∞ˆ =0.08 Amazon-Book Amazon-Book. Epinions-Extend Epinions-Extend 400 ∞ˆ =1.09 ∞ˆ =1.09 Epinions-Extend Epinions-Extend. Last.fm-360K Last.fm-360K. 學. 400 350. ‧ 國. 400. 250 200. 立. Epinions-Extend Epinions-Extend 400 ∞ˆ =1.09∞ˆ =1.09 Epinions-Extend Epinions-Extend. # Pairs # Pairs. 之機率分佈。. 15. 0. 0. 5. 5. 10. 10. 15. 15. xûij xˆ=uijxˆ= ûj xûixˆ° ui ° uj x 5 10 10 15 15 5 xûij xˆ=uijxˆ= ûj xûixˆ° ui ° uj x. n. v C h(b) γˆ = 0.373 U n i (c) γˆ = 0.08 e n xˆguijclearned h i from BPR. 圖 3.2: Distributions of. (a) γˆ = 1.09. 受到上述的觀察以及所呈現之現象成果，本篇論文主要在提供一簡單且有效的全新偏態排序優化演算法，透過衡量估計量 ( Estimator ) 之機率分佈服從非對稱常態分佈 ( Skew Normal Distribution ) 的方式去提升演算法之成效。透過前面的觀察得知，在個人化推薦的任務中，我們欲使在訓練使用者偏好關係模型時，我們希望在模擬使用者情境下偏好是正向的機率越大越好，也就最大化 p(ˆ xuij (Θ) > 0) 。直觀上來看，我們能發現為了達成此目標，我們可以透過直接向右平移所得之機率分佈；抑或是在假定先驗分配為非對稱常態分佈的前提下，我們最大化機率分佈之偏態值。上述兩種方法皆可以有效的完成最大化 p(ˆ xuij (Θ) > 0) 的目標，因此我們接下來將以二方向出發，設計一同時具有這兩樣優化目標的概似函式，來去重新詮釋行為偏好關係模型在表示法空間上的生成。首先，位置參數 ξ 則提供了非對稱常態分佈一超參數可以使得整項機率分佈能夠被往右移動，這達成第一個目標，而比例參數 ω ，可以避免模型在學習的 13. DOI:10.6814/NCCU202000474.

(22) 過程因為位置參數過度移動分佈所造成的過似擬合的現象。而從圖 3.1 中，在固定位置參數以及比例參數時，我們可以發現外型參數 α 的改變，能同時帶動整個機率 p(x > 0)的大小，這則是達成我們第二項優化目標。而加大外型參數 α 的同時，我們也能使得機率 p(x > 0)變大。在 BPR 中，這樣的隨機變數 X 則可以被視作 xûij (Θ) ，因此調大 α 值的同時，便可以視作調大機率 p(ˆ xuij (Θ) > 0) 。在後面的章節中，我們將會呈現更詳細的敘述與證明，並將之闡述於 3.2.2 小節以及 3.2.3小節當中。. 3.2.2. 優化準則. 根據在前一章節我們對於非對稱常態分佈 ( Skew Normal Distribution ) 的觀察，本章節將提出一非傳統的個人化排序優化演算法，而我們將此一新演算法稱. 政治大. 作 Skewness Ranking Optimization 簡稱 Skew-OPT 。為了方便敘述以及論述之必要，以下將以 Skew-OPT 作為代稱。為了設計一演算法能達到同時優化觀察目標. 立. 所得到之結論，如同前一小節所提及到之現象，我們在訓練使用者偏好關係模型. ‧ 國. 學. 時，希望在模擬使用者情境下，使用者偏好的關係建模為正向的機率越大越好，. ‧. 或者也可以說我們希望使用者與他所偏好的物品間的相關程度越大。在機率的表示上，我們可以寫成最大化 p(ˆ xuij (Θ) > 0 。而根據觀察，我們可以發現將機率分佈平移以及服從更大的偏態值的分佈，可以造成我們個人化推薦任務上效果成. y. Nat. 長。在設計 Skew-OPT 時，我們加入了服從非對稱常態分佈這個假設，欲使透過. sit. al. er. io. 這個分佈機率的特性下，透過給定位置參數 ξ 則提供了，所訓練出的表示法機率分佈能夠往右平移。而我們在後面的章節也會提到， Skew-OPT 在最大化的同. v. n. 時，也是在間接最大會該表示法機率分佈之偏態值。藉由此二管齊下的設計，結. Ch. i Un. 合我們觀察做為動機，我們重新改寫了針對先前個人化排序表述之概似函數。我. engchi. 們將式 (3.1) 重新改寫，此式之概似函數是針對每一使用者 u 對於喜愛物品 i 多過於喜歡物品 j 的機率來進行設計。至此，我們將之重新定義為： p(i >u j |Θ, (ξ, ω, η)) = σ. . xûij (Θ) − ξ ω. η . ,. (3.5). 其中 (ξ, ω, η) 為 Skew-OPT 之三個超參數，η ∈ O，σ(·) 為 Sigmoid 函數。綜合上. 述，ξ 和 ω 分別代表非對稱常態分佈之位置參數和比例參數，O則表正奇數之集合。之所以將 η 之討論範圍限定於正奇數是由於，當 η 為正奇數時，能使我們所訂定之概似函數變為一 xûij (Θ) 之遞增函數。此設定目的為限制優化方向的相同，而正奇數的設定便能確保優化方向一致，確保最大化 Skew-OPT ，也能最大化外型參數 α，以達成優化目標中的其中一點。此外， sigmoid 函數的使用，通常是一在將目標函式的設定是利用將之專換到機率空間值範圍相同後，透過此特性藉以模擬我們在基於機率空間定義下所給定的目標函式之優化，而 sigmoid 並不會改變優化之方向。而設定這些超參數也提供了演算法額外的自由度來調整生 14. DOI:10.6814/NCCU202000474.

(23) 成之表示法空間之機率分佈，例如 ξ 提供了能一額外的自由度供我們將整個表示法分佈往右平移；而 ω 也提供了一自由度使我們能調整表示法分佈之比例，進而去避免過度平移所可能造成之過似擬合。值得一題的是，我們可以宣稱 BPR 為式 (3.5) 中 ξ = 0, ω = 1, η = 1 之特例。綜合上述以及式 (3.1) 所示， Skew-OPT 之優化準則能簡化為最大化下列之推導後之表示式： Y. Skew-OPT := ln. p (i >u j|Θ, (ξ, ω, η)) p(Θ). (u,i,j)∈DS. X. =. ln p (i >u j|Θ, (ξ, ω, η)) + ln p(Θ). (u,i,j)∈DS. X. =. ln σ. (u,i,j)∈DS. 立. . xûij (Θ) − ξ ω. η . 政治大. − λΘ kΘk2 .. (3.6). 在 3.2.3 章中，我們將會討論 Skew-OPT 與外型參數 α 的關係以及優化 Skew-. ‧ 國. 學. OPT 與優化偏態值之間的關係。. 在優化模型的過程，我們使用了異步隨機梯度遞增來優化 ( Asynchronous. ‧. Stochastic Gradient Ascent ) 來更新參數 Θ ，而此方法僅是與常見的異步隨機梯. y. ∂Skew-OPT Θ← −Θ+β , ∂Θ. al. sit. io. . er. Nat. 度遞增 ( Asynchronous Stochastic Gradient Descent (ASGD) ) [13]。對於每一個三元集 (u, i, j) ∈ DS ，優化的過程可以表示為下列式子：. n. iv n C h e n g cSkew-OPT 其中 β 為學習率 ( Learning Rate ) 且我們也將 h i U 關於模型參數的梯度推倒如下，並將詳細演算法過程呈現於演算法 (1)：. ∂Skew-OPT ∂Θ η X ∂ xûij (Θ) − ξ = ln σ − λΘ kΘk2 ∂Θ ω (u,i,j)∈DS. ∝. X. (u,i,j)∈DS. e. η x ˆ (Θ)−ξ − uij ω −. 1+e. x ûij (Θ)−ξ ω. η. 15. ∂ ∂Θ. . xûij − ξ ω. η. − λΘ Θ.. DOI:10.6814/NCCU202000474.

(24) Algorithm 1: Model learning with Skew-OPT Input DS ; begin Initialize Θ; repeat Sample a triple (u, i, j) from D S; ∂Skew-OPT x ûij (Θ) Θ← −Θ+β ; ∂Θ until convergence; return Θ; end. 3.2.3. 模型理論敘述與證明. 政治大. 以下我們將提出一引理說明 Skew-OPT 與外型參數 α 的關係以及優化 SkewOPT 與優化偏態值之間的關係。. 立. ‧ 國. 學. Lemma 1. 假設給定一 xûij 服從非對稱常態分佈且固定位置函數 ξ 以及比例參數 ω。給定特定之 η，在最大化式 (3.6) 之首項時，也同時在最大化外型參數 α ，. ‧. 並且最大化 xûij (Θ) 之偏態值。. n. al. −. − ln 1 + e. Ch. (u,i,j)∈DS. x ûij (Θ)−ξ ω. engchi. η !. er. io. X. sit. y. Nat. Proof. 在式 (3.6) 中，其首項可以化簡表示為：. i Un. v.. 我們可以從上述式子發現，如果我們省略 1 可以更明確的發現最大化式 (3.2.3) 等價於最大化 η xûij (Θ) − ξ ω (u,i,j)∈DS η xûij (Θ) − ξ ∝ E(u,i,j)∼DS . ω X. . (3.7). 當固定 ξ、ω 和 η 且 xûij (Θ) 服從非對稱常態分佈時，式 (3.7) 可以表為 α 的函數，並表示於下： η xûij (Θ) − ξ κ(α) = E , (3.8) ω 現在我們將證明 κ(α) 以及 γ(α) 皆為遞增函數。而如果 ∂κ(α)/∂α > 0 以 16. DOI:10.6814/NCCU202000474.

(25) 及 ∂γ(α)/∂α > 0，我們可以稱 κ(α) 以及 γ(α) 皆為遞增函數。根據上述式 (3.8). ∂κ(α)/∂α η Z ∞ x−ξ =∂ f (x)dx /∂α ω −∞ η Z ∞ x−ξ = ∂f (x)/∂α dx ω −∞   α2 (x−ξ)2 η+1 Z ∞ − x−ξ 2 x − ξ  e 2ω2  √ dx. = φ ω ω ω 2π −∞. (3.9). 式 (3.9) 中，當η + 1 為偶數時，首項恆為正數；而剩下的後三項，當 ω > 0 則恆為正數。因此我們可以得到下列結論：. 政治大. ∂κ(α)/∂α   α2 (x−ξ)2 η+1 Z ∞ x−ξ 2 x − ξ  e− 2ω2  √ = φ dx > 0. ω ω ω 2π −∞. 立. ‧ 國. y. sit. al. n. 0. er. io. κ(α). ‧. 2. η=1 η=3 η=5. Nat. 4. 學. 6. −2. (3.10). −4. Ch. engchi. i Un. v. −6 −6. −4. −2. 0. 2. 4. 6. α. 圖 3.3: Increasing function κ(α). 因此，我們可以說明 κ(α) 為遞增函數，而我們也將函數 κ(α) 畫出來並呈現於圖 3.3。而接下來我們將說明 γ(α) 的部分，同理欲證明該函數為一遞增函數，等價於直接證明 ∂γ(α)/∂α > 0。 √ 3 2 (4 − π) α2 ∂γ(α)/∂α = 25 . 5 3 2 2α 2 π 2 (α + 1) 2 1 − π(α2 +1) 17. (3.11) DOI:10.6814/NCCU202000474.

(26) 而從式 (3.11) 中，我們可以觀察到其分子的部分以及分母的第一項恆為正數；而在分母的第二項我們可以發現到 2α2 < π (α2 + 1) ，因此我們可以斷定分母的第二項恆為正數。因此 ∂γ(α)/∂α > 0 得證，並且也說明了 γ(α) 為一遞增函數。我們也將而我們也將函數 γ(α) 畫出來並呈現於圖 3.4。 1.00 0.75 0.50. γ(α). 0.25 0.00 −0.25 −0.50 −0.75 −10.0. −7.5. 立. −5.0. 政治大 −2.5. 0.0. 2.5. α 圖 3.4: Increasing function γ(α).. 5.0. 7.5. 10.0. 學. ‧ 國. −1.00. ‧. 綜合上述所證，式 (3.8) 中的期望值正比於 α 值，也就說擁有越大的期望值時就擁有越大的 α 值。而我們也可得到 α 值增加也與偏態值 γ的增加有著正比的關. n. al. er. io. sit. y. Nat. 係。因此可以得到最大化式 (3.6) 之首項時，也同時間接最大化 xûij (Θ) 所服從之非對稱常態分佈的 α 值與偏態值。. Ch. engchi. 18. i Un. v. DOI:10.6814/NCCU202000474.

(27) 3.2.4. AUC分分析. 以下章節，我們將針對本文所提出之演算法 Skew-OPT 與 AUC 之間的關係來進一步以理論的角度進行說明。再進行關係分析之前，我們首先來定義 AUC 的部分，對於針對每個使用者時， AUC 可以定義為： AUC(u) :=. X X 1 δ(ˆ xuij > 0). |Iu+ | |I \ Iu+ | + + i∈Iu j∈I\Iu. 其中 δ(xuij ) 為一指標函數 ( Indicator Funciton )，定義為： (. 1, if xˆ > 0 治政0, otherwise. 大. δ(ˆ xuij ) =. 立. uij. 1 X AUC(u) |U | u∈U X = wu δ(ˆ xuij > 0),. AUC :=. n. er. io. sit. (u,i,j)∈DS. al. (3.12). y. ‧. Nat 其中我們可以定義 wu 為. 學. ‧ 國. 綜合上述定義，我們可以得到對於所有使用者的平均 AUC 為：. Ch. wu =. i Un. 1 . |U | |Iu+ | |I \ Iu+ |. engchi. v. 相較於 BPR，式 (3.12) 與不同只有在歸一項差別。在 Skew-Opt 的演算法框架下，我們可以說明 BPR 為本演算法的特例（當 ξ = 0, ω = 1, η = 1 之時）。接下來，我們將會解釋有關於 Skew-Opt 與 AUC 的關係。在引理 1 中，我們強調了在非對稱常態分佈 ( Skew Normal Distribution ) 的假設下，大化式 (3.6) 之首項時，也同時在最大化外型參數 α ，並且最大化 xûij (Θ) 之偏態值。在 3.1.2 小節以及 3.2.1 章中，我們得知在最大化外型參數 α 同時也在最大化 p(ˆ xuij > 0) ，這也代表了最大化機率密度函數下對於 xûij > 0 的面積。而上述我們提及的平均 AUC 為鉅觀平均 AUC ( Macro Average of The AUC )，而在此我們著重在微觀均 AUC ( Micro Average of The AUC )，並將定義陳列於下： AUCmicro :=. 1 |DS |. X. δ(ˆ xuij > 0).. (3.13). (u,i,j)∈DS. 19. DOI:10.6814/NCCU202000474.

(28) 再依據非對稱常態分佈 ( Skew Normal Distribution ) 的假設下，我們能將式 (3.13) 改寫為：. AUCmicro :=E [δ(ˆ xuij > 0) ] = p(ˆ xuij > 0) =1 − F (0) 0−ξ 0−ξ =1 − Ψ + 2T ,α , ω ω 其中 F (x) 為非對稱常態分佈之累積分配函數定義於式 (3.3)。而當 α → ∞ 時，AUCmicro 則會趨近於最大值 1。在此我們僅討論 ξ ≥ 0 的. 情況。本篇論文中，我們並不討論往左邊平移的情形，而這是因為我們希望機. 政治大僅聚焦討論於 ξ ≥ 0 的情況下。在此情況下，我們可以得到：立. 率 p(ˆ xuij (Θ) > 0) 能夠越大越好，而 ξ < 0 的則會造成完全相反的目標，因此我們. 0−ξ ,α ∀ξ ≥ 0, lim 2T α→∞ ω 0−ξ √ 1 / 2 1 + erf = 2 ω 0−ξ =Ψ . ω. ‧. (3.14). al. er. io. sit. Nat. y. ‧ 國. 學. . n. 從綜合上述的推導，我們可以得到：. Ch. engchi. i Un. v. lim AUCmicro :=E [δ(ˆ xuij > 0) ] = p(ˆ xuij > 0) 0−ξ 0−ξ =1 − Ψ + lim 2T ,α α→∞ ω ω 0−ξ 0−ξ =1 − Ψ +Ψ ω ω =1. α→∞. 從此分析證明得出，當 Skew-OPT 再進行最大化的過程時，我們不針對 α 值給予任何的上限配置時，並不會造成在優化 AUC 的過程中，造成 AUC 大於1的情況以違反 AUC 的定義。因此我們更能稱 Skew-OPT 的優化更為全面性，並不依賴在等價優化上做任何太多的限制，才進而因此得到更好的推薦成果。. 20. DOI:10.6814/NCCU202000474.

(29) 第四章實驗結果與討論政治大之資料來驗證本文所提及之演算法的成效。在章中，我們將會著墨於對於本篇立在此章節中，我們機會透過設計一系列之實驗，並使用五種不同屬性之現實世界. 論文中所使用的五種真實世界之資料做描述，並展示其資料的相關統計量資訊。. ‧ 國. 學. 在章中，我們將會介紹五種本篇論文所使用的比較基準模型，以及其模型所具有的特性及在此相關中代表之地位表現。在章中，我們將會針對本篇論文所做的實. ‧. 驗所設定的參數細節以及驗證標準做相關的介紹與陳述。最後，在章中，我們將呈現四種不同的實驗以佐證本篇所提之通用演算法，在針對個人化推薦這項任務. sit er. al. n. 資料集. io. 4.1. y. Nat. 上，是有所幫助且有更好的任務表現。. Ch. engchi. i Un. v. 為了佐證本文所提出之方法，針對個人化推薦這項任務上有效的，我們使用了五種分別在（1）資料大小、（2）資料密度 ( Density ) 以及（3）資料種類上完全不同的現實世界中使用者對物品的使用紀錄之資料。我們將之整理，將每個資料的細節呈現於表 4.1 中。對於每一份資料，我們都將之使用紀錄資料 ( User Item Interaction Data ) 成隱向反饋 ( Implict Feedback ) 之形式表示。在轉換五星評價 ( 5-star ) 類別的資料時，表 4.1: Dataset statistics. CiteULike Amazon-Book Last.fm-360K MovieLens-Latest Epinions-Extend. 使用者. 物品. 邊數. 邊的種類. 5,551 70,679 23,566 259,137 701,498. 16,980 24,916 48,123 40,110 110,235. 210,504 846,522 303,4763 24,404,096 12,581,748. like/dislike 5-star play count 5-star 5-star. 21. DOI:10.6814/NCCU202000474.

(30) 我們將 3.5 分以上之使用者回饋視作為正向的反饋，而 3.5 分以下則視為對該使用者之負向的反饋；對於使用次數類別 ( Play Count Based) 之資料時，我們將該使用者點擊次數超過三次之物品視作正向的反饋，反之則為負向的反饋。而對於直接記錄使用者喜好的資料時，例如本篇所使用的 CiteULike 資料，由於其所表達的方式就是屬於隱向反饋式的資訊，，我們便直接依照喜好紀錄分為正向反饋以及負向反饋。. 4.2 比較基準模型接下來我們將會開始比較五個同種類的比較基準模型，而其說明與陳述如下. 政治大. • WRMF [14, 7] (Weighted Regularized Matrix Factorization) 為一具有權重向之矩陣分解方法，其主要根據最小平方法學習 ( Least-square Learning ) 以及透. 立. 過歸一項的設置，使其有比傳統矩陣分解方法更好的結果。. ‧ 國. 學. • BPR [16] (Bayesian Personalized Ranking) 此模型針對個人化排序優化，提出. ‧. 了一成對排序學習 ( Pairwise Loss Learning ) 的方法，並透過此方法再藉由利用使用者對於物品的使用紀錄，來區分使用者喜愛與不喜歡的物品。. • WAPR [22] (Weighted Approximate Rank Pairwise) 此方法主要在強調在不同. y. Nat. 抽樣的成對樣本中，其權重應被賦予不同的大小，而這些權重應該是根據成. sit. er. io. 對樣本在排序列中的正確性與位置而定。 • Hop-Rec [24] (High-order Proximity Recommendation) Hop-Rec 為一現行最優 (. State of The Art ) 的混合式模型，其主要概念是透過結合基於圖以及基於矩. n. al. Ch. i Un. v. 陣分解兩種方法，並針對表示法學習來進行優化。同時，此模型也利用了高. engchi. 階資訊 ( High-order Information ) 在模型的訓練當中。 • NGCF [21] (Neural Graph Collaborative Filtering) 為一現行最優的基於類神經. 網路類別的排序模型，其主要透過遞迴式的反向傳播方式，輸出使用者與物品的表示法。而此方法也有將高階資訊加入訓練過程，以讓結果更加傑出。. 而我們將針對以上五種不同的比較基準模型與本文所提出之方法，執行一系列之實驗與比較。. 22. DOI:10.6814/NCCU202000474.

(31) 4.3 4.3.1. 實驗設定與驗證標準實驗設定. 本論文旨在針對 top-N 推薦任務，而為了有效客觀的量化此推薦任務的成效，我們主要使用了兩種常見的量化指標：（1）召回率 ( Recall ) 與（2）平均準確率均值 ( Mean Average Precision ) 來進行評估，此兩項指標將會在第章中來做介紹。針對資料處理的部分，對於每一份實驗上使用的資料，我們將資料的 80% 設定為訓練集而資料的 20% 設定為測試集。所有我們在第章節中所呈現的分數結果都是經過重複五次的實驗後所得的平均成果，以消弭對於結果僅是誤差所造成之疑慮。此外，對於下列所有實驗，我們都將我們訓練所得到的表示法向量維度定為128維，且所有比較模型中的超參數皆是經過網格搜索所得到的最佳組合，這也. 政治大. 說明了比較基準模型們所呈現分數皆是在該任務中表現上最好的結果。. 立. ‧ 國. 學. 4.3.2 驗證標準. ‧. 為了量化評估本文所提出之演算法與其他比較基準模型在推薦任務的表現效果，. er. io. 召回率 ( Recall ). sit. Nat. 均準確率均值 ( Mean Average Precision )。. y. 我們採用以下兩種頗具代表性的驗證標準來驗證，其分別為召回率 ( Recall ) 與平. al. n. iv n C 召回率在推薦任務的情境下，可以定義為在該使用者所有喜歡個物品當中，有幾 hengchi U 個物品被成功推薦給該使用者。通常在推薦任務下，而我們可以依據定義評估所有該資料集下所以使用者的平均召回率，並將平均召回率量化為下列公式：. Recall =. 1 X |R(u)| |U | u∈U |I(u)|. (4.1). 其中 U 為使用者的集合、R(u) 為推薦給該使用者的清單中所有物品的集合以及I(u) 為該使用者所喜愛物品之集合。召回率為一重要指標，旨在觀察推薦的成效是否有效搜尋回與該使用者想關的物品，如果召回率過低代表該次搜尋回來之物品就算經過任何的後處理，也無法滿足推薦該使用者。而召回率的最大值為1，最小為0，分別代表喜愛的物品被全部搜尋召回以及全部皆未被搜尋召回。. 23. DOI:10.6814/NCCU202000474.

(32) 平均準確率均值 ( Mean Average Precision ) 平均準確率均值 ( mAP ) 表示在給定測試資料集中，我們針對召回的物品排序的正確程度做一量化的評估。所謂均值就是在推薦任務的情境下，我們針對各個使用者所得到的平均準確率均 ( AP ) 加以平均所得到的結果。可以將此量化指標陳述於下的公式：. MAP =. P. APu |U |. u∈U. (4.2). 其中 U 為給定之測試資料集中所有的使用者集合。為此我們接續著定義平均準確率，並將公式陳列於下：. 政X P治δ(I (j)) 大. 1 APu = |Iu |. i=1. i j=1. u. (4.3). i. 學. ‧ 國. 立. |Iu |. ‧. 其中 |Iu | 為給定一使用者 u 之所有喜愛物品的集合大小；且 δ(Iu (j)) 為一指標函數，代表如果該物品 j 出現在使用者 u 的喜好集合內則得值為1，相反的如果未出現於喜好集合內則得值為0。在推任務的情境下，平均準確率均值為一非常重要的. y. Nat. 量化指標，此指標可以量化出排序上的優劣。如果一推薦結果具有很高的平均準. sit. al. er. io. 確率均值，則代表此推薦結果具有非常好的排序結果，且間接說明有比較好的召回成效。式 4.3 中說明了，如果今天一推薦結果具有較差得排序結果，其在計算. n. 平均準確率時會受到較大的懲罰加權，使平均準確率整體降低。. Ch. 4.4 實驗結果. engchi. i Un. v. 以下章節我們將會針對實驗結果進行陳述與討論。在第 4.4.1 章的部分，我們將針對 Top-N 推薦任務表現的部分進行分析。在第 4.4.2 章中，我們將會針對 Top-N 推薦任務的情境下，針對我們所給定的參數進行敏感度分析。而在第 4.4.3 章中，我們將實際畫出並分析針對本文所提之估計量的機率分佈。最後，在第 4.4.4 章中，我們將針對不同的估計量的分佈，來驗證是否在不同的估計量分佈下，我們所提出之演算法一樣具有成效。. 4.4.1. Top-N 推薦任務表現. 表 4.2 陳列出了 Top-N 推薦任務表現結果。我們針對了 Skew-OPT 在 η = 1, 3, 5 的情況下與五種不同的比較基準模型來進行此任務的比較。最好的結果我們將會 24. DOI:10.6814/NCCU202000474.

(33) 把分數以粗體分數表列於表格中；十字架符號則代表比較基準模型中，針對該資料的操作下所表現最好的模型；米字號則代表成對 t 檢定中，所得的 p 值小於 0.01 。在 NGCF 模型的部分，我們只陳列了針對兩個資料的分數，這是因為一些硬體上的限制或者執行時間超過一天才能得到收斂的結果。相對於此執行時間，我們所提出之模型就算在最大的資料集下執行也能在半個小時內執行完畢。在成報的結果中，我們所呈現的進步幅度即是將我們 Skew-OPT 所得的分數與表現最好的比較基準模型所得的進步幅度。從結果來看，在所有的比較基準模型中，WARP、HOP-rec 以及 NGCF 為強比較基準模型，分別在不同的資料下有著不錯的表現。而我們所提出之 Skew-OPT 模型在五種資料的下，與所有的比較基準模型相較下，皆有著大幅的進步改善。此實驗中，我們主要針對演算法所回傳推薦序列結果中的前十個做為評判標準，意即我們針對 mAP@10 以及 Recall@10 來做量化評估。在 mAP@10 或是在 Recall@10 的指標下，當 η = 3 時，其分別的進步幅度為 3.18% 到 18.07% 以及 3.78% 到 15.25%；而在 η = 5 時，其進步幅度分. 政治大. 別為 3.97% 到 22.53% 以及 4.76% 到 14.12%。因此根據表 4.2 所述，我們能說明本文所提出之 Skew-OPT 模型在 Top-N 推薦任務表現有折顯著的成果。值得一提. 立. 的是，本演算法並未採用任何的高階資訊 ( High-order Information ) 來訓練模型即. ‧ 國. 學. 比採用高階資訊的 HOP-Rec 以及 NGCF 兩模型之表現更加好。. ‧. 由於前面我們提到，在優化 Skew-OPT 的過程中，我們限制 η 必須為奇數且並未給予任何上界的限制，而關於 η 可能為更大的奇整數，將使得之推薦效. y. Nat. 果更加卓越的這項猜想，其實可以透過各個不同的資料集在 η = 1 、 η = 3 以. sit. 及 η = 5 上的情況來觀察。從表 4.2 可以發現，Top-N 推薦任務表現結果並不一. n. al. er. io. 定是發生在 η 越大越好的假設之下，也有部分的最佳分數是當 η = 3 時所得到的指標分數。而我們也針對 η = 7 來做額外的確認。我們發現在 η = 7 時，並非所. Ch. i Un. v. 有的資料集皆有取得比較好的推薦成效，有時甚至會降低表現的分數。因此我們. engchi. 認為，調整 η 應該是要依據實驗不同資料集而有所不同，而在本文中所使用的五種資料中，我們發現並不會因 η 更大所影響，因此這邊我們認為 η 當從低階的 η 開始嘗試，嘗試高階的設定勢必會造成更多計算資源的需求，因此這邊我們皆以 η = 3 以及 η = 5 為主要的實驗超參數上的設定與呈現。以上說明僅是針對將 η 視為一超參數來去做說明，目前本文尚無針對 η 的一些統計上的特性或者賦予一統計上的意義，因此後續的呈現可以朝向如何解釋 η 為目標。如 η 可能被為更系統化的解釋的話，相信在未來調整 η 上，勢必可以增加更多準則與輔助，並且省去許多調整的時間。. 25. DOI:10.6814/NCCU202000474.

(34) 4.4.2. 敏感度分析. 圖 4.4 中顯示出針對 mAP@10 對於兩參數 ξ 和 ω 分別在 η = 3, 5 的設定下，所得到的熱圖 ( Heat Map )，其中圖 4.4 中的每一個子圖，其中的分數方格都能與表 4.2有所對應。從圖中我們能觀察到，當 ξ 越大時，再搭配適當的 ω 參數下，通常可以在 mAP@10 上會有更好的表現。除此之外，在比較不同資料集的熱圖下，我們可以發現這些熱圖對於 mAP@10 的表現上具有相似的趨勢。. =1 =3 =5. 0.35 0.30 0.25 0.20. 立. 0.15 0.10. 10. 15. 20. ‧. 5. ‧ 國. 0.00. 學. 0.05. 政治大. 25. sit. y. Nat. 圖 4.1: Gradient smoothing (ξ = 8, η = 3).. n. al. er. io. 我們可以發現，越大的 ξ 往往需要搭配越大的 ω ；越小的 ξ 則需要搭配越小. i Un. v. 的 ω。如果參數的搭配組合並非以上所陳述的組合趨勢搭配時，其表現會下降。而從中也可說明，越大位置參數 ξ 雖能有效的直接增加模型的輸出效果，但同時. Ch. engchi. 也增加了模型過似擬合的機會，這時就需搭配一適當的 ω 來舒緩整個梯度的優化過程，我們以圖 4.1來說明此一現象。而我們可以透過觀察到這個現象來幫助日後其他研究者想要重現本文之結果時，能夠更快速的掌握相關超參數的調配。此外，我們也可以協助其他研究者在更換不同資料時，有一個較為系統化的調整參樹的邏輯與規則可以依循，減少在更換資料時，所需花費的大量調參時間。此外我們也針對了不同的參數 η = 1, 3, 5 在兩組固定的參數下 ( ξ = 11、ω = 3 以及 ξ = 12、ω = 3 ) 來做一敏感度分析，並將結果呈現於圖 4.2 以及圖 4.3 中。在此二圖中我們能發現，無論是在哪一組固定的參數設定下，皆能看到 η = 3, 5 在所有的資料及下相較於 η = 1 有更好的表現。. 26. DOI:10.6814/NCCU202000474.

(35) η=1 η=3 η=5. 0.16 0.14 MAP@10. 0.12 0.10 0.08 0.06 0.04 0.02 0.00. CiteULike. 政治大. Amazon-Book. 立. Last.fm-360K. MovieLens-Latest Epinions-Extend. 圖 4.2: Sensitivity analysis on η. (ξ = 11, ω = 3). ‧. ‧ 國. 學. n. al. er. io. sit. y. Nat. 0.16 0.14. Ch. engchi. i Un. v. MAP@10. 0.12. η=1 η=3 η=5. 0.10 0.08 0.06 0.04 0.02 0.00. CiteULike. Amazon-Book. Last.fm-360K. MovieLens-Latest Epinions-Extend. 圖 4.3: Sensitivity analysis on η. (ξ = 12, ω = 3). 27. DOI:10.6814/NCCU202000474.