透過使用者行為與廣告特性預測點擊率

全文

(1)國立臺灣師範大學資訊工程研究所碩士論文. 指導教授：柯佳伶博士. 透過使用者行為與廣告特性預測點擊率 Predicting Click-Through Rate in Display Ads from User Behavior and Ads Property. 研究生：. 黃家儀. 中華民國. 107. 撰年. 11. 月.

(2) 摘要透過使用者行為與廣告特性預測點擊率黃家儀本論文研究廣告點擊預測方法，採用類神經網路架構為基礎，建立全體預測模型及分群預測模型，並比較採用四種不同類神經網路模型架構之預測效果。第一種架構是單屬性模型，以線性迴歸方法為基礎而建立的類神經網路模型架構；第二種架構是跨屬性模型，結合不同廣告欄位的屬性值，運用內積運算建立對應的特徵值；第三種架構是屬性權重因子分解機模型，為相關研究所提出的模型；第四種是 FwFMs 改良版模型，採用第三種模型的架構，但將部分參數固定採用跨欄位互信息值為權重值。本論文並對大量資料的資料分群提出兩種方法，第一種是雅卡爾相似分數群集法，第二種是餘弦相似分數群集法，用來對測試資料選取適用的分群預測模型。實驗評估顯示，全體預測模型於 FwFMs 改良版模型架構，準確度可達 76.40%。在分群預測模型中，採用四種類神經網路模型架構皆可提升準確度，最高可達 76.58%。此外，採用餘弦相似分數群集法，能快速有效的對測試資料選取適當的分群預測模型。. 關鍵字：分群模型、廣告點擊預測、互信息值、類神經網路模型架構. i.

(3) Abastract Predicting Click-Through Rate in Display Ads from User Behavior and Ads Property Chia-Yi Huang The purpose of this study is to investigate the prediction method of advertising clicking, which adopts the foundation of neural network models. Four different neural network architectures are constructed for solving this task to compare their predicting effects. The first one is the Single Field Model, which was designed based on the linear regression method. The second one is the Cross Field Model, which combines various features of advertisement fields and performs inner product to build the corresponding features. The third one is the Field-weighted Factorization model, denoted as FwFMs, which is proposed in the related work. We modified the model of FwFMs by assigning the cross field mutual information to be the fixed weights of a hidden layer to propose the Modified-FwFMs. Furthermore, the global predicting model and group predicting model learned from the total training data sets and the clusters of similar data sets are constructed, respectively. Due to the large quantity of data, we proposed two data clustering methods, based on partitioning then merging, to construct the appropriate group predicting model for the data set. The first clustering method is designed based on the Jaccard similarity score. The second one is to perform data clustering based on the cosine similarity score. The results of the experiments show that the predicting accuracy of the global predicting model based on the Modified-FwFMs achieves 76.40%. In addition, the group predicting model can improve the prediction accuracy for all the four neural network neural network architectures. Furthermore, the cosine similarity scoring method can select appropriate group predicting model for data effectively and efficiently.. Keywords: group model, advertising click prediction, mutual information, neural network ii.

(4) 致謝碩士班生涯中，能完成碩士學位與論文，首先感謝我的指導教授柯佳伶老師，因材施教以及耐心的指導，在三年裡培養了自信心與做事的態度，讓我能順利完成研究，在論文的撰寫階段，老師字字斟酌的修改，由衷感謝老師的包容與教導。感謝徐嘉連教授、吳宜鴻教授於百忙之中擔任口試委員，給予許多寶貴的建議與指導，能更清楚地完成論文的撰寫實驗的修改，在此致上最深的謝意。感謝實驗室各位夥伴們，願意一直聽這位老學姊的胡言亂語，還有陪伴我這些艱困的日子，給我許多開懷大笑的機會，謝謝你們拉。感謝修毅，一直在程式以及論文撰寫上幫助我很多，提供我很多方法與想法，解決我的困難，一起成功畢業！感謝我的父母親，一直能在金錢上的支柱，讓我能無顧忌的專心讀完研究所，也一直鼓勵著我，告訴我要加油。感謝阿嬤，雖然常常哭讓你擔心，但是有阿嬤的支持，我才能拚盡全力完成論文完成碩士學位。感謝承瀚，在我最後衝刺的階段，督促我認真。謝謝大家，給我研究的動力，才能完成碩士學位。. 黃家儀謹識於國立臺灣師範大學資訊工程所 2018 年 11 月 iii.

(5) 目錄第一章 1.1 1.2 1.3 1.4 第二章 2.1 2.2. 緒論............................................................................................................. 1 研究動機..................................................................................................... 1 研究目的..................................................................................................... 2 論文方法..................................................................................................... 3 論文架構..................................................................................................... 4 文獻探討..................................................................................................... 5 行為定向廣告 (Behavior Targeting Advertising) ..................................... 5 廣告預測學習模型..................................................................................... 6. 2.2.1 淺層學習模型 (Shallow Learning Layer) ......................................... 6 2.2.2 深度學習模型 (Deep Learning Layer) .............................................. 9 2.2.3 混合式學習模型 (Hybrid Learning Layer) ..................................... 10 第三章系統架構................................................................................................... 14 3.1 系統簡介................................................................................................... 14 3.2 資料前處理............................................................................................... 15 <1> 特徵選取與創建 (Feature Selection and Creation) ........................ 15 <2> 資料平均抽樣 (Data Sampling) ...................................................... 20 <3> 獨熱編碼 (One-Hot Encoding)........................................................ 21 3.3. 第四章 4.1 4.2 4.3 4.4 第五章 5.1 5.2 5.3 5.4 5.5. 資料分群方法........................................................................................... 23 <1> 子資料集內雅卡爾相似分數計算 (Jaccard Similarity Score) ....... 24 <2> 眾分群間餘弦相似度計算 (Cosine Similarity Score) .................... 26 <3> 分群模型之判別............................................................................... 28 類神經網路模型建立............................................................................... 29 單屬性模型 (Single Field Model) ........................................................... 30 跨屬性模型 (Cross Field Model) ............................................................ 31 屬性權重因子分解機模型 (Field-weighted Factorization Model, FwFMs ) 32 FwFMs 模型改良版 (Modified FwFMs Model) ..................................... 34 實驗結果與討論....................................................................................... 35 資料集與參數設定介紹........................................................................... 35 評估指標................................................................................................... 37 互信息值之結果討論............................................................................... 39 全體資料模型之效果評估....................................................................... 40 分群資料模型之效果評估....................................................................... 42 <1> 分群資料模型判別方法效果評估................................................... 42 <2> 群組數量之預測效果評估............................................................... 43 <3> <4>. 各群組模型預測效果評估............................................................... 44 合成模型(Ensemble Model)之效果評估與比較 ............................. 50 iv.

(6) 第六章結論與未來研究方向............................................................................... 51 參考文獻....................................................................................................................... 52. v.

(7) 附圖目錄圖圖圖圖圖圖圖. 1 2 3 4 5 6 7. 深度與交叉網路模型 .................................................................................... 11 屬性權重因子分解機模型 ............................................................................ 13 跨欄位互信息值 ............................................................................................ 13 廣告點擊預測架構 ........................................................................................ 14 分群架構 ........................................................................................................ 24 單屬性模型 .................................................................................................... 30 跨屬性模型 .................................................................................................... 31. 圖圖圖圖圖圖圖圖. 8 屬性權重因子分解機模型[13] ..................................................................... 32 9 FwFMs 模型改良版 ..................................................................................... 34 10 單欄位互信息值表 ...................................................................................... 39 11 跨欄位互信息值表 ...................................................................................... 39 12 各群組資料與全體資料模型之預測效果比較 .......................................... 47 13 各群組資料模型以全體資料模型為基底比較效果 .................................. 47 14 遷移學習模型架構比較 .............................................................................. 49 15 合成模型之效果比較 .................................................................................. 50. vi.

(8) 附表目錄表表表表表表表. 1 2 3 4 5 6 7. 使用者屬性篩選表 ........................................................................................ 16 廣告屬性介紹 ................................................................................................ 17 媒體平台屬性介紹 ........................................................................................ 18 其餘屬性介紹 ................................................................................................ 19 資料平均抽樣統計 ........................................................................................ 20 屬性欄位個數 ................................................................................................ 21 獨熱編碼範例-原始資料型態 ....................................................................... 22. 表表表表表表表表表. 8 獨熱編碼範例-轉換後資料型態 ................................................................... 22 9 眾分群間相似度計算範例群組 1 ................................................................. 27 10 眾分群間相似度計算範例群組 2 ............................................................... 27 11 資料集統計表 .............................................................................................. 36 12 資料集每日點擊率統計 .............................................................................. 36 13 準確度混淆矩陣範例 .................................................................................. 38 14 全體資料模型預測效果 .............................................................................. 41 15 分群模型建立時間與方法效果評估 .......................................................... 42 16 分群數量效果評估 ...................................................................................... 43. 表 17 各群組訓練資料與測試資料數量 .............................................................. 45 表 18 分群資料模型與全體資料模型於不同模型架構之比較 .......................... 46 表 19 分群模型效果評估 ...................................................................................... 48. vii.

(9) 第一章緒論 1.1. 研究動機隨著網際網路的迅速發展，廣告產業在生活中占了很大的地位，舉凡在. 各大社群媒體，例如 Facebook、Instagram、YouTube、Google、Yahoo!等，都會看到內嵌型廣告(Native Ads)、展示型廣告(Display Ads)、搜尋型廣告(Search Ads)等。而廣告對使用者所引發的消費行為或印象，對使用者、廣告商 (Advertiser)、廣告平台媒體方(Sponsor)，都有很大的影響。對廣告商與媒體方來說，能將資金投注在有效的廣告，可以提升廣告商與媒體方的利益；對使用者來說，若能有效推薦適合的廣告，則在使用體驗上能提升使用者對廣告的興趣。因此，近幾年有越來越多的研究進行廣告點擊率(Click-Through Rate, CTR)預測[4][5]，其中以行為定向技術(Behavioral Targeting)越趨成熟，目的是要追蹤使用者在網路上的行為，播放給每個使用者符合興趣與需求的廣告。論文[21]顯示以往具相似行為的使用者，對於同廣告的點擊行為也可能類似，因此若能有效依照使用者興趣或廣告活動(Campaign)歷史資料推薦廣告，可有效提升廣告點擊率。然而，目前相關研究較少根據各種類型使用者行為的相似之處，將其納入廣告回應目標的預測模型建立。主要原因是廣告資料量龐大，在分析使用者行為與廣告特性的相似計算上極為耗時。點擊率在資料比例上來看非常小，接近 0.01%，大約一萬個人中只有一個人會點擊廣告，如此稀疏的資料，對於研究上有相當的挑戰。所以如何有效率的運用使用者行為定向來建構點擊 1.

(10) 預測模型是值得探討的。. 1.2. 研究目的本論文使用之資料集為 2016/12/09-2016/12/17 期間，共約 1.8 億筆資料，. 取 3300 萬筆為測試資料，其餘 1.5 億筆為訓練資料，為使用者在網路上對曝光廣告所做的行為記錄。每筆記錄中的屬性主要分為：使用者基本資料、廣告特性、媒體方特性三類；其中使用者基本資料包括使用裝置版本、使用裝置，共 2 項；廣告特性包括廣告活動編號、廣告類別等，共 6 項；媒體方特性包括區塊類別、廣告區塊編號等，共 7 項。論文[20]使用相似的資料屬性，建立一個以使用者與廣告活動為節點，曝光與點擊與否為邊的圖型。藉由分析使用者與廣告活動的點擊歷史資料，找出節點間形成的分群，用來預測接下來某使用者是否會點擊某個廣告活動。然而這個方法當節點數量很大時，圖型的建立需要很高的計算複雜性，因此本論文參考論文[20]提出的分群概念，希望有效率對特徵相似的使用者與廣告特性組合找出適當分群，並建立對應的預測模型。當有新的使用者及廣告，透過分群方法找到對應分群，以套用適當的分群預測模型解決資料稀疏性的問題，並提高點擊預測準確度。本論文的研究目的，為透過對使用者跟廣告活動進行分群，利用類神經網路架構建立群組預測模型，用於預測使用者對於特定廣告是否會點擊。本研究的挑戰為： 1). 類神經網路架構的選擇。. 2). 對於龐大資料量，如何對使用者與廣告資料配對進行有效率的適當分群。. 2.

(11) 1.3. 論文方法參考論文[13]所提出的類神經架構之點擊預測模型，本論文主要考慮的. 模型為屬性權重因子分解機(Field-weighted Factorization Model, FwFMs)，此模型結合兩種模型，包括線性回歸函數與因子分解機架構。本論文基於這樣的模型架構，將實驗分為四種類神經網路模型架構，一個是單以線性迴歸函數為主，一個是單以因子分解機為主，一個是論文[13]採用的主要架構，最後本論文提出的類神經架構模型為論文[13]架構的改良版，將屬性組合與點擊的關聯係數列入考慮。此外，由於使用者與廣告資料配對的資料量龐大，因此本論文採用[16] 中提出的分群架構，將資料先進行等分切割，對切割後的子資料集以階層式分群(Hierarchical Clustering)找出資料群組，再以群組為單位，對各子資料集找出的群組進行群組合併。最後找出的群組，再以類神經網路模型建立各自的分群模型，提供具客製化的點擊預測模型。本論文將提出的方法進行三部分的實驗：第一部份，以全體資料模型與本論文方法做比較，以點擊預測準確度(Accuracy)做為評估方法；第二部份，以分群資料模型與全體資料模型做比較；第三部份，比較不同群集方法所建立分群模型的預測效果。. 3.

(12) 1.4. 論文架構本論文以下章節架構如下：在第二章說明相關參考文獻，在第三章介紹. 系統基本流程、資料前處理及資料分群方法，在第四章介紹類神經網路模型建立方法，在第五章說明實驗方法與結果討論，並於第六章提出結論與未來研究展望。. 4.

(13) 第二章文獻探討目前常見的廣告點擊預測方法主要分為兩大預測目標：點擊率(ClickThrough-Rate, CTR)跟轉換率(Conversion-Rate, CVR)。點擊率是指點擊數除以曝光量(Impression)總數的百分比；轉換率則是將轉換次數除以該時間範圍內的廣告點擊總數[10]。其中轉換(Conversion)是指使用者會與廣告互動，例如點擊文字廣告或觀看影片廣告，或是對商家進行有價值的動作，例如進行線上購物或透過行動裝置致電商家。近來廣告點擊預測多會蒐集使用者對廣告的行為關係資料來進行預測，此稱為行為定向技術(Behavior Targeting)，而論文[21]中也顯示了以使用者行為資料進行行為定向預測可提升廣告點擊預測。因此本章節將依序介紹行為定向技術，以及各種點擊率預測模型的相關文獻。. 2.1. 行為定向廣告 (Behavior Targeting Advertising) 行為定向廣告是指透過深入觀察網站訪客的行為，根據訪客行為特徵預. 測訪客需求，再根據訪客需求與偏好，把適合的廣告投放給這些人看。而行為定向技術是否真的對廣告行銷有幫助呢？論文[21]蒐集使用者的點擊資料，分析出以下三點結論：一) 當不同使用者點擊相同廣告，表示兩者在網路上的行為將極為相似；二) 若將使用者依照行為定向做分類，點擊率將提高 67%；三) 在搜尋型廣告裡，使用較短的搜尋文字比使用較長搜尋文字的使用者較容易找出其行為定向。然而，在論文[6][10][20]提出的方法，都建立在使用者有足夠多的歷史資料前提下，才能提供有效預測。因此，論文[3][12][15]所提出的方法，目的在解決沒有歷史資料的使用者之冷啟動問題，有效採用使用 5.

(14) 者的行為定向進行點擊預測。由以上論文顯示，運用使用者行為定向來進行點擊預測有助於提升點擊率預測，因此本論文希望藉由論文[13]考慮的使用者及廣告資料之屬性擷取組合方式，找出有用的使用者行為定向群組，分別建立對應的預測模型。. 2.2. 廣告預測學習模型廣告點擊預測在學術研究上已有多方面的探討，點擊率的預測模型可分. 為淺層學習模型 (Shallow Learning Layer) 跟深度學習模型 (Deep Learning Layer)兩大類：淺層學習模型包含迴歸模型(Regression)及因子分解機模型 (Factorization Machine)等，深度學習則採用類神經網路學習(Neural Network) 模型[7]。. 2.2.1 淺層學習模型 (Shallow Learning Layer) 多數廣告點擊率預測方法直接採用機器學習的方法，快速學習到資料特徵與點選的規則性[1][11]。淺層學習模型多採用迴歸模型(Regression Model) 以及因子分解機(Factorization Machine)，其中以線性迴歸模型較直覺、具可擴充性(Extendibility)、容易處理，且可較快速訓練大量資料，因此最為常見。而因子分解機則可處理資料稀疏的問題，是近來預測點擊率較常採用的模型。以下將依序介紹各種淺層學習模型預測點擊率的模型方法：包括迴歸模型、因子分解機模型及遷移學習模型。 <1> 迴歸模型 (Regression Model) 許多預測點擊率的研究上都會使用迴歸模型[5][6]，將選好的特徵丟. 6.

(15) 入迴歸模型，預測出一個介於 0 到 1 之間的值。使用迴歸模型能快速簡單的得到一個預測機率值，再設定一個門檻值決定結果為 0 或 1。論文[5]中提到，搜尋式廣告認為使用者在進行搜尋行為時，隱藏著對某些事情的動機，因此可透過使用者的輸入關鍵字推薦適合廣告。利用線性迴歸函數中的高斯常態分佈累積函數(Gaussian Probit Regression model)生成模型，可自動學習特徵權重排序優先度，對搜尋式廣告進行二元分類的點擊預測。論文[6]相較於論文[5]的不同點是該篇論文主要考慮 Facebook 上的廣告，並未考慮使用者輸入的查詢文字。當使用者造訪 Facebook 時，有大量的廣告回饋，可產生大量的點擊與否之行為特徵。利用這樣的特性，該論文使用串聯分類器(Cascade Classifier)，結合決策樹(Decision Tree)與邏輯迴歸函數(Logistic Regression)的模組進行預測，其預測效果比單用迴歸函數來的好。因此，本論文希望藉由上述論文所觀察到，對特徵學習權重[5]，利用迴歸函數模型與其餘機器學習到的模型進行結合[6]，以期增進點擊預測效果。 <2> 因子分解機 (Factorization Machine) 由於使用者對已曝光的廣告行為形成龐大的數據資料，其資料內容中有點擊的資料非常稀疏，因子分解機之特徵擷取及矩陣分解可有效解決資料稀疏問題。論文[12]的點擊率預測方法根據使用者的行為定向做預測，但是使用者的資訊會隨時間持續更新，若要快速達到點擊預測，目前多數的研. 7.

(16) 究都選擇使用迴歸模型預測點擊率。論文[12]則建立一個以因子分解機為基礎的階層式因子分解機(Hierarchical Importance-Aware Factorization Machine, HIFM)模型，利用特徵權重的重要性與階層式學習，解決有時間屬性的資料，以及使用者尚未有足夠初始資料的冷啟動問題，進而提升點擊率的預測準確度。本論文認為若能有效的將迴歸模型與因子分解機做結合，不僅能達到快速預測點擊率，並能解決無初始資料帶來的冷啟動問題。 <3> 遷移學習 (Transfer Learning) 遷移學習的主要概念是希望透過已用大量資料學習好的模型參數，套用到新的資料上做局部參數調整，這樣的好處是不須重新訓練新模型中每個部分的參數，以下兩篇論文皆使用遷移學習來預測點擊率。論文[3]認為展示型廣告在網路上可蒐集到使用者跟發佈商大量的廣告資訊。要針對使用者給予廣告推薦，可透過常見的機器學習方法即可達到目標。但是針對大量資料建立分類模型會造成計算成本的消耗，因此該論文建立一種簡單而有效的遷移學習方法，利用較有價值的廣告，意指廣告商願意投注在某則廣告上較多的資金，使用隨機梯度下降 (Stochastic Gradient Descent，SGD)與貝氏邏輯迴歸方法，將訓練出的模型參數套用在初始價值較低的廣告預測模型上。該方法使用初始價值較低的廣告資料，利用原模型的參數做調整，並使用正規化方法解決資料稀疏造成權重參數訓練不均衡的現象。由該論文的實驗顯示，遷移學習方法提升了初始價值較低的廣告點擊率，讓整體廣告價值提升，使廣告商願意投注在廣告上較多的資金。 8.

(17) 論文[18]則使用遷移學習方法，將數量較大的產品(稱為來源)所訓練出的參數，用在數量較少的產品(稱為目標)。該篇論文所遇到的挑戰為，來源資料的特徵屬性分佈與目標資料的特徵屬性分佈懸殊，因此藉由遷移學習方法，解決目標資料特徵屬性分佈不均，而造成模型訓練不夠完善的問題。為了有效處理大量的廣告資料，該論文採用梯度下降(Gradient Information)跟 MapReduce 的機器學習方法來降低維度，以有效提升對於目標產品點擊率的預測準確度。由上述論文顯示，遷移學習的方法可解決資料稀疏問題。本論文認為由於廣告的點擊率低，所以使用者點擊行為資料過於稀疏。若能利用遷移學習的方法，將根據大數據學習好的模型參數，以引用到較少量的分群資料調整其本身無法有效訓練的結果，進而可建構出適合分群資料的模型，提升預測準確率。. 2.2.2 深度學習模型 (Deep Learning Layer) 論文[2]考慮廣告中的影像預測點擊率，該論文認為以邏輯迴歸模型，未能對高維度的影像及非線性的資料做處理。為了解決此問題，該論文提出深度神經網路學習(Deep Neural Network, DNN)架構，使用卷基層(Convolution layer)自動抓取影像中重要的特徵，而非線性的廣告特徵則採用全連結層 (Fully-connected layer)，結合影像特徵跟文字特徵進行點擊率預測。論文[23]針對搜尋型廣告，採用遞迴神經網路(Recurrent Neural Networks, RNNs) 將輸入的搜尋字串跟廣告找到適合的配對。其運用注意力網路 (attention network)學習不同字的注意力分數，以計算出遞迴神經網路輸出的. 9.

(18) 字串特徵向量。實驗結果顯示，注意力網絡模型可以有效提昇字串特徵向量表示的品質，進而提升最後的點擊率預測效果。由上述論文顯示，深度學習模型的架構在廣告預測上面可以結合線性與非線性資料特徵，也可以透過模型自動學習到特徵，與淺層學習模型必須先要提供特徵才能進行預測是不同的。. 2.2.3 混合式學習模型 (Hybrid Learning Layer) 論文[7]指出兩類方法的優缺點，淺層學習無法有效利用或抓取到非線性資料的特性，而深度學習則因為在計算上有高度複雜度，且需要大量資料，無法有效率更新預測點擊率模型。混合式學習模型，能將淺層學習模型與深度學習模型的優缺點達到互補效果，特別是類神經網路與因子分解機的結合，為近年來於廣告點擊預測上提出改進的預設模型[7][13][19]。論文[7]針對深度跟淺層學習特徵，考慮如何將現有的資料套用到點擊率模型預測。此外，其考慮當有一筆新進的廣告資料時，如何對線上系統快速的更新模型參數。該篇論文提出的深層與淺層結合模型(Deep and Shallow Layers, DSL)先用深層網路學習模型擷取出高維度的非線性特徵，再套入因子分解機之淺層學習模型，以擷取出更多的特徵，最後將因子分解機的輸出做為點擊預測機率值。論文 [19] 提出的混合模型稱為深度與交叉網路模型 (Deep & Cross Network models, DCN)，首先以嵌入向量層(Embedding Layer)當為輸入層，再將交叉層(Cross layer)跟深度層(Deep layer)並行處理。如圖 1 所示之左邊區塊，交叉層是以嵌入層根據因子分解機的原理進行計算，其中𝑥0 為第 0 筆資料經. 10.

(19) 過嵌入層轉換後的向量，透過因子分解機的計算得到𝑥1 向量，再繼續以相同方式計算得到𝑥2 , … , 𝑥𝐿 。而圖 1 所示之右邊區塊，深度層是指將嵌入層𝑥0 向量透過非線性函數 ReLu 激活函數計算出ℎ1 向量，對𝑥1 , … , 𝑥𝐿 以相同方式算出 ℎ1 , … , ℎ𝐿 向量等(其中，𝐿為資料筆數)，最後將𝑥1 , … , 𝑥𝐿 與ℎ1 , … , ℎ𝐿 並行處理的結果串連成一維向量𝑥𝑠𝑡𝑎𝑐𝑘，代入 Sigmoid 激活函數層算出最後的點擊預測機率值𝑝 (如圖 1)。. 圖 1 深度與交叉網路模型. 11.

(20) 論文[13]是本篇論文主要參考的架構，如圖 2 所示。其與論文[19]的深度與交叉網路模型架構類似，採用屬性權重因子分解機模型(Field-weighted Factorization Machine, FwFMs)，將因子分解機跟類神經網路結合。在學習屬性嵌入向量(Embedding vector)後，計算兩兩屬性的內積(Interaction Terms)，再與屬性嵌入向量採用相同維度的隱藏層(Linear Term)接合(Cancatenation)做為下一層，最後輸出層使用 Sigmoid 函數計算出預測值。該篇論文的主要貢獻為運用兩兩欄位的內積，由於交互作用項的資料層(Interaction Terms Layer) 與輸出層間的權重，可反應出兩兩欄位與點擊間的關係強弱度，相當於互信息值(Mutual Information)的計算(如圖 3)。論文[9]提出的屬性感測因子分解機模型(Field-aware Factorization Machines)為論文[13]所延伸參考的文獻，主要強調屬性中的特徵值，在交互作用項的資料層是計算每個欄位屬性特徵值對應向量的內積，若特徵值數量越多在內積層的計算複雜度會越大。因此，論文[13]提出的方法只需學習 𝑚 + 𝑚𝐾 +. 𝑛(𝑛−1) 2. 個訓練參數(其中，. 𝑛為欄位個數、m 為所有欄位裡不同特徵屬性值的個數總和、K 為嵌入向量維度)。相較於該篇論文的比較基準模型屬性感測因子分解機(Field-aware Factorization Machines)[9]所使用之訓練參數𝑚 + 𝑚(𝑛 − 1)𝐾，不但可達到接近的預測準確度，且可較快達到收斂的學習效果。. 12.

(21) 圖 2 屬性權重因子分解機模型. 圖 3 跨欄位互信息值綜合上述參考文獻，本論文採用與論文[13]類似的架構，採用淺層與深層所結合的混和式模型，希望藉由權重與模型的調整，使用較少的訓練參數，達到一定的預測效果。此外，本研究對訓練資料提出分群方法，希望以群組為單位所建立的預測模型，能有效解決使用者點擊的資料稀疏問題。. 13.

(22) 第三章系統架構系統簡介. 3.1. 本論文的廣告預測系統(如圖 4)，主要處理方法分為三大部分： 1.. 資料前處理(Pre-processing)：包含特徵選取及資料抽樣，再將資料進行獨熱編碼(One-Hot Encoding)。. 2.. 資料分群(Data clustering)：由於本論文使用的資料量較大，因此採用論文[16]提出的 CURE 進行大數據資料的切割與分群。. 3.. 建立類神經網路模型(Neural model construction)：包含四大模型的訓練，包括：單屬性模型(Single Field Model)、跨屬性模型(Cross Field Model) 、屬性權重因子分解機模型 (Field-weighted Factorization Model)及 FwFMs 模型改良版(Modified FwFMs Model). 圖 4 廣告點擊預測架構. 14.

(23) 3.2. 資料前處理. <1> 特徵選取與創建 (Feature Selection and Creation) 本資料集由 TenMax 廣告公司所提供，資料欄位(Field)特性分為三大種類：使用者、廣告與媒體。由於原始資料中包含很多是不可讀的資訊，舉例來說，因為個資法的關係，有許多欄位會先被廣告公司做雜湊處理(Hashing)，因此本階段需透過人工的方式將無法使用的欄位篩選掉，並挑出可用的欄位，另外延伸某些欄位的特性，擷取出其他可使用的特徵。原始共有 35 個欄位，其中使用者屬性共 9 個、廣告屬性共 8 個、媒體平台屬性共 15 個、其餘屬性共 3 個，篩選與新增後欄位共 18 個，其中使用者屬性共 2 個、廣告屬性共 6 個、媒體平台屬性共 7 個、其餘屬性共 3 個。以下表 1、2、3、4 將依序介紹原始資料集的所有欄位，以及篩選考慮的原因。針對表 1 中的使用者屬性原始欄位， (1) 編號 1：同一個使用者若清除掉 Cookie，編號就會不同，因此無法確定同一人，故不採用。 (2) 編號 2：同一個使用者若清除掉 Cookie，編號就會不同，因此無法確定同一人，故不採用。 (3) 編號 3：由於資料量過大，因此透過此欄為做資料抽樣，取出在台灣(TWN) 的資料，故不做為特徵。 (4) 編號 4：本欄位皆為空值，故不採用。 (5) 編號 5：透過雜湊處理字串無可讀性，故不採用。. 15.

(24) (6) 編號 6：本欄位皆為空值，故不採用。 (7) 編號 7 及 8：由於只有作業系統版本的數字，意義是不明確的，像是 iOS 有 10.0 版本，Windows 也有 10 版本，故與編號 7 之 os 名稱合併處理。由於例如 iOS 版本會有 10.0.2 及 10.0.3 其基本主體版本為 10，10.0.2 及 10.0.3 的差異多為軟體上小問題的解決，因此本欄位版本以主體版本編號作為代表。例如：iOS 10、Android 7。表 1 使用者屬性篩選表編號. 欄位. 欄位介紹. 內容範例雜湊處理字串. 篩選結果. 1. userId. 每個使用者會有一個在廣告平台上的編號。. 2. audiencedId. 由 TenMax 公司所給的使用者編號。. 雜湊處理字串. 不採用. 3. country. 使用者 ip 所在國家。. TWN、MYS. 不採用. 4. city. NULL. NULL. 不採用. 5. ip. 每筆資料在蒐集時都有網際網路協定位址. 雜湊處理字串. 不採用. 6. ec. NULL. NULL. 不採用. 7. os. 使用者作業系統。. iOS、Android. 8. osv. 使用者作業系統版本。. 10.0.2、7.0. 9. deviceType. 使用者瀏覽廣告裝置。. Phone、Web. 不採用. 合併處理. 16. 合併處理採用.

(25) 針對表 2 中的廣告屬性原始欄位， (1) 編號 7：透過雜湊處理字串無可讀性，故不採用。 (2) 編號 8：本資料集無電子商務型廣告，本欄位皆為 false，故不選取。表 2 廣告屬性介紹編號. 欄位. 欄位介紹. 內容範例. 篩選結果. 1. campaignId. 廣告編號。. 4629、4638。. 2. creativeId. 廣告中使用之素材編號。. 6719、6803. 3. advertiserId. 廣告商編號。. 266、94. 採用. 4. creativeAdType. 廣告呈現之方式。. image、video. 採用. 5. adCategory. 廣告所屬領域。. 教育、商業. 採用. 6. orderId. 廣告訂單編號。. 5438、5452. 採用. 7. clickUrl. 廣告點擊後導向的網址。. 雜湊處理字串 true、false. selfBuy. 若為電子商務廣告，使用者是否有做購買行為. 8. 採用採用. 不採用. 不採用. 針對表 3 中媒體平台屬性原始欄位， (1) 編號 8：透過雜湊處理字串無可讀性，故不採用。 (2) 編號 9：本資料集皆為 site，故不採用。 (3) 編號 10：同一發佈商，即為同一個 spaceId，故只使用 publisherId 做為特徵。 (4) 編號 11：透過雜湊處理字串無可讀性，故不採用。 (5) 編號 12：透過雜湊處理字串無可讀性，故不採用。 17.

(26) (6) 編號 13：本欄位皆為空值，故不採用。 (7) 編號 14：本欄位皆為 0，故不採用。 (8) 編號 15：與編號 2 skippable 為反意，故只使用 skippable 做為特徵。表 3 媒體平台屬性介紹編號. 欄位. 欄位介紹. 內容範例. 篩選結果. 1. nativeType. 原生廣告之尺寸型態。. text only 、 square. 2. skippable. 廣告是否可按跳過。. True、False. 3. invType. 廣告呈現平台屬性。. banner、video. 發佈商編號。. 5ad6008850、 57260f81d98 。. 採用. 採用. 採用. 採用. 採用. 4. publisherId. 5. spaceCat. 平台所屬領域。. 教育、商業. 6. adType. 平台可接受之廣告類型。. image、video. 7. supplyType. 平台呈現廣告之介面。. Web、Mobile Web. 採用. 8. adx. 廣告在交易平台上的編號。. 雜湊處理字串. 不採用. 9. spaceType. 推播廣告平台的類型。. site、app. 10. spaceId. 廣告呈現平台編號。. 4d5aa536cd8 64b8d. 不採用. 11. domain. 廣告平台的網域名稱。. 雜湊處理字串. 不採用. 12. url. 廣告平台的網址。. 雜湊處理字串. 不採用. 18. 採用. 不採用.

(27) 13. dclkVerticals. NULL. NULL. 不採用. 14. adSize. 廣告長寬邊長度。. 0. 不採用. 15. nonSkippable. 廣告是否不可按跳過。. True、false. 不採用. 針對表 4 中的其餘屬性欄位， (1) 編號 1：本欄位將原始資料切為一天中的 24 小時，例如：8 點、13 點，共有 24 種屬性值。 (2) 編號 2：由於論文[8]中提到，廣告在星期幾跟幾點會影響是否點擊，因此採用 datetime 的資料，延伸出當日為星期幾做為新創建特徵，共有 7 種屬性值。 (3) 編號 4：本欄位皆為 1，故不採用。表 4 其餘屬性介紹編號. 欄位. 欄位介紹廣告推播時間點。. 內容範例. 篩選結果. 2016-1211T09:06:09. 000+08:00. 切割欄位. 新創建. 1. datetime. 2. day. 廣告推播於星期幾。. 星期一、星期二。. 3. click. 廣告是否被點擊。. 1、0. 採用. 4. impress. 廣告是否有推播. 1、0. 不採用. 綜合上述的篩選結果，主要的篩選規則為： 1.. 若經由雜湊處理後的欄位，不具可讀性，將不採用。. 2.. 若欄位的屬性值皆相同，將不採用。 19.

(28) 3.. 若欄位的屬性值皆為空值，將不採用。. 4.. 若為電子商務類型欄位，將不採用。 <2> 資料平均抽樣 (Data Sampling) 根據 TenMax 公司提供的數據(2016/12/9 ~ 2016/12/15)，共有 183,787,971 筆資料，資料大小共佔 120G，其中點擊比率僅佔 0.06%。為加強模型之訓練，本階段資料前處理先透過資料欄位 country 為 TWN 進行抽樣，抽樣後共有 158,589,490 筆資料，並針對點擊與否，採取一比一的數據量進行資料的平均抽樣。如表 5 所示，共取出點擊資料 116,812 筆，未點擊資料 116,812 筆，最終取樣資料量共 233,624 筆資料。. 表 5 資料平均抽樣統計 Date. # of click. # of nonclick. Total. 2016/12/09 (五). 11,367. 11,367. 22,734. 2016/12/10 (六). 15,256. 15,256. 30,512. 2016/12/11 (日). 12,704. 12,704. 25,408. 2016/12/12 (一). 7,912. 7,912. 15,824. 2016/12/13 (二). 11,860. 11,860. 23,720. 2016/12/14 (三). 12,329. 12,329. 24,658. 2016/12/15 (四). 13,089. 13,089. 26,178. 2016/12/16 (五). 15,637. 15,637. 31,274. 2016/12/17 (六). 16,658. 16,658. 33,316. 116,812. 116,812. 233,624. Total. 20.

(29) <3> 獨熱編碼 (One-Hot Encoding) 由上述特徵挑選後，資料集共有 17 個屬性欄位，各欄位的屬性值個數如表 6 所示。由於類神經網路模型的輸入需求，必須將資料表示為獨熱編碼，因此根據各屬性的各種特徵值(如表 7)，將資料轉成二維屬性值表示(如表 8)。若該資料具有對應之屬性值則標為 1，否則標為 0，其產生結果為一個 544 維的二維特徵向量。本篇論文定義𝐹表示所有採用欄位所成的集合，𝐹𝑘 表示第𝑘個欄位之屬性值所成的集合。如表 6 中以𝐹17 對應到 day 欄位為例，𝐹17 為 {星期一，星期二，星期三，星期四，星期五，星期六，星期日}。以𝑥表示一整筆資料的獨熱編碼，𝑥𝑖 表示第𝑖 個欄位之獨熱編碼，則如表 8 範例中第一筆資料的 campaignId 以𝐹3 表示，其𝑥3 為[100]。表 6 屬性欄位個數 𝑭𝒌. 欄位. 屬性值個數. 𝑭𝟏. osv. 44. 𝑭𝟐. deviceType. 3. 𝑭𝟑. campaignId. 86. 𝑭𝟒. creativeId. 166. 𝑭𝟓. advertiserId. 31. 𝑭𝟔. orderId. 39. 𝑭𝟕. creativeAdType. 5. 𝑭𝟖. adCategory. 17. 𝑭𝟗. nativeType. 2. 𝑭𝟏𝟎. Skippable. 2. 21.

(30) 𝑭𝟏𝟏. invType. 3. 𝑭𝟏𝟐. publisherId. 82. 𝑭𝟏𝟑. spaceCat. 24. 𝑭𝟏𝟒. supplyType. 3. 𝑭𝟏𝟓. adType. 6. 𝑭𝟏𝟔. dateTime. 24. 𝑭𝟏𝟕. day. 7. 總和. 544. 表 7 獨熱編碼範例-原始資料型態 No.. CampaignId. deviceType. AdCategory. adType. 1. 4635. Phone. Business. Image. 2. 4644. Web. Busuness. Video. 3. 4632. Web. Education. Video. 表 8 獨熱編碼範例-轉換後資料型態 No.. CampaignId. deviceType. AdCategory. adType. 1. 100. 10. 10. 10. 2. 010. 01. 10. 01. 3. 001. 01. 01. 01. 22.

(31) 3.3. 資料分群方法本章節將介紹如何對廣告特性及使用者組合資料進行分群，以在後續分. 別建構點擊預測模型。本論文參考論文[16]中提出的 CURE 方法設計概念來解決大數據分群的計算複雜度。本論文提出的分群方法主要分為兩個處理步驟，如圖 5 所示： 1) 將資料集抽樣分成 𝑘 組子資料集，每組子資料集會透過雅卡爾相似分數 (Jaccard similarity score)計算兩兩資料間的相似分數，並採用階層式分群方法(Hierarchical Clustering)對各子資料集中的資料進行初始分群。由於資料集龐大，分群前的相似度計算過於複雜，計算次數將達到. 𝑛×𝑛 2. ，其中𝑛為資料筆數。因此透過此方法將大資料集抽樣等. 切成數組子資料集，再透過每組子資料集計算各組內的相似度，其計算次數即降為. 𝑛 𝑛 × 𝑘 𝑘. 2. ×𝑘 =. 𝑛×𝑛 2𝑘. ，最後採用階層式分群法來達到各子資. 料集初始的分群結果。 2) 將各個子資料集找出的所有群集算出其代表特徵向量，透過餘弦相似分數(Cosine similarity score)計算出群與群之間的相似度分數，再一次透過階層式分群方法將群集合併，而產生全部資料的分群結果。以下小節將詳細介紹兩個步驟的相似度計算方法。. 23.

(32) 圖 5 分群架構. <1> 子資料集內雅卡爾相似分數計算 (Jaccard Similarity Score) 由於此步驟希望能將每個子資料集內的資料計算兩兩相似度，而本研究所使用的資料型態為二元表示：0 或 1，因此在此步驟計算相似度的方法採用雅卡爾相似度來計算子資料集內資料間在某個欄位上的相似度。子資料集中的每筆資料，其前處理的獨熱編碼表示法以雅卡爾相似分數計算方法如公式 1， 𝑚. 𝐽𝑎𝑐𝑐𝑎𝑟𝑑𝑆𝑐𝑜𝑟𝑒(𝑥, 𝑦) = ∑ 𝑒𝑥𝑡𝑒𝑛𝑑𝑒𝑑-𝑗𝑎𝑐𝑐𝑎𝑟𝑑-𝑠𝑖𝑚(𝑥𝑖 , 𝑦𝑖 ) 𝑀𝐼𝐹𝑖 𝑖=1. (公式 1) 其中𝑚為資料欄位數，𝑥𝑖 及𝑦𝑖 為𝑥及𝑦的第𝑖欄位之獨熱編碼，𝑀𝐼𝐹𝑖 為欄位𝐹𝑖 的互信息值。另外本論文亦考慮採用藉由雅卡爾相似度延伸版 (Extended Jaccard Similarity)計算資料間的相似度如公式 2， 24.

(33) 𝑒𝑥𝑡𝑒𝑛𝑑𝑒𝑑-𝑗𝑎𝑐𝑐𝑎𝑟𝑑-𝑠𝑖𝑚(𝑥𝑖 , 𝑥𝑗 ) =. 𝑥𝑖 ∙ 𝑥𝑗 ‖𝑥𝑖 ‖ + ‖𝑥𝑗 ‖ − 𝑥𝑖 ∙ 𝑥𝑗 (公式 2). 舉例來說，表 8 的第一筆資料與第二筆資料，在欄位𝐹3 的 campaignId 中獨熱編碼𝑥3 分別為[100]及[010]，因此兩筆資料在𝐹3 的雅卡爾相似度延伸版為 0. 0. √1+√1−0. = 2。. 上述相似度值以該欄位的單欄位互信息值 (Single Field Mutual Information)為比重後，加總每個欄位的相似度，即為本篇論文設計的雅卡爾相似分數計算方式。其中，單欄位互信息值在機率論裡，表示兩個隨機變量相互依賴的關係強弱度。本論文將此觀念應用於計算各欄位與點擊與否的關係強弱度，調整每個欄位在計算雅卡爾相似分數上的權重關係，如公式 3。. MI(𝐹𝑘 , Y) = ∑ ∑ 𝑝(𝑖, 𝑦)𝑙𝑜𝑔 i∈𝐹𝑘 𝑦∈𝑌. 𝑝(𝑖, 𝑦) 𝑝(𝑖)𝑝(𝑦) (公式 3). . 𝐹𝑘 ：第 k 個欄位屬性. . 𝑦 ∈ {0,1}：該筆廣告被點擊與否. . i：第 k 個欄位中，第 i 個特徵值. . 𝑝(𝑖)：第 k 個欄位中，第 i 個特徵值在資料集中出現的機率值. . 𝑝(𝑦)：點擊與否在此資料集中出現的機率值. . 𝑝(𝑖, 𝑦)：第 k 個欄位中，第 i 個特徵值在點擊是或否的出現機率值. 因此，𝑀𝐼(𝐹𝑘 , 𝑌)為第 k 個欄位與點擊與否的互信息值。 25.

(34) 以表 8 範例中的第一筆資料與第二筆資料顯示雅卡爾分數計算結果為： 0 2. 0. 1. 0. × 𝑀𝐼𝑐𝑎𝑚𝑝𝑎𝑖𝑔𝑛𝐼𝑑 + 2 × 𝑀𝐼𝑑𝑒𝑣𝑖𝑐𝑒𝑇𝑦𝑝𝑒 + 1 × 𝑀𝐼𝑎𝑑𝐶𝑎𝑡𝑒𝑔𝑜𝑟𝑦 + 2 × 𝑀𝐼𝑎𝑑𝑇𝑦𝑝𝑒 。依序對每個子資料集中的資料兩兩計算出雅卡爾相似分數，再運用階層. 式分群法對每一子資料集做分群。 <2> 眾分群間餘弦相似度計算 (Cosine Similarity Score) 本階段主要目的是將初始分群結果(稱為眾分群)，進行分群間的相似度計算，將眾分群間再進行合併分群，採用各分群屬性特徵值分佈的概念來代表每個分群的特徵向量，並結合餘弦相似度計算群與群之間的相似度。經過前一小節的初始分群後，本階段在數組子資料集的分群結果，把每筆資料的各屬性特徵進行累加後算出平均值。此方法將分群結果的屬性特徵分佈作為一個分群的代表向量，如表 9 群組 1 的屬性特徵分佈向量為 0 0 2 2 0. ⟨0,0,2,2,0⟩，經由群組 1 筆數平均後，其屬性特徵分佈向量為⟨ , , , , ⟩。而 2 2 2 2 2 1 0 2 2 1. 表 10 群組 2 以相同的方式處理後，其屬性特徵分佈向量為⟨3 , 3 , 3 , 3 , 3⟩。透過這兩個屬性特徵分佈向量，即可使用餘弦相似性如公式 4，計算出分群間的相似度。. 𝐶𝑜𝑠𝑖𝑛𝑒𝑆𝑐𝑜𝑟𝑒(𝑖, 𝑗) =. 𝑦𝑖 ∙ 𝑦𝑗 ‖𝑦𝑖 ‖‖𝑦𝑗 ‖ (公式 4). 其中，𝑖及𝑗為群組𝑖及群組𝑗，𝑦𝑖 則為第𝑖群組的屬性特徵分佈向量。算出群組中兩兩資料的相似性分數，最終透過階層式分群法將相似的群與群合併成設定的群組數量。. 26.

(35) 表 9 眾分群間相似度計算範例群組 1. 群組 1. campaignId. deviceType. 001. 10. 001. 10. 屬性累加分佈. ⟨0,0,2,2,0⟩. 平均累加分佈. 0 0 2 2 0 ⟨ , , , , ⟩ 2 2 2 2 2. 表 10 眾分群間相似度計算範例群組 2. 群組 2. campaignId. deviceType. 001. 10. 100. 01. 001. 10. 屬性累加分佈. ⟨1,0,2,2,1⟩. 平均累加分佈. 1 0 2 2 1 ⟨ , , , , ⟩ 3 3 3 3 3. 27.

(36) <3> 分群模型之判別藉由上述方法可將訓練集資料進行分群，接下來必須考慮如何為每一筆測試資料𝑑𝑡 找到適當的群集，本研究提出兩種選擇方法。 . 雅卡爾相似分數群集法 (Jaccard Similarity Score Grouping) 當有一筆資料𝑑𝑡 經過資料前處理後表示為一個獨熱編碼向量𝑥(𝑑𝑡 )，. 採用公式 1 雅卡爾相似分數配合公式 2 互信息值，和訓練資料一一計算雅卡爾相似分數，即可找出與資料𝑑𝑡 最大雅卡爾相似分數值所屬的群集，將資料𝑑𝑡 判別為此分群。 . 餘弦相似分數群集法 (Cosine Similarity Score Grouping) 藉由訓練資料做出的分群，計算各個分群的屬性特徵值分佈，如上. 一小節所示，得出的結果即代表每一群的特徵向量。當有一筆資料𝑑𝑡 經過資料前處理後表示為一個獨熱編碼向量𝑥(𝑑𝑡 )，將𝑑𝑡 特徵向量𝑥(𝑑𝑡 )與各群的特徵向量進行餘弦相似分數計算，作為資料𝑑𝑡 與每群的相似度值，最後選出相似度最高的群當作資料𝑑𝑡 所屬分群。. 28.

(37) 第四章類神經網路模型建立本階段將介紹論文[19]所提出的類神經模型架構，本論文基於此模型所延伸的架構介紹，共分為四種模型，實作採用深度學習系統 Tensorflow 的 Keras 開發工具建立。基本架構組成為：輸入層→嵌入層→隱藏層→輸出層，本論文採用的四種模型不同於隱藏層的變化，以下先介紹輸入層、嵌入層及輸出層，再分小節介紹四種模型。 1.. 輸入層：本論文輸入資料皆以獨熱編碼表示，由章節 3.1 表 6 所示，每筆資料由 17 個屬性欄位組成 544 維的獨熱編碼。. 2.. 嵌入層：藉由 17 個屬性欄位組成 544 維的獨熱編碼輸入後，每個欄位轉換成 10 維的嵌入層，因此本層共有 170 維的嵌入向量。. 3.. 輸出層：經由一連串的隱藏層轉換計算後，由於本論文主要目的是預測廣告點擊與否，因此選擇使用 Sigmoid 激活函數預測點擊機率值，並採用 Keras 所提供的二元交叉熵(Binary cross entropy)作為損失函數(Loss function)。. 29.

(38) 4.1. 單屬性模型 (Single Field Model) 此模型利用線性迴歸公式(Linear Regression)建立一個類神經網路模型. (如圖 6)，將各欄位的獨熱編碼表示法做為輸入，每個欄位連接一層 10 維的嵌入層，接合成 170 維後，再透過一層的 136 維隱藏層(Linear Terms Layer)，最後一層本論文選擇使用 Sigmoid 激活函數帶入計算點擊與否之預測值。如公式 5[19]， 𝑚. 𝛷𝑆𝐹((𝑤, 𝑣), 𝑥) = 𝑤0 + ∑ 𝑥𝑖 ⟨𝑣𝑖 ⟩ 𝑤𝑖 𝑖=1. (公式 5) 其中，𝑥𝑖 為獨熱編碼的特徵向量，𝑤0 為偏差值，𝑣𝑖 為獨熱編碼經由嵌入層轉換的特徵向量，𝑤𝑖 為嵌入層的轉換後連接 136 維隱藏層，最後每一維到 Sigmoid 激活函數中間所訓練的權重。. 圖 6 單屬性模型. 30.

(39) 4.2. 跨屬性模型 (Cross Field Model) 接續上述模型，此模型(如圖 7)透過一樣的輸入與嵌入層，但考慮兩兩欄. 位屬性值可能會相互影響，如公式 6。 𝑚. 𝑚. ∅𝐶𝐹((𝑤, 𝑣), 𝑥) = 𝑤0 + ∑ ∑ 𝑥𝑖 𝑥𝑗 ⟨𝑣𝑖 , 𝑣𝑗 ⟩𝑤𝑖 𝑖=1 𝑗=𝑖+1. (公式 6) 因此，將每個欄位轉成 10 維的嵌入層後，會將兩兩嵌入向量進行內積，而得到C2n 維的內積向量。其中 n 為欄位數量，由章節 3.2 表 6 所示，本論文資料集共有 17 個欄位，故𝑛 = 17，C217 = 136，因此為 136 維的內積層(Interaction Terms Layer)，所得到的內積值乘上模型訓練權重𝑤𝑖，最後帶入 Sigmoid 激活函數中計算點擊與否之預測機率值。. 圖 7 跨屬性模型. 31.

(40) 4.3. 屬性權重因子分解機模型 (Field-weighted Factorization Model, FwFMs ). 圖 8 屬性權重因子分解機模型[13] 綜合以上兩種模型的結合，即為此模型建立的基礎(如圖 8)。屬性權重因子分解機模型為論文[13]所提出的主要架構，考慮欄位的重要性，利用因子分解機與類神經網路模型的結合，讓內積層到輸出層中所訓練出的權重，達到與跨欄位互信息值(Cross Field Mutual Information)所算出的兩兩欄位與點擊關係強弱值極為相近。其中，跨欄位互信息延伸公式 3 的概念，如公式 7，. MI((𝐹𝑘 , 𝐹𝑙 ), Y) =. ∑. ∑ 𝑝((𝑖, 𝑗), 𝑦)𝑙𝑜𝑔. (i,j)∈(𝐹𝑘 ,𝐹𝑙 ) 𝑦∈𝑌. 𝑝((𝑖, 𝑗), 𝑦) 𝑝(𝑖, 𝑗)𝑝(𝑦) (公式 7). 是指將兩兩欄位進行配對，計算出此配對裡所有特徵值與點擊的強弱關聯，考慮的是欄位間也會互相影響不是獨立。 32.

(41) 公式 8 中， 𝑚. 𝑚. 𝑚. 𝛷𝐹𝑤𝐹𝑀𝑠((𝑤, 𝑣), 𝑥) = 𝑤0 + ∑ 𝑥𝑖 ⟨𝑣𝑖 ⟩𝑤𝑖 + ∑ ∑ 𝑥𝑖 𝑥𝑗 ⟨𝑣𝑖 , 𝑣𝑗 ⟩ 𝑟𝐹(𝑖),𝐹(𝑗) 𝑖=1. 𝑖=1 𝑗=𝑖+1. (公式 8) 𝑤𝑖 表示 136 維隱藏層(Linear Terms Layer)到輸出層間訓練出的權重，𝑟𝐹(𝑖),𝐹(𝑗) 為內積層到輸出層中所訓練出的權重，𝑥𝑖 及𝑥𝑗 為第 i 個跟第 j 個欄位轉換成的獨熱編碼，⟨𝑣𝑖 , 𝑣𝑗 ⟩為第 i 個跟第 j 個欄位轉換成的嵌入向量。因此，將 17 個欄位𝑛轉換成共 544 維獨熱編碼𝑥後，每個欄位透過設定為 10 維的嵌入層轉換後，共有 170 維的嵌入特徵向量𝑣，接續分別連接兩種隱藏層，136 維的線性隱藏層與 136 維的內積隱藏層，最後採用 Sigmoid 激活函數計算點擊預測機率值。. 33.

(42) 4.4. FwFMs 模型改良版 (Modified FwFMs Model). 圖 9 FwFMs 模型改良版此類神經模型架構(如圖 9)為本論文修改上述模型，將算出的跨欄位互信息值固定權重於內積層到 Sigmoid 激活函數層間，使之不透過模型進行訓練，進一步減少參數的訓練量，如公式 9。 𝑚. 𝑚. 𝑚. 𝛷𝑚𝑜𝐹𝑤𝐹𝑀𝑠((𝑤, 𝑣), 𝑥) = 𝑤0 + ∑ 𝑥𝑖 ⟨𝑣𝑖 ⟩𝑤𝑖 + ∑ ∑ 𝑥𝑖 𝑥𝑗 ⟨𝑣𝑖 , 𝑣𝑗 ⟩ 𝑚𝑖𝐹(𝑖),𝐹(𝑗) 𝑖=1. 𝑖=1 𝑗=𝑖+1. (公式 9) 𝑚𝑖𝐹(𝑖),𝐹(𝑗) 為兩兩欄位與點擊所算出的跨欄位互信息值。因此，FwFMs 模型改良版將 17 個欄位𝑛轉換成的共 544 維獨熱編碼𝑥後，每個欄位透過設定為 10 維的嵌入層轉換，共有 170 維的嵌入特徵向量𝑣。接續分別連接兩種隱藏層，136 維的線性隱藏層與 136 維的內積隱藏層，最後採用 Sigmoid 激活函數計算點擊預測機率值。而與屬性權重因子分解機不同處，是把在 136 維的內積隱藏層與 Sigmoid 激活函數間的權重𝑚𝑖𝐹(𝑖),𝐹(𝑗) 固定成預先計算出來的跨欄位互信息值，而不透過模型訓練。 34.

(43) 第五章實驗結果與討論本論文將實驗分為兩部分進行評估：全體資料模型之效果評估：評估以全體資料建立四種模型之預測效. 1.. 果。分群資料模型之效果評估：評估以分群資料建立四種模型之預測效. 2.. 果及群組數量之效果影響評估。以下小節將詳細說明實驗資料、評估指標以及上述兩部分的實驗方法及結果。. 5.1. 資料集與參數設定介紹本實驗使用 TenMax 公司提供的資料集 ( 蒐集期間為 2016/12/9 ~. 2016/12/15)，共有 183,787,971 筆資料，分成訓練資料 149,701,316 筆、測試資料 34,086,655 筆，其點擊與否分佈如表 12 顯示，點擊率非常低，介於 0.05%~0.13%之間。為加強模型之訓練，資料前處理先透過資料欄位 country 為 TWN 進行抽樣，抽樣後共有 158,589,490 筆資料，並針對點擊與否，採取一比一的數據量進行資料的平均抽樣(如章節 3.2 表 5 所示)。因此，最終抽樣的資料量共取 233,624 筆資料，再將資料集以 7.5:2.5 的比例分為，175,000 筆訓練資料及 58,624 筆測試資料，每筆資料皆有 17 個屬性欄位(如表 11)。本論文方法在訓練全體資料模型與分群資料模型訓練回合數(Epoch)皆設為 100，訓練全體資料模型時 batch 大小設定為 100，而訓練分群資料模型時 batch 大小設定為 50。batch 是用來優化深度學習時調整梯度下降的單位，. 35.

(44) 每一次訓練回合中，會以 batch 設定的大小整批更新參數。由於訓練全體資料模型時因資料量大故以 100 作為設定，而分群資料的筆數在各群分佈不均時可能有小於 100 的狀況，因此在分群資料模型訓練時，將 batch 大小設定為 50。表 11 資料集統計表 Data set 2016/12/9~2016/12/17. # of data. # of sample data. Fields. 149,701,316. 175,000. 17. Test. 34,086,655. 58,624. 17. Total. 183,787,971. 233,624. 17. Train. 表 12 資料集每日點擊率統計 Date. # of click. # of non-click. 點擊率. 2016/12/09 (五). 11,367. 23,002,612. 0.05%. 2016/12/10 (六). 15,256. 21,027,229. 0.07%. 2016/12/11 (日). 12,704. 12,275,403. 0.10%. 2016/12/12 (一). 7,912. 13,357,430. 0.06%. 2016/12/13 (二). 11,860. 21,243,200. 0.06%. 2016/12/14 (三). 12,329. 21,305,469. 0.06%. 2016/12/15 (四). 13,089. 18,072,736. 0.07%. 2016/12/16 (五). 15,637. 14,939,151. 0.10%. 2016/12/17 (六). 16,658. 13,249,448. 0.13%. 36.

(45) 評估指標. 5.2. 本論文採用的評估指標為準確度及損失度，以下將依序介紹。 1.. 準確度全體資料中每筆資料經過 Sigmoid 激活函數後，透過 Keras 內的門檻設置，會將預測值判定為 1 或 0。接下來與實際資料集答案計算準確度，如公式 10，. 𝐴𝑐𝑐𝑢𝑟𝑎𝑐𝑦 =. 𝑇𝑃 + 𝑇𝑁 𝑇𝑃 + 𝐹𝑃 + 𝐹𝑁 + 𝑇𝑁 (公式 10). 其中，𝑇𝑃稱真陽(True Positive)為預測值為 1 且實際值為 1；𝑇𝑁稱真陰(True Negative)為預測值為 0 且實際值為 0；𝐹𝑃 稱偽陽(False Positive)為預測值為 1 但實際值為 0；𝐹𝑁稱偽陰(False Negative)為預測值為 0 但實際值為 1。舉例來說，如果有 5 筆資料預測值為 1,1,0,0,0，實際答案值為 1,1,1,0,1，則混淆矩陣(Confusion Matrix)如表 13，則此準確度為. 3 5. =. 60%。在分群資料中，本論文採用加權平均準確度的方式，將每個分群𝑔的資料筆數𝑛𝑢𝑚(𝑔)乘上該群準確度值後相加，再除以總資料筆數，當作分群資料模型整體的預測準確度，如公式 11。 ∑𝑔𝑖=1 𝐴𝑐𝑐𝑢𝑟𝑎𝑐𝑦(𝑔) × 𝑛𝑢𝑚(𝑔) ∑𝑔𝑖=1 𝑛𝑢𝑚(𝑔). (公式 11) 37.

(46) 表 13 準確度混淆矩陣範例真實混淆矩陣範例真實為 1. 真實為 0. 預測為 1. TP=2. FP=0. 預測為 0. FN=2. TN=1. 預測. 2.. 損失度本實驗使用二元交叉熵(Binary cross-entropy)為損失函數，主要用來計算預測值𝑦𝑖 與實際值𝑦̂𝑖 的 Sigmoid 函數交叉熵，如公式 12。 𝐿𝑜𝑠𝑠 = 𝑦𝑖 log(𝑦̂𝑖 ) + (1 − 𝑦𝑖 ) log(1 − 𝑦̂𝑖 ) (公式 12) 在分群資料中，本論文採用加權平均損失度的方式，與加權平均準確度相同的處理方式，將每個分群的資料筆數乘上該群的損失度後相加，再除以總資料筆數，當作分群資料模型整體的預測損失度。. 3.. 訓練時間本實驗所計算之訓練時間為模型於第 1 次訓練回合至第 100 次訓練回合的經過時間。. 38.

(47) 互信息值之結果討論. 5.3. 本實驗呈現資料集中算出的單欄位互信息值，以及跨欄位互信息值的結果，其中公式 3 及公式 7 的𝑙𝑜𝑔底數設為 10。單欄位互信息值越高，代表該欄位與點擊與否越有關聯性，如圖 10 所示；跨欄位互信息值，如圖 11 所示，顏色區塊越深，代表對應的橫軸欄位及縱軸欄位相互與點擊越有關聯。由圖 10 中顯示，campaignId、creativeId 及 publisherId 與點擊的關係較其他欄位高，與圖 11 所示之跨欄位互信息值深藍色部分也出現在 campaignId、creativeId. MI 互信息值. 及 publisherId 相互呼應。 0.75 0.73 0.71 0.69 0.67 0.65 0.63 0.61 0.59 0.57 0.55. 0.73 0.73. 0.72 0.67 0.68. 0.63. 0.61. 0.63. 0.65. 0.63 0.63 0.63. 圖 10 單欄位互信息值表. 圖 11 跨欄位互信息值表 39. 0.65 0.60. 0.63. 0.60 0.60.

(48) 全體資料模型之效果評估. 5.4. 本實驗使用全體資料，以四種不同類神經網路架構建立預測模型，實驗結果如表 14 所示，其中跨屬性模型+固定互信息將內積層到 Sigmoid 激活函數層之間的權重固定為跨欄位互信息值，不透過模型訓練。以下將條列顯示實驗結果：以線性迴歸為基礎的 Single Field 模型，雖然其訓練參數數量與因子. 1.. 分解機為基礎的 FwFMs 模型及 mo-FwFMs 模型訓練參數數量接近，但由於 Single Field 模型較為簡單，因此只需要 298 秒的訓練時間，就能將全體 175,000 筆訓練資料訓練完成，且達到趨近 74%的準確度。 Cross Field+MI 使用比 Cross Field 模型較少的訓練參數數量，並能. 2.. 提升 1%的準確度，損失度也大幅下降了 4.81% Modified-FwFMs 與論文[13]提出的 FwFMs 模型差別於跨欄位互信. 3.. 息值的權重是否固定，使用較少的訓練參數即能將準確度提升 1.1%，並於損失度下降了 2.4%。本實驗顯示，以跨欄位互信息值為欄位比重對於廣告點擊預測正確性有幫助，而本論文所提出的 FwFMs 模型改良版在全體資料模型達到較好的預測效果。. 40.

(49) 表 14 全體資料模型預測效果模型. 訓練參數數量. 訓練時間. 準確度. 損失度. 單屬性模型. 29,003. 298s. 73.85%. 51.26%. 5,747. 644s. 73.60%. 51.05%. 5,610. 728s. 74.60%. 46.24%. 29,139. 705s. 75.39%. 49.00%. 29,006. 764s. 76.40%. 46.60%. (Single Field) 跨屬性模型 (Cross Field) 跨屬性模型+固定互信息 (Cross Field+MI) 屬性權重因子分解機模型 (FwFMs) FwFMs 模型改良版 (Modified-FwFMs). 41.

(50) 5.5. 分群資料模型之效果評估本實驗評估分群資料模型的效果，以四種不同類神經網路架構，比較分. 群資料模型與全體資料模型的預測效果，以及分群資料模型判別方法的比較，並採用加權平均準確度以及加權平均損失度的評估方法。 <1> 分群資料模型判別方法效果評估本實驗採用章節 3.3 中提及的兩種分群資料模型判別方法，比較雅卡爾相似分數群集法與餘弦相似分數群集法的效果，並採用 FwFMs 改良版為模型建立架構，將分群數量設定為 20，後續實驗會評估分群數量對預測效果的影響。由表 15 所示，雅卡爾分數群集法與餘弦相似度群集法在準確度上的差異只有 0.1%左右，但對測試資料判別適用之分群模型的計算時間相差了 4700 倍，餘弦相似度群集法只需 37 秒，而雅卡爾分數群集法則需接近 2 天以上的時間。結果顯示此二種群集方法與 FwFMs 改良版在全體資料模型的準確度 76.40%上皆提升 0.6%與 0.73%，證明分群資料模型建立方法可有效提升廣告預測準確度。因此，接下來的分群實驗皆採用餘弦相似度群集法。表 15 分群模型建立時間與方法效果評估分群方法. 分群計算時間. 準確度. 雅卡爾分數群集法. 190,664s ≈ 52hr. 77.09%. 餘弦相似度群集法. 37.7s. 77.23%. 全體資料模型. ###. 76.40%. 42.

(51) <2> 群組數量之預測效果評估本實驗採用 FwFMs 模型改良版建立架構，採用餘弦相似度群集法建立群組模型，比較分群的數量是否影響預測準確度。由表 16 所示，實驗將資料分群分別設為 5、10、15 及 20，實驗結果顯示，當分群數量為 10 時，可得到最佳分群效果，準確度為 77.58%，損失度也達到最低，因此後續實驗將群組分群數量設為 10。表 16 分群數量效果評估分群數量. 訓練時間. 準確度. 損失度. 5. 1463s. 76.44%. 47%. 10. 1485s. 77.58%. 46.34%. 15. 1455s. 77.22%. 46.57%. 20. 1540s. 77.23%. 46.61%. 43.

(52) <3> 各群組模型預測效果評估本實驗將資料分為 10 群，各群組的訓練資料與測試資料數量如表 17，表 18 顯示分群資料套用在四種類神經網路架構上所學習的預測模型之預測效果，所有的分群資料模型準確度都明顯較全體資料模型高，且損失度也有明顯的下降。 . Single Field 模型在分群資料模型時相較於其在全體資料模型提升 1.18%。. . Cross Field 模型在分群資料模型時相較於其在全體資料模型提升 3.31%。. . Cross Field+MI 模型在分群資料模型時相較於其在全體資料模型提升 2.53%。. . Modified-FwFMs w/o Mi 模型採用自動學習權重，不透過固定互信息值的設定。實驗顯示 Modified-FwFMs w/o Mi 及 Modified-FwFMs 在分群資料模型皆比採用全體資料模型有更高的準確度。而採用互信值固定的 Modified-FwFMs 模型比沒有採用互信息值固定的 Modified-FwFMs w/o Mi 模型準確度高 0.23%。. . 論文[13]提出的 FwFMs 在分群資料模型時相較於其在全體資料模型模型提升 1.99%。. . Modified-FwFMs 模型在分群資料模型時相較於其在全體資料模型提升 1.18%，並且同時於全體資料模型及分群資料模型都能達到最高的準確度。. 44.

(53) 表 17 各群組訓練資料與測試資料數量訓練資料. 測試資料. 群組 1. 72,247. 22,986. 群組 2. 9,106. 2,660. 群組 3. 7,650. 2,821. 群組 4. 29,886. 10,297. 群組 5. 7,911. 2,677. 群組 6. 567. 174. 群組 7. 11,707. 3,899. 群組 8. 15,229. 5,443. 群組 9. 14,235. 4,818. 群組 10. 6,462. 2,849. 45.

(54) 表 18 分群資料模型與全體資料模型於不同模型架構之比較模型. 全體資料模型. 分群資料模型. 準確度. 損失度. 準確度. 損失度. 單屬性模型 (Single Field). 73.85%. 51.26%. 75.03%↑. 49.2% ↓. 733s. 跨屬性模型 (Cross Field). 73.60%. 51.05%. 76.91%↑. 46.36%↓. 1069s. 跨屬性模型+ 固定互信息. 74.60%. 46.24%. 77.13%↑. 46.04%↓. 1473s. 屬性權重因子分解機模型 (FwFMs). 75.39%. 49.00%. 77.38%↑. 46.58%↓. 1477s. FwFMs 模型改良版+權重訓練. 76.00%. 46.71%. 77.35%↑. 46.33%↓. 1471s. 76.40%. 46.60%. 77.58%↑. 46.34%↓. 1485s. 訓練時間. (Cross Field+MI). (ModifiedFwFMs w/o Mi) FwFMs 模型改良版 (ModifiedFwFMs). 46.

(55) 為了更有詳細分析分群資料模型的預測效果，本實驗採用 FwFMs 改良版模型架構，將各群組資料用全體資料預測模型上進行點擊準確度預測。圖 12 及圖 13 分別顯示各群組資料在群組資料模型的準確度值相較於採用全體資料模型預測準確度值之絕對值及差值。如圖 13 所示，採用群組資料模型在平均準確度上有提升，只在群組 2、5 及 7 有些微下降，因此顯示將資料分群後在建立群組資料模型在廣告點擊預測準確度上能有效提升。 97.87 97.83. 100 95. 87.02 86.96. 百分率%. 90. 81.56 81.41. 85 76.73 74.79 76.35 75 73.78 70.97 70.9 70 80. 74.71. 77.27 77.58. 74.06 72.71 70.4472.64 73.75 70.07. 72.41. 65. global. group. 圖 12 各群組資料與全體資料模型之預測效果比較. 2.5. 2.3. 2 1.5. 百分率%. 1.01 1 0.37. 0.5 0. -0.38. 0.07. 0.06. -0.04. -0.15. 0.31 0.07. -0.5 -1. 圖 13 各群組資料模型以全體資料模型為基底比較效果 47. 0.31.

(56) 為了顯示對測試資料，所選取的群組模型是最適合的，本實驗採用 FwFMs 改良版模型架構，將各個分群資料採用每個分群資料模型進行預測，並以分群結果所指定的群組模型為比較基準。如表 19 所示，群組 1、2、3、 4、5、7 及 9 的測試資料套用自己所屬群組建立的群組資料模型進行預測，有最佳的預測效果，只有群組 6 測試資料採用群組 6 的預測模型未達最好的效果。對照表 17，推測可能的原因是群組 6 於訓練資料數量及測試資料數量都為最少，而餘弦相似度群集法，若資料集數量太少則無法有效呈現出該群組的特徵屬性分佈向量，因而影響適用群組資料模型的選擇。但相較於採用全體資料模型，採用群組 6 的群組模型仍能有效提升預測準確度。表 19 分群模型效果評估模型模型 1. 模型. 模型. 模型. 模型. 模型. 模型. 模型. 模型. 模型. 2. 3. 4. 5. 6. 7. 8. 9. 10. 資料群組 1. 0. -1.25. -2.75. -3.8. -9.49. -7.43. -5.31. -3.89. -4.42. -3.21. 群組 2. -1.24. 0. -5.06. -0.49. -6.54. -5.3. -0.56. -0.86. -0.37. -4.92. 群組 3. -1.63. -2.48. 0. -5.31. -21.12. -15.63. -7.55. -3.33. -5.35. -0.03. 群組 4. -9.68. -20.95. -16.01. 0. -2.57. -1.24. -0.88. -0.84. -0.61. -1.76. 群組 5. -41.13. -41.02. -34.45. -37.13. 0. -0.19. -11.2. -4.18. -24.28. -25.21. 群組 6. -1.15. -2.88. -15.27. -0.57. 2.3. 0. -0.57. 0.58. -12.64. 4.03. 群組 7. -0.36. -1.79. -3.53. -0.87. -17.72. -5.54. 0. -2.1. -0.07. -6.08. 群組 8. -1.04. -3.99. 6.3. -4.85. -10.79. -8.29. -8. 0. -2.48. -1.12. 群組 9. -4.85. -5.74. -8.33. -3.04. -15.78. -10.18. -4.3. -2.02. 0. -2.6. 0. -3.76. -10.84. -8.84. -7.65. -6.14. -12.49. -6.14. -11.33. 0. 群組 10. 48.

(57) 圖 14 顯示，本實驗採用全體資料模型所訓練出的權重，遷移學習到分群資料模型，由實驗顯示，遷移學習效果於加權平均準確度以及多數群組資料模型上的結果介於全體資料模型與分群資料模型之間，本論文認為遷移學習是透過資料量較多為基礎訓練，運用重新調整某些部分的權重，使得群組模型的學習上會達到更平衡的結果，由於上述的實驗提到群組 6 的訓練資料與測試資料量較少，因此無法有效果的選擇分群資料模型，如圖 14 中群組 6，透過遷移學習的方法，能有效提升群組 6 資料量過少的群組準確度，解決資料稀疏的問題。. 圖 14 遷移學習模型架構比較. 49.

(58) <4> 合成模型(Ensemble Model)之效果評估與比較本論文將全體資料模型與分群資料模型進行調和，將資料模型分別計算出的訓練結果，依比重值組合，將兩個資料模型的預測結果綜合判斷最後預測結果，圖 15 顯示，合成模型對各分群的加權平均準確度為 77.40%，介於全體資料模型與分群資料模型的準確度之間，各群組的表現也得到類似的效果。實驗顯示合成模型於全體資料模型的加權平均準確度高，其中準確度較為顯著上升的為群組三與群組八，而這兩個分群是整體準確度相較於其他群組為最低的，此實驗結果有待未來進一步探討。. 圖 15 合成模型之效果比較綜合以上實驗結果顯示，本論文提出的類神經網路模型架構 Modified FwFMs 能有效提升準確度，並於分群數量為 10 時達到最佳的效果。而建立分群資料模型判別所採用的餘弦相似分數群集法，不僅能快速對大量資料計算相似分數，並能達到有效分群效果以及效判別分群資料適用模型。透過遷移學習的方法，能有效解決分群後資料過少的問題。透過合成模型的方法，能有效的選擇該筆群組適合於全體資料模型或是分群資料模型。 50.

(59) 第六章結論與未來研究方向本論文針對廣告點擊預測方法，提出以屬性權重因子分解機網路架構為基礎的預測模型。本論文比較四種類神經網路架構模型:單屬性模型、跨屬性模型、屬性權重因子分解機模型以及 FwFMs 模型改良版。其中 FwFMs 模型改良版，運用跨欄位互信息值固定類神經網路中部分權重值。由實驗結果發現，以 FwFMs 模型改良版建立全體預測模型及分群預測模型，皆能達最佳的預測準確度。全體預測模型於 FwFMs 改良版模型架構，準確度可達 76.40%。在分群預測模型中，採用四種類神經網路模型架構皆可提升準確度，最高可達 76.58%。此外，本論文並對大量資料的資料分群提出兩種方法，分別是雅卡爾相似分數群集法，以及餘弦相似分數群集法，用來對測試資料選取適用的分群預測模型。由實驗結果驗證，兩種方法於分群資料模型的預測效果達到預期的目標，其中採用餘弦相似分數群集法可快速且正確選擇分群資料模型。最後，本論文並嘗試透過遷移學習的方法，解決分群後訓練資料量過少的問題。本研究未來可進一步結合使用者購物或瀏覽行為，進行個人化廣告點擊預測，並以協同式過濾方式，推薦相同類型使用者群組適合的廣告。. 51.

(60) 參考文獻 [1] Barbieri, N., Silvestri, F., & Lalmas, M. (2016). Improving Post-Click User Engagement on Native Ads via Survival Analysis. in Proceedings of the 25th International Conference on World Wide Web(WWW). [2] Chen, J., Sun B., Lu H., & Hua, X. (2016). Deep CTR Prediction in Display Advertising. in Proceedings of the 2016 ACM on Multimedia Conference(MM). [3] Dalessandro, B., Chen, D., Raeder, T., Perlich, C., Williams, H. M. & Provost, F. (2014). Scalable Hands-Free Transfer Learning for Online Advertising. in Proceedings of the 20th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining(KDD). [4] Edizel, B., Mantrach, A., & Bai, X. (2017). Deep Character-Level Click-Through Rate Prediction for Sponsored Search. in Proceedings of the 40th International ACM SIGIR Conference on Research and Development in Information Retrieval(SIGIR). [5] Graepel, T., Candela, J., Borchert, T., & Herbrich, R. (2010). Web-scale Bayesian Click-Through Rate Prediction for Sponsored Search Advertising in Microsoft’s Bing Search Engine. in Proceedings of the 27th International Conference on Machine Learning(ICML). [6] He, X., Pan, J., Jin, O., Xu, T., Liu, B., Xu, T., Shi, Y., Atallah, A., Herbrich, R., 52.

(61) Bowers, S. & Candela, J. (2014). Practical Lessons from Predicting Clicks on Ads at Facebook. in Proceedings of the Eighth International Workshop on Data Mining for Online Advertising(ADKDD). [7] Huang, Z., Pan, Z., Lin, Q., Long, B., Ma, H. & Chen, E. (2017). An Ad CTR Prediction Method Based on Feature Learning of Deep and Shallow Layer. in Proceedings of the 2017 ACM on Conference on Information and Knowledge Management(CIKM). [8] Ji, W., Wang, X. & Zhang, D. (2016). A Probabilistic Muliti-Touch Attribution Model for Online Advertising. in Proceedings of the 25th ACM International on Conference on Information and Knowledge Management(CIKM). [9] Juan, Y., Lefortier, D. & Chapelle, O. (2017). Field-aware Factorization Machines in a Real-world Online Advertising System. In Proceedings of the 26th International Conference on World Wide Web Companion(WWW). [10] Lee, K., Orten, B., Dasdan, A. & Li, W. (2012). Estimating Conversion Rate in Display Advertising from Past Performance Data. in Proceedings of the 18th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining(KDD). [11] McMahan, H., Holt, G., Sculley, D., Young, M., Ebner, D., Grady, J., Nie, L., Phillips, T., Davydov, E., Golovin, D., Chikkerur, S., Liu, D., Wattenberg, M.,. 53.