第三章 問題定義與系統架構
3.2 系統架構與流程
論文方法的處理分為兩個階段:離線訓練以及線上預測。
3.2.1 離線訓練
離線訓練的處理主要分為三部分:(一)資料前處理及特徵擷取、(二)分群方法、
及(三)遞迴類神經網路學習架構(RNN based Learning Network),如圖 3.1 所示。
(一) 資料前處理及特徵擷取:包含停留點擷取、地點類型自動標註、及輸入資料 產生方法。
(二) 分群方法:分成以使用者為單位的分群方法,及以序列為單位的分群方法 (三) 遞迴類神經網路學習架構(Rnn based Learning Network):分成遷移學習模型 (Transfer Learning Model)和合成模型(Ensemble Model)。
14
圖3.1 使用者活動意圖預測系統離線訓練之架構
15
(1) 使用者分群法(User-based Clustering)
以使用者為單位進行分群,將每兩個連續的停留點子序列視為一組移動模式,
將兩兩使用者出現的移動模式所成的集合進行相似度計算,根據相似度採用階層 式分群演算法進行分群。
(2) 序列分群法(Sequence-based Clustering)
以序列為單位進行分群,將長度k 的活動序列兩兩進行相似度計算,根據相似 度採用階層式分群演算法進行分群。
(三) 遞迴類神經網路學習架構(RNN based Learning Network)
本論文提出三種遞迴類神經網路的學習架構,進行使用者活動意圖預測:
(1) 全體資料模型/群組模型(GRU Global/Group Model)
以未經分群過,全部長度k 的活動序列所訓練出的模型稱為全體資料模型;以 各分群資料所訓練出的模型統稱為群組模型。
16
(2) 遷移學習模型(GRU Transfer Learning Model)
遷移學習模型將全體長度k 的活動序列作為輸入訓練好模型後,將參數記錄 調和參數(Ensemble Parameter)學習由前兩個模型預測結果的組合比重,並做 Softmax 處理。最後由原本全體資料模型和群組模型的預測結果各自乘上組合比
17
圖3.2 使用者活動意圖預測系統線上預測之架構 線上預測的處理流程簡述如下:
(一) 資料前處理及特徵擷取
從GPS 軌跡資料中計算出停留點並自動標註地點類型,形成使用者的活動序 列,擷取最近長度為k 的使用者活動序列作為預測模型輸入。若長度不及 k 則需 要繼續蒐集資料。
(二) 模型選擇及預測
判斷測試資料應適用哪個群組模型。根據分群法的不同有以下兩種判斷方法:
(1) 使用者群組模型選擇方法
將使用者和各群的使用者兩兩進行相似度計算,取相似度最大值的使用者所 屬分群,決定測試資料應採用的群組模型。
(2) 序列群組模型選擇方法
將序列和各群的序列兩兩進行相似度計算,取相似度的最大值的序列所屬分 群,決定測試資料應使用的群組模型。
18
(latitude, longitude, arrive time, staying time)。在本研究中,t 設為 15 分鐘,latitude
和 longitude 分別表示緯度和精度,arrive time 表示使用者從該時間開始停留,
staying time 表示使用者在該地點的停留時間。。
[定義 3] 位置歷史序列:將一個使用者 u 的所有停留點自動標注類別以後,根據
時間先後排序而成的序列稱為位置歷史序列。
LH = S
1→ S
2→ … → S
k,Si= (Category, arrive time, staying time)。其中 Category 表示該停留點的 POI 類別,
arrive time 表示使用者從該時間開始停留,staying time 表示使用者在該地點的停 留時間。
[定義 4] 使用者活動序列:在使用者位置歷史序列中,若兩個連續停留點間的時
間間隔超過門檻值時,將序列切開後形成的多個子序列,稱為使用者活動序列。
[定義 5] 長度 k 的活動序列:由使用者的活動序列,取出所有長度 k 的連續子序
列稱為長度