Chapter 3 資料前處理與建模
3.3 使用 Micro data 重新估計 Macro data
( )
ij t ij
ij j t
N t P
N t
P 代表聚集時間層級後,使用者在區域間轉移的比例。 ij
轉移矩陣的建立,可以觀察不同時間長度,區域間人口流動的比例,以都市 規劃的角度來看,能夠建立一個模型描述城市內的人潮流動,可以有效的利用這 個訊息進行交通流量控管以及都市建設;本研究亦探討人口流動與網路需求之關 係,做為網路資源規劃策略評估的一項重要指標。
3.3 使用 Micro data 重新估計 Macro data
Micro data 是從有跨越 2 個時段的使用者取交集下而得到的,其與 Macro data 直接抽取每個時段的使用者記錄是不同的,可想而知的是 Micro data 裡面的使用 者較 Macro data 的少,或著也可以說 Micro data 是從 Macro data 抽樣而得到的。
因此,我們也去瞭解 Micro data 與 Macro data 之間的差異有多少,利用 Micro data 生成新的 Macro data 的方式。
方法介紹:對於時段ht1到時段ht 間的轉移次數N tij( ),加總其下個時段所 出現的人數,公式如下:
19
t
t-1 1 2 … m
1 n11 n12 … n1m n1
2 n21 n22 … n2m n2
… … … …
m nm1 nm2 … nmm nm
mi
ni 1
1
m
i
ni 1
2 …
m
i
nim 1
n 其中,
m
i
nij 1
即為從 Micro data 估計出來ht 時段使用無線網路的使用者數。後續也 會比較其與實際 Macro data 的差異。
Ch
hapter 4
本研究問題 求數以及最小 接下來的小 urrogate 性 ns 分群與基 herwise 域 i 在某時段
21
loc loc
x x y y
對角
23 合結果呢?這裡採取 2 種方式:簡單平均數(Simple-average CV, SCV)與加權平均 數(Weighted-average CV, WCV)的方式計算某種規劃策略下,整體聚合群集的表 現為何,公式如下:
24
繁複的計算加快速度。意義上來說,Simple-average CV 表示不同群集間各自的影 響力,單純考慮各群集內部的需求穩不穩定;Weighted-average CV 意涵不希望由 同個網路管理中心控制太多的基地台,如果單純看CVk k
25
decision variable: c
ik1
其中(1)為 hard constraint,也就是一定要符合之限制式;(2)為 soft constraint,是 盡可能滿足之限制式。因為聚合後的管理中心無法管控太多的網路需求;在地理 太遠(soft constraint),以及 RNC 的網路需求容量有個上限(hard constraint)。由於 目前尚無找到一個可以同時衡量這數種指標的一個基準,現階段的考量是利用不 同的方式進行各種不同聚合策略,再依據其聚合的效果,像是不同天的聚合結果,
最後一併做評比。
4.3 性質探討:surrogate approach
在介紹最佳化方法之前,這節先分析這個問題的一些性質。組合最優化問題
26
27
1 1
I I
kl ik jl ij
j i
M c c N
, 1 11 1 1
I I
ik jl ij
j i
kl K I I
ik jl ij
l j i
c c N Q
c c N
可以藉由降低分子的方式來達到目的,這裡就說明分母與分子的意義:
分母:k群集之使用者數量。
分子:k群集至l群集之使用者數量。
如果聚合過程中會選擇高Nij的區域進行聚合,聚合之後會減少Nij的轉移次 數,同時也使k群集之網路需求數增幅不要太大,這同時也隱含著同個 RNC 不要 控管太多的基地台,除了造成該 RNC 的負擔,也可能使得內部基地台的轉移增 加。我們也嘗試直接對高Nij,也就是有較高轉移次數的兩個區域進行聚合,觀 察其與使用轉移矩陣聚合後的差異。
接下來針對幾種簡單的情形作探討:在不考慮限制式的情況下,
Case I. 兩個區域間的聚合分析:
假設現在只有 2 個區域的情況下,探討是否聚合以達到期望的目的:
Fig.4-4:兩種區域可能的聚合結果 舉個例子:時段 1、2、3 的轉移人口數
h1h2 A B h2h3 A B h3h4 A B
A 10 1 A 12 2 A 10 5
B 9 10 B 8 9 B 15 8
由 3 個時段轉移人口數產生的需求數列:(加總每個時段下的 column 可得)
Demand h2 h3 h4
A 19 20 25 B 11 11 13
由轉移人口數產生的轉移比例:(加總不同時段間的轉移數,再除以 row 相加)
A B A B
28
Probability A B A 0.8 0.2 B 0.542373 0.457627
經過聚合可以發現,(A;B 表示 A 與 B 沒有聚合,A+B 表示聚合) WCV A;B A+B
0.108105 0.107849
|| ||Q F
A;B A+B 0.578073 0
基本上不論在何種情況,只要符合限制式,A、B 聚合後通常可以下降其需求變 異與減少其轉移量。減少轉移量較明顯,而 A、B 聚合後的關係可見下述。
)
; ( )
(
WCV
WCV
AB
AB"" only occur at corr(A, B)1
因此,聚合地區的確可以減少整體變異與區域之間的人口轉移比例。
Case II. 三個區域間的聚合分析:聚合誰比較好?
Fig.4-5:三種區域可能的聚合結果
由於 A、B、C 之間的需求數列與轉移矩陣可能有非常多種情況,而且因為其之 間的關係複雜,直接依照地區之間需求數的 correlation matrix 或是 transition matrix 是無法保證其可以獲得最佳解的,其反例如下:根據轉移次數聚合的反例:
Transition A B C A 1 9 3
B 3 7 8
C 1 6 8
Probability A B C A 0.0769230.6923080.230769 A
B C
A
B C A
B C
A
B C
A
B C
29
B 0.1666670.388889 0.444444 C 0.066667 0.4 0.533333
按此範例,如果依照轉移次數應聚合(B,C),如果依照轉移矩陣應聚合(A,B),而 結果如下:
(B,C)聚合:
Q 0.93
(A,B)聚合:Q 0.58
可見依轉移矩陣聚合較恰當。
根據轉移矩陣聚合的反例:
Transition A B C A 3 2 4 B 16 20 17
C 6 4 10
Probability A B C A 0.333333 0.2222220.444444 B 0.301887 0.377358 0.320755 C 0.3 0.2 0.5
按此範例,如果依照轉移次數應聚合(B,C),如果依照轉移矩陣應聚合(A,C),而 結果如下:
(B,C)聚合:
Q 0.73
(A,C)聚合:Q 0.65
可見依轉移次數聚合較恰當。
由於此種特性,我們無法確定聚合後的一定為最優解,這也是此種 surrogate 方 approach 法可能的問題,後續結果比較中,會比較直接對目標函式的組合以及 依據 correlation matrix 與 transition matrix (surrogate)的異同。聚合轉移次數的方式,
請參考 Appendix 1.。
4.4 資源分配策略規劃方法
本節將介紹四種不同的規劃求解方法,配合問題的條件以及剛剛推演的性質 建立適當的演算法去解決優化問題。本研究發展 4 個演算法來建立需求規劃策略:
30
貪婪式規劃方法、階層式規劃方法、K 區域規劃方法與基因演算規劃方法。
Fig.4-6:規劃方法
上述為四種方法與目標函數(Objective function)、聚集選項(correlation matrix or transition matrix、transition count)的關係,貪婪式與基因演算規劃方法是直接針對 目標函數進行優化的策略,階層式與 K 區域法是針對地區之間需求的 correlation matrix 與 transition matrix 進行聚合,兩種方式的概念不完全相同。
不過四種方法基本上都符合下圖結構:
Fig.4-7:規劃方法流程圖
因為本研究探討的問題要考量到網路容量上限與不希望服務的範圍會差太多,因 此在聚合的過程中皆會考量這 2 種限制因素。
4.4.1 貪婪式規劃方法
貪婪式規劃方法為直接對目標函數進行聚合,將現有的群集兩兩進行聚合後,
觀察哪 2 個聚合群集的聚合結果可以最貼近目標值的趨勢,直到聚合至所需的聚
初始化 硬性限 制
軟性限 制
比較 更新
結果 輸出
Greedy Method
Hierarchical Method
Heuristic K-Regions Method
Genetic Algorithm
Objective Function
Correlation Transition
Objective Function Correlation
Transition
重複直到滿足停止條件
需求上限 群內距離
31
合群集數。本研究撰寫的演算法如下:
演算概念 Input:
原始資料:Macro data、Micro data、Location centroid
參數:聚合群集個數(k)、需求上限、群內距離限制( % )、群集距離種 類、目標函數
Repeat:
1 將目前的聚合群集兩兩進行聚合
2 比較 1.之結果,將最符合目標趨勢的 2 個聚合群集進行聚合,聚合過程 中須滿足最大需求上限,優先選擇 Location centroid 較近的前 % 對組合 3 重複 1.-2.直到滿足停止條件:已歸類成 k 堆
4.4.2 階層式規劃方法
階層式規劃方法為利用剛剛所推演的關係矩陣與轉移矩陣,建立聚合群集之 間的距離矩陣D(i, j),並開始將距離最近的聚合群集兩兩聚合,直到聚合至所需 的聚合群集數。這種方法又被稱為 bottom-up 的聚合方式,將目前屬性群集的最 小單位聚合至上層的單位。本研究撰寫的演算法如下:
演算概念 Input:
原始資料:Macro data、Micro data、Location centroid
參數:聚合群集個數(k)、需求上限、群內距離限制( % )、群集距離種 類、聚合選項
Initialization:
計算距離矩陣,根據不同的群集距離種類。
Repeat:
1. 聚合距離矩陣中最短的 2 個群集為 1 個群集,聚合時必須滿足小於需求 上限,優先選擇 Location centroid 較近的前 % 對組合
2. 重複 1.直到滿足停止條件:已歸類成 k 堆
32
4.4.3 K 區域規劃方法
K 區域規劃方法的概念與 K-means clustering 類似,用 1 個中心點去表示聚合 群集,在聚合的過程中主要是依據區域與此中心點的距離,將離中心最近之區域 納入區域內,並更新群集的中心點,該方法以單一中心點取代整個聚合中心,減 少計算距離時所需的計算量。本研究撰寫的演算法如下:
演算概念 Input:
原始資料:Macro data、Micro data、Location centroid
參數:聚合群集個數(k)、需求上限、群內距離限制( % )、群集距離種 類、聚合選項,初始距離下限
Initialization:
選取 k 個初始中心:從 WCV 與 Trace of P 中可以瞭解當
x
k較大,兩者 的目標函數值會隨之下降與上升,因此,前 k 個初始中心我們選擇平均 需求較高的前 k 個區域,另外,為了盡量符合 soft constraint,我們將初 始位置盡量安排在不同的區域,使得最後的結果可以往外散佈(初始距離 下限)。Repeat:
1 從剩餘區域挑選與此 7 群中心最短不相似度的區域進行聚合,聚合後須 滿足小於需求上限,優先選擇 Location centroid 較近的前 % 對組合 2 重新計算新的群集中心:找出同群內距離所有區域最近距離之區域,計
算方法如下:
i r r
i i i
i i
i i
r n r
r m
, '
'
* 1 dissimilarity( , ) min
arg
其中
dissimilar ity ( r
i, r
i')
為相同群集內i
內,兩個區域( r
i, r
i')
的不相似 度,不相似度可以有 correlation matrix 或是 transition probability 兩種。3 重複 1.-2.直到滿足停止條件:所有區域皆已分配至 k 群
33
4.4.4 基因演算法規劃方法
基因演算法的概念是將可行解轉換成數個染色體,這些染色體組成一個世代,
世代會隨著每次迭代進行擇優演化、交配與突變而產生新的世代,每次迭代都會 儲存暫時最優解,經過數次迭代後,最後將找到的最優解輸出。本研究撰寫之演 算法如下:
演算概念 Input:
原始資料:Macro data、Micro data、Location centroid
參數:聚合群集個數(k)、需求上限、群內距離限制( % )、母體數、擇 優率、交配率、突變率、迭代上限、收斂條件、目標函數
Initialization:
將所有區域編號成 1~k 而成 1 個染色體,該染色體必須滿足小於需求上 限,群集間的距離大於距離下限。重複製造染色體直到抵達母體數。
Repeat:
1 評估:計算目前母體內所有染色體的目標值
2 挑選:根據染色體目標值的大小,越接近目標的挑選機率就越大。本研 究以輪盤抽取法實作挑選程序
3 交配:將 1 對染色體從母體取出,交換染色體其中幾個解,過程須滿足 小於需求上限,重複交配個數直到滿足交配率。
4 突變:將 1 個染色體從母體取出,改變染色體中其中幾個解,過程須滿 足小於需求上限,重複突變直到滿足突變率。
5 將解依照其群集內的離 location centroid 的平均距離排序,挑選前 % 的 解為下一個世代的母體。
6 重複 1.-5.直到滿足中止條件:到達迭代上限 or 滿足收斂條件
結果評估可以與 7 個 RNC 所計算出來的指標比較,來觀察我們的規劃策略 是否有改進,以及比較各種規劃方式。
Ch
hapter 5
本章節對實
Macro data之
:
ppendix2.: 可以推測,
圖中
a at time interv
使用者移動
at time interva
的地點數 (b)
圖代 Macro data 會納入本研
整體 RNC117、 可以有更好的 (Macro da
圖中的
7318
81(Micro da 外,也計算R
ion centroid 用者在該地
Macro dat 的轉移矩陣
各種規劃方
三種linkage 也就是目前
ransition pro
ransition pro
F 、 ||M ||F
obability
obability 距離
法在 correl
法在 correl