Chapter 3 資料前處理與建模
3.1 資料處理
Signaling Event Log Data 來自使用者使用無線網路服務時與基地台建立連線 之記錄,該資料記錄某位使用者位於何處、何時,使用了何種項目的網路連線,
也記錄所連結到的 RNC 與 CELL ID。資料欄位與資料範例如下表:
User ID Date Time RNC Cell ID Type 經度 緯度 1 2014/06/21 10:00:01 1 7821 1 24.5768 30.1221 1 2014/06/21 11:45:08 1 7830 6 24.5801 30.1242
… … … … …
Table 1:資料欄位與範例 網路連線類型的種類如下:
Conversational Call:使用者語音對話時留下的紀錄。
Streaming Call:使用者觀賞影音、網路串流資料時留下的紀錄。
Interactive Call:使用者瀏覽網頁時留下的紀錄。
Background Call:使用者進行下載或上傳留下的紀錄。
MMS:使用者傳送多媒體訊息時留下的紀錄。
SMS:使用者傳送短訊時留下的紀錄。
不同類型的連線需求所需的資源會不同,舉例來說:語音通話與短訊就需要不同 的傳輸品質,語音通話為了確保不斷線,通常會需要較優先的服務品質(Quality of Service, QoS),短訊則相反。另外串流、互動、背景等資料傳輸是近年來成長劇 烈的服務項目,QoS 提供了針對不同資料流採用相應不同的優先等級,保證資料 流的效能達到一定的水準。
該區域由 7 個 RNC 所涵蓋,包含 9000 多個 Cells,地理範圍大小為 1100 平 方公里,有 200 萬個手機使用者,該資料的時間長度為 7 天(一週)。由某外商公 司提供之事件發生時,利用基地台定位估計出實際經緯度位置,其誤差大約 50
公尺 4/06/22 10 4/06/22 10
Table 2:不 政規劃描繪出 4.5768 30 5.6000 29
以行
0 01:00-02 2
272829 31
2:00 02:00 5
下,
conversation sms 的
移動情形之
如果 AP(On-Line 紐分析是進行
l Processing 分析時常見的
移動
week day hour
e R 同的 RNC 去 至不同層級
Fig.3-7: Ti
Fig.3-6
week day hou
ime
rative regionTyp 的地區的網
ministrative region
據 RNC 解析
Type (MaAll
析之資料
cro data)資
區域整體使
下表 Table 4
轉移矩
從上述的層 小時下的需 Macro data 域、不同時段
administrative reg
on
Micro data 之 o data (N) (Macro data
ata,其描述
18
用者數,P t 代表的意義為區域ij( ) i轉移至區域j的比例,而非人口流動的量,看 比例的原因是因為人口轉移的數可能不同,像是如果原本人數稀少的j區域(可能 是因為該區域較小),與原本較多停留在
i
區域的人數比起來,j區域的移動的特 性就會被比下,因此看轉移比例的方式可以清楚的顯現區域的流動性。在時間層面,亦可考量不同時間長度之轉移現象,像是如果以 1 天做為目前 之時間規劃層級,可以聚集不同時段的N tij( ),進而估計 1 天下來的轉移矩陣,如 下式:
( ) ( )
ij t ij
ij j t
N t P
N t
P 代表聚集時間層級後,使用者在區域間轉移的比例。 ij
轉移矩陣的建立,可以觀察不同時間長度,區域間人口流動的比例,以都市 規劃的角度來看,能夠建立一個模型描述城市內的人潮流動,可以有效的利用這 個訊息進行交通流量控管以及都市建設;本研究亦探討人口流動與網路需求之關 係,做為網路資源規劃策略評估的一項重要指標。
3.3 使用 Micro data 重新估計 Macro data
Micro data 是從有跨越 2 個時段的使用者取交集下而得到的,其與 Macro data 直接抽取每個時段的使用者記錄是不同的,可想而知的是 Micro data 裡面的使用 者較 Macro data 的少,或著也可以說 Micro data 是從 Macro data 抽樣而得到的。
因此,我們也去瞭解 Micro data 與 Macro data 之間的差異有多少,利用 Micro data 生成新的 Macro data 的方式。
方法介紹:對於時段ht1到時段ht 間的轉移次數N tij( ),加總其下個時段所 出現的人數,公式如下:
19
t
t-1 1 2 … m
1 n11 n12 … n1m n1
2 n21 n22 … n2m n2
… … … …
m nm1 nm2 … nmm nm
mi
ni 1
1
m
i
ni 1
2 …
m
i
nim 1
n 其中,
m
i
nij 1
即為從 Micro data 估計出來ht 時段使用無線網路的使用者數。後續也 會比較其與實際 Macro data 的差異。
Ch
hapter 4
本研究問題 求數以及最小 接下來的小 urrogate 性 ns 分群與基 herwise 域 i 在某時段
21
loc loc
x x y y
對角
23 合結果呢?這裡採取 2 種方式:簡單平均數(Simple-average CV, SCV)與加權平均 數(Weighted-average CV, WCV)的方式計算某種規劃策略下,整體聚合群集的表 現為何,公式如下:
24
繁複的計算加快速度。意義上來說,Simple-average CV 表示不同群集間各自的影 響力,單純考慮各群集內部的需求穩不穩定;Weighted-average CV 意涵不希望由 同個網路管理中心控制太多的基地台,如果單純看CVk k
25
decision variable: c
ik1
其中(1)為 hard constraint,也就是一定要符合之限制式;(2)為 soft constraint,是 盡可能滿足之限制式。因為聚合後的管理中心無法管控太多的網路需求;在地理 太遠(soft constraint),以及 RNC 的網路需求容量有個上限(hard constraint)。由於 目前尚無找到一個可以同時衡量這數種指標的一個基準,現階段的考量是利用不 同的方式進行各種不同聚合策略,再依據其聚合的效果,像是不同天的聚合結果,
最後一併做評比。
4.3 性質探討:surrogate approach
在介紹最佳化方法之前,這節先分析這個問題的一些性質。組合最優化問題
26
27
1 1
I I
kl ik jl ij
j i
M c c N
, 1 11 1 1
I I
ik jl ij
j i
kl K I I
ik jl ij
l j i
c c N Q
c c N
可以藉由降低分子的方式來達到目的,這裡就說明分母與分子的意義:
分母:k群集之使用者數量。
分子:k群集至l群集之使用者數量。
如果聚合過程中會選擇高Nij的區域進行聚合,聚合之後會減少Nij的轉移次 數,同時也使k群集之網路需求數增幅不要太大,這同時也隱含著同個 RNC 不要 控管太多的基地台,除了造成該 RNC 的負擔,也可能使得內部基地台的轉移增 加。我們也嘗試直接對高Nij,也就是有較高轉移次數的兩個區域進行聚合,觀 察其與使用轉移矩陣聚合後的差異。
接下來針對幾種簡單的情形作探討:在不考慮限制式的情況下,
Case I. 兩個區域間的聚合分析:
假設現在只有 2 個區域的情況下,探討是否聚合以達到期望的目的:
Fig.4-4:兩種區域可能的聚合結果 舉個例子:時段 1、2、3 的轉移人口數
h1h2 A B h2h3 A B h3h4 A B
A 10 1 A 12 2 A 10 5
B 9 10 B 8 9 B 15 8
由 3 個時段轉移人口數產生的需求數列:(加總每個時段下的 column 可得)
Demand h2 h3 h4
A 19 20 25 B 11 11 13
由轉移人口數產生的轉移比例:(加總不同時段間的轉移數,再除以 row 相加)
A B A B
28
Probability A B A 0.8 0.2 B 0.542373 0.457627
經過聚合可以發現,(A;B 表示 A 與 B 沒有聚合,A+B 表示聚合) WCV A;B A+B
0.108105 0.107849
|| ||Q F
A;B A+B 0.578073 0
基本上不論在何種情況,只要符合限制式,A、B 聚合後通常可以下降其需求變 異與減少其轉移量。減少轉移量較明顯,而 A、B 聚合後的關係可見下述。
)
; ( )
(
WCV
WCV
AB
AB"" only occur at corr(A, B)1
因此,聚合地區的確可以減少整體變異與區域之間的人口轉移比例。
Case II. 三個區域間的聚合分析:聚合誰比較好?
Fig.4-5:三種區域可能的聚合結果
由於 A、B、C 之間的需求數列與轉移矩陣可能有非常多種情況,而且因為其之 間的關係複雜,直接依照地區之間需求數的 correlation matrix 或是 transition matrix 是無法保證其可以獲得最佳解的,其反例如下:根據轉移次數聚合的反例:
Transition A B C A 1 9 3
B 3 7 8
C 1 6 8
Probability A B C A 0.0769230.6923080.230769 A
B C
A
B C A
B C
A
B C
A
B C
29
B 0.1666670.388889 0.444444 C 0.066667 0.4 0.533333
按此範例,如果依照轉移次數應聚合(B,C),如果依照轉移矩陣應聚合(A,B),而 結果如下:
(B,C)聚合:
Q 0.93
(A,B)聚合:Q 0.58
可見依轉移矩陣聚合較恰當。
根據轉移矩陣聚合的反例:
Transition A B C A 3 2 4 B 16 20 17
C 6 4 10
Probability A B C A 0.333333 0.2222220.444444 B 0.301887 0.377358 0.320755 C 0.3 0.2 0.5
按此範例,如果依照轉移次數應聚合(B,C),如果依照轉移矩陣應聚合(A,C),而 結果如下:
(B,C)聚合:
Q 0.73
(A,C)聚合:Q 0.65
可見依轉移次數聚合較恰當。
由於此種特性,我們無法確定聚合後的一定為最優解,這也是此種 surrogate 方 approach 法可能的問題,後續結果比較中,會比較直接對目標函式的組合以及 依據 correlation matrix 與 transition matrix (surrogate)的異同。聚合轉移次數的方式,
請參考 Appendix 1.。
4.4 資源分配策略規劃方法
本節將介紹四種不同的規劃求解方法,配合問題的條件以及剛剛推演的性質 建立適當的演算法去解決優化問題。本研究發展 4 個演算法來建立需求規劃策略:
30
貪婪式規劃方法、階層式規劃方法、K 區域規劃方法與基因演算規劃方法。
Fig.4-6:規劃方法
上述為四種方法與目標函數(Objective function)、聚集選項(correlation matrix or transition matrix、transition count)的關係,貪婪式與基因演算規劃方法是直接針對 目標函數進行優化的策略,階層式與 K 區域法是針對地區之間需求的 correlation matrix 與 transition matrix 進行聚合,兩種方式的概念不完全相同。
不過四種方法基本上都符合下圖結構:
Fig.4-7:規劃方法流程圖
因為本研究探討的問題要考量到網路容量上限與不希望服務的範圍會差太多,因 此在聚合的過程中皆會考量這 2 種限制因素。
4.4.1 貪婪式規劃方法
貪婪式規劃方法為直接對目標函數進行聚合,將現有的群集兩兩進行聚合後,
觀察哪 2 個聚合群集的聚合結果可以最貼近目標值的趨勢,直到聚合至所需的聚
初始化 硬性限 制
軟性限 制
比較 更新
結果 輸出
Greedy Method
Hierarchical Method
Heuristic K-Regions Method
Genetic Algorithm
Objective Function
Correlation Transition
Objective Function Correlation
Transition
重複直到滿足停止條件
需求上限 群內距離
31
合群集數。本研究撰寫的演算法如下:
演算概念 Input:
原始資料:Macro data、Micro data、Location centroid
參數:聚合群集個數(k)、需求上限、群內距離限制( % )、群集距離種 類、目標函數
Repeat:
1 將目前的聚合群集兩兩進行聚合
2 比較 1.之結果,將最符合目標趨勢的 2 個聚合群集進行聚合,聚合過程 中須滿足最大需求上限,優先選擇 Location centroid 較近的前 % 對組合 3 重複 1.-2.直到滿足停止條件:已歸類成 k 堆
4.4.2 階層式規劃方法
階層式規劃方法為利用剛剛所推演的關係矩陣與轉移矩陣,建立聚合群集之 間的距離矩陣D(i, j),並開始將距離最近的聚合群集兩兩聚合,直到聚合至所需 的聚合群集數。這種方法又被稱為 bottom-up 的聚合方式,將目前屬性群集的最 小單位聚合至上層的單位。本研究撰寫的演算法如下:
演算概念 Input:
原始資料:Macro data、Micro data、Location centroid
參數:聚合群集個數(k)、需求上限、群內距離限制( % )、群集距離種 類、聚合選項
Initialization:
計算距離矩陣,根據不同的群集距離種類。
Repeat:
1. 聚合距離矩陣中最短的 2 個群集為 1 個群集,聚合時必須滿足小於需求 上限,優先選擇 Location centroid 較近的前 % 對組合
2. 重複 1.直到滿足停止條件:已歸類成 k 堆
32
4.4.3 K 區域規劃方法
K 區域規劃方法的概念與 K-means clustering 類似,用 1 個中心點去表示聚合 群集,在聚合的過程中主要是依據區域與此中心點的距離,將離中心最近之區域 納入區域內,並更新群集的中心點,該方法以單一中心點取代整個聚合中心,減 少計算距離時所需的計算量。本研究撰寫的演算法如下:
演算概念 Input:
原始資料:Macro data、Micro data、Location centroid
參數:聚合群集個數(k)、需求上限、群內距離限制( % )、群集距離種 類、聚合選項,初始距離下限
Initialization:
選取 k 個初始中心:從 WCV 與 Trace of P 中可以瞭解當
x
k較大,兩者 的目標函數值會隨之下降與上升,因此,前 k 個初始中心我們選擇平均 需求較高的前 k 個區域,另外,為了盡量符合 soft constraint,我們將初 選取 k 個初始中心:從 WCV 與 Trace of P 中可以瞭解當