• 沒有找到結果。

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

23

圖 14 三維資料角度分割

圖 13 中所示為二維空間的資料集合,在 X 及 Y 維度構成的夾角上依 𝜋6 分割成三個子 空間,每個子空間都有不等數目的原始資料。為了加以識別片段,分別 替每個片段標上識別碼,如圖中所示,P1片段以{1}識別;P3片段以{3}識別。圖 14 中所示為三維空間的資料集合,在 X 及 Y 維度構成的夾角上依 π4 分割成兩個子空間,

再從 Z 軸及 XY 帄面構成的夾角再分割,使得三維空間分割成四個子空間,每個子空 間都有不等數目的原始資料。為了加以識別片段,分別替每個片段標上識別碼,如圖 中所示,P1片段以{1,1}識別;P3片段以{2, 1}識別。

角度分割片段及標示他們的方法介紹之後,接下來我們來探討他們之間如何互相 傳遞作為 Dominator Set 的資料點。觀察圖 14 中, P1及P2的關係,存在於P1片段的資 料點τ滿足τ. X > τ. Y特性,而存在於P2片段的資料點τ滿足τ. X τ. Y特性。兩邊實際上 都有可能支配對方部分資料點,也就會在彼此空間中產生 Dominated Region。要找出 購成 Dominated Region 有幫助的 Dominator Set,對於P1傳遞給P2的情況來說,找出P1的 Local Skyline 進行 X 軸及 Z 軸兩個維度的 Project Skyline 傳送給P2;對於P2傳遞給P1的 情況,找出P2的 Local Skyline 進行 Y 軸及 Z 軸兩個維度的 Project Skyline 傳送給P2

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

24

這樣的集合大小剛好會成為構成P1及P2之間的 Dominated Region 所需的最小 Dominator Set。

同樣的現象也可以觀察在P3及P4的關係,P3片段的資料點τ滿足τ. X > τ. Y特性,而 P4片段的資料點τ滿足τ. X τ. Y特性。以P3傳遞給P4的情況來說,找出P3的 Local Skyline 進行 X 軸及 Z 軸兩個維度的 Project Skyline 傳送給P4,而P4傳遞給P3的則是 Y 軸及 Z 軸兩個維度的 Project Skyline。

接著討論斜對角的關係P1及P4,P1片段的資料點τ1的 X 值設為τ1. X;P4片段的資料 點τ4的 X 值設為τ4. X,若τ1. X τ4. X,則 τ1. Y τ4. Y且τ1. Z τ4. Z。因此P1傳遞給P4的 Dominator Set 便是P1的 Local Skyline 進行 X 軸的 Project Skyline,在一個維度上的 Project Skyline 至多只會有一筆資料。

在直觀演算法中,每一個片段間藉由傳遞 Local Skyline 作為 Dominator Set 來找出 Global Skyline 片段,然而這樣的傳輸雖然可以讓查詢處理達到實質的帄行,卻頇付出 龐大的代價。並且這樣的代價將隨著分割片段數的增加、資料筆數的增加、資料相依 程度的增加,都會大幅度的提升。因此提出兩種切割原始資料方法,從資料分佈的情 況觀察出在 Reducer 演算法中沒有幫助的資料集合,事先在傳輸前過濾掉,便可以降 低網路傳輸的負擔。

網格分割及角度分割都可以有效降低在直觀演算法中對網路傳輸的負擔,比起隨 機性的資料分割策略也更容易掌握 Global Skyline 的分布情形。此兩種分割策略各有 自己的優勢存在:使用網格分割的方法可以有效的找出最小的 Project Skyline,減少的 比率達 97%以上,大幅度減少在網路間傳輸的資料點。而且隨著片段數的增加、資料 筆數的增加、資料相依程度的增加,其減少的比率更加顯著。網路的負擔減少相對意 味著在 Redcuer 運算時間的減少,Redcuer 階段有些複雜的啟動流程,例如對收集資料 的合併、排序及索引,這些啟動階段時間都能夠大幅減少。進入到執行 Dominate 演算 時也減少了大量需要計算的資料。

然而從資料的分布可以發現,使用網格分割的方法會造成片段間工作負擔程度不 同,而使得整體回應時間受限於運算最久的單元。每個網格距離原點的距離不一,而 越是接近原點的資料片段對於 Global Skyline 的貢獻會越大,而大部分的資料片段並 不會產出部分 Global Skyline 有所產出。另外越是接近原點的資料片段,要負擔越多 Global Skyline 傳輸責任,這便會影響到該 Mapper 運算時間較其他單元延長許多。以 上種種因素會使整個查詢處理受限於負責最接近原點資料片段的運算單元的時間。

在本研究中另外提出了角度分割的演算法策略,這樣的分割策略可以解決工作負 擔不帄衡的問題。從資料分割的觀點來看,每個資料片段離原點的距離相等,這樣就

相關文件