• 沒有找到結果。

以地理資訊系統結合資料探勘技術從事郵局設點分析 - 政大學術集成

N/A
N/A
Protected

Academic year: 2021

Share "以地理資訊系統結合資料探勘技術從事郵局設點分析 - 政大學術集成"

Copied!
88
0
0

加載中.... (立即查看全文)

全文

(1)國立政治大學資訊科學系 Department of Computer Science National Chengchi University 碩士論文 Master’s Thesis. 立. 政 治 大. ‧ 國. 學 ‧. 以地理資訊系統結合資料探勘技術從事郵局設點分析. sit. y. Nat. Post Office Location Analysis Using Geographic Information. n. al. er. io. System and Data Mining Techniques. Ch. engchi. i n U. v. 研 究 生:鍾志偉 指導教授:何瑁鎧. 中華民國九十九年十二月 December 2010.

(2) 以地理資訊系統結合資料探勘技術從事郵局設點分析 Post Office Location Analysis Using Geographic Information System and Data Mining Techniques. 研 究 生:. 鍾志偉. 指導教授:. 何瑁鎧. 立. Student:Chi-Wei Chung Advisor:Maw-Kae Hor 治 政 大. Nat. sit. y. ‧. ‧ 國. 學. 國立政治大學 資訊科學系 碩士論文. n. er. io. A Thesis Submitteda to Department of Computer v Science i l C n National University U h eChengchi ngchi in partial fulfillment of the Requirements for the degree of Master in Computer Science. 中華民國九十九年十二月 December 2010.

(3) 以地理資訊系統結合資料探勘技術從事郵局設點分析. 摘要. 近年來由於政府實施無紙化及金融業者推行電子帳單的成效卓越,使 得國內郵件的收寄量逐年下滑,郵局如何與民營業者競爭國內物流市場並. 政 治 大 達成盈餘目標,成為營運中不可忽視之因素。 立. ‧ 國. 學. 傳統的郵局設點多依據公司規定與配合政府政策需求,甚少採用涉及. ‧. 複雜因素之區位分析進行選址。因此,如何有效且公正地評選郵局新設據. y. sit. Nat. 點以提高收益,成為亟待解決之問題。. er. io. 本研究目的在於提供高收益之郵局設點建議,我們提出一種評估中華. n. a. v. l C 郵政公司設點效益的方法,以國內郵局實際設點位置與相關空間資料來建 ni. hengchi U. 置實驗模型。研究結果顯示,以本研究方法建立之預測模型可成功的提供 中華郵政公司建議於何處新增據點可收最大功效。 我們首先蒐集中華郵政公司設點之鄰近區域資料,如競爭者設點數、 人口因素、重要交通路口、郵件收寄量等。其次導入資料探勘技術分析影 響郵件收寄量之因素,建立中華郵政公司設點收寄量預測模型。然後依照 建立預測模型時所得到之區辨力分數,判斷採用何種資料探勘技術建立預. I.

(4) 應用 GeoJSON 技術提昇空間資料交換之研究 . 測模型較適當。最後將所選定的預測模型套用於台北縣市各村里建物重 心,透過環域資料分析以計算預估之收寄量,再整合各資料探勘技術之預 測結果後推論出最佳設點建議。 實作中,以台北縣市資料來測試我們的方法。實驗數據顯示,我們的 方法成功地找出十一個建議設點的村里,可提供給中華郵政公司作為高收 益的設點建議。. 立. 政 治 大. ‧ 國. 學. Nat. n. al. er. io. sit. y. ‧. 關鍵字:設點分析、地理資訊系統、資料探勘。. Ch. engchi. II. i n U. v.

(5) Post Office Location Analysis Using Geographic Information System and Data Mining Techniques. Abstract. The amount of postal mail declines in recent years due to the efforts of. 政 治 大. paper-reduce policies implemented by the government, the industries, and the. 立. general publics. It becomes one of the important issues of the Chunghwa. ‧ 國. 學. Post Company, to compete with other companies in domestic freight and mail services and to achieve the desired profits.. ‧. Traditionally, the location of post offices were decided according to the. y. Nat. sit. government policies as well as the company regulations. The issues involved. a. er. io. in the site selection analysis were seldom considered.. Hence, developing an. n. v l to find the new post effective and fair mechanism n i office locations that could Ch. U i e h n c g improve the company’s surplus becomes an important problem to be solved.. The purpose of this thesis is to provide recommendations to the post office site selection which will yield high profit to the company.. We. proposed a method to evaluate the effective profits that could be produced by a particular post office through the data mining techniques and the related GIS information. We first collect various data, such as neighborhood population, traffic flow, postal mail received at particular post office, competitor’s information, etc., and analyze these data using data mining techniques in order to establish III.

(6) 應用 GeoJSON 技術提昇空間資料交換之研究 . prediction models.. The most appropriate model was chosen to find the new. post office sites. The Metropolitan Taipei area was chosen to illustrate our idea.. The best. sites for new post offices were selected through the buffering analysis as well as the data mining techniques.. The experimental results show that our. method can successfully find eleven locations which could generate most profit to Chunghwa Post Company if the new post offices were located in these places.. 立. 政 治 大. ‧ 國. 學 ‧. Keywords: Site Selection Analysis, Geographic Information System, Data. n. al. er. io. sit. y. Nat. Mining.. Ch. engchi. IV. i n U. v.

(7) 目錄 第一章 緒論 ..............................................................................................................................1 1.1 研究背景與動機 .........................................................................................................1 1.2 研究目的 .....................................................................................................................1 1.3 問題描述 .....................................................................................................................2 1.4 論文貢獻 .....................................................................................................................6 1.5 章節架構 .....................................................................................................................7 第二章 文獻探討 ......................................................................................................................8 2.1 地理資訊系統簡介 .....................................................................................................8 2.2 資料探勘簡介 ...........................................................................................................10 2.3 郵務業務簡介 ...........................................................................................................17 第三章 郵局設點分析 ............................................................................................................22 3.1 系統流程與架構 .......................................................................................................22 3.2 競爭者設點數與人口因素 .......................................................................................25 3.3 重要交通路口與郵局收寄量 ...................................................................................33 3.4 資料探勘預測模型 ...................................................................................................38 第四章 實驗結果與分析 ........................................................................................................41 4.1 建立收寄量預測模型 ...............................................................................................41 4.2 貝氏機率分類實驗結果 ...........................................................................................45 4.2 類神經網路實驗結果 ...............................................................................................46 4.3 邏輯迴歸實驗結果 ...................................................................................................50 4.4 實驗結果分析 ...........................................................................................................52 第五章 結論與未來展望 ........................................................................................................58 5.1 結論 ...........................................................................................................................58 5.2 未來研究方向 ...........................................................................................................60 參考文獻 ..................................................................................................................................63 附錄 ..........................................................................................................................................67 附錄一、歷年人口成長率權重調整(實驗二) ..........................................................67 附錄二、歷年人口成長率權重調整(實驗三) ..........................................................73. 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. V. i n U. v.

(8) 圖目錄 圖 1:郵件遞送流程圖 ............................................................................................................3 圖 2:台北市六張犁郵局環域建物圖 ....................................................................................9 圖 3:類神經網路單元之模型[3] .........................................................................................11 圖 4:類神經網路架構[15] ...................................................................................................13 圖 5:邏輯迴歸[41] ...............................................................................................................14 圖 6:Gini Coefficient 的圖形表示[42] ................................................................................15 圖 7:系統架構圖 ..................................................................................................................23 圖 8:中華郵政設點及村里建物重心分佈圖 ......................................................................26 圖 9:建物及便利商店分佈圖 ..............................................................................................27 圖 10:村里建物人口分佈圖 ................................................................................................29 圖 11:交通路口監測資料圖[27] .........................................................................................34 圖 12:重要交通路口分佈圖 ................................................................................................35 圖 13:資料採礦精靈「選擇資料採礦技術」 ....................................................................41 圖 14:資料採礦精靈「指定定型資料」 ............................................................................42 圖 15:資料採礦精靈「選擇測試資料百分比」 ................................................................43 圖 16:處理資料採礦模型 ....................................................................................................43 圖 17:資料採礦模型散佈圖 ................................................................................................44 圖 18:村里建物重心預測收寄量 ........................................................................................44 圖 19:所有郵件收寄量模型「貝氏機率分類」增益圖 ....................................................45 圖 20:包裹快捷收寄量模型「貝氏機率分類」增益圖 ....................................................46 圖 21:包裹快捷收寄量模型「類神經網路」散佈圖 ........................................................47 圖 22:包裹快捷收寄量模型「邏輯迴歸」散佈圖 ............................................................50 圖 23:台北縣林口鄉湖南村圖層套疊 ................................................................................55 圖 24:台北縣蘆洲市正義里圖層套疊 ................................................................................56 圖 25:村里評估設點分析結果(實驗一) .............................................................................57 圖 26:村里評估設點分析結果(實驗二) .............................................................................72 圖 27:村里評估設點分析結果(實驗三) .............................................................................78. 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. VI. i n U. v.

(9) 表目錄 表 1:中華郵政公司機構設置表 ............................................................................................2 表 2:中華郵政公司郵件業務營運量與國民通信率統計表 ................................................4 表 3:中華郵政公司各類工作人員分析表 ............................................................................4 表 4:中華郵政公司 97 年度損益表 ......................................................................................5 表 5:貝氏機率分類模型區辨能力[16] ...............................................................................16 表 6:世界各主要國家郵政專營權開放情形與範圍分析表[10] .......................................19 表 7:中華郵政公司局所異動資料 ......................................................................................21 表 8:便利超商北市與市郊區門市基本屬性資料[1] .........................................................27 表 9:北市村里歷年人口數資料 ..........................................................................................28 表 10:北市村里歷年人口成長率資料(實驗一) .................................................................31 表 11:中華郵政公司設點統計 ............................................................................................36 表 12:中華郵政公司設點環域資料(實驗一) .....................................................................38 表 13:村里建物重心設點環域資料(實驗一) .....................................................................40 表 14:類神經網路區辨力統計表(實驗一) .........................................................................47 表 15:台北縣市郵局收寄量比較表 ....................................................................................48 表 16:類神經網路實驗預測模型結果(實驗一) .................................................................49 表 17:邏輯迴歸區辨力統計表(實驗一) .............................................................................50 表 18:邏輯迴歸實驗預測模型結果(實驗一) .....................................................................51 表 19:收寄量預測模型區辨力分數(實驗一) .....................................................................52 表 20:村里建物重心設點總合排名(實驗一) .....................................................................53 表 21:村里建物重心設點環域資料(實驗一) .....................................................................54 表 22:北市村里歷年人口成長率資料(實驗二) .................................................................67 表 23:中華郵政公司設點環域資料(實驗二) .....................................................................67 表 24:村里建物重心設點環域資料(實驗二) .....................................................................68 表 25:類神經網路區辨力統計表(實驗二) .........................................................................69 表 26:類神經網路實驗預測模型結果(實驗二) .................................................................69 表 27:邏輯迴歸實驗預測模型結果(實驗二) .....................................................................70 表 28:村里建物重心設點總合排名(實驗二) .....................................................................70 表 29:村里建物重心設點環域資料(實驗二) .....................................................................71 表 30:北市村里歷年人口成長率資料(實驗三) .................................................................73 表 31:中華郵政公司設點環域資料(實驗三) .....................................................................73 表 32:村里建物重心設點環域資料(實驗三) .....................................................................74 表 33:類神經網路區辨力統計表(實驗三) .........................................................................74 表 34:類神經網路實驗預測模型結果(實驗三) .................................................................75 表 35:邏輯迴歸實驗預測模型結果(實驗三) .....................................................................75. 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. VII. i n U. v.

(10) 表 36:村里建物重心設點總合排名(實驗三) .....................................................................76 表 37:村里建物重心設點環域資料(實驗三) .....................................................................77. 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. VIII. i n U. v.

(11) 第一章 緒論 本章將介紹本論文之研究背景、動機、目的、貢獻等,對論文內容及章節架構有初 步的說明。. 1.1 研究背景與動機 依據中華民國憲法第十二條規定:「人民有秘密通信的自由。」國家為確保人民能 夠完全享有此一權利,常由國家統一提供普及性的郵政服務。在台灣,由中華郵政公司 負責全國各地的郵件遞送,隸屬於交通部並受其監督[5]。. 政 治 大. 因為郵政如同水電、運輸、通信等,是屬於性質特殊的公共事業,必須由政府統籌. 立. 規劃,提供全國民眾相同品質、相同價格的服務。若由民營業者負責承攬,常會因成本. ‧ 國. 學. 考量,使得偏遠地區民眾無法享受同等的服務;政府對此情形通常採取補貼政策,讓負 責郵件遞送的單位不至於發生虧損。. ‧. 中華郵政公司自民國 92 年由交通部郵政總局改制後,仍承接前身為國營事業之相. y. Nat. sit. 關責任及權利,在政策法令鬆綁後陸續開辦多項新種業務,多年來均能達成法定盈餘目. n. al. er. io. 標。根據 97 年郵政年報,即使金融海嘯衝擊整體經濟,對於中華郵政公司收寄郵件業 務的影響程度並不顯著。. Ch. engchi. i n U. v. 本論文利用地理資訊系統及資料探勘等技術,嘗試以各郵局國內郵件收寄量,設點 鄰近區域之人口、交通、競爭者等因素,建立中華郵政公司設點收寄量預測模型,並依 此分析台北縣市內何處適合增設郵局,討論中華郵政公司該如何設點才能爭取更多的客 戶。. 1.2 研究目的 本論文研究目的是參考相關研究文獻,利用地理資訊系統收集分析相關資料探勘因 素,設計中華郵政公司設點收寄量的預測模型,以做為將來中華郵政公司新增設點的參 考。 1.

(12) 以中華郵政公司來說,因為身負「縮小城鄉差距」的責任,所以除了在各都會區及 人口密集度高的地方設立郵局外,部份郵局設點為配合政策考量,會在偏遠地區或是公 民營機關如機場、軍營、學校、科技園區、觀光景點等地設立郵局,也會配合各項活動 開辦臨時郵局,如台北燈會、年貨大街等。茲列出 97 年度中華郵政公司機構設置表如 表 1,可瞭解當年度並無增設或裁撤郵局。. 表1:中華郵政公司機構設置表 機 構 類 別 96 年 97 年 增減百分比 總公司 1 1 管 理 機 構 各等郵局 23 23 共 計 24 24 郵件處理中心 5 5 各級郵局 1,321 1,321 自辦機構 臨時任務性局所 0 0 業務機構 共 計 1,326 1,326 郵政代辦所 483 411 -14.91% 委辦機構 郵票代售處 2,990 809 -72.94% 共 計 3,473 1,220 -64.87% 總 計 4,823 2,570 -46.71% 資料來源:97 年度郵政年報. 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 1.3 問題描述 以地理資訊系統研究區位選址的論文相當豐富,大多是針對金融業、物流業、零售 業等進行分析,鮮少以郵件收寄量對郵局設點方式作分析。而中華郵政公司設點缺乏整 體佈局規劃,決策者依據過往經驗作出主觀性評估,難以衡量隱藏成本及服務效益。在 本研究採用地理資訊系統結合資料探勘技術,產生預測收寄量提供設點建議。 中華郵政公司營業項目主要分為儲匯及郵務兩大業務,而郵務部門其營運模式較類 似於物流業。客戶至郵局交寄郵件並支付相關郵資,中華郵政公司經由郵路將郵件準 時、準確地交付到寄件人手上,郵件遞送流程如圖 1。. 2.

(13) 圖1:郵件遞送流程圖. 立. 政 治 大. 為加速郵件集運,中華郵政公司已於全台設立五個自動化郵件處理中心,而花蓮. 學. ‧ 國. 縣、台東縣因為郵件量較少,僅成立人工作業之郵件處理中心。. 2.. 桃園處理中心:負責桃園縣、新竹市、新竹縣等。. 3.. 台中處理中心:負責台中市、台中縣、彰化縣、南投縣、苗栗縣、雲林縣等。. 4.. 台南處理中心:負責台南市、台南縣、嘉義市、嘉義縣等。. 5.. 高雄處理中心:負責高雄市、高雄縣、屏東縣、澎湖縣等。. n. al. er. io. sit. y. ‧. 台北處理中心:負責台北市、台北縣、基隆市、宜蘭縣等。. Nat. 1.. Ch. engchi. i n U. v. 根據郵政年報,統計中華郵政公司郵件業務營運量如表 2。以民國 97 年收寄統計資 料與民國 96 年相比,國內函件收寄量以比例來說僅僅減少了 0.96%,乍看之下縮減並 不明顯。事實上,因為國內函件收寄量佔整體郵件收寄量約 99%;故以收寄件數而言減 少了高達 2,545 萬件,若以國內信函每件基本資費 5 元估算,影響金額將超過一億元。 尤其是屬於專營權範圍內的各類通知單及帳單,在政府推行無紙化政策,及各金融、電 信業者推行電子化帳單的情形下,國內函件的收寄量勢必亦將日漸減少。 相較之下,對於需與民營業者競爭的國內包裹及國內快捷業務,反而因為資費較民 營業者便宜且郵遞時效快速,使得收寄量有更高的成長率。. 3.

(14) 表2:中華郵政公司郵件業務營運量與國民通信率統計表 項. 目. 收寄千件. 96 年 件數 百分比. 97 年 郵資 百分比. 件數 百分比. 收寄千件. 總收寄量 國內 函件 國際 國內 包裹 國際 國內 快捷 國際. 2,695,611 100.00% 100.00% 2,676,491 100.00% 2,649,198 98.28% 2,623,745 98.03% 81.94% 0.77% 0.83% 20,660 22,185 0.72% 0.88% 19,350 23,608 8.70% 0.02% 0.02% 609 660 0.15% 0.17% 4,117 4,587 9.36% 0.06% 0.06% 1,677 1,706 資料來源:97 年度郵政年報. 件數增減 百分比 -0.71% -0.96% 7.38% 22.01% 8.37% 11.42% 1.73%. 政 治 大. 立. 而以 96 年度郵件資費收入為例,就平均每件資費收入觀之,以快捷郵件 412.5 元最. ‧ 國. 學. 高,包裹 114.0 元,函件為 7.8 元[23];函件資費收入占郵件資費總收入之 81.94%;包. 體郵件的 1%,但因為平均資費較高而占整體營收約 18%。. Nat. io. sit. y. ‧. 裹資費收入占 8.70%;快捷郵件資費收入占 9.36%。雖然包裹快捷的收寄量總和不到整. n. al. er. 表3:中華郵政公司各類工作人員分析表. 項. 目. Ch. 人. 數. 百分比. e n g59.04% chi. 郵務相關業務人員 15,340 儲匯相關業務人員 6,087 其他業務及行政人員 4,554 合 計 25,981 資料來源:97 年度郵政年報. 23.43% 17.53% 100.00%. i n U. v. 總公司 97 0 1,531 1,628. 各等郵局 13,788 6,087 2,915 22,790. 郵件處理 中心 1,455 0 108 1,563. 以民國 97 年度郵政年報,中華郵政總員工數為 25,981 人,如表 3。雖然近年來中 華郵政公司已經將部份「郵件處理作業業務」及「郵件投遞業務」外包給民間業者處理, 但郵務相關業務員工數仍佔總員工數約 59%。中華郵政公司本著服務全國民眾的精神, 投入超過一半的人力,然而根據表 4 的中華郵政公司損益表,郵務相關業務能為公司帶. 4.

(15) 來的收入卻僅僅佔整體財務收入約 6%,以比例來說投入的人力與獲利出現相當大的落 差。. 表4:中華郵政公司 97 年度損益表 96 年 度 決 算 數 97 年 度 決 算 數 增減 金 額 百分比 金 額 百分比 百分比 增:營業收入 393,452,406,272 100.00% 445,436,687,611 100.00 % 13.21% 郵務收入 24,288,657,511 6.17% 24,747,267,981 5.56% 1.89% 其它收入 369,163,748,761 93.83% 420,689,419,630 94.44% 13.96% 減:營業成本 345,537,100,715 87.82% 407,651,060,238 91.52% 17.98% 郵務成本 19,664,213,155 5.00% 19,703,883,965 4.43% 0.20% 其它成本 325,872,887,560 82.82% 387,947,176,273 87.09% 19.05% 營業毛利 47,915,305,556 12.18% 37,785,627,373 8.48% -21.14% 資料來源:97 年度郵政年報 科. 目. 政 治 大. 立. ‧. ‧ 國. 學. 以民國 97 年度郵政年報之財務資料,在 97 年度營業毛利較 96 年度營業毛利下降. Nat. sit. y. 21.14%的情形下,郵務方面的營業收入及營業成本皆與前一年相去不遠。表示中華郵政. n. al. er. io. 公司在郵務業務的營運其實相當穩定,即使在前兩年大環境經濟不景氣,以及民眾日漸. i n U. v. 習慣以電子郵件取代實體郵件的趨勢下,仍能維持一定的營收。. Ch. engchi. 為了改善大幅下滑的毛利率,就需要在穩定的發展中找出競爭的利基。中華郵政公 司於近年建置了資料倉儲系統,嘗試從各地郵局的交易資料中,分析出高貢獻度的潛在 客群再加以開發。此外,面對民營業者的競爭,中華郵政公司如何才能在設置營業據點 之初,就能夠找出有高經濟效益的設點,希望能夠以最低的成本來服務最多的客戶,並 獲得較高收益,創造雙贏局面。 本研究是採用台北縣市民國 92 年至 98 年每年 12 月之人口資料當做研究數據,取 得村里人口數及人口成長率資料;再依照台北縣市政府民國 93 年至 98 年之交通監測資 料,找出各地之重要路口座標。最後由交通部、中華郵政公司網站整理,依據郵局局等、 服務時間等,取得各局郵件收寄量。. 5.

(16) 資料來源有台北市政府民政局、台北縣戶政服務網、台北市交通管制工程處、台北 縣交通局、便利商店公司網站等,共收集 5,896 筆人口資料、2,394 筆路口監測資料,以 及 4,541 筆便利商店設點資料。. 1.4 論文貢獻 本研究提出了一種評估中華郵政公司設點效益的方法。透過地理資訊系統收集設點 鄰近區域的資訊,以資料探勘技術建立郵局收寄量預測模型,分析後得到一致的預測結. 政 治 大 本研究嘗試將地理資訊系統與資料探勘技術運用在建立郵局收寄量預測模型,提出 立. 果,並提出高收益的設點建議。. ‧. 以建物面積估計村里人口重心. sit. y. Nat. 1.. ‧ 國. 預測模型。. 學. 的方法論有兩方面貢獻:以建物面積估計村里人口重心,設計中華郵政公司設點收寄量. al. er. io. 回顧相關地理資訊系統的文獻[9],在擷取鄰近區域人口資料時,因為台灣人口統計. v. n. 資料以村里為單位,故一般研究常假設人口平均分布於村里面積內;當村里不位於市區. Ch. engchi. i n U. 時,村里面積較大且人口分佈較為分散,將無法準確地估計人口密集程度。因為本研究 針對中華郵政公司收寄量建立預測模型,而以常理而言,收寄郵件的需求必然發生在建 物內,如私人住家或公司行號等,而不會發生在空地之上。所以本研究假設村里人口數 平均分布於村里建物面積內,以建物面積來估計人口密集程度,並以村里建物面積重心 當做村里評估設點。. 2.. 設計中華郵政收寄量預測模型 本研究結合資料探勘技術設計預測模型。在國內外利用類神經網路當做研究方法的. 論文中,常會將類神經網路與迴歸分析相互比較,而得到的結論大多傾向於類神經網路. 6.

(17) 模型的預測結果優於迴歸分析模型;但也有其他文獻提到要根據原始輸入資料的特性來 選擇資料探勘技術。所以本研究同時採用了貝氏機率分類、類神經網路、邏輯迴歸三種 技術來分別建立預測模型,再根據預測結果分析三種資料探勘技術何者較適合被採用, 並整合其預測結果找出最適宜的設點位置。. 1.5 章節架構 本論文共分五章。. 政 治 大 第二章為文獻探討:探討地理資訊系統的發展與內容、實驗過程中使用的資料探勘技 立. 第一章為研究動機、背景、目的、問題描述等緒論部份,做為本論文的整體介紹。. ‧ 國. 學. 術、中華郵政公司的郵務業務現況。. 第三章為實驗方法的介紹:包含實驗數據的收集、輸入參數的篩選、區位選址資料. ‧. 庫的前置處理、資料探勘模型的建立。第四章為實驗結果的分析與說明:內容包含資料. n. al. er. io. sit. y. Nat. 探勘的結果,套用預測模型之最佳設點等。第五章為本研究的結論與未來研究方向。. Ch. engchi. 7. i n U. v.

(18) 第二章 文獻探討 本章將介紹研究中所運用到的各種背景知識,包含地理資訊系統與資料探勘技術, 並對中華郵政公司郵務業務作簡介。本研究採用地理資訊系統收集鄰近區域的相關因 素,再利用資料探勘技術建立郵件收寄量預測模型。. 2.1 地理資訊系統簡介 地理資訊系統(Geographic Information System,GIS)是近幾年來快速進步發展的 跨學門科技,涵蓋的理論和技術來自地理學、地圖學、測量學、數學、資訊科學等,常. 政 治 大. 應用於環境影響評估、資源管理、國土規劃、都市和區域計畫、交通管理、森林經營、. 立. 運輸規劃、生態保育、考古調查等。凡涉及地理因子或空間資料的問題,都可以利用來. ‧ 國. 學. 輔助作業。[21]. 茲舉數個專家學者對地理資訊系統的定義如下[21]:. ‧. ESRI(Understanding GIS):GIS 是設計用來有效的擷取、儲存、更新、處理、分. y. Nat. sit. 析、及展示各種形式地理資訊的系統,包括電腦硬軟體、地理資料庫、及操作維護人員。. n. al. er. io. Philip Parent and Richard Church:GIS 的主要目的是透過疊圖及空間分析功能,將 原始地理資料轉變為能支援空間決策的資訊。. Ch. engchi. i n U. v. Stan Aronoff(GIS:A Management Perspective):GIS 是設計用來搜集、儲存、分 析具有地理區位特性事物與現象的資訊系統。 David Cowen(University of South Carolina):GIS 是具有整合空間資訊及協助解決 真實世界問題的決策支援系統。. 地理資訊系統已由抽象的概念漸漸融入一般民眾的生活中,全球定位系統(Global Positioning System,GPS)設備被大量使用,如汽車導航系統,電子地圖網站提供衛星 空照與街景服務,電子相簿網站可標註照片在全球的經緯度。隨著手持裝置的普及,以. 8.

(19) 全球定位系統配合擴增實境(Augmented Reality,AR),透過視訊鏡頭與顯示螢幕,可 將虛擬資訊加到使用者周遭環境所產生的畫面上,方便使用。 更進階的應用,如在低溫運送宅配服務,配合車載網路將相關貨件資訊上傳至系統 主機,可掌握貨件位置與狀態,預估貨件預計到達時間,並確保在運送過程中貨物的保 冷度。在選區劃分服務,透過不同村里劃分選區的方式選擇,對於選舉結果會有截然不 同的影響,尤其是配合今年年底五都合併後的市長、市議員與里長選舉,劃分方式的不 同將直接衝擊到各黨團席次的分配,政治版圖也將隨之改變。. 政 治 大 招呼站等設施,除了需要考慮目前已經存在的同業競爭設點,亦可透過地理資訊系統分 立 在區位選址服務,當廠商想在某一地區內設立百貨公司、便利商店、銀行、計程車. 析周遭環境因素對於預估設點造成的影響。. ‧ 國. 學. 所謂環域(Buffer)分析是指環繞在地圖圖徵上設定距離的範圍,其功能在於識別. ‧. 或是選取位於環域邊界範圍內部或是外部的圖徵。例如在主要道路的兩側,一定距離內. y. Nat. 的店面通常較易吸引人潮,可以應用線狀環域分析方式,優先加以篩選列出,或是對於. er. io. sit. 鄰近競爭者的相對位置關係,也可以圓形環域表示[8]。以台北市六張犁郵局圓形環域 300 公尺之建物舉例如圖 2。. n. al. Ch. engchi. i n U. v. 圖2:台北市六張犁郵局環域建物圖 (■為中華郵政六張犁郵局設點) 9.

(20) 2.2 資料探勘簡介 本節將簡介實驗過程中所採用的三種資料探勘技術:貝氏機率分類、類神經網路、 邏輯迴歸,並討論資料探勘軟體如何以區辨力分數評比預測模型。. 1.. 貝氏機率分類原理(Naive Bayes) 貝氏定理是從條件機率所推導出來的。條件機率(Conditional Probability)是指後. 面事件發生的機率是以前面發生事件為條件,而貝耶斯(Thomas Bayes)認為發生機率. 政 治 大. 在計算時是可以被逆推的,也就是可根據後面「事件」已發生的情況下,計算出前面「條. 立. P  B | A . P  A  B P  A.  P  B . P  A | B. 學. ‧ 國. 件」發生的機率。[14]. P  A. ‧ sit. y. Nat. 假設 A 是規則,而 B 是要預測的事件,那麼帶入上式中,可計算出當發生 A 規則. n. al. er. io. 的條件下發生 B 預測事件的機率 P  B | A  ,然後就可以根據已知的 P  A  、 P  B  以及. i n U. v. 計算出來的機率來產生預測結果。貝氏定理假設所有輸入變數都是獨立事件, P  B | A . Ch. engchi. 同時符合各條件的機率就是把各條件機率相乘即可。但是在真實世界中,輸入變數通常 並非彼此為獨立事件,這個假設並不會嚴重影響貝氏機率分類的準確度[14]。 在 Microsoft SQL Server 2008 Analysis Services 中,此演算法使用貝氏定理但卻沒有 考量變數之間可能存在的相依性,因此其假設被視為「Naive」(亦即天真之意)。此 演算法比其他 Microsoft 演算法更少計算,因此能夠快速產生資料採礦模型,對於用來 分析輸入資料行和可預測資料行之間的相關聯性很有用。但因僅適用於類別變數,需根 據變數類型決定是否可採用。 貝氏機率分類的優點如下:. (1) 計算速度最快的演算法。 10.

(21) (2) 規則清楚易懂。 (3) 獨立事件的假設,在大多數問題上不至於發生太大偏誤。. 貝氏機率分類的缺點如下:. (1) 僅能適用於類別變數。 (2) 僅能應用於分類問題(預測類別變數)。 (3) 假設變數間為獨立互不影響,因此使用時須要謹慎分析變數間的相依性。[14]. 人類大腦的結構包括了幾個主要的單元:. 學. ‧ 國. (1) 神經核(Soma):神經元的中央處理單位,將輸入的資料作加總後再進行非線. ‧. 性轉換。. y. Nat. (2) 軸突(Axon):神經元中負責把神經脈衝從細胞體往外傳遞的神經纖維。. io. sit. (3) 樹突(Dendrites):神經元中負責把神經脈衝傳遞至細胞體的神經纖維。. er. 2.. 政 治 大 類神經網路(Neural Network) 立. (4) 突觸(Synapse):神經元之間的聯結機制,稱為權重值。. n. al. Ch. engchi. i n U. v. 圖3:類神經網路單元之模型[3] 11.

(22) 類神經網路神經元的組成是仿傚人類神經元的結構,其結構如圖 3,其中 X i 就是輸 入變數值,而 wij 則是輸入變數的權重, X i 乘上 wij 就等於外部輸入的神經脈衝,但是在 通過樹突時,累加神經脈衝必須大於門檻值,才能夠傳遞至神經元。對於神經元來說, 所有的輸入訊號可以用下式來表示:   Yj  f   X i wij   j   i . 其中 Y j 表示前端神經元的輸出值, f 為轉換函數, X i 表示輸入值, wij 表示權重值,. 政 治 大 而 表示該神經元本身的門檻值。[3] 立 j. ‧ 國. 學. 如圖 3,當脈衝通過樹突進入神經元後,神經元會透過加總函數把所有的神經脈衝 累加,必須達到門檻值,訊息才會透過轉換函數(Activation Function)的方式,產生新. ‧. 的神經脈衝( Y j )向外傳遞。. y. Nat. sit. 將神經元彼此連結就構成了類神經網路架構,也就是一個神經元的輸出可以變成下. n. al. er. io. 一個類神經網路的輸入脈衝。以目前 SQL Server 2008 Analysis Services 來說,最被廣為. i n U. v. 使用的是倒傳遞類神經網路(Back-propagation Neural Network,BPNN)。. Ch. engchi. 倒傳遞網路是由多層的神經元結構所構成,基本架構中最外層接收輸入變數的稱之 為輸入層(Input Layer) ,而最後產生預測結果的神經元則稱之為輸出層(Output Layer), 而介於中間有一層至多層的神經元稱之為隱藏層(Hidden Layer)。隱藏層的主要功能 是為了增加類神經網路的複雜性,以期能夠模擬較複雜的非線性關係,表現輸入處理單 元間的相互作用影響,如圖 4。. 12.

(23) 政 治 大 圖4:類神經網路架構[15]. 學. ‧ 國. 立. ‧. 類神經網路必須透過訓練的過程反覆地學習,一直到每一個輸入參數都能夠正確地. y. Nat. io. sit. 對應到所需要的輸出參數,所以在訓練階段時,就需要建立訓練資料供類神經網路學習. n. al. er. 使用。而倒傳遞網路的運作過程分為學習與回想兩步驟,將所有訓練資料執行過這兩步. Ch. i n U. v. 驟後稱為一個學習循環(learning cycle),一個倒傳遞網路可以把資料經過數個學習循 環後,直到結果達到收斂狀態。. engchi. 類神經網路可以同時應用在「連續變數」以及「類別變數」的預測分析,如果是連 續變數預測,就是以單一輸出層神經元的輸出訊號強度,來預測連續變數值的大小。類 神經網路雖然有較良好的預測能力,但是它在輸入變數上的限制是比較多的,而為了能 夠達到良好的預測效果,因此在資料預處理時就要確實做到修正極端值、避免變數間的 共線性等。 為了避免過度學習的問題,另需要一組資料用來驗證類神經權重修正的正確性,稱 之為鑑效組。. 13.

(24) 3.. 邏輯迴歸(Logistic Regression) 當要預測連續數值時,迴歸模型是相當有效的一種分析方式,可以透過線性迴歸來. 釐清每個輸入變數對於預測變數的貢獻度。但是這種分析模式面對一些特殊型態的變數 時,就會產生嚴重的偏誤。[15] 正因為傳統線性模型無法處理機率分配,必須選擇其他非線性函數來作為機率分配 的近似值,嘗試透過非線性函數去估算所感興趣的參數值。因此選擇的機率分配函數不 同就代表不同的迴歸演算法,以邏輯迴歸來說,所使用的是 Logit 函數:. Logit  X   Y . 1 ex  1  e  x  1  e x . 立. 政 治 大. ‧ 國. 學. 如圖 5,當在處理線性迴歸時,是透過最小方差法的模式來求出一條誤差平方和最 小的直線。而當要計算邏輯迴歸時,同樣必須透過參數估計的方式來找出一條最近似的. ‧. 曲線。而邏輯迴歸的特色是當 X 趨近於無限大時, e x 會趨近於無限大,因此 Logit 函數. sit. y. Nat. 會趨近於 1(無限大分之無限大);而當 X 趨近於負無限大時, e x 會趨近於零,因此. al. n. 不會像線性迴歸一樣有大於 1 或低於 0 的情況。[15]. Ch. engchi. i n U. 圖5:邏輯迴歸[41] 14. er. io. Logit 函數會趨近於零。所得數值將永遠介於 0 到 1 之間,因此所得到的迴歸預測值,. v.

(25) 最後,介紹資料探勘軟體以區辨力分數評比預測模型的方法。在 Microsoft SQL. Server 2008 Analysis Services 建置貝氏機率分類模型的過程中,採用吉尼係數的觀念, 以曲線下面積比例計算比值的方式作為資料探勘模型區辨力分數。 吉尼係數(Gini coefficient)是 20 世紀初義大利經濟學家吉尼,根據洛倫滋曲線 (Lorenz curve)找出了判斷分配平等程度的指標。通常用吉尼係數來表現一個國家和 地區的財富分配狀況;此項係數愈大,表示所得分配不均等的程度愈高,反之,係數愈 小,表示不均等的程度愈低。國際間通常把 0.4 作為收入分配差距的「警戒線」,認為. 政 治 大. 接近 0.4 就是嚴重的分配不均,超過這個值便很容易引起社會動盪。. 立. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 圖6:Gini Coefficient 的圖形表示[42]. 如圖 6,假設實際分配曲線和分配絕對平等曲線之間的面積為 A,實際分配曲線右 下方的面積為 B。並以 A 除以 A+B 的商被稱為吉尼係數。如果 A 為 0,吉尼係數為 0, 15.

(26) 表示分配完全平等;如果 B 為 0 則吉尼係數為 1,分配絕對不平等。該係數可在 0 和 1 之間取任何值。分配越是趨向平等,洛倫滋曲線的弧度越小,吉尼係數也越小,反之, 收入分配越是趨向不平等,洛倫滋曲線的弧度越大,那麼吉尼係數也越大。如圖所示, 若洛倫滋曲線以 Y = L(X)表示,吉尼係數(G)可用下列算式表示:[42] 1. G  1  2  L  X  dX 0. 政 治 大 度線向第二象限彎曲,增益圖曲線越向上彎曲,表示模型效果越好。採用「模型曲線介 立 在 Microsoft SQL Server 2008 Analysis Services 中,正常的模型增益圖必定要比 45. 於 45 度線之間面積」與「完美模型曲線介於 45 度線之間面積」的比值來作為評估。也. ‧ 國. 學. 有研究改用「模型曲線下面積與完美模型下面積的比值」,區辨力分數越接近 1,就表. ‧. 示模型預測力越高。又稱為 AUC(Area Under Curve)[16]。將上述定義整理如表 5。. y. Nat. sit. n. al. er. io. 表5:貝氏機率分類模型區辨能力[16] Gini 值 模型區辨能力 AUC 值 無區辨能力 =50% 0.0 模型區辨能力極差 50%~70% 0.0~0.4 可接受之區辨能力 70%~80% 0.4~0.6 非常良好之區辨能力 80%~90% 0.6~0.8 過度完美之區辨能力 90%~100% 0.8~1.0. Ch. engchi. i n U. v. 而在 Microsoft SQL Server 2008 Analysis Services 建置類神經網路及邏輯迴歸模型 的過程中,散佈圖的橫軸是實際值,縱軸是預測值。當模型越準確時,代表實際值與預 測值越接近,也就離圖中的 45 度線越近,因此可透過散佈圖中的數值落點分布狀態, 來判斷預測模型的狀態。 而過程中採用正規化,將不同的模型、不同分佈、不同尺規的資料,轉換成在特定 範圍內的數值資料,方便相互比較。因為原始資料可能無法直接比較,所以需轉換為相. 16.

(27) 同尺規且能夠分別調整每個輸入參數的權重,將資料經正規化後更趨近於常態分配,以 減少極大值、極小值影響分析的誤差。 首先在資料探勘模型中,a 為實際值,b(M)為套用 M 模型之預測值,計算每一個測 試案例預測值與最佳預測值(即圖中之 45 度線)的概似函數之比值為 score(a,b(M))。若 資料探勘模型中有 n 個測試案例,將所有測試案例之分數相乘後取 n 次方根即可得到該 模型之分數,如下式。[43]. score =. n.  score(a ,b (M)) i. i. 政 治 大 i. 立. 由前述各資料探勘模型之區辨力分數,可以評估在本模型所選擇之輸入參數情形. ‧ 國. 學. 下,哪一種模型較適合被採用來預測郵局收寄量。經過多次實驗後,對於資料探勘模型. ‧. 採用之輸入參數也作出調整。. sit. y. Nat. io. al. er. 2.3 郵務業務簡介. v. n. 中華郵政公司營業項目主要分為兩大業務:儲匯及郵務。而郵務收寄業務,以郵件 種類區分為三大類:. 1.. Ch. engchi. i n U. 函件:信函、小包、雜誌、新聞紙、印刷物、明信片、郵簡、盲人文件、印刷物專 袋。. 2.. 包裹:一般包裹、輕笨包裹、勞軍包裹。. 3.. 快捷:一般快捷、文件快捷、商品快捷、冷凍優鮮配、冷藏優鮮配、特產快遞。. 目前郵政法規定中華郵政享有的「郵政專營權」,包括「遞送私人信件專營權」、 「郵政服務標章專營權」以及「發行郵票專營權」三種[28]。其中針對「遞送私人信件 專營權」,郵政法第六條規定:「除中華郵政公司及受其委託者外,無論何人,不得以. 17.

(28) 遞送信函、明信片或其他具有通信性質之文件為營業。運送機關或運送業者,除附送與 貨物有關之通知外,不得為前項郵件之遞送。」 因中華郵政長期負有普及化服務政策性任務,且對政府縮小城鄉差距政策扮演重要 的推手,以單一費率,不計虧損,在偏遠、離島地區進行郵政普及服務。如果郵政專營 權取消而中華郵政公司不再負擔普及化任務,比照民間企業完全以追求營利為目標,郵 政普及化平等服務勢必將無法確保。[32] 中華郵政公司在全台 154 處非都會(含偏遠地區)鄉鎮設置 232 個郵局,以提供偏. 政 治 大 也是郵政專營權不可開放原因之一。[32] 立. 遠及離島地區居民用郵服務,這是民營遞送業者至今無法,也不願意提供的服務指標,. 以其他國家為例,大多仍由政府主導郵政發展,或是僅開放部份郵政業務供民間公. ‧ 國. 學. 司參與經營,甚少完全放棄郵政專營權。如日本在 2007 年開始推動郵政民營化,由「日. ‧. 本郵政公社」民營化之後的「日本郵政公司」預計於 2017 年達成完全自主、民營的目. y. Nat. 標。而韓國郵政目前仍屬於政府機構,傳統郵件收寄量約以每年 5%的比率逐年減少中,. er. io. sit. 主要是因為電子郵件的風行。不過郵政包裹收寄量卻逐年持續增加中。 以紐西蘭郵政為例,為了追求成本效益,將 1,234 個營業據點,裁撤到只剩 964 個. al. n. v i n 據點。不僅造成嚴重的城鄉差距,更造成弱勢族群普遍用郵不便 [10]。而美國郵政總局 Ch engchi U 2008 年虧損高達美金 70 億元,同時郵件投遞量減少了 4%。所以在全美 32,741 間郵局. 中,已有 677 間郵局關閉。 茲列出世界各主要國家郵政專營權開放情形與範圍分析表,如表 6。. 18.

(29) 表6:世界各主要國家郵政專營權開放情形與範圍分析表[10] 專營權開放情形 國名 專營權範圍 目前對信函、明信片或其他具有通信性質之文件,擁有 限制: 完全擁有 中華 專營權,改制公司後,凡信件重量在一百公克以內者, 改制後:部分開放 民國 繼續擁有專營權,超過一百公克以上者,開放民間經營。 日本 擁有信函專營權,尚未開放予民間經營。 韓國 擁有信函專營權,尚未開放予民間經營。 於 1990 年定十五年後緩衝期間,亦即自 2005 年喪失專 完全擁有 新加坡 營權。 擁有信件和具有信件性質的物品的寄遞業務專營權,尚 大陸 未開放予民間經營。 五百公克以下信函有專營權:五百公克以上或五百公克 紐西蘭 以下且郵資超過紐幣 1.75(折合新台幣 33 元)者,開 放民間遞送。 五百公克以下信件有專營權:單一信件重達五百公克以 澳洲 上或信件郵資超過標準信封之郵資十倍者,開放民間遞 送。 信函超過起重郵資十倍(折合新台幣八十八元)且於十 美國 二小時內送達者,開放民間遞送。 緊急信件收費超過普通信件之郵資三倍者(約相當於五 部分開放 加拿大 十公克信件資費),開放民間遞送。 一英鎊以下(折合新台幣伍十元整)郵件有專營權:一 英國 英鎊以上郵件,開放民間經營。 一公斤以下郵件有專營權:重達一公斤以上郵件,開放 法國 民間遞送。 五百公克以下函件有專營權,重達五百公克以上函件, 德國 公開民間遞送。 五百公克以下信件有專營權,重達五百公克以上信件, 荷蘭 開放民間遞送。 完全放棄 瑞典 已於 1992 年放棄專營權。. 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 近年來隨著網路逐漸普及,一般民眾原本習慣於在實體商店或賣場購物的消費行 為,轉而在網路平台上進行購物與團購。網路購物平台業者不像實體商店需要負擔庫存 成本,透過管理系統將訂單資訊直接傳送給廠商,廠商再將相鄰地點、相同出貨日的客 戶訂單統整後,透過物流業者依地區出貨給客戶。 因此物流業者業績大幅成長,開始選擇與便利商店公司合作,將網購物流服務與便 利商店物流系統相結合,不僅可降低雙方的成本,遇到生鮮食品的貨件時,亦可經由運 19.

(30) 送車輛的保冷系統,將貨件運送到各地便利商店的冷藏冷凍櫃中暫存,直至客戶前來領 取。 在此同時,民營物流業者亦開辦貨件遞送服務,一般民眾想要將貨件寄送到遠方親 友手上時,除了選擇透過郵局包裹、快捷服務外,在晚上郵局未營業或是偏遠地區不便 至郵局收寄郵件時,亦可至各地便利商店代收貨件,再透過民營業者物流系統將貨件遞 送至收件人手上。故當中華郵政公司欲以郵務業務考慮郵局區位選址時,必須將鄰近區 域之競爭者設點數因素列入考慮。. 政 治 大 袋、快捷半日配、冷藏冷凍優鮮配、專案折扣(母親節、中秋節、學生開學返鄉等)、 立 中華郵政公司為了加強競爭力,在近年陸續推出多項新種業務,例如包裹便利箱. 上門收件等,目的是吸引更多的客戶前來收寄。另外中華郵政公司也建置了特約戶系. ‧ 國. 學. 統,針對收寄量較大的客戶,可以另行訂定契約,每個月結帳一次,若收寄件數或收寄. ‧. 金額達到一定標準將核予折扣。. y. Nat. 因為一般郵局平日僅營業至下午五時,部份郵局會另行延長營業時間至晚上九點,. n. al. er. io. 採取下列方式彌補不足:. sit. 以及週末假日開放民眾收寄郵件。為了加強民眾收寄郵件時的便利性,中華郵政公司會. Ch. (1) 配合郵路增設郵局或郵筒。. engchi. i n U. v. (2) 延長郵局夜間及假日服務時間。 (3) 由投遞單位提供上門收件服務。 (4) 與其他業者合作代收郵件。. 查詢國內相關論文,淡江大學曾提出「台北市郵局區位之研究」(陳俊宏,1985). [11],但該研究是經由問券調查郵局顧客之行為,了解郵局之供需狀態而擬出設置準則。 惟該篇論文的研究背景已與現今時空環境不相符,且該論文是以使用者行為做考量,無 關於預測中華郵政收寄量。. 20.

(31) 因為本論文的研究方向為中華郵政公司新增設點考量,除了已由表 1 知悉在民國 97 年並無新設或裁撤郵局外,另將近兩年中華郵政公司局所異動資料整理如表 7。可看出 近年來中華郵政公司新設或裁撤郵局,多半是因為國防部進行國軍兵力結構調整規劃 後,原配合該營區設立之郵局設點因員額調整導致使用率降低而裁撤,或是國軍移防後 營區員額增加而有新增設點需求。 然而配合國軍精實案,國軍駐守營區對於收寄郵件需求將逐年降低,因此將潛在客 群的開發鎖定在各村里,才更能達到普及化服務的目的。. 異動原因 新設 新設 裁撤 新設 裁撤. ‧. ‧ 國. 花蓮空軍基地郵局(花蓮 38 支) 花蓮空軍教準部郵局(花蓮 39 支) 左營新訓中心郵局(高雄 22 支) 中和興南郵局(板橋 92 支) 台北軍機場郵局(台北 66 支). 學. 異動日期 99. 07. 01 99. 07. 01 99. 05. 25 98. 07. 13 98. 07. 10. 政 治 大 表7:中華郵政公司局所異動資料 立 異動局所名稱. Nat. n. al. er. io. sit. y. 資料來源:本研究整理. Ch. engchi. 21. i n U. v.

(32) 第三章 郵局設點分析 本章將說明本研究的研究架構,如何收集研究過程中採用的資料,並整理成資料探 勘模型所需因素。首節描述本研究的系統流程架構。另將分成兩節分別描述資料收集整 理過程,先說明競爭者設點數,這裡採用的環域範圍將會影響後續的相關因素;再由環 域範圍內的建物面積計算人口因素(含建物人口數及人口成長率)。下一節以各設點最 接近的重要交通路口代表該設點的交通可及性;並估算現行郵局設點收寄量。最後說明 以資料探勘技術建置預測模型的方法。. 3.1 系統流程與架構. 立. 政 治 大. ‧ 國. 學. 本研究希望能夠透過地理資訊系統,收集相關資料,並以資料探勘技術建立中華郵 政公司收寄量預測模型,以提供設點建議。. ‧. 本研究由台北縣市政府相關單位網站下載村里人口資料及交通監測資料,並由中華. y. Nat. sit. 郵政公司及便利商店公司網站取得設點資料。將前述資料套用於勤崴科技公司提供之台. n. al. er. io. 北縣市村里及建物圖層,找出村里建物重心作為預測評估設點,並用以計算中華郵政公. i n U. v. 司設點及村里建物重心設點環域內之相關競爭者設點數、人口、交通等因素。. Ch. engchi. 最後,以中華郵政公司設點為基準,建置相關資料探勘因素對於郵件收寄量影響的 預測模型,根據各種資料探勘技術所得之區辨力分數結果,評估採用何種技術較為適 合。再以台北縣市村里建物重心的環域資料套用於該預測模型,估算若於各村里建物重 心增設郵局所帶來的預測收寄量,用以提供經濟效益最高的建議。本研究之系統架構圖 如圖 7 所示:. 22.

(33) 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 圖7:系統架構圖. 參考圖 7 的系統架構圖,解釋本研究方法的功能如下:. 1.. 台北縣市人口資料、台北縣市交通資料:由台北市政府民政局[24]、台北縣戶政服 務網[26]連結至所轄各鄉鎮市區公所,取得民國 92 年至 98 年 12 月底人口資料。由 台北市交通管制工程處[25]、台北縣交通局[27]取得民國 93 年至 98 年交通路口監 測資料。. 23.

(34) 2.. 中華郵政設點資料、便利商店設點資料:由中華郵政公司網站[22]及便利商店公司 網站[30]可取得設點地址資料。. 3.. 台北縣市村里圖層:使用勤崴科技公司提供之台北縣市村里圖層、台北縣市建物圖 層、台北縣市道路圖層。. 4.. 擷取人口、交通、座標等資料:透過地理資訊系統將前述人口資料套用在圖層上, 計算各村里的平均人口成長率及建物人口數;再利用電子地圖網站提供之功能,由 地址找出各重要交通路口及便利商店設點的經緯度座標。. 政 治 大 供後續圖層套疊取得環域資料使用。 立. 區位選址資料庫:將上述取得之人口、交通、競爭者設點數等資料存入資料庫中,. 6.. 依中華郵政設點計算環域資料:將中華郵政公司設點地址轉為經緯度座標資料,並 計算環域內人口、交通、競爭者設點數等資料。. 建立預測模型:以上述中華郵政公司現行設點環域資料及收寄量資料,建立資料探. ‧. 7.. y. Nat. 勘預測模型。. io. sit. 依村里建物重心計算環域資料:以村里圖層及村里建物圖層找出村里建物重心經緯. er. 8.. 學. ‧ 國. 5.. 度座標,並計算環域內人口、交通、競爭者設點數等資料。. al. n. v i n 資料探勘技術評估及收寄量預測:以建立預測模型後,獲得各項資料探勘技術之區 Ch engchi U. 9.. 辨力分數,評估採用各項資料探勘技術的適宜性。將上述村里建物重心環域資料套 用於預測模型,計算設點預測收寄量。. 10. 村里設點評選:由預測結果中評選出最適合增設郵局的設點。. 在本研究資料蒐集與實驗過程中,使用到的程式語言與軟體工具列出如下:. 1.. 下載台北縣市政府戶政、交通單位網站的各村里人口及交通流量監測資料,經過整 理後寫入 Microsoft Access 資料庫。. 24.

(35) 2.. 下載中華郵政公司網站及便利商店公司網站之設點地址資料,以及上述重要交通路 口監測點資料,利用電子地圖網站轉成經緯度座標。 (http://gissrv4.sinica.edu.tw/webGIS/gadget/help.aspx). 3.. 利用 ArcGIS 9.2 軟體的環域(Buffer)分析功能,計算設點鄰近區域之建物面積、 競爭者設點數、最接近的重要路口距離及等級。. 4.. 以前述取得設點鄰近區域之建物面積,以 Microsoft Access 資料庫計算設點環域之 建物人口數及人口成長率。. 5.. 政 治 大 庫,以 Microsoft SQL Server 2008 Analysis Services 套用資料探勘技術(貝氏機率分 立 將前述取得之人口、交通、競爭者設點數等資料,匯入 Microsoft SQL Server 資料. 類、類神經網路、邏輯迴歸)建立收寄量預測模型。. ‧ 國. 學. 6.. 將村里建物重心設點環域之人口、交通、競爭者設點數等資料,套用在收寄量預測. ‧. 模型,可取得各設點之預測收寄量,總合排序後即可找出最佳設點建議。. sit. y. Nat. io. al. er. 3.2 競爭者設點數與人口因素. v. n. 本節將討論本研究採用之相關資料探勘因數,首先討論競爭者設點數與人口因素。. Ch. engchi. i n U. 如圖 8 以村里編號 6305023 台北市中正區光復里為例,該里基本資料如下: 里人口數 4,324 人,里面積 0.29 平方公里,建物面積 0.22 平方公里,中華郵政公 司設點包含:台北北門郵局、重南郵局、中山堂郵局等三處。. 25.

(36) 學 圖8:中華郵政設點及村里建物重心分佈圖 (■為中華郵政設點,▲為村里建物重心). ‧. ‧ 國. 立. 政 治 大. sit. n. al. er. io. 競爭者設點數. y. Nat. 1.. Ch. i n U. v. 因為郵局郵務業務的主要競爭對手為民營物流業者,如黑貓宅急便、台灣宅配通. engchi. 等,這些民營業者雖然據點較郵局少,但都選擇與各大便利商店合作,增加據點方便民 眾收寄貨件,如黑貓宅急便與 7-11 便利超商合作代收貨件,台灣宅配通與全家、萊爾 富便利超商合作代收貨件。故在本論文中,將便利商店的設點數視為競爭者設點數。 參考國內相關研究便利商店區位選址的論文[1],所評估商圈之距離約為 250 至 320 公尺,如表 8,故本研究採用半徑 300 公尺作為環域分析評估設點的依據。由中華郵政 公司設點或村里建物重心環域 300 公尺計算競爭者設點數,僅考慮距離;若同一間便利 商店距離兩個設點皆在 300 公尺內,將重複計算。更用來計算後述之鄰近區域建物人口 數、人口成長率等因素。. 26.

(37) 表8:便利超商北市與市郊區門市基本屬性資料[1] 市區門市 郊區門市 全台北市門市 平均數 標準差 平均數 標準差 平均數 標準差 商圈範圍(公尺) 256.02 186.74 318.91 245.55 289.14 224.30 競爭店數(家) 3.10 1.70 2.61 1.49 2.93 1.67. 以村里編號 6305023 台北市中正區光復里為例,圖 9 左為中華郵政設點環域 300 公尺之建物及便利商店分佈圖;圖 9 右為村里建物重心環域 300 公尺之建物及便利商店 分佈圖。. 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 圖9:建物及便利商店分佈圖 (■為中華郵政設點,▲為村里建物重心,●為便利商店設點). 2.. 人口因素 評估人口因素時,因為台北縣市政府公佈之人口資料以村里為最小單位,故相關論. 文大多假設人口平均分佈於村里面積中。然而若該村里的面積較大或是鄰近山區、河流. 27.

(38) 等地,使得實際人口分佈較為分散,人口數不像位於市中心的村里那般密集,如此無法 準確地估計人口密度。 而本研究認為收寄郵件的需求必然發生於建物之內,如一般民眾寄信給遠方親友, 公司行號遞送貨件給其他廠商等;在道路、平地、山區等無建物之處不會產生收寄郵件 的需求。故假設人口平均分佈於村里建物面積內,以村里建物重心視為該村里的人口重 心,進行後續之設點評估。. 政 治 大. 表9:北市村里歷年人口數資料 092.12 094.12 096.12 098.12 村里代號 村里名稱 人口數 人口數 人口數 人口數 6305021 台北市中正區新營里 10,067 9,941 10,028 9,964 6305022 台北市中正區建國里 1,716 1,648 1,524 1,613 6305023 台北市中正區光復里 4,423 4,437 4,496 4,324 6305024 台北市中正區黎明里 3,408 3,552 3,593 3,492 6305025 台北市中正區梅花里 3,620 3,475 3,444 3,300 : : : : : : 6307001 台北市萬華區福星里 5,187 5,334 5,364 5,392 6307002 台北市萬華區萬壽里 3,435 3,463 3,487 3,371 6307003 台北市萬華區西門里 3,730 3,672 3,884 3,950 6307004 台北市萬華區新起里 7,452 6,800 6,844 6,765 6307005 台北市萬華區菜園里 6,622 6,047 6,034 6,033 : : : : : : 資料來源:本研究整理。. 立. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 茲列出本研究取得之人口數部份資料供參考,如表 9。本研究由網站,可擷取歷年 來各鄉鎮市區公所管轄村里之人口數,本研究以民國 98 年 12 月之各村里人口數為準。. 28.

(39) 立. 政 治 大. Nat. sit. y. ‧. ‧ 國. 學 圖10:村里建物人口分佈圖 (■為中華郵政設點). io. er. 當取得人口資料及設點座標後,由設點環域 300 公尺計算鄰近建物面積。當鄰近環. al. 域範圍重疊時,以單一建物面積重心判斷該建物離哪一個設點較為接近,找出設點所轄. n. v i n Ch 建物面積及人口數歸於該最接近設點。如圖 U e n g c10h i表示光復里中因環域重疊各建物分別隸 屬於哪一個設點的示意圖。以台北市中正區光復里為例,該里有台北北門郵局、重南郵 局、中山堂郵局三間郵局設點,建物人口數( d j )的計算公式如下。 c  d j    i  bi  i  ai . 其中 d j 表示第 j 個設點的建物人口數,ci 表示第 i 個村里的總人口數, ai 表示第 i 個 村里的建物面積,而. ci 為第 i 個村里的人口密度, bi 表示環域內該設點所轄的第 i 個村 ai. 29.

(40) 里建物面積。故以村里人口密度與村里建物面積相乘並累計後,即可得到歸於該設點的 建物人口數( d j )。 茲以村里編號 6305023 台北市中正區光復里為例,村里建物重心環域 300 公尺涵蓋 三個村里(中正區光復里、中正區黎明里、萬華區福星里),台北市中正區光復里建物 人口數如下: c  d j    i  bi  i  ai  光復里人口數 =  設點所轄光復里建物面積 光復里建物面積 黎明里人口數 +  設點所轄黎明里建物面積 黎明里建物面積 福星里人口數 +  設點所轄福星里建物面積 福星里建物面積 4324  17882 = 221622 3492  26733 + 426543 5392 +  8912 118603 3978 = . 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 本研究中採用的另一項人口因素為「人口成長率」,因為村里人口數僅能代表在某 一特定時刻村里內的人口密集程度,然而郵局設點時需要考慮的不僅僅是能夠立即服務 最多的人,而是長期滿足民眾需求的服務品質,所以本研究採用長期人口成長率做為評 估設點未來效益的因素。 為計算人口成長率,本研究以民國 92、94、96、98 年,各年 12 月之村里人口數, 分別計算 92 至 94 年、94 至 96 年、96 至 98 年之各期人口成長率,計算公式為: (本期村里人口數-前期村里人口數)÷前期村里人口數. 30.

(41) 因考量計算人口成長率作為資料探勘因素時,若單純以三期平均值將無法表達人口 成長率的變化趨勢,近期與早期的人口成長率應有不同權重值,方可表達在時間推移的 過程中人口成長率逐年上升或逐年下降。 本研究分別給予三期人口成長率不同的權重值,依據不同的權重值分別進行三次實 驗,本章僅列出一次實驗數據(餘下兩次實驗請參照附錄),計算公式為:. ri . 2 3 5 第一期人口成長率+ 第二期人口成長率+ 第三期人口成長率 10 10 10. 政 治 大. 茲列出本研究取得之人口成長率資料供參考,如表 10。. 立. ‧. ‧ 國. 學. 表10:北市村里歷年人口成長率資料(實驗一) 92~94 年 94~96 年 96~98 年 三期加權 村里代號 村里名稱 人口成長率 人口成長率 人口成長率 人口成長率 6305021 台北市中正區新營里 -1.2516% 0.8752% -0.6382% -0.0772% 6305022 台北市中正區建國里 -3.9627% -7.5243% 5.8399% -0.0659% 6305023 台北市中正區光復里 0.3165% 1.3297% -3.8256% -1.1317% 6305024 台北市中正區黎明里 4.2254% 1.1543% -2.8110% -0.0917% 6305025 台北市中正區梅花里 -4.0055% -0.8921% -4.1812% -1.6014% : : : : : : 6307001 台北市萬華區福星里 2.8340% 0.5624% 0.5220% 0.8595% 6307002 台北市萬華區萬壽里 0.8151% 0.6930% -3.3266% -0.6937% 6307003 台北市萬華區西門里 -1.5550% 5.7734% 1.6993% 1.9940% 6307004 台北市萬華區新起里 -8.7493% 0.6471% -1.1543% -1.1050% 6307005 台北市萬華區菜園里 -8.6832% -0.2150% -0.0166% -1.7395% : : : : : : 資料來源:本研究整理。. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 以台北市中正區光復里為例,該里有台北北門郵局、重南郵局、中山堂郵局三間郵 局設點,同樣地以單一建物重心判斷該建物離哪一個設點較為接近,找出設點所轄建物 面積及人口數歸於該最接近設點。並將歸屬於該設點的各村里人口成長率,以建物面積 ( bi )為權重計算平均人口成長率( s j ),計算公式如下。. 31.

(42)  b  r   b i. sj. i. i. i. i. 其中 s j 表示第 j 個設點的人口成長率, bi 表示環域內歸於該設點的第 i 個村里建物 面積, ri 表示第 i 個村里的三期加權人口成長率。以村里建物面積為權重值,與各村里 三期平均人口成長率相乘計算後,除以環域內建物總面積即可得到歸於該設點的人口成 長率( s j )。 茲以村里編號 6305023 台北市中正區光復里為例,村里建物重心環域 300 公尺涵蓋. 政 治 大. 三個村里(中正區光復里、中正區黎明里、萬華區福星里),台北市中正區光復里人口. 立. 成長率如下:. ‧ 國. i. 學. sj.  b  r   b i. i. i. ‧. i. =  設點所轄光復里建物面積 光復里三期平均人口成長率. y. Nat. +設點所轄黎明里建物面積  黎明里三期平均人口成長率. n. al. +設點所轄黎明里建物面積. Ch. +設點所轄福星里建物面積. engchi. =  171882   1.1317%. er. io.   設點所轄光復里建物面積 . sit. +設點所轄福星里建物面積  福星里三期平均人口成長率. i n U. v. +26733  [0.0917%] +8912  0.8595%    171882 . +26733 +8912  =  0.9122%. 另依據「台北市行政區域劃分及里鄰編組自治條例」及「臺北縣村里鄰編組調整自 治條例」,村里人口可能因為人口遷徙而達到重新劃分標準,隨著每屆村里長改選時一 32.

(43) 併進行村里邊界調整。故單就人口數來看,每次調整後會造成村里人口大量增加或減 少,使得計算人口成長率時會造成誤差,惟本研究並未針對此情形做額外處理。僅對於 民國 92 年後部份新設村里之人口數,因資料筆數不足六年,調整其成長率平均值計算 週期。 例如,台北縣淡水鎮在民國 98 年 6 月 1 日新增新義里、新春里、新民里、正德里、 北新里、民權里、幸福里、學府里等八個里。台北縣五股鄉陸一村原屬五股村,民國五 十九年十月行政區域調整,民國九十一年間因配合國防部眷村改建,大部分村民外遷鄰. 政 治 大. 近各村,現已改建完成,村民陸續遷回。. 立. ‧ 國. 學. 3.3 重要交通路口與郵局收寄量. 本節將延續前一節繼續討論相關資料探勘因數。說明如何以最接近的重要路口視為. ‧. 設點的交通可及性,及估算郵局現行設點收寄量。. sit. al. er. io. 重要交通路口. y. Nat. 1.. v. n. 本研究嘗試取得設點之相關交通因素做為設點之交通可及性。首先嘗試以「設點鄰. Ch. engchi. i n U. 近道路寬度」代表設點交通因素,但經過查詢,無法取得政府公布之道路寬度及主次要 道路分級等資料,故不採用此一作法。 再嘗試以「設點鄰近道路速限」代表設點交通因素,但是台北縣市除部份路段有特 殊限制外,其餘皆為市區道路速限 50 公里、巷道速限 40 公里、快速道路 50 至 80 公里 等,辨識度不足,故亦不採用此一作法。 本研究最後採用台北縣市政府歷年對於路口流量的監測資料。由台北市交通管制工 程處及台北縣交通局網站,可擷取民國 93 年至 98 年台北縣市政府針對重要交通路口監 測資料,內容包含地點、時段、路況、車種、方向、流量等詳細資訊,如圖 11 為民國 98 年 5 月台北縣政府針對新店市中正路與復興路交叉路口之監測資料。. 33.

(44) 立. 政 治 大. ‧ 國. 學. 圖11:交通路口監測資料圖[27]. ‧. 但因為該監測資料為短天期資料,在交通尖峰時間針對監測點進行紀錄,而實際的. sit. y. Nat. 交通路況資料應以長期性的平均監測資料為準,才能避免若監測日當天於該監測點發生. io. er. 非預期的交通事故,將會影響資料探勘模型的正確性。故本研究不採用實際監測所得詳. al. 細資訊作為考量,而是將每一年設置監測點的位置視為重要交通路口。. n. v i n Ch 另外依據年度監測頻率高低,將交通路口的重要性再細分為兩個等級。若台北縣市 engchi U. 政府歷年皆針對同一個交通路口設置監測點且監測頻率越高,即表示該交通路口的重要 程度越高。依據每一個中華郵政公司設點、村里建物重心最接近的重要交通路口距離及 等級,視為該設點的交通可及性。 而在實驗過程中,為了取得各個重要交通路口的座標,筆者嘗試了行政院環境保護 署提供之「環境品質 SOA 系統」,過程簡述如後。 行政院環境保護署為彙整署內各單位提供的圖資,以達到資源共享、更新維護同步 一致性之整合目的,建立「環境品質 SOA 系統」(http://gis.epa.gov.tw/)。透過圖層套 疊、預視及下載等功能,讓使用者迅速查詢及取用環境地理圖層資料,進而對環境圖層. 34.

(45) 資料的應用有所瞭解。利用服務導向架構(Service-Oriented Architecture,SOA)資料加 值服務的概念,提供座標轉換服務、交叉路口座標查詢服務等八項與環境品質有關之服 務,以建立不同類別的環境資料提供管道。[29] 筆者在嘗試採用該 Web Service 將相關重要路口資料轉換為座標時,依照系統說明 將台北縣 820 個交叉路口資料上傳到該系統,然而僅僅回傳約 20 筆有效資料,餘下交 叉路口皆無法有效判斷經緯度座標。表示該系統對於交叉路口的座標轉換仍有不足之 處。最後以電子地圖網站之交叉路口查詢功能,找出重要路口的座標。. 政 治 大 中華路直觀而言應為重要道路,但政府僅設置兩監測點且監測頻率不高,希望日後研究 立 如圖 12 以台北市中正區光復里為例,表示該村里重要交通路口分佈情形。發現像. 能夠提出更可靠的交通因素以供資料探勘使用。. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 圖12:重要交通路口分佈圖 (■為中華郵政設點,▲為村里建物重心,●為重要交通路口). 35.

(46) 2.. 郵局收寄量 根據中華郵政公司「郵務窗口作業要點」,郵務窗口可收寄國內掛號函件、國內大. 宗函件(1,000 件以上)、國內包裹、國內快捷等;而其它 1,000 件以下之零星函件,一 般民眾可由道路兩旁設置之郵筒直接收寄國內外信函。中華郵政公司自民國 98 年 9 月 1 日起與統一精工加油站合作,首創 24 小時郵政代辦所,於全省 100 處 Smile 加油中心 設置郵政代辦所,提供 24 小時全年無休,收寄國內包裹及代售郵政票品、便利箱袋等 服務。茲將中華郵政目前設點情形整理如表 11。. 政 治 大 表11:中華郵政公司設點統計 立 單位別 北市 北縣. y. 5 293. er. io. sit. ‧ 國. 23 1,321. ‧. Nat. 2 145 1,980 33 0 23. 學. 責任中心局 1 支局 163 郵筒 2,260 代辦處 28 郵件處理中心 1 投遞單位 13 資料來源:本研究整理. 全國. al. n. v i n 本論文目前僅針對國內郵件量做評估,而不考慮國際郵件。原因如下: Ch engchi U. (1) 根據民國 97 年度郵政年報,以中華郵政公司整體郵件收寄量來說,主要仍以國 內郵件約佔 99%,國際郵件約佔 1%。 (2) 中華郵政公司於民國 99 年 7 月 1 日起與聯邦快遞公司(Fedex)合作,代收及 銷售國際貨件遞送服務,若以目前營業模式估算將有失偏頗。 (3) 前述之競爭對手,如黑貓宅急便、台灣宅配通等民營物流業者之營業範圍仍以 國內貨件為主;國際貨件部份,7-11 便利商店與 DHL 快遞公司合作,全家便利 商店與 UPS 快遞公司合作。. 36.

參考文獻

相關文件

CAD 機械設計製圖 (Mechanical Engineering Design-CAD) (職類代號 5). 依最近一屆或下一屆國際技能競賽指定所使用之

北、中、南區淘汰賽,各區依照各區選手總成績排列名次錄取前 16-18

4 社團法人台中市健康長青協會 行銷策略規劃 5 臺中市環保生態保育志工協會 擬訂行銷策略 6 南投縣仁愛鄉萬豐社區發展協會 遊程活動規劃及行銷

白樺湖位於長野縣茅野市北部蓼科山西麓,是湖面海 拔 1416 米、最深處達 9

C7 國立台中護理專科學校護理科 台中市 主任 C8 中臺科技大學老人照顧系 台中市 助理教授 C9 中山醫學大學公共衛生學系 台中市 助理教授 C10

台中地區 (山海屯) 台中市大里區崇光國小 台中市大里區大元國小 台中市大里區大里國小 台中市大里區立新國小 台中市大里區草湖國小 台中市大里區永隆國小

所、臺中市北區區公所、臺中市西屯區公所、臺中市南屯區公所、臺中市北屯區

過去 50 餘年來,我國經濟發展的顯著成就,已成為舉世聞名的事