台灣花卉供應鏈的資料倉儲設計與量測變數迴歸應用
91
0
0
全文
(2) 台灣花卉供應鏈的資料倉儲設計與量測變數迴歸應用. 研究生:陳家瑜. 指導教授:梁高榮博士 國立交通大學工業工程與管理學系. 中文摘要 總資料倉儲已經由四個資料超市整合建置完成,用來分析台灣地區的花卉交易情形。 總資料倉儲在本質上有三個顯著的特徵。第一、採用競箥模型建置資料倉儲可減少工程上 的風險。亦即每一條供應鏈就建置一個資料超市,然後資料超市中的花卉交易資料,經由 資料轉換服務被轉入資料倉儲。第二、在資料倉儲中新增一個節慶維度,提供國曆節慶與 傳統農曆節慶的花卉市場資訊。節慶維度的新增,在許多資料超市使用者的強烈建議下誕 生,用來幫助花卉運銷的決策制訂。第三、應用量測變數迴歸技術,在某些假設之下,來 找尋文心蘭的價量關係。若滿足這些假設,則此方法的成功應用,將可擴展至其他花卉上。. 關鍵詞: 資料超市(Data Mart) 資料倉儲(Data Warehouse) 資料轉換服務(Data Transformation Service, DTS) 量測變數(Instrumental Variable, IV) i.
(3) Data Warehouse Design for Flower Supply Chains in Taiwan with an Instrumental Variable Regression Application. Student:Chia-Yu Chen. Advisor:Dr.Gau-Rong Liang. Department of Institute of Industrial Engineering & Management National Chiao Tung University. Abstract A data warehouse has been established from four existed data marts for analyzing flower transactions in Taiwan. Essentially there are three salient features in this establishment. First Kimball model was proposed to construct the data warehouse for reducing engineering risk. It means to construct a data mart for each flower supply chain. Then the flower transactions in data marts are filtered into the data warehouse through Data Transformation Services(DTS) technology. Second a new festival dimension is added in the data warehouse for providing flower marketing information during national and traditional holidays. The addition of festival dimension was strongly suggested by many data mart users for helping decision making in flower marketing. Third an instrumental variable regression method is applied to finding a price-quantity relationship for oncidiums under some assumptions. The successful application of this method can be extended to other flowers if the assumptions are satisfied.. Keywords: Data Mart Data Warehouse Data Transformation Service Instrumental Variable ii.
(4) 誌謝 本論文得以順利完成,首先要感謝恩師梁高榮老師的細心指導與諄諄教誨。就讀研究 所這兩年的時間,老師不僅教導我課業上的知識,也時常授與實務上的經驗,加上平時相 處時的身教言教中傳達的追根究底的研究精神與重視規矩的做事方法都讓我獲益良多。使 我更有勇氣面對未來人生的挑戰,僅在此致上由衷的感激。此外,還要特別感謝唐麗英老 師與張永佳老師對於論文的詳加審閱,並提供寶貴的意見使本論文更臻完備,在此亦要致 上最誠摯的感激。 研究所兩年就讀的期間,感謝同窗好友小胖、小仙、喬 AA 在課業上的幫助,一起互 相砥礪。還有室友幫妹、包包跟乖狗 SEVEN、K 隆星人小 KERO,給予我精神上的鼓勵。 實驗室學弟新凱、炯堂、阿牛、阿端、BE 製造歡樂氣氛,使在學的兩年雖然辛苦但是仍 然充滿歡樂。在此深致謝意。 本人在就讀研究所期間,曾經參予農委會之「花卉資料倉儲與標準化交易作業系統軟 體之整合與開發」計畫(計畫編號:94I819),獲得許多幫助,特此致謝。 最後,要感謝一路陪伴我支持我完成碩士學業的奶奶、爸媽,有你們的支持我才有動 力完成學習。還有哥哥均成,我們從小到大念的學校都一樣,祝福你在澎湖當兵順利,早 點回新竹打拚。以及陪伴我度過難關的阿雞,謝謝你一直支持我並與我分享喜悲。所有陪 我度過碩士階段的師長與朋友們,感謝各位在求學過程中給我的一切鼓勵與支持。. iii.
(5) 目錄 中文摘要..........................................................................................................................................i 英文摘要.........................................................................................................................................ii 誌謝................................................................................................................................................iii 目錄................................................................................................................................................iv 圖目錄............................................................................................................................................vi 表目錄..........................................................................................................................................viii 第一章 緒論...................................................................................................................................1 1.1 研究動機..............................................................................................................................1 1.2 問題界定..............................................................................................................................2 1.3 研究目的..............................................................................................................................4 1.4 研究流程..............................................................................................................................6 1.5 論文架構..............................................................................................................................7 第二章 文獻回顧...........................................................................................................................8 2.1 資料倉儲..............................................................................................................................8 2.1.1 資料倉儲架構...............................................................................................................8 2.1.2 資料倉儲之時間性.....................................................................................................14 2.1.3 線上分析處理.............................................................................................................15 2.2 節慶維度相關介紹............................................................................................................16 2.3 量測變數迴歸技術..........................................................................................................18 2.3.1 線性迴歸基本原理.....................................................................................................18 2.3.2 量測變數迴歸技術方法.............................................................................................19 2.3.3 時間序列資料.............................................................................................................20 2.3.4 單位根檢定.................................................................................................................21 第三章 台灣區花卉資料倉儲資料轉換服務實作.....................................................................23 3.1 系統架構與資料倉儲架構................................................................................................23 3.1.1 系統架構.....................................................................................................................23 3.1.2 資料倉儲架構.............................................................................................................28 3.2 總資料倉儲整合工作......................................................................................................30 3.2.1 總資料倉儲架構.........................................................................................................30 3.2.2 資料整合工作.............................................................................................................30 3.3 資料轉換服務....................................................................................................................33 3.3.1 實體關係模式至多維度模型轉換.............................................................................34 3.3.2 資料轉換服務.............................................................................................................36 3.3.3 自動化設計.................................................................................................................43 3.4 資料倉儲遠端維修方式....................................................................................................46 第四章 節慶維度設計.................................................................................................................52 4.1 維度內容介紹....................................................................................................................52 4.1.1 節慶相關資訊.............................................................................................................52 iv.
(6) 4.1.2 節慶日期重複問題.....................................................................................................54 4.1.3 節慶日期排序問題.....................................................................................................55 4.1.4 節慶產生的空值問題.................................................................................................55 4.2 節慶維度設計架構.............................................................................................................56 4.2.1 維度設計方案一..........................................................................................................56 4.2.2 維度設計方案二.........................................................................................................57 4.2.3 維度設計方案三..........................................................................................................58 4.2.4 維度設計方案四..........................................................................................................59 4.3 設計方案的比較................................................................................................................63 4.3.1 線上顯示設計模式.....................................................................................................63 4.3.2 優缺點比較.................................................................................................................64 第五章 量測變數迴歸應用.........................................................................................................67 5.1 分析流程............................................................................................................................67 5.2 資料收集與分析................................................................................................................69 5.2.1 原始資料收集.............................................................................................................69 5.2.2 單位根檢定.................................................................................................................70 5.2.3 迴歸方程式分析.........................................................................................................71 5.3 量測變數迴歸....................................................................................................................73 5.3.1 外來變數資料分析.....................................................................................................73 5.3.2 量測變數迴歸之測定.................................................................................................74 5.3.3 結果分析.....................................................................................................................76 5.4 資料倉儲節省時間之估算................................................................................................77 第六章 結論與未來研究方向.....................................................................................................78 6.1 結論....................................................................................................................................78 6.2 未來研究方向....................................................................................................................79 參考文獻.......................................................................................................................................80. v.
(7) 圖目錄 圖 1.1 總資料倉儲系統架構圖.....................................................................................................2 圖 1.2 量測變數迴歸技術方法與界定.........................................................................................3 圖 1.3 研究流程圖.........................................................................................................................6 圖 2.1 資料項目集合(DIS)............................................................................................................9 圖 2.2 殷默資料倉儲螺旋式發展方式.......................................................................................10 圖 2.3 星狀綱要圖....................................................................................................................... 11 圖 2.4 雪花綱要圖.......................................................................................................................12 圖 2.5 星座綱要圖.......................................................................................................................12 圖 2.6 超方體架構.......................................................................................................................15 圖 2.7 農民曆三資料表關聯圖...................................................................................................16 圖 2.8 農民曆三資料表資料內容................................................................................................17 圖 3.1 總倉儲實體系統架構圖...................................................................................................24 圖 3.2 SQL Server連線群組(a).....................................................................................................25 圖 3.3 SQL Server連線群組(b) ....................................................................................................25 圖 3.4 SQL Server連線群組(c).....................................................................................................26 圖 3.5 SQL Server連線群組(d) ....................................................................................................26 圖 3.6 SQL Server連線群組(e).....................................................................................................27 圖 3.7 網路磁碟機畫面...............................................................................................................27 圖 3.8 檔案複製到網路磁碟機語法畫面...................................................................................27 圖 3.9 資料轉換時刻圖...............................................................................................................28 圖 3.10 台灣區花卉資料倉儲競箥架構圖.................................................................................29 圖 3.11 花卉批發資訊分享熱線架構圖 .....................................................................................29 圖 3.12 四家花市聯集示意圖.....................................................................................................31 圖 3.13 自動化更新轉換程序.....................................................................................................33 圖 3.14 實體關係至多維度模型架構圖.....................................................................................34 圖 3.15 彰化資料超市內部轉換關係圖.....................................................................................35 圖 3.16 拍賣資料表與總倉儲交易資料表實體關聯圖.............................................................35 圖 3.17 總資料倉儲雪花綱要關聯圖.........................................................................................36 圖 3.18 拍賣資料轉換工作.........................................................................................................37 圖 3.19 台北拍賣資料轉換工作.................................................................................................37 圖 3.20 台北拍賣轉換資料工作來源查詢.................................................................................37 圖 3.21 台北拍賣轉換資料工作屬性.........................................................................................38 圖 3.22 台北拍賣轉換資料工作轉換語法.................................................................................38 圖 3.23 訂貨資料轉換工作.........................................................................................................39 圖 3.24 台北訂貨資料轉換工作.................................................................................................40 圖 3.25 殘貨資料轉換工作.........................................................................................................41 圖 3.26 台北殘貨資料轉換工作.................................................................................................41 圖 3.27 議價資料轉換工作.........................................................................................................42 vi.
(8) 圖 3.28 台北議價資料轉換工作.................................................................................................42 圖 3.29 自動化Macro程式 ..........................................................................................................43 圖 3.30 自動化步驟語法編輯.....................................................................................................44 圖 3.31 自動化排程設定.............................................................................................................44 圖 3.32 自動化排程重複執行設定.............................................................................................45 圖 3.32 VNC伺服器與檢視器圖示..............................................................................................47 圖 3.33 VNC伺服器主要屬性選項..............................................................................................47 圖 3.34 VNC檢視器連線視窗......................................................................................................48 圖 3.35 VNC檢視器連線選項......................................................................................................48 圖 3.36 VNC檢視器連線狀態......................................................................................................49 圖 3.37 VNC驗證..........................................................................................................................49 圖 3.38 遠端桌面視窗.................................................................................................................49 圖 3.39 資料轉換服務錯誤畫面.................................................................................................50 圖 3.40 SQL Server視窗畫面 .......................................................................................................51 圖 3.41 Query Analyzer視窗畫面 ................................................................................................51 圖 4.1 節慶重複情形示意圖.......................................................................................................54 圖 4.2 一日期對多節慶示意圖...................................................................................................54 圖 4.3 節慶日期排序問題示意圖...............................................................................................55 圖 4.4 節慶資料表關聯圖-方案一..............................................................................................56 圖 4.5 節慶資料表實體資料-方案一..........................................................................................56 圖 4.6 節慶資料表關聯圖-方案二..............................................................................................57 圖 4.7 節慶資料表實體資料-方案二..........................................................................................57 圖 4.8 節慶二資料表關聯圖-方案三..........................................................................................58 圖 4.9 節慶二資料表實體內容-方案三......................................................................................59 圖 4.10 節慶二資料表關聯圖-方案四........................................................................................60 圖 4.11 節慶二資料表實體內容-方案四....................................................................................61 圖 4.12 節慶層級概念.................................................................................................................62 圖 4.13 方案二節慶類別排列方式.............................................................................................65 圖 5.1 文心蘭照片.......................................................................................................................67 圖 5.2 量測變數迴歸技術作業流程圖.......................................................................................68 圖 5.3 文心蘭總平均價對總成交量之散佈圖...........................................................................69 圖 5.4 文心蘭的總成交量與總平均價之時間序列走勢圖.......................................................70 圖 5.5 獨立變數與殘差之散佈圖...............................................................................................71 圖 5.6 文心蘭總平均價與產量 2000 年至 2005 年月平均圖...................................................73 圖 5.7 量測變數對獨立變數散佈圖...........................................................................................75 圖 5.8 量測變數Z與殘差E之散佈圖 ..........................................................................................75. vii.
(9) 表目錄 表 1.1 資訊分享示意表.................................................................................................................4 表 1.2 舊維度與新維度比較表.....................................................................................................4 表 2.1 殷默及競箥模式基本特性之比較...................................................................................14 表 2.2 農曆對照表.......................................................................................................................16 表 2.3 農曆月...............................................................................................................................16 表 2.4 農曆年...............................................................................................................................17 表 3.1 各主機項目命名表...........................................................................................................25 表 3.2 總倉儲主機負責服務整理表...........................................................................................28 表 3.3 總倉儲與各家資料超市維度比較表................................................................................30 表 3.4 整合對照表.......................................................................................................................32 表 3.5 總倉儲資料轉換程式.......................................................................................................33 表 3.6 拍賣資料轉換工作步驟表...............................................................................................39 表 3.7 訂貨資料轉換工作步驟表...............................................................................................40 表 3.8 殘貨資料轉換工作步驟表...............................................................................................41 表 3.9 議價資料轉換工作步驟表...............................................................................................42 表 3.10 Ultr@VNC功能特點 .......................................................................................................46 表 4.1 國曆特殊節慶...................................................................................................................53 表 4.2 農曆特殊節慶...................................................................................................................53 表 4.3 節慶三大問題...................................................................................................................55 表 4.4 節慶資料表-方案一..........................................................................................................56 表 4.5 節慶資料表-方案二..........................................................................................................57 表 4.6 方案二維度層級表...........................................................................................................58 表 4.7 節慶範圍資料表-方案三..................................................................................................58 表 4.8 節慶類別資料表-方案三..................................................................................................58 表 4.9 方案三維度層級表...........................................................................................................59 表 4.10 節慶範圍資料表-方案四................................................................................................60 表 4.11 節慶類別資料表-方案四................................................................................................60 表 4.12 節慶類別代碼對照表.....................................................................................................61 表 4.13 方案四維度層級表.........................................................................................................62 表 4.14 節慶四方案設計方式比較表.........................................................................................64 表 4.15 四方案改善情況表.........................................................................................................66 表 5.1 資料分析時間長度...........................................................................................................69 表 5.2 文心蘭的總成交量與總平均價資料之單位根檢定........................................................70 表 5.2 文心蘭需求方程式之分析結果.......................................................................................71 表 5.3 屏東縣月均溫...................................................................................................................74 表 5.4 量測變數與獨立變數相關性之分析結果.......................................................................75 表 5.5 量測變數與殘差相關性之分析結果...............................................................................76 表 5.6 兩階段最小平方法之分析結果.......................................................................................76 viii.
(10) 表 5.7 總資料倉儲線上分析處理動作表...................................................................................77 表 5.8 總資料倉儲節省時間表....................................................................................................77. ix.
(11) 第一章 緒論 本章的主要目的在闡述本篇論文的研究目的、方法與架構,共分為五小節。第 1.1 節 解釋研究的動機,第 1.2 節論述問題的界定,第 1.3 節說明研究目的,第 1.4 節介紹研究方 法,第 1.5 節表達論文的架構。. 1.1 研究動機 台灣的花卉產業揚名國際,在台北花卉批發市場成功地建置世界第一個花卉產業資料 倉儲後[1][11],緊接著彰化[7][8]、台中[4][3]、台南[12]三地的花卉批發市場也完成了資料 倉儲的建置,將每日拍賣作業的交易資料,定時轉入資料倉儲系統中,放置資料於花卉批 發資訊分享熱線(Wholesale Information Sharing Hotline, WISH)[6],提供花卉相關作業人 員存取資料與線上分析,此舉帶動花卉產業的供應鏈進入資訊化的階段,在資訊加值應用 上,帶給花卉供應人、承銷人更大的收益,並提供政策制訂的參考方向。 由於各地花卉批發市場的資料倉儲系統皆已成熟化,但限於各地花卉相關人員只能參 考各地的花卉資訊,以整個台灣的大環境來說,整合北中南的花卉供應鏈,可以為台灣整 體的花卉經濟帶來莫大的收益,因此催促台灣區花卉總資料倉儲的誕生。各地花卉資料超 市的使用者,將可以在總資料倉儲中,參考其他家花卉資料超市的資訊,經由比較與整合, 瞭解整個大環境的趨勢。並且在下載資料的速度上更加提升,利於做更進一步的資料加值 應用。 在花卉資料倉儲中,拍賣的交易資料為時間序列,從過去的歷史資料,往往可以觀察 出花卉銷售與時間的相關性,原本台北、台中、彰化和台南四家資料超市中,已建立有時 間、星期和農曆[3]三個時間維度,經由花卉拍賣工作人員的長期觀察,認為花卉拍賣的銷 售在節慶期間有非常明顯的趨勢現象,因此原本三個時間維度已不敷使用,再建立一個節 慶維度[9],將可以增加資料倉儲在使用上的價值。但節慶牽涉到國曆與農曆的日期,每年 的農曆節慶對應到的國曆日期都不一樣,且不同的節慶期間又會互相重複到,在建置維度 上是一個有待解決的問題。 由於建置好的總資料倉儲,在預期上可使下載資料的效率提升,因此本研究利用總資 料倉儲內的資料,來做資料挖礦技術的應用。資料挖礦技術在資料加值的應用上已經是個 主要趨勢,利用資料倉儲的資料建立迴歸方程式時,有時會發現獨立變數與相依變數的相 關性很高,但事實上獨立變數為一隨機變數,將導致迴歸方程式係數的估計不準確,由獨 立變數與殘差相關性高可得知此一性質。此時可透過外來的量測變數(Instrumental Variable, IV)去估計獨立變數以降低其不確定性,若量測變數與獨立變數相關性高,與殘差無相關, 且最後判斷出其與相依變數有高相關性,則找出此為一成功的量測變數。在花卉資料倉儲 中,獨立變數為一隨機變數是個很容易出現的情況,因此找出特殊的量測變數來估計獨立 變數,去除不確定性,將可以用來預測花卉的重要資訊。. 1.
(12) 1.2 問題界定 花卉供應鏈的決策者可分為三類,分別是供應端的花卉供應人、負責中介的花卉批發 市場經營者和需求端的花卉承銷人。這些決策者分別對花卉的行情資訊有著不同的需求, 花卉供應人希望透過資訊的蒐集來選擇批發市場以及供應數量;花卉批發市場經營者希望 穩定市場價格以及減少殘貨數量;花卉承銷人希望以最有利的價格來購買相當品質的花 卉。 為了提供更多資訊給全台灣的花卉供應鏈決策者,使之能獲取其他地區供應鏈的情 報,提升台灣區花卉整體的經濟,本論文利用競箥(R. Kimball)[14]提出的由下而上建置 法(Bottom up),將台北、台中、彰化、台南、高雄五家花卉資料超市,整合為總資料倉 儲系統,由於高雄資料超市尚未完工,因此本論文將不討論高雄花市之部分,圖 1.1 為總 資料倉儲的系統架構,前段虛線框住的區域為本論文完成之部分,將台北、台中、彰化、 台南四家資料超市之資料分別經由資料轉換服務,轉入總資料倉儲,並加入新的節慶維度 與市場別維度,分別在本論文第三章與第四章詳述作法,後段無虛線框住的區域則為陳佳 佑同學[10]於同年完成之部分。. Access. Manager Ticket Server. LDAP. 票據核發. 台北DM. 使用者 身份驗證 Administrator. 彰化DM. 存取 控制 DTS4. 台中DM. 總資料倉儲. Power Play Transform. OLAP 多 維 度 資 料 模 型. 查詢 PPES. 台南DM. 圖 1.1 總資料倉儲系統架構圖 供應鏈進行決策時,常需以定量的方式進行最佳化方案選定,在花卉供應鏈中,數量 與價格常呈現反比關係,若可以知道其定量關係就可進行最佳化決策。如圖 1.2 所示,本 論文在第五章部分,將利用總資料倉儲內的花卉資料,利用檢定與迴歸技術,選出一個具 代表性的花卉,亦即其價格與交易量間具有高相關性的函數。接著去測定其交易量本質是 否為為隨機變數,若交易量之本質為隨機變數,則利用關聯式的發想,去找尋一外來之變 數。測定外來變數之性質與交易量間成高相關性,與殘差無相關,且最後判斷出其與相依 2.
(13) 變數有高相關性,則此一外來變數可作為成功降低獨立變數不確定性的量測變數。本論文 使用時間序列工具來進行迴歸分析,先利用單位根檢定確認變數皆為統計非時變序列,再 利用內建的兩階段最小平方法(2-stage Least Squares Method)[19]來做量測變數的迴歸估算。. 台北. 彰化 總資料倉儲 花卉資料. 台中. 檢定與相關 性分析 外來變數. 量測變數迴 歸技術. 成功之量測變數 圖 1.2 量測變數迴歸技術方法與界定. 3. 台南.
(14) 1.3 研究目的 本論文的研究目的,在向上整合已建置好的各家花卉資料超市,成為完整的總資料倉 儲,使花卉供應鏈的決策者能整合各家花市的資訊,來做最佳化決策,同時使各類決策者 無法侵犯到其他決策者之權益與機密,使台灣的花卉產業能整體提升經濟效益。表 1.1 為 總倉儲建置完成後,資訊的分享情形。 表 1.1 資訊分享示意表 資料倉儲 決策者. 台北 DM. 台北花市. ◎. 台中 DM. 彰化 DM. 台南 DM. 高雄 DM. 總倉儲 ◎. 台中花市. ◎. 彰化花市. ◎ ◎. 台南花市. ◎ ◎. 高雄花市. ◎ ◎. 在過去各家花卉資料超市中,並沒有節慶期間的相關查詢,為配合花卉供應鏈決策者 的需求,加入新的節慶維度,幫助決策者在選取報表資訊時,能有更彈性化的選擇空間, 表 1.2 為過去與加入節慶維度後,能使用的維度查詢項目比較。 表 1.2 舊維度與新維度比較表 資料倉儲. 各家資料超市. 總資料倉儲. 星期維度. ◎. ◎. 供應類別維度. ◎. ◎. 花卉種類維度. ◎. ◎. 容器維度. ◎. ◎. 農曆維度. ◎. ◎. 日期維度. ◎. ◎. 供應地區維度. ◎. ◎. 承銷地區維度. ◎. ◎. 花卉等級維度. ◎. ◎. 拍賣線維度. ◎. ◎. 維度. 市場別維度. ◎. 特殊節慶維度. ◎. 利用總資料倉儲來下載花卉資料之速度,較分別由各資料超市下載快,因此下載總資 料倉儲裡的資料為輸入。由於資料倉儲內之資料,有時會發現其本質上是隨機變數,故其 值含有不確定性。在進行迴歸方程式係數的估算時,若獨立變數是隨機變數,這時估計出 4.
(15) 來的係數就會有很大的不確定性。獨立變數的不確定性可透過外來的量測變數來降低,此 時迴歸方程式的係數就可估的更準確。因此藉由量測變數的找尋,可以提高花卉供應鏈 中,預測銷售的準確性。 本研究將對以下幾個問題提出解決方法: 1.整合四家花卉資料超市,建置總資料倉儲系統。 2.分析台灣地區節慶特性,加入節慶維度於總資料倉儲。 3.找尋成功之量測變數,提高花卉需求的預測準確度。. 5.
(16) 1.4 研究流程 1.. 2. 3. 4. 5. 6.. 本論文的研究方法及步驟如圖 1.3 研究流程圖所示: 業界訪談:第一批訪談對象為台北、台中、彰化、台南以及高雄各家花卉批發市場管 理經營者,確認其對於總資料倉儲之需求,以確定衡量值及維度、權限之內容;第二 批訪談對象為各家花卉資料超市設計者與管理者,透過訪談及溝通的過程,了解原始 各家資料超市的系統架構,以進一步整合各家資料超市之資料。 問題界定與分析:確定新增節慶維度之內容,保含節慶涵蓋期間的範圍,以及節慶的 選擇。 文獻回顧:參考資料倉儲以及時間序列相關文獻。 倉儲系統設計與實作:利用過去所發展的花卉資料倉儲系統理論基礎,實作總資料倉 儲系統。 節慶維度實作:配合節慶的特殊性質,擬出幾個設計方案,比較過後選擇一方案實作。 量測變數迴歸技術:利用花卉業務情報網進行資料蒐集,找尋與花卉相關之外在變數, 利用時間序列工具進行分析。 高雄花卉批發市場 彰化花卉批發市場. 台北花卉批發市場 業界訪談. 台南花卉批發市場. 台中花卉批發市場 花卉運銷決策. 問題界定與分析. 資訊分享需求 時間序列理論. 資料倉儲理論 文獻回顧 時間維度建置理論. 過去花卉歷史回顧. 資料轉換服務. 倉儲系統設計與實作. 整合各家花市資訊. 節慶特性. 節慶維度實作. 設計方案比較. 線上分析處理. 量測變數迴歸技術. 時間序列工具. 圖 1.3 研究流程圖 在量測變數迴歸技術部份,採用總資料倉儲為資料來源,一次下載可抓取所有花市的 資料,節省資料分析時間。分析過程中,首先使用擴大迪-富氏檢定(Augmented Dicky-Fuller Test)技術[15]來進行資料變數的單位根檢定,再加入外在變數分析其與獨立變數和殘差之 相關性,最後利用時間序列分析工具進行兩階段最小平方法,尋找出成功的量測變數。 6.
(17) 1.5 論文架構 本論文的內容編排如下: 第一章:緒論—說明本論文之研究動機、問題界定、研究目的以及研究方法。 第二章:文獻回顧—包含資料倉儲的觀念,及量測變數迴歸技術之相關理論。 第三章:總資料倉儲系統實作—先介紹總資料倉儲之系統架構,接著整合各家資料超市之 資料內容,將其資料利用資料轉換服務轉入總資料倉儲系統。 第四章:節慶維度設計—先介紹節慶維度之內容與特性,接著介紹幾種設計方案,最後比 較選出最佳方案進行實作。 第五章:量測變數迴歸技術—找尋特定花卉的需求方程式,及外來的量測變數,進行二階 段最小平方法,最後找尋出成功的量測變數以供預測。 第六章:結論—心得、分析及未來研究方向。. 7.
(18) 第二章 文獻回顧 本章主要的目的在於回顧資料倉儲的理論與架構,並介紹關於量測變數迴歸技術的發 展歷史與理論基礎,及特殊時間性質對預測影響的相關文獻。本章共分為三節,第 2.1 節 介紹資料倉儲的相關理論與技術及線上分析處理的基本動作;第 2.2 節為節慶維度的相關 介紹;第 2.3 節說明量測變數的理論。. 2.1 資料倉儲 隨著資訊科技的時代起飛與商業活動的熱絡發展,人們每天接收到大量的訊息,資料 倉儲便是一個幫助人們從中擷取有價值資訊的有效工具。資料倉儲廣泛的被使用於各行 業,透過擷取、清理的動作將傳統資料庫的資料加以轉換與整合,提供後端決策支援系統 的應用。 「資料倉儲」一詞起源於 1990 年,有資料倉儲之父之稱的殷默(B. Inmon)所提出, 並於 1992 年定義資料倉儲為具有主題導向(Subject-oriented) 、整合性(Integrated) 、隨時 間變化(Time-Variant)及非揮發性(Non-Volatile)四種特性之資料庫[22]。此四種特性簡 述如下: 主題導向之意為資料倉儲是建立在特定的主題上,無關主題的資料會被剔除。例如台 北花卉批發市場建立的資料倉儲,是以在台北拍賣的銷售為主,並不會存在台中拍賣的資 料;整合性意指資料倉儲內的資料都是經過整理合併過的結果,從資料倉儲上擷取的資訊 都是整合過的;隨時間變化便是指資料倉儲上的資料為時間序列,隨著日常的資料作業新 增,需定時更新與整理,因此說資料倉儲中的資料是會隨時間變化的;非揮發性指的是資 料一旦進入資料倉儲,便會永久保存不能刪除。 本節共分成三小節,第 2.1.1 節說明資料倉儲的兩種基本架構;第 2.1.2 節介紹在資料 倉儲中,時間維度的重要性;第 2.1.3 節介紹線上分析處理的模式。. 2.1.1 資料倉儲架構 當代資料倉儲界的兩大巨擘殷默與競箥,分別在 1990 年與 1996 年提出兩種不同的資 料倉儲建立模式:由上而下(Top-down)與由下而上(Bottom-up)的建構方法。顧名思義, 殷默所倡導的由上而下法[22],以傳統關聯式資料庫工具建立的泛企業資料倉儲為頂點, 向下發展出各別部門的資料庫,以提供大部分的決策需求;而競箥提倡的由下而上法 [23][24],將每一種商業程序建立一個資料超市(Data Mart),藉由資料通道(Data bus) 和 制式化維度(Conformed Dimensions)的概念,將所有資料超市結合為一個總資料倉儲。將兩 種資料倉儲的架構模式[14]分述如下: 殷默模式: 殷默所提倡的資料倉儲架構環境,是由組織內所有的資訊系統與資料庫所組成,稱之 為為”企業資訊工廠” (Corporate Information Factory, CIF)。並將組織中的整個資料庫環境區 分成四個層級: 8.
(19) 1. 操作性系統(Operational):由歷史及交易資料組成,支援組織每日的作業。 2. 原子資料倉儲(Atomic Data Warehouse):資料由操作性系統彙總粹取而來。 3. 部門(Departmental):從原子資料倉儲中擷取轉存所需的資料。 4. 個人(Individual):由部門資料庫將所需的資料暫存於使用者電腦中。 上述的最後三個層級構成資料倉儲,而第一層級的操作性系統由歷史及交易資料組 成,支援組織每日的作業,換句話說,也就是支援所有的交易程序,這個層級的資料會由 操作性系統轉換到第二層的原子資料倉儲來。於原子資料倉儲中,是將儲存於操作性系統 資料庫中的資料,進行彙總與粹取的動作。比較此二層級的資料有何不同,舉個例子說明, 將顧客視為實體(Entity),而最令人感興趣的屬性為顧客的信用等級,操作性系統的資料 庫中就儲存了顧客目前的信用等級、借貸情況、地址等一筆一筆的資料,相反地,原子資 料倉儲中儲存的是顧客的信用歷史紀錄,以及經過彙整的年資料。在第三層部門資料庫 中,主要將組織中各部門所需要的資料,由原子資料倉儲中擷取轉存。亦即在部門資料庫 中儲存著較原子資料倉儲中更少量且高度彙總的資料。在第四層級中,個別使用者可由部 門資料庫中,擷取及建立所需的資料集暫存於使用者電腦之中。 在殷默架構中,一個原子資料倉儲可用來建立多個部門資料庫,此舉可以有效避免資 料產生不一致的情況。殷默並提出下列三層式資料模型來協助原子資料倉儲及部門資料庫 的建立: 1. 第一層級資料模型:實體關聯圖(Entity Relationship Diagrams, ERD)。在第一層級 的資料模型中,各企業首先建立各部門預期使用的資料倉儲實體關聯圖,並藉由 各部門的實體關聯圖的合併來完成整體企業的實體關聯圖。 2. 第二層級資料模型:資料項目集合(Data Item Set, DIS)。其表示法如圖 2.1 所示, ,方格間的線段代 每一個長方格代表一個部門或團體的邏輯資料表(Logic Table) 表連結,在資料項目集合中共包含四個主要元件,分述如下: (1) 主要資料群(Primary Data Grouping) 在每個主題區域中只存在一次。亦即該部門中最主要的資料群。 (2) 次要資料群(Secondary Data Grouping) 與主要資料群間相關的資料群,在 DIS 中以位於右邊的方格代表之。 (3) 連結(Connector) 在資料表間的關連以線段的連結來表示。 (4) 類似型態資料(“Type of” Data) 指一些與次要資料群相關的資料群,在 DIS 中以方格表現在次要資料群方格 的右邊分枝。. 圖 2.1 資料項目集合(DIS) 9.
(20) 第三層級資料模型:實體模型(Physical)。在第三層級資料模型中,主要是將第二 層級的資料模型加入鍵值及其模型的實體特性。 殷默提出以螺旋式發展方法(Spiral Development Approach),來建構資料倉儲。上述三 層資料模型的設計為建置資料倉儲的先決要件之一。螺旋式發展方式如圖 2.2[14]所示,模 式步驟以 DSS 為名,有決策支援(Decision Support)之意。 3.. 對每個主題進行. DSS1. DSS5. DSS7. DSS8. DSS9. DSS10. 目標 區域. 原始系 統分析. 撰寫 規格. 程式 開發. 資料資 儲集合. 資料模 型分析. DSS2. DSS6. 麵包箱 分析. 資料倉儲 資料庫設計. DSS3. DSS4. 技術 評估. 技術環境 準備. 圖 2.2 殷默資料倉儲螺旋式發展方式 在螺旋式發展方法過程中,首先企業需分析現有資料系統的資料模型,以幫助企業資 料倉儲的建置,這步驟稱為資料模型(Data Model)分析流程(參照圖 2.2 中的 DSS1)。在完 成三層式資料模型分析後,以資料模型為流程的輸入,接著進行下一步驟,要衡量資料倉 儲內資料的詳細程度,此動作稱為麵包箱(Breadbox)分析(DSS2)。以交易資料為例,企業 需評估資料倉儲內部是否要包含每日的交易資料以及彙總式資料。一完成麵包箱分析之 後,主要目標區域就被選取(DSS5),此部分將成為部門的資料庫。接著企業需分析主要區 域中的系統來源(DSS7),並撰寫規格 (DSS8),及進行程式開發(DSS9),並將完成的資料 庫進行總體集合(DSS10),原子資料倉儲資料庫的設計同時開始(DSS6) ,當有足夠資訊著 手上述步驟之後,可以進行技術性的評估(DSS3),技術評估工作主要在確保資料倉儲內 部資料的可存取性以及是否好管理,也就是說在資料倉儲的設計及建置過程中,相關硬 體、軟體、介面及存取軟體是否可以相互配合。在完成技術評估後,依著技術評估步驟的 評估報告結果,企業開始著手進行技術環境準備(DSS4)的工作流程,來支援整體資料倉儲 的建立。在技術環境準備流程中主要工作在於確定資料倉儲相關軟硬體設備的建立,如部 門資料庫間的網路連結、資料儲存硬體設施的建置及作業系統及操作介面的相容性。 當部門資料庫都成功的建置完成,會影響到原子資料倉儲。圖 2.2 中可以看到線連結 不同的步驟,代表模型中反覆的觀點,線連在原始系統分析(DSS7)、撰寫規格(DSS8) 與原子資料倉儲設計(DSS6)之間,表示在每一次新的部門資料庫被建置後,原子資料倉 儲設計的步驟都會被再重覆一次,這是由於原子資料倉儲的資料為各部門資料庫的主要資 10.
(21) 料來源,因此在資料倉儲資料庫設計的工作流程中,需避免原子資料倉儲與部門資料庫間 資料不相容的問題。因此在資料倉儲資料庫設計流程(DSS6)中,對於原子資料倉儲的設 計上需與資料模型分析(DSS1)、技術環境準備(DSS4)、原始系統分析(DSS7)及規格 撰寫(DSS8)四個流程相互配合。連結在部門資料庫集合(DSS10) 、技術評估(DSS3)、 資料倉儲資料庫設計(DSS6)與技術環境準備(DSS4)的線,也顯示出螺旋式發展方法自然 的反覆性,就是說技術環境準備流程的進行,除了需要技術評估流程的支援外,還需要與 資料倉儲資料庫設計及資料倉儲集合流程進行配合。 殷默的模式採取傳統的資料庫工具來建構資料庫,像是實體關連圖、資料項目集合, 因此必須維持資料的一致性,達到以最小的記憶體來儲存資料,這使得查詢時間變快,但 企業內的資料通常有幾千幾百個實體,因此建構之初複雜性很高。在由上而下的建構過程 中,系統開發者對組織架構及系統流程必須有相當程度的瞭解,終端使用者不易瞭解此模 式,也不容易使用查詢、操作的功能,因此殷默的模式比較適合專業的 IT 人員與高階管理 者來使用。建置一個殷默模式的資料倉儲,需要長時間(約 4~9 個月)的運作,初期需 要較高的成本,以儲存大量資料,適合資料倉儲專家用於泛企業需要的大型專案。 競箥模式: 競箥的模式架構以維度資料建模法(Dimensional Data Modeling)來建立資料倉儲。在維 度資料建模法中,採用資料表做為建構的基礎,而非傳統的實體關聯圖。資料表包含事物 表(Fact Table)及維度資料表(Dimensional Table)。 事物表內存放大量且不重覆的資料列,可能有上千萬或上億筆歷史資料,欄位相對之 下較少,資料為數值型態,只有少數做為關聯索引的文字資料,表內存在許多和維度資料 表做關連的外鍵(Foreign Key)。資料內容屬於靜態資料,一但載入便不再做任何修改異動。 而維度資料表與事物表比較起來,資料量極小,可能只有上百筆或上千筆資料,大部份為 文字型態,表內欄位較多,儲存事物表內所有資料的屬性,用來管理維度裡的階層關係, 屬於可以修改異動的動態資料型態。 除此之外,競箥架構的維度資料模型可進一步區分為三種主要的綱要結構:星狀綱要 (Star Schema)、雪花綱要(Snowflake Schema)、星座綱要(Fact Constellation Schema)[17][20]。 其中星狀綱要為其中最常見的結構,其結構如圖 2.3 所示:. 圖 2.3 星狀綱要圖 11.
(22) 星狀綱要以事物表為中心連結相關的維度資料表,其形狀如星狀呈發射狀。而雪花綱 要與星狀網要圖類似,主要的差異在於雪花綱要對於維度資料表進行更進一步的三階正規 化工作,以避免重覆性資料及減少資料的儲存空間,其形狀如雪花故稱之雪花綱要圖。圖 2.4 為雪花網要之示意圖。. 圖 2.4 雪花綱要圖 第三種網要架構為星座綱要,又稱為銀河綱要(Galaxy Schema)。星座綱要是指某些維 度資料表被多個事物表共同參考,如圖 2.5 所示。. 圖 2.5 星座綱要圖 競箥模式以由下而上的方式建構資料倉儲,一個資料倉儲的建立是基於單一的商業流 程,競箥稱此種架構的資料倉儲為資料超市(Data Mart)。對於企業組織而言,內部可能 同時包含多個商業流程,因此在資料倉儲的建置過程中,需為每個商業流程建立資料超 市,然後將數個資料超市向上整合為一個整體的資料倉儲。在競箥模式架構中,資料是由 操作來源系統複製到集結區域,此資料經由 ETL 的過程(Extract Transform Load process), 符合一致性並易於終端使用者查詢,而資料會從集結區域被下載到資料超市。在完成資料 12.
(23) 超市的建立後,系統開發者利用資料通道(Databus)及制式化維度(Conformed Dimensions) 的概念,將數個資料超市整合為一個整體的資料倉儲。資料通道的架構是指所有的資料超 市都必須使用標準制式化的維度,制式化維度的基本需求,即是資料表中的鍵值(Key)、欄 位名稱、屬性定義與屬性的值必須保持跨商業流程的一致性。 競箥建議以一次建置一個資料超市的方式為其發展方法論,並針對單一資料超市的建 構,提出四個維度化的設計流程步驟: 1. 選擇商業流程:競箥給予商業流程很廣泛的定義,舉例包含零售的銷售點、存貨、 訂貨、運送等,這在大部分的企業組織中都是跨部門的。例如一個訂貨流程會牽 涉到銷售、市場行銷、財務和存貨控制人員。建議選擇一個最有影響的流程作為 資料倉儲的第一個商業程序,最有影響指的是選擇此流程可以解決最迫切的商業 問題,並且已經準備好作資料的取出。 2. 定義資料細度:定義資料細度是指決定資料倉儲中資料詳細程度的流程。最低層 級的資料細度稱為原子(Atomic),表示為不能再被分割的資料。選擇原子層級的資 料細度是非常重要的,因為使用者總是需要整合他們所需的資料,當選擇一個彙 總的層級當作原子,表示資料倉儲將不能滿足在此層級之下的查詢。例如在資料 倉儲內的最低層級為月資料,則使用者將無法查詢到日資料。 3. 選擇維度:在完成資料細度的定義後,下一步驟選擇維度資料表。維度資料表內 包含大量的屬性,主要提供使用者對於資料倉儲中的資料有更多方向的查詢。 4. 確認事物表中的衡量值:最後一個步驟為決定事物表中的衡量值。衡量值是指經 過計算或非經計算的數值資料,一般都是透過維度資料表來查詢衡量值。簡單來 說,維度資料表的用意是將查詢分類化,而衡量值則是經由查詢出的結果。 競箥提倡的維度資料建模法,以資料表為架構,包含事物表及維度資料表,由於維度 資料表的去正規化,因此資料沒有不一致性的問題,多維度的建構使得終端使用者可藉由 任何一個維度查詢到資料,在建構與使用上的複雜性均低。競箥著重於流程導向的資料模 式,試圖去找出不同商業流程間的交互作用,也就是找出資料倉儲中重要的衡量值(Facts) 與屬性(Dimensions) 。建構一個競箥模式的資料倉儲,花的時間比殷默模式較少,且初期 不需投入太多的成本,以每個主題的資料超市而言,成本大約是相同的,適合用於組織內 的一般小團體來做專題型的資料倉儲開發。 儘管殷默和競箥的模式有諸多不同,但基本的資料來源都是採用時間序列的資料, 『時 間』為資料倉儲最重要的特徵,藉由時間的不同可以比較與分析出各式各樣的關連性,創 造隱含的價值;而另一項共同點,是兩種模式都使用 ETL 程序來進行資料轉換,也就是 將原始資料由作業系統移至儲存空間,然後將資料做轉換,轉換可以是刪除、轉換表格等 等的複合作業,轉換後的資料將儲存於資料倉儲中,這可以保證資料倉儲的整合性,但也 是建構時最花心力的部分。表 2.1 為殷默及競箥模式基本特性之比較[14]。. 13.
(24) 表 2.1 殷默及競箥模式基本特性之比較 殷默模式. 競箥模式. 理論與架構(Methodology and architecture) 整體方法. 由上而下. 由下而上. 建構架構. 以泛企業(原子)資料倉儲提 以單一商業流程建立一個資料 供部門資料庫。 超市,透過資料通道及制式化 維度,將各資料超市達成一泛 企業資料倉儲。. 方法複雜度. 相當複雜. 頗為簡單. 建構方法論之比較. 使用螺旋式發展方式. 使用四步驟流程建立一部門資 料庫. 實體設計. 相當完整. 相當輕微. 資料建模(Data Modeling) 資料導向. 主題或資料導引. 流程導向. 工具. 傳統方式(ERDs,DISs). 維度建模法. 終端使用者存取性. 低. 高. 主要觀眾. IT 專家. 終端使用者. 組織中之位置. 整體企業資料工廠(CIF). 操作性資料的轉換與保留者. 目的. 利用經驗証的資料庫理論或 提供一個解決方法,使得終端 技術基礎,來提供一個合理的 使用者能輕易的存取資料,並 技術解決方法 獲取合理的回應時間. 哲學(Philosophy). 2.1.2 資料倉儲之時間性 在每個資料超市或是資料倉儲中,時間維度是獨一無二並且有強大功能的維度。雖然 多維度模型的其中一個宗旨,便是要一致性的對待所有維度,但事實上,時間維度具有特 殊性,必須以不同於其他維度的方式處理,以下將介紹幾個競箥於 1997 年提出[25],設計 時間維度時必須注意的觀念與重點。 實際上,每個資料超市都是由時間序列所構成,建立時間維度的初始理念,是源於資 料超市需要維度資料表的基本理由:維度資料表提供對來源的限制以及來源資料的報表表 頭,有好的維度資料表才會有好的資料超市。由於不同企業的日程表都有個別化的成分 在,例如季節性、財務日程等,因此直接建立屬性於時間的資料表是最容易也最符合個別 化的方法。 而建立時間維度,只需要在試算表(Spread Sheet)上建立即可。與其他維度不同的 是,時間維度可以一次在設計者的個人電腦中完成,只要將之上傳到所有資料超市的機器 上,便可組成於泛企業的資料倉儲。有些資料超市另外要追蹤一天的資料到分鐘甚至是秒 的情形,並不適合將一天的時間都建在同一張時間資料表上,這種情形最好是將分與秒的 值,建在另一張資料表。 14.
(25) 時間維度容易造成互不相容(Incompatible)的上捲(Rollup)情形,最明顯的例子是 星期和月份,這是由於每個月份中的星期並不規律,舉個例子來說,一月份的第一天必定 為一月一日,但一月份的第一天未必為星期一,所以通常的作法是將不相容的時間分開為 另外的維度,星期、農曆、節慶都是這種情況。 最具有彈性的基底是天(Daily Time Grain),天可以上捲至任何可能的日程,即便是 無法相容的節慶期間,如復活節假期、聖誕節假期…等等,但需注意節慶期間無法再上捲 至其他日程,因此只要一開始的基本單位是天,要加註任何季節性的解釋到日程表都是可 以的。. 2.1.3 線上分析處理 線上分析處理(On-Line Analytical Processing, OLAP)源自於 1993 年 Codd E.F 所提出 [20],為一種可以直接存取資料倉儲做為資料分析的應用程式,並非單純的報表工具。線 上分析處理能簡化一些使用著的複雜的查詢、製作報表、對資料的計算加總、將資料過濾 后分割更具商業意義的細部資料。就功能面來說,線上分析處理可以說是整個資料倉儲/ 商業智慧的核心引擎,它彙整資料庫裡的原始資料,並將之轉成多維度的分析模組,將原 始零散的歷史資料加值成有意義的資訊,便於決策者做決策分析。 資料倉儲裡資料是以超方體(Cube)的形式存在,透過線上分析處理對維度及衡量值的 操作,即可對資料做加值應用,獲取所欲得到的資訊。在每個維度裡,資料是有層級式的 繼承觀念。例如,在時間的維度裡可以分成年、季、月三層,亦或是年、季、月、旬、日 五層,可依需求而設定;在地區的維度裡可以分成北中南區,再細分各區的縣市別,最後 一層則是鄉鎮市。超方體裡維度的架構如圖 2.6。 產品別. 時間維度 年 | 季 | 月. 時間. 供應地區維度 地區別(北、中、南區) | 縣市別 | 鄉鎮別. 供應地區. 圖 2.6 超方體架構 線 上 分 析 處理 的 操 作 可 分 為 十 種 , 與 維 度 有 關 的 操 作 有 : 上 捲 (Roll-Up) 、 下 挖 (Drill-Down)、切片(Slicing)、切丁(Dicing)與轉軸(Pivoting)五種。其中上捲是指將維度的單 位放大;下挖是將維度的單位縮小;切片是限制某維度的上下限範圍;切丁是限制多維度 的上下限範圍;轉軸是把水平維度與垂直維度做交換。 線上分析處理的操作中與衡量值有關的操作有:視覺化(Visualize)、篩選(Selecting)、 輸出(Output)、排序(Sorting)及計算(Computing)五種。其人視覺化是把數值化的衡量值用圖 形表達;篩選是是限制衡量值的範圍;輸出是將衡量值另外儲存供加值應用;排序是將衡 量值由大至小或由小至大排列;計算則是用程式來修改衡量值。 15.
(26) 2.2 節慶維度相關介紹 台灣地區花卉的供給需求與節慶時節有相當大的關係,在節慶上使用的日曆與其他國 家不同,有西曆與農曆之分,尤其台灣地區對於農曆的時令節氣相當重視,因此在花卉資 料倉儲的節慶維度設計上,必須同時考量西曆與農曆的節慶,目前關於節慶維度的設計尚 無前人之研究可以參考。 單純考量農曆的時間維度設計,在 2005 年國立交通大學的柯珮婕同學於其碩士論文 中[3],提出農曆的維度設計,其中提到農民曆一般都被稱為「陰曆」,但其實是一種「陰 陽合曆」,與太陽及月亮的運動有關,因此每個農曆月的長短沒有規則可循,而只能由觀 測太陽及月亮的運動所決定。如要完全正確的寫出西曆與農民曆的對照程式,則必需考慮 到天文的數學式,故其採取折衷方法,使用中央氣象局天文台所提供之資料直接建構農曆 維度,這可減少建構的時間。 關於其農民曆的維度架構,新增三個資料表,分別是農曆對照表、農曆月及農曆年。 農曆對照表直接記錄農曆月日及西曆月日的對照,屬性欄位包含西曆日期、農曆日期、農 曆日期的中文名稱,及農曆年月。農曆月資料表的屬性欄位則是農曆年月、農曆年月的中 文名稱及農曆年。農曆年資料表的屬性欄位包含農曆年及農曆年的中文名稱。三個資料表 的關聯如圖 2.7,最後再與資料倉儲的事物表(Fact Table)連結,便完成可下挖的農民曆維度。. 圖 2.7 農民曆三資料表關聯圖 表 2.2、表 2.3、表 2.4 分別為其設計之農曆對照表、農曆月、農曆年三個資料表的屬 性的詳細說明,包含資料表的主鍵、外鍵、資料欄名稱、資料型別、長度、可否為空值及 相關說明。 表 2.2 農曆對照表 主鍵 外鍵 ◎. ◎. 欄位名. 資料型別. F_DATE. Datetime. 允許空值. 長度. 說明. 8. 西曆日期,ex: 2004/08/22. C_DATE. Char. 7. 農民曆日期,ex: 0930707. C_DNAME. Char. 16. 農民曆中文,ex: 農曆93年07月07日. C_MOON. Char. 5. 農民曆年月,ex: 09307. 表 2.3 農曆月 主鍵 外鍵 ◎ ◎. 欄位名. 資料型別. 允許空值. 長度. C_MOON. Date time. 5. 農民曆年月,ex: 09307. C_MNAME. Char. 20. 農民曆年月中文,ex: 農曆93年07月. C_YEAR. Char. 3. 農民曆年,ex: 093. 16. 說明.
(27) 表 2.4 農曆年 主鍵 外鍵 ◎. 欄位名. 資料型別. 允許空值. 長度. 說明. C_YEAR. Char. 3. 農民曆年,ex: 093. C_YNAME. Char. 10. 農民曆年中文,ex:農曆93年. 詳細說明農曆維度的架構關係,在此以實際資料及關聯來說明,如圖 2.8。三個資料 表皆有一個中文欄位名稱,目的是在日後線上分析處理時,資料能夠以較友善的中文方式 呈現,如以「農曆年 83 年 12 月 01 日」表現而非「0831201」。另外利用紅色框線的欄位 來當做關聯,使得農曆維度可以達到上捲與下挖等目的。. 圖 2.8 農民曆三資料表資料內容. 17.
(28) 2.3 量測變數迴歸技術 資料倉儲裡的資料常常在本質上是隨機變數,故其值含有不確定性。進行迴歸方程式 係數估算時,如果獨立變數是隨機變數,此時估計出的係數會有很大的不確定性,有時獨 立變數可以透過量測變數(Instrumental Variable, IV)[28]來降低其不確定性,此時其迴歸 方程式的係數將可估計的更準確。另外,在利用時間序列資料進行迴歸動作時,必須注意 到自變數與因變數都必須為統計非時變序列,否則會出現假性迴歸的情形,採用單位根檢 定法可檢定序列是否為統計非時變序列。本節共分四小節,第 2.3.1 節介紹線性迴歸基本 原理;第 2.3.2 節說明量測變數迴歸技術之方法;第 2.3.3 節介紹時間序列資料;第 2.3.4 節介紹單位根檢定法。. 2.3.1 線性迴歸基本原理 線性迴歸方法為計量經濟(Econometrics)領域最常見的分析方法之一[19],主要在探 討兩個或兩個以上變數之間的關係。而迴歸分析的目的在了解並且建立一個因變數(Y)與一 組自變數(X)間的關係。由一個因變數 Y 及 m 個自變數組成的多元線性迴歸模式,其形式 表示為下列式子, β 0 ,…, β m 為係數, ε 為誤差項。 Y = β 0 + β1 x1 + β 2 x2 +... +β m x m + ε 若有 n 個樣本資料,則可表示成 ⎡Y1 ⎤ ⎡ β 0 + β1 x11 + β 2 x21 + L + β m xm1 + ε1 ⎤ ⎢Y ⎥ ⎢ β + β x + β x + L + β x + ε ⎥ 1 12 2 22 m m2 2⎥ ⎢ 2⎥ = ⎢ 0 ⎥ ⎢M⎥ ⎢ M ⎥ ⎢ ⎥ ⎢ β β x β x L β x ε + + + + + Y 1 1n 2 2n m mn n⎦ ⎣ n⎦ ⎣ 0. 改以矩陣來表示,則可表示成 ⎡ Y1 ⎤ ⎡1 x11 L x m1 ⎤ ⎡ β 0 ⎤ ⎡ ε 1 ⎤ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢Y ⎥ ⎢1 x 12 L x m2 ⎥ ⎢ β 1 ⎥ ⎢ε 2 ⎥ ⎢ 2⎥ = ⎢ + ⋅ ⎢ M ⎥ ⎢M M M M ⎥ ⎢ M ⎥ ⎢M ⎥ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎣Yn ⎦ ⎣1 x1n L x m3 ⎦ ⎣β m ⎦ ⎣ε n ⎦ Y = X ⋅ β + ε [n × 1] [n × (m + 1)] [(m + 1) × 1] [n × 1]. 此一多元迴歸模式 Y = X ⋅ β + ε 可用最小平方法來求迴歸係數β 的數值。 最小平方法的目的在找出未知係數的數值,使誤差平方和(error sums-of squares, SSE) 為最小。可經由將下式對β 偏微分得到。. SSE = ε ' ⋅ ε = ( Y − X β )' ⋅ ( Y − X β ) 其中, ε ′ 為 ε 之轉置矩陣。 此過程可得到 m+1 個未知數的聯立方程式,稱為最小平方理論的常態方程式。以矩 陣 表 示 之 常 態 方 程 式 為 : ( X ′X ) β = X ′Y 。 兩 邊 各 乘 以 ( X ′X ) 的 反 矩 陣 , 即 ( X ′X ) −1 ( X ′X ) β = ( X ′X ) −1 X ′Y 。故得到 Iβ = ( X ′X ) −1 X ′Y ,即 β = ( X ′X ) −1 X ′Y 。如此可求得 迴歸係數如下。 β = ( X ′X ) −1 X ′Y 在一般的情況下,最小平方法能滿足高斯馬可夫定理[21]的五大假設,如下所示: (1)常態性(Normality) 18.
(29) (2)平均數為 0(Zero mean) (3)變異數齊一性(Homoskedasticity) (4)無自我相關性(Nonautocorrelation) (5)自變數 X 為非隨機(Nostochastic X) 當誤差項與自變數有相關性時,最小平方法違反高斯馬可夫定理的第五大假設,將不 滿足一致性,因此估計出來的值會不精確,2.3.2 節介紹的量測變數迴歸技術,可以解決上 述問題。. 2.3.2 量測變數迴歸技術方法 量測變數迴歸的起源,在西元 1928 年時,美國政府欲調高進口黃油的關稅,因此藉 由黃油在供給與需求的彈性分析,來獲取最大之利潤。但學者 P.G.Wright 與 S.Wright 卻發 現黃油每個時間的交易點,並不在同一條供給曲線上。這些交易點是由不同的供給與需求 曲線交集形成,因此無法藉由最小平方法正確地估計迴歸方程式,做供給與需求的彈性分 析。於是學者 P.G.Wright 與 S.Wright 發明了量測變數迴歸的方法,藉由外來變數來消弭供 給曲線的隨機成分,利用兩階段最小平方法得以成功的估計迴歸方程式。 量測變數迴歸的文獻,最早在 1928 年由 P. G. Wright 與 S. Wright 父子於” The Tariff on Animal and Vegetable Oils”的附錄 B 中發表[28],證明了當普通最小平方估計式(Ordinary Least Squares Estimator, OLS)不可行時,量測變數可以用來估算內生變數(Endogenous Regressor)的係數。量測變數迴歸技術常與兩階段最小平方法劃上等號,使用量測變數來 估算隨機變數時,可得到除去隨機成分後的觀察值,此部分使用最小平方法來估計,而用 獨立變數來估算其迴歸方程式係數時,亦使用最小平方法來估計,故此方法又稱為兩階段 最小平方法(2-stage Least Squares Method, 2SLS)。 設模型為線性,其形式為 y = Xθ + ε (1.1) 其中 θ 為自變數 X 的係數向量,當 X 存在與誤差項 ε 相關時,此時可利用量測變數 z 來代 替 X 進行迴歸。以下進行量測變數之數學分析,假設迴歸模型為 y = bx + τ ,則自變數與 誤差項存在相關,表示為 E ( xτ ) ≠ 0 ,以量測變數 z 估計 x,代表 x = z + η ,此時變數 z 必 須與殘差無相關,表示為 E ( zη ) = 0 ,因而推導出下列算式:. E ( zη ) = E ( z ( x − z )) = E ( zx ) − E (z 2 ) = 0 => E (z 2 ) = E ( zx ) ≠ 0 代表 x 與 z 高相關性,此稱作量測相關性。 將 z 對 y 作迴歸,可得出 y = b( z + η ) + τ = bz + (bη + τ ) ,此時表示 z 與殘差無相關, 表示為. E (z (bη + τ )) = 0. => E ( zbη ) + E (zτ ) = 0 Q bE ( zη ) = 0 ,∴ E ( zτ ) = 0. E ( zτ ) = 0 代表 z 與 τ 無相關性,此稱為量測外部性。一個好的量測變數必須具有上述兩大. 性質,也就是量測變數必須與自變數高度相關,並且與原始迴歸式之殘差項互不相關。 19.
(30) 1 T 1 Z ε = 0 , lim Z T X ≠ 0 ,量測變數之估 N →∞ N N →∞ N. 當迴歸模型為(1.1)式時,可以知道 lim 計式寫為. θ = (Z T X ) (Z T y ) − (Z T X ) Z T ε ). −1. −1. = (Z T X ) Z T ( Xθ + ε ) −1. = θ + (Z T X ) Z T ε −1. 1 T Z ε = 0 條件成立,當樣本數趨近於無窮大,下列式子可證明量測變數估 N →∞ N 計式符合一致性。 如果 lim. ) Z Tε ( Z T X ) −1 lim θ = θ + lim lim N →∞ N →∞ N →∞ N N =θ 當量測變數估計式是建立在一個非隨機的工具上,則很容易證明他是無偏的,且具有 下列變異數. (). ) 2 z2 Var θ = σ 2 ∑*t / (∑ x*t z*t ) 其中 x*t 和 z*t 皆為該變數與其平均數之差。OLS 估計式 θ 的變異數為 Var (θ ) = σ 2 / ∑ x*t ,. 若 xt 和 z t 之間的相關係數為. (∑ x z ) = ∑x z. 2. 2 xz. r. *t. 2 *t. *t. 2 *t. ) 則 θ 的效率性為. Var (θ ) ) = rxz2 Var θ. (). 那麼 xt 和其量測變數 z 之間的相關性愈高,量測變數估計式就越有效率。此結果實際上可 推廣到更一般的情況,也就是具有隨機自變數的模型: xt 和 z t 的元素相關性愈高,量測變. 1 T Z X 愈接近 0 矩陣,該方法的估計結果 N →∞ N. 數的估計過程就愈有效率。另一方面,如果 lim 就會很差。. 2.3.3 時間序列資料 對於時間序列資料而言,一組觀測值{ X 1 , X 2 ,...... X N },若沿著時間先後有順序地產 生,則稱此組觀測值為一時間序列,而正整數 N 被稱為時間序列的長度。就資料特性而言, 20.
(31) 時間序列資料可分為統計非時變程序及統計時變程序兩種。關於統計非時變程序的特性, 定義如下: 嚴格統計非時變程序(Strictly Stationary): 若一隨機過程{ X t } t∞=1 ,在任一 n 個時間點內( X t , X t +1 ,...... X t + n )的聯合機率分配,與另 一組 n 個經由平移 k 單位時間之( X t + k , X t + K +1 ,...... X t + k + n )的聯合分配相同,則稱此隨機過程 為嚴格統計非時變程序。 弱式統計非時變程序(Weakly Stationary): 若一隨機過程{ X t } t∞=1 滿足以下三個條件:. (1) E ( X t ) = µ ,(2) Var ( X t ) = γ 0 ,(3) Cov( X t , X t + m ) = γ m 在 t=1, 2,…均成立,則稱此隨機過程具弱式統計非時變程序。 傳統的迴歸分析中,是在假設資料為統計非時變序列的情況下進行估計,這樣的假設 並未考慮到時間序列資料可能具有統計時變程序的特性。統計時變程序時間序列是指當時 間序列若受到外生衝擊的影響,此影響會一直存留於時間序列中,不會因為時間的經過而 消失。根據 1974 年葛蘭傑(C. W. J. Granger)與紐伯(P. Newbold)所提出的假性迴歸[18]指出, 若迴歸模型中存在統計時變程序的變數,使用傳統的迴歸分析將產生假性迴歸 (Spurious Regression) 的問題。所謂假性迴歸是指當使用統計時變程序的變數進行傳統的迴歸分析 時,會出現 t 統計量及 F 統計量很顯著,也就是以 R 2 來衡量有很高的契合度,但德-華氏 檢定(Durbin-Watson Test)值卻非常低的現象,這表示殘差存在有自相關性。因此在處理時 間序列資料時,必須先判定資料特性,而後才能決定資料分析及處理的方法。對於資料特 性的判別,一般而言可以透過單位根檢定(Unit Root Test)來判定資料的特性及其整合階次 (Order)。. 2.3.4 單位根檢定 單位根檢定最先是由迪契(D. A. Dicky)與富樂(W. A. Fuller)於 1979 年所提出的[16],其 方法是透過蒙地卡羅法求出單位根檢定模型的機率分配。藉由他們所假設的模型並配合此 分配表,令使用者可以迅速的檢測出時間序列中是否存在單位根。早期所提出的迪-富氏檢 定 (Dicky-Fuller Test, DF Test) 主要在於檢定時間序列變數的殘差項是否為白噪音 (White Noise),但在原始的檢定模型中,卻忽略了資料中可能存在的序列相關(Serial Correlation) 的問題。為了解決序列相關的問題,1981 年迪契及富樂進一步的提出了擴大迪-富氏檢定 (Augmented Dicky-Fuller Test, ADF Test)。擴大迪-富氏檢定改善了迪-富氏檢定的缺點,其 主要增加了更多前期的資料做為解釋變數,幫助減少誤差項的序列相關問題,使其加接近 白噪音。 單位根檢定中一般常用的方法為擴大迪-富氏檢定,在擴大迪-富氏檢定中共包含了以 下三種模式: 21.
(32) 無漂浮項與無趨勢項之隨機漫步模型 ∆ Y t = β Y t −1 +. N. ∑. i=1. α i∆ Y t−i + ε. t. 有漂浮項但無趨勢項之隨機漫步模型 ∆ Yt = α. 0. + β Y t −1 +. N. ∑. i =1. α i ∆ Yt−i + ε. t. 有漂浮項及趨勢項之隨機漫步模型 ∆ Yt = α. 0. + γ t + β Y t −1 +. N. ∑α i =1. i. ∆ Yt−i + ε t. 其中 Yt 為要檢定是否具有單位根的變數, α 0 為截距項,t 為時間趨勢, β 為估計系數,N 為使殘差項近似白噪音的最適落遲期數(Lag)。在模型檢定中,其假設檢定如下:. H 0 : β = 0 (有單位根,資料為統計時變程序) H 1 : β ≠ 0 (無單位根,資料為統計非時變程序). 在虛無假設中假設 β = 0 ,亦即若檢定結果無法拒絕 H 0 ,則表示模型中存在單位根, 資料具統計時變程序特性。反之若檢定結果為拒絕虛無假設,則表示模型中不存在單位 根,資料為統計非時變程序。. 22.
數據
+7
相關文件
序號 查檢資料 對應題號. 9
應用統計學 林惠玲 陳正倉著 雙葉書廊發行 2006... 了解大樣本與小樣本母體常態、變異數已知與未知 下,單一母體平均數區間估計的方法。知悉
§§§§ 應用於小測 應用於小測 應用於小測 應用於小測、 、 、統測 、 統測 統測、 統測 、 、考試 、 考試 考試
微算機原理與應用 第6
木工程/都市設計與規劃/建築設備) 全日制,兼讀制 先進科技及管理學理學碩士 全日制,兼讀制 金融與精算數學理學碩士 全日制,兼讀制
應用統計學 林惠玲 陳正倉著 雙葉書廊發行
應用統計學 林惠玲 陳正倉著 雙葉書廊發行
在這一節中,我們將學習如何利用 變數類 的「清 單」來存放資料(表 1-3-1),並學習應用變數的特