• 沒有找到結果。

透過資料倉儲挖掘台灣颱風與大宗花卉變化的關聯性法則

N/A
N/A
Protected

Academic year: 2021

Share "透過資料倉儲挖掘台灣颱風與大宗花卉變化的關聯性法則"

Copied!
119
0
0

加載中.... (立即查看全文)

全文

(1)

國 立 交 通 大 學

工業工程與管理學系

碩士論文

透過資料倉儲挖掘

台灣颱風與大宗花卉變化的關聯性法則

Data Warehouse Approach to Mining Association Rules

between Typhoons and Main Flowers in Taiwan

研究生:陳昶年

指導教授:梁高榮博士

(2)

透過資料倉儲挖掘

台灣颱風與大宗花卉變化的關聯性法則

Data Warehouse Approach to Mining Association Rules between Typhoons

and Main Flowers in Taiwan

研 究 生:陳昶年 Student:Chang-Nian Chen

指導教授:梁高榮 Advisor:Gau-Rong Liang

國 立 交 通 大 學

工業工程與管理學系

碩 士 論 文

A Thesis Submitted to

Department of Industrial Engineering and Management College of Management

National Chiao Tung University In Partial Fulfillment of the Requirements For the Degree of Master of Engineering in

Industrial Engineering and Management June 2007

(3)

透過資料倉儲挖掘發現台灣颱風與大宗花卉變化的關連性法則 研究生:陳昶年 指導教授:梁高榮博士 國立交通大學工業工程與管理學系

摘要

本文提出使用資料倉儲於台灣颱風與大宗花卉之間的關聯性法則探勘。每年颱風導致台 灣的花卉產業重大的損失。然而,在花卉方面的損失與颱風之間的關聯性並不是如此明顯。 主要的原因是為了分析這層關聯背後所要準確蒐集花卉資料的困雖度,因此包括了許多高成 本的風險,例如如何從不同的來源去蒐集花卉資料;如何判斷正確的花卉資料;如何將有用 的花卉資料正確分類使其能夠進行統計分析…等。這份論文中採用資料倉儲系統解決上述艱 難問題。換句話說,倉儲中的花卉資料來源於五個作為當地花卉批發市場交易資料目的地的 資料超市。因此,資料蒐集的過程僅僅只需一個線上分析處理資料下載程序。接著運用Apriori 演算法於台灣颱風與大宗花卉之間的關聯性法則探勘。並發現有58 條種關聯性法則在其中。 關鍵詞:

颱風特性(The Property of Typhoon) 大宗花卉(Main Flowers)

資料倉儲(Data Warehouse)

(4)

Data Warehouse Approach to Mining Association Rules between Typhoons and Main Flowers in Taiwan

Student:Chang-Nian Chen Advisor:Dr.Gau-Rong Liang

Department of Institute of Industrial Engineering & Management National Chiao Tung University

Abstract

Data warehouse has been proposed for mining association rules between typhoons and main flowers in Taiwan. Typhoons bring huge damages in flower industry in Taiwan every year. However, the relation between flower damages and typhoons is not so clear. One major reason is the difficulty of collecting the right flower data for analyzing the relation because it includes many high cost tasks such as how to collect the flower data from the various sources, how to justify the correct flower data, how to sort out the valid flower data into the right category for statistical use, etc. In this thesis, a data warehouse was implemented for solving this hard challenge. In other words, the flower data in the data warehouse come from the five data marts which are distributed data achieves for storing transactional data in local flower wholesale markets. As a result, the data collection process becomes as a simple On-Line Analytical Processing (OLAP) data download procedure. Then Apriori algorithm was applied to mining the association rules between typhoons and major flowers. Also 58 association rules are found.

Keywords:

The Property of Typhoon Main Flowers

Data Warehouse Association Rule

(5)

誌謝

能夠順利完成此篇論文,首先要感謝恩師 梁高榮老師在我就讀研究所兩年的求學生涯 中,不辭辛勞與諄諄教誨,特別是在論文指導期間中,時常給予我多方見解與不同方向的思 維模式,讓我的思慮能夠更加慎密。而亦要感謝唐麗英老師、張永佳老師之不吝指導且對於 論文審閱仔細並提供不少寶貴意見,以豐富本篇論文。 其次要感謝粗皮學弟、同窗好友端、計畫領導者新凱隊長在我寫論文的這段期間給予我 實質上的幫助,讓我的論文能夠穩定下來,對於好友王天才、TOBE、MIYA學妹、學弟的感 謝千言萬語也說不盡。 最後,我要感謝爺爺、奶奶與父母親對我的肯定與支持,讓我能夠專心一意的完成所有 的學習。還有正就讀弘光的弟弟,謝謝你能夠在我最沮喪的時候,給予我鼓勵與打氣,讓我 能夠再度回到跑道上,感謝你們在我身心憔悴時的體諒與容忍,讓我在兩年的研究所生涯中 能全心全意的衝刺,謝謝您們的關心。 本論文在撰寫期間曾參與農糧署的研究計畫「建置高雄花卉批發市場資料倉儲與大型冷 藏庫庫存管理系統」,計畫編號為「95I510」,接受支助,特此感謝。

(6)

目錄

摘要...i Abstract ...ii 誌謝...iii 目錄...iv 圖目錄...vii 表目錄...ix 第一章 緒論...1 1.1 研究動機...1 1.2 問題界定...3 1.2.1 整合 DM 為 DW...3 1.2.2 探勘颱風與大宗花卉資料...4 1.2.3 大宗花卉為研究範圍...5 1.3 研究目的...6 1.4 研究流程...7 1.5 論文架構...9 第二章 文獻回顧...10 2.1 花卉產業介紹...10 2.1.1 花卉切花種類之產地...10 2.1.2 大宗花卉... 11 2.1.3 花卉種類與節慶...12 2.2 颱風特性分析...14 2.2.1 颱風路徑與降雨量...14 2.2.2 颱風強度與近中心最大風速...15 2.2.3 颱風移動速度...16 2.2.4 颱風強度與近中心最低氣壓...16 2.2.5 小結...16 2.3 資料倉儲...18 2.3.1 資料倉儲的建構模式...18 2.3.2 線上分析處理...21 2.4 資料探勘之關聯性法則...23 2.4.1 關聯性法則資料探勘技術...23 2.4.1.1 關聯性法則 Apriori 演算法 ...23 2.4.1.2 關聯性法則 DLG 演算法...25 2.4.1.3 關聯性法則 RARM 演算法 ...26 2.4.1.4 關聯性法則 DHP 演算法 ...27 2.4.1.5 關聯性法則 VIPER 演算法 ...28 2.4.2 關聯性法則演算法比較...28 第三章 台灣區花卉資料倉儲資料整合實作...30

(7)

3.1 系統架構與資料倉儲架構...30 3.1.1 系統架構...30 3.1.2 資料倉儲架構...35 3.2 總資料倉儲整合工作...37 3.2.1 總資料倉儲架構...37 3.2.2 資料整合工作...37 第四章 台灣區花卉資料倉儲資料轉換實作...40 4.1 資料轉換服務...40 4.1.1 實體關係模式至多維度模型轉換...41 4.1.2 資料轉換服務...43 4.2 自動化排程設計...49 4.2.1 DOS 程式撰寫...49 4.2.2 總資料倉儲自動化排程設計...50 第五章 關聯性法則對大宗花卉產量之颱風特性實證分析...52 5.1 研究架構與假設...52 5.1.1 研究架構...53 5.1.2 研究前提...53 5.2 實證模型建立...56 5.2.1 關聯性法則...56 5.2.1.1 相關定義與假設...56 5.2.1.2 主階段關聯性法則...60 5.3 計算過程說明...63 5.4 結果說明...64 第六章 結論與建議...72 6.1 研究結論...72 6.2 未來研究方向...74 參考文獻...75 附錄A :1996-2005 年侵台颱風一覽表...77 附錄B :1996-2005 年侵台颱風對應節慶分析表...79 附錄C :1996-2005 年侵台颱風數據轉換表...81 附錄D-1 :1998-2005 年大宗花卉-玫瑰數據轉換表 ...83 附錄D-2 :1998-2005 年大宗花卉-大菊數據轉換表 ...84 附錄D-3 :1998-2005 年大宗花卉-小菊數據轉換表 ...86 附錄D-4 :1998-2005 年大宗花卉-火鶴花數據轉換表 ...88 附錄D-5 :1998-2005 年大宗花卉-香水百合數據轉換表 ...90 附錄D-6 :1998-2005 年大宗花卉-葵百合數據轉換表 ...92 附錄D-7 :1998-2005 年大宗花卉-非洲菊數據轉換表 ...94 附錄D-8 :1998-2005 年大宗花卉-洋桔梗數據轉換表 ...96 附錄D-9 :1998-2005 年大宗花卉-康乃馨數據轉換表 ...98 附錄D-10 :1998-2005 年大宗花卉-劍蘭數據轉換表 ...100

(8)

附錄E :演算法軟體分析與應用 ...102 附錄F :颱風特性間之 Apriori 演算法軟體分析結果...105

(9)

圖目錄

圖1.1 完整總資料倉儲系統架構圖...3 圖1.2 關聯性法則方法與界定...5 圖1.3 研究流程圖...7 圖2.1 國產切花產業分布圖...10 圖2.2 菊花每年所有產地總產量比較圖... 11 圖2.3 菊花每年各產地產量比較圖... 11 圖2.42003 年玫瑰花之總成交量變化趨勢圖 ...12 圖2.5 颱風路徑分類圖...15 圖2.6 星狀綱要圖...19 圖2.7 雪花綱要圖...20 圖2.8 星座綱要圖...20 圖2.9 APRIORI演算法流程圖...23 圖2.10 APRIORI演算執行過程...24 圖2.11 DLG 演算執行過程...25 圖2.12 TIRE資料結構...26 圖2.13 RARM 演算執行過程...26 圖2.14 DHP 演算執行過程...27 圖3.1 總倉儲實體系統架構圖...31 圖3.2 SQLSERVER連線群組(A) ...33 圖3.3 SQLSERVER連線4 群組(B)...33 圖3.4 SQLSERVER連線群組(C)...34 圖3.5 網路磁碟機畫面...34 圖3.6 檔案複製到網路磁碟機語法畫面...34 圖3.7 資料轉換時刻圖...35 圖3.8 台灣區花卉資料倉儲競箥架構圖...36 圖3.9 花卉批發資訊分享熱線架構圖...36 圖3.10 供應類別對應表...38 圖3.11 供應鄉鎮對應表...38 圖3.12 供應地區對應表...38 圖4.1 自動化更新轉換程序...41 圖4.2 實體關係至多維度模型架構...41 圖4.3 高雄資料超市內部轉換關係圖...42 圖4.4 拍賣資料表與總倉儲交易資料表實體關聯圖...42 圖4.5 總資料倉儲雪花綱要關聯圖...43 圖4.6 拍賣資料轉換工作...43 圖4.7 高雄拍賣資料轉換工作...44 圖4.8 高雄拍賣轉換資料工作來源查詢...44 圖4.9 高雄拍賣轉換資料工作屬性...44

(10)

圖4.10 高雄拍賣轉換資料工作轉換語法...45 圖4.11 訂貨資料轉換工作...46 圖4.12 高雄訂貨資料轉換工作...46 圖4.13 殘貨資料轉換工作...47 圖4.14 高雄殘貨資料轉換工作...47 圖4.15 議價資料轉換工作...47 圖4.16 台北議價資料轉換工作...47 圖4.17 自動化MACRO程式...49 圖4.18 自動化步驟語法編輯...51 圖4.19 自動化排程設定...51 圖4.20 自動化排程重複執行設定...51 圖5.1 流程圖...52 圖5.2 雨量觀測站選擇分佈圖...54 圖5.3 季節性花卉之玫瑰產量分析圖...55 圖5.4 颱風數據整理圖...61 圖5.5 大宗花卉產地供應量概略圖...61 圖5.6 大宗花卉產拍賣量與成交量概略圖...61 圖5.7 颱風特性與大宗花卉轉換數據圖...62 附錄圖1 輸入檔案CP.TXT...102 附錄圖2 輸入檔案BCC.TXT...103 附錄圖3 輸入檔案ITEMS_NAME.TXT...103 附錄圖4 輸出檔案FI.TXT...103 附錄圖5 輸出檔案AR.TXT...104

(11)

表目錄

表1.1 資訊分享與建置年份示意表...6 表2.1 前十名之大宗花卉排序表(2005 年)...12 表2.2 國曆特殊節慶...13 表2.3 農曆特殊節慶...13 表2.4 具有生產季節性花卉主要產品...13 表2.5 強度與近中心最大風速對照轉換表...15 表2.6 颱風強度與近中心最低氣壓之對照轉換表...16 表2.7 颱風七大路徑對應之降雨量程度表...17 表2.8 颱風強度對應近中心最大風速與最低氣壓之對照轉換表...17 表2.9 資料倉儲之四大特性...18 表2.10OLAP 基本十大操作說明表...21 表2.12APRIORI演算步驟說明表...24 表2.13DLG 演算步驟說明表...25 表2.14DHP 演算步驟說明表 ...27 表2.14 關聯性法則之演算法優缺點比較表...28 表3.1 各主機項目命名表...33 表3.2 總倉儲主機負責服務整理表...35 表3.3 總倉儲與各家資料超市維度比較表...37 表3.4 整合對照表...39 表4.1 總倉儲資料轉換程式...40 表4.2 拍賣資料轉換工作步驟表...45 表4.3 訂貨資料轉換工作步驟表...46 表4.4 殘貨資料轉換工作步驟表...47 表4.5 議價資料轉換工作步驟表...48 表4.6COGNOS元件名稱整理表...50 表5.1 颱風對應各家花市休市與總成交量分佈表...53 表5.2 季節性花卉對應大宗花卉對應表...55 表5.3 類別定義與相關項目假設表(上) ...56 表5.4 玫瑰花類別定義與相關項目假設表(中) ...58 表5.5 年份與五大市場資料對應表...58 表5.6 玫瑰花類別定義與相關項目假設表(下) ...59 表5.7 有意義關聯性法則的判斷...60 表5.8 九大颱風特性...60 表5.9 大宗花卉兩大部分剖析...62 表5.10 關聯性法則(六)...64 表5.11 關聯性法則(六)...65 表5.12 關聯性法則(七)...65 表5.13 關聯性法則(八)...66

(12)

表5.14 關聯性法則(九)...66 表5.15 關聯性法則整合表...67 表5.16 關聯性法則花種對應變項分佈表...70 附錄表1 關聯性法則(一)...105 附錄表2 關聯性法則(二)...105 附錄表3 關聯性法則(三)...106 附錄表4 關聯性法則(四)...106 附錄表5 關聯性法則(五)...107

(13)

第一章 緒論

本章的內容共可分成五大部分,其主要目的在於陳述本篇論文的研究目的、動機、方 法與架構。分別為第1.1 節述說研究動機,第 1.2 節闡述問題的界定,第 1.3 節說明研究目 的,第1.4 節分析研究方法,第 1.5 節解說論文架構。

1.1 研究動機

國內生產的花卉以供應國內市場銷售為主,花卉之生產、消費者需透過運銷體系之運 作,使生產者、消費者獲得最大的滿足。然而花卉之運銷體系以批發市場為軸心,擔負花 卉集中、均衡與分散之運銷職能工作。政府農業單位為健全花卉運銷體系,讓花卉產業永 續發展,自民國七十七年起陸續輔導花卉運銷者、生產者、農民團體,分別於台北、台中、 彰化、台南等地興建完成四處花卉批發市場。 每年夏秋兩季之交,由於台灣處在最猛烈熱帶氣旋(Tropical Cyclone)的路徑要衝上, 來自南太平洋西北部和南中國海之颱風時常侵襲本島,導致幾乎每年都要受到它的威脅, 造成河川中下游流域嚴重的水患。有好幾年災情慘重,除了帶來人民喪失生命與失蹤、房 屋的毀損、土壤的流失之外,更嚴重地還導致農漁業相當大的損失,這些都已直接影響到 人民的生存發展。以過去十年天然災害造成農業損失的資料來看,台灣近十年間因天然災 害所致的農業損失金額高達六百八十五億元以上[15],其中僅僅颱風所造成的農業損失金 額就占所有損失金額的70.25%[15](約四百八十一億),由此可見颱風為造成台灣農作物損 失之最主要天然災害。以敏督利颱風農業災情報告指出[14],農業災情估計損失金額約十 四億元以上。花卉因深受敏督利颱風的影響,導致產量降低,如菊花產量減少21%,百合 產量減少8%等。另外,依照「農業天然災害救助辦法」,每一位農民所受到之救助並非與 其受損狀況成比例增加,而是依照目前農委會在實務上的做法。最高的就是果樹和『花 卉』,每一公頃救助3萬元。最低的就是稻作和雜糧,一公頃救助8千元。由上述的花卉產 量減少與救助金額來看,皆可明顯得知颱風對花卉損失比例有其相當大的影響程度存在。 近年來雖然有氣象衛星對颱風的定位,並且有較完整的觀測、記錄、預報及防範措施,使 得因颱風侵襲所引致災害據內政部網站(http://www.moi.gov.tw)統計有些許改善。但颱風仍 是造成台灣地區最主要的氣象災害,如1996年賀伯颱風帶來的豪雨,光僅農產花卉影響部 份就使得農民造成莫大的損失。因此,面臨一項重大的挑戰,就是如何去分析評估颱風對 花卉造成的損害。對於此問題的存在,勢必要對颱風相關特性與花卉作進一步研究。 基於在2002年成功建置世界第一個台北花卉批發市場之花卉產業資料超市(Data Mart, DM)後,成功的經驗使得其他花卉批發市場也紛紛追隨著這資訊化的腳步,陸續完成了彰 化、台中、台南三地之花卉批發市場之資料超市之建置。將每日拍賣作業的交易資料,定 時地將資料轉入所屬的各家資料超市,放置資料在於花卉批發資訊分享熱線(Flower Wholesale Information Sharing Hotline, Flower-WISH)。伴隨著各家資料超市的成熟發展,整 合四家資料超市的資料是必要的,不但各家批發市場資訊可以分享,也帶來整個台灣的花 卉產業經濟莫大的效益。因此使得台灣區花卉總料倉儲(Data Warehouse, DW)因應而生,就 先前而言,已完成整合四家資料超市的資料,初步完成了部份的總資料倉儲之建置。近年 來,為帶動南部花卉產銷經濟力,高雄市政府及行政院農業委員會繼台北、台中、彰化及 台南等地,於高雄市設立全台第五家花卉批發市場,是南台灣最大的內外銷集散中心。高

(14)

雄國際批發市場的設立,造成的各大批發市場的衝擊與競爭無非是一項重大的考驗。因此 再於2006年建立完成高雄資料超市,為了達到將高雄資料超市資料整合先前四家資料超市 資料,故需再次重新做進一步的整合。將原本只建置完成部份總資料倉儲的部份,做最終 之整合與整頓,完成未完成的部分,此為本研究動機之ㄧ。 另外一方面,完全整合建置好的總資料倉儲,在預期上資料下載的效率比針對各家資 料超市下載的效率還要來的提升,因此本研究利用總資料倉儲內的資料,來做資料挖礦技 術的應用。因此將研究颱風特性以減少它對台灣區花卉產業之大宗花卉數量所造成的影 響,此為本研究動機之二。

(15)

1.2 問題界定

整條花卉供應鏈所涉及到的相關決策者大體上可分為三大類別,分別是供應所有種類 花卉的花卉供應人、負責中介買賣花卉的花卉批發市場經營者以及針對花卉有需求者之花 卉承銷人。面對這些不同類型的決策者,其所對於花卉的行情資訊有著不一樣的需求。就 以花卉供應人層面來說,他們希望透過來自不同資訊的傳遞與蒐集來選擇最適合的批發市 場以及所要供應的花卉數量與種類;以花卉批發市場的經營者角度來看,不同前者的是思 考層面上希望市場價格不要高低起伏不穩定以及在於任何情況事件下,殘貨數量的維持與 減少;最後再於花卉承銷人方面當然是希望以最適合且有利的價格來購買品質相當且數量 不差的花卉。

1.2.1 整合 DM 為 DW

以台灣地區花卉供應鏈之所有決策者角度來思考而言,如果能提供更多資訊並能夠分 享其他地區供應鏈的相關情報,則能夠快速提升台灣地區花卉產業間之競爭力,進而促進 台灣經濟的成長。故本論文延用陳家瑜[5]所採用的競箥(R. Kimball)提出的由下而上建置法 (Bottom up),將新建置的高雄資料超市與台北、台中、彰化、台南四家花卉資料超市進行 最後統整程序,並整合出完整的總資料倉儲系統,由於台北、台中、彰化、台南四家超市 已於先前完成並初步整合至總資料倉儲。因此本論文將不會針對此四家花市的部分進行詳 細描述,圖 1.1 為完整總資料倉儲的系統架構。前段虛線框住的區域為本論文所要完成之 部分,將台北、台中、彰化、台南、高雄五家資料超市之資料分別經由資料轉換服務機制, 轉入總資料倉儲,並加入市場別的維度。此將再本論文第三章詳細說明其作法,再者,後 段無虛線框住的區域則為黃俊端同學於同年完成之部分。 圖1.1 完整總資料倉儲系統架構圖 使用者 票據核發 Access Manager LDAP Administrator Ticket Server Power Play Transformer PPES 身份驗證 存取控制 DTS4 總資料 倉儲 多維度資 料模型 OLAP 查詢 台北 資料 超市 彰化 資料 超市 台中 台南 資料 超市 高雄 資料 超市

(16)

1.2.2 探勘颱風與大宗花卉資料

颱風侵襲台灣地區的次數不在少數,每次一來就有一定機率會帶來狂風豪雨,而這些 其實皆為颱風特性;颱風特性大體上分為颱風路徑、颱風雨量、颱風強度、颱風風速、颱 風之最低氣壓等相關特性。這些特性說穿了都是可以作為不同研究方向的出發點,而在此 研究將針對研究所需進而擷取選出所要用到的資訊與數據;另一方面,颱風特性將於第二 章參考文獻做更進一步說明與探究。 將颱風特性相關資訊與花卉資料利用資料探勘技術進行一連串的分析與研究,若得知 颱風侵襲台灣的某些颱風特性,便可進行大宗花卉量的分析。如圖 1.2 所示,本論文在第 五章部分將利用總資料倉儲內的花卉資料,與颱風相關特性運用資料探勘技術進行階段性 的研究。 在 眾 多 資 料 探 勘 模 式 之 中 , 可 以 將 這 些 研 究 歸 類 出 以 下 五 種 模 式 [11] : 歸 類 Classification) 、 分 群 (Clustering) 、 回 歸 (Regression) 、 關 聯 (Association) 和 時 間 序 列 (Sequence),以下將針對資料的探勘進行概略說明。 1. 歸類(Classification):根據「一些」變數的數值進行計算,然後依照計算的結果將 資料分類於幾個離散的數值當中。例如企業可以根據客戶的收入、消費金額、年 齡等資料進行分析,然後將顧客群分類為主力消費群或是次要消費群。 2. 分群(Clustering):將資料依照特性的「相似度」進行自然的分組,然後找出群組 間的相異以及群組內的相似之處。 3. 回歸(Regression):在過去「連續性」的資料屬性下,此模式利用過去一系列的數 值來預估一個連續數值的可能性。 4. 時間序列(Time series):利用「現有數值」資料來預測將來可能的數值。此數值會 有時間先後發生的順序,並且具有時間的階層性,例如每個月、每個季節、或者 是某些假日等。 5. 關聯(Association):是要找出某些事件同時發生的關聯性。例如颱風強度為中度颱 風同時大宗花卉-玫瑰之當天四大市場拍賣量的比較(台北>彰化>台中>台南)。 本研究所要分析的變數(變項),基本上超過45種以上。因此「分類」與「分群」此兩 種模式的資料探勘可能會造成無法有效分析資料,並且變項中不只包含數值面(最大風速、 降雨量、移動速度等),還有包含文字面(近節慶區段、移動路徑、移動方向等)。如此一來, 將無法進行數值運算。由於侵台颱風之日並非連續性的資料,如果用來分析侵台颱風這種 間斷性資料(停留天數、近節慶個數、最短之近節慶天數等),必定有其無法預測的困難度 存在。同樣地,以時間數列來說,侵颱颱風移動路徑並非數值型,故與回歸有著同樣預測 的難度,也是不可行的。因此,本研究將選擇關聯性法則進行颱風對大宗花卉影響的一連 串分析。由於颱風相關資料與資料倉儲中的大宗花卉是屬於兩種不同類型的資料,因此需 要進行階段性關聯分析。加上資料倉儲的資料當中存在一些很難分析的變相存在(休市、節 慶等),所以採用關聯性法則來分析颱風對大宗花卉影響比較適合。故再此研究將不會針對 其他四種模式予以深入探討之。 在一般的情況下,關聯法則的探勘方式是採用透過項目組合的方式,然後不斷檢查掃 瞄資料,來判斷項目之間的關聯性。如此可以將颱風特性變相與大宗花卉量變項透過項目

(17)

組合的方式正確產生有用的結果,加上資料倉儲資料只有1996年至2007年。故對應侵台颱 風相關資料時,可用資料倉儲資料只剩1996年至2005年。接著以各大花卉批發市場作為變 項時,資料則會變的更少、更複雜、更加難以分析。 不過隨著「資料量」不斷成長,「資料變項」的增加,電腦系統掃瞄資料的工作的負 擔也會越加沈重,導致每次探勘都必須耗費越來越冗長的時間,才能完成工作。因此近年 來不斷有研究聚焦在面對關聯法則探勘效率的議題。利用不同的資料結構以及不同的項目 關聯檢查機制,期望能夠有效改善探勘效率,並防止減少探勘效能的降低。 圖1.2 關聯性法則方法與界定

1.2.3 大宗花卉為研究範圍

花卉種類數百種,有些花卉產量少而且不受歡迎,因此拿來做分析,並非是一項很好 的選擇。基於以所要分析花卉為考量點。故本次研究指定大宗花卉所限定的花卉種類範圍 來進行深入分析,將由文獻探討2.1 節之 2.1.2 節清楚定義大宗花卉與選定之相關花卉種類 範圍。 總資料倉儲 主關聯性法則 分析 花卉資 料 ( 大宗花卉 ) 建立關聯性法則 颱風特性 颱風路徑 颱風雨量 颱風強度 颱風低氣壓 高雄 台南 台中 彰化 台北 資料 探勘 關聯 法則

(18)

1.3 研究目的

本研究的主要目的之一,在於將新設立的高雄國際批發市場所建置的高雄資料超市, 予以向上整合先前已建置好的台北、彰化、台中、台南四家花卉資料超市,使之成為最為 完整的總資料倉儲。讓五條花卉供應鏈的決策者能夠整合五家花市的資訊,做最理想最完 善的優良決策,基於機密與私密性資料的分類與控制,達到各類決策者無法間接侵犯到其 他決策者之權益。如此一來,不但使得台灣區的花卉批發產業能夠增加整體經濟效益也能 生生不息,永續經營下去。表 1.1 為最終總倉儲建置完成後,資訊的分享情形與完成建置 年份整理。 表1.1 資訊分享與建置年份示意表[4] 超市與倉儲 決策者 台北資 料超市 台中資 料超市 彰化資 料超市 台南資 料超市 總倉儲 高雄資 料超市 總倉儲 台北花市 ◎ ◎ 台中花市 ◎ ◎ 彰化花市 ◎ ◎ 台南花市 ◎ ◎ 高雄花市 ◎ ◎ 完成建置年份 2002 年 2003 年 2004 年 2004 年 2005 年 2006 年 2006 年 近年來颱風的大肆侵襲,造成農產花卉業相當大的損失。會造成如此大的影響,主要 是基於颱風特性的考量因素,其主要分為幾大部分,颱風路徑、颱風強度等。配合利用總 資料倉儲來下載相關花卉資料。相對於分別由各資料超市下載資料還要來的快速,然後將 颱風特性與花卉資料利用資料探勘技術,有效率的分析資料中所隱藏的訊息以供未來颱風 來襲前之預測準則,此為本研究之主要目的之二。 基於以上種種解說與探討,本研究將針對以下幾個問題提出解決方法與方針: 1. 將最新建置完成的高雄花卉資料超市與先前四家花卉資料超市做最終整合,並 完成建置總資料倉儲系統後半部份的工作。 2. 利用颱風特性之相關變數運用資料探勘技術分析颱風對花卉的影響。

(19)

1.4 研究流程

本論文的實施步驟與研究方法如圖1.3 研究示意流程圖所示: 1. 業界訪談:先前訪談對象已針對台北、台中、彰化、台南四家花卉批發市場管理經營 者,評估確認有其總資料倉儲需求之必要性,藉以初步整合四家資料超市之資料;此 次訪談對象則針對新設立之高雄批發市場,透過直接訪談及當面溝通的過程中,了解 到總倉儲再次的需求,因此重新針對五家資料超市的系統架構做一番解析,並再次整 合各家資料超市之資料。 2. 問題界定與分析:分析歷年颱風各種特性對於大宗花卉數量的影響力以及針對颱風資 訊情報進行有用的運銷決策。 3. 文獻回顧:參考相關文獻如資料倉儲、颱風特性分析、關聯性法則等,作為日後之研 究理論基礎、系統基本架構及研究方法的依據。 4. 倉儲系統設計與實作:利用以前所發現並運用在花卉相關資訊所發展出的資料倉儲系 統理論基礎架構,修改先前未完成部份。將新增的第五家資料超市予以整合,實作完 整台灣區花卉資料倉儲系統。 5. 關聯性法則:利用近幾年在於台灣地區所發生之颱風情報,配合花卉業務情報網之資 料蒐集,找尋颱風對於大宗花卉之影響,分析並建立關聯性法則。 圖1.3 研究流程圖 業界訪談 問題界定與分析 文獻回顧 倉儲系統設計與實作 關聯性法則 台中花卉批發市場 台北花卉批發市場 花卉運銷決策 資料轉換服務 資料倉儲架構理論 關聯性法則理論 線上分析處理 花卉產業概況 資訊分享需求 整合各家花市資訊 分析預測工具 彰化花卉批發市場 台南花卉批發市場 高雄花卉批發市場 颱風特性解析

(20)

在關聯性法則部份,資料來源取決於總資料倉儲,基於下載總倉儲資料比個別下載各 家資料超市資料還要來的有效率而且更省時。另一方面,在於分析過程中,首要使用初步 關聯性法則從歷年颱風各種特性中找出颱風相關資訊情報強關聯規則(Strong Rule),並同時 做驗證。再來進行本研究重心的關聯性法則針對颱風特性與大宗花卉量的相關項目予以分 析,建立關聯性法則找出並分析颱風對大宗花卉之影響。

(21)

1.5 論文架構

本論文的內容編排如下: 第一章:緒論—說明本論文之研究動機、問題界定、研究目的以及研究方法。 第二章:文獻回顧—包含資料倉儲的基本觀念與架構、颱風特性、關聯性法則演算法之相 關理論。 第三章:總資料倉儲資料整合實作—先介紹總資料倉儲之系統基礎架構,接著再將高雄資 料超市與先前整合好四家資料超市之資料做整合前之確認與剖析,共同利用資料 轉換服務(1)轉入總資料倉儲系統內。 第四章:總資料倉儲資料轉換實作—將整合完成之五家資料超市資料進行資料轉換(2)與自 動化排程建置。 第五章:關聯性法則—針對歷年颱風情報進行初步關聯性法則分析,再將颱風特性與花卉 相關資料整合進行本研究重心的關聯性法則,以提供未來評估決策依據。 第六章:結論、建議與未來研究方向。

(22)

第二章 文獻回顧

本章主要的目的在於回顧資料倉儲的基礎理論與建構模式,並介紹關於花卉產業相關 認知與颱風本身之特性分析、關聯性法則 APRIORI 演算法之理論基礎等相關文獻。本章共 分為四節,第 2.1 節為花卉產業、節慶之相關介紹;第 2.2 節探討颱風幾大特性分析的相 關介紹;第 2.3 節介紹資料倉儲的相關理論基礎與技術及線上分析處理的基本操作步驟; 第2.4 節說明計量方法:關聯性法則相關理論。

2.1 花卉產業介紹

花卉一詞依據我國古老文獻,花卉二字的花是指近似花瓣的苞葉,卉字是指具有欣賞 價值的葉片和木本植物,所以花卉二字應包括所有具有觀賞價值的草本或木本植物在內。 而現代所謂之花卉,乃是指除花朵外,其莖、葉、果等部份均可加以利用的植物。而依據 台灣省政府農林廳出版之「台灣農業年報」,將花卉分成切花(cut flower)、盆花(potted flower)、球根(bulbs)、苗圃(nurseries)、種籽(herbaceous flower seed)等五大類,因此所謂花 卉產業(flower industry)就是以這五類花卉為主要經營範圍的產業。 其中切花係指專為剪取花朵或枝葉供插花、花束、花籃、花圈等應用者,目前為台灣 產量最大用途最廣的花卉。本節主要分成三小節,為了初步了解花卉產地分布,因此於第 2.1.1 節解說位在台灣各地區分布切花種類的產地;由於大宗花卉所受影響,故於第 2.1.2 節解釋大宗花卉大體上明確的定義;第2.1.3 節闡述花卉受節慶的影響。

2.1.1 花卉切花種類之產地

台灣地區切花類花卉主要的生產地區,均集中在中南部,尤其以台中縣、彰化縣、南 投縣、嘉義縣、台南縣、高雄縣以及屏東縣等為主要生產地區。總種植面積占全省切花類 種植面積95%以上,國產切花產地分佈如圖 2.1 所示。 圖2.1 國產切花產業分布圖[19]

(23)

在於眾多花卉種類當中,就其針對菊花花卉產地為例,說明菊花每年所有產地之總產 量與各地產量之比較,其說明如下。 近幾年以來,在於菊花的所有產地總產量有明顯的逐年下降的趨勢如圖2.2 所示。92 年較91 年總產量少掉將近 5000(千打)的總產量值,接下來於 92 年與 93 年之間緩和了下降 的速度,直到94 年又逐漸減少約 5000(千打)總產量值,由此可知菊花每年總產量的成長趨 勢呈現負成長情形。 31,680 26,731 26,368 21,863 0 5,000 10,000 15,000 20,000 25,000 30,000 35,000 91年 92年 93年 94年 年份 總產量(千打) 菊花 圖2.2 菊花每年所有產地總產量比較圖 針對菊花負成長的趨勢,故在此深入探究台灣各個菊花產地產量值,並以 94 年菊花 的各產地產量呈現如圖 2.3 所示。由圖 2.3 可明顯看出彰化縣產地產量高於其他任何一個 縣市產地量,除了彰化縣以外的縣市產量加總,其總量還不到彰化縣產量的10%。 94年菊花各產地產量 20379 712 151 138 135 104 92 78 30 18 11 7 5 4 0 5000 10000 15000 20000 25000 彰 化 縣 雲 林 縣 南 投 縣 屏 東 縣 高 雄 縣 嘉 義 縣 嘉 義 市 台 中 市 台 南 縣 新 竹 縣 花 蓮 縣 台 南 市 台 中 縣 高 雄 市 產地 產量 菊花 圖2.3 菊花每年各產地產量比較圖

2.1.2 大宗花卉

大宗花卉[3]就是交易量排名順位比其他花卉還要領先,且少樣多量。在於訂單量也有 一定程度以及在於所有花卉種類而言,不管針對數量或者是價格為考量出發點,予以前10 或前 20 名的名次所排序出來的花卉結果稱之。相對於供給、需求量也就非常龐大。換而 言之,消費者都能購買到的花種,也是買家最常最普遍喜歡的種類,不但最受歡迎,而且 在於各種禮儀場合中也適用。其大宗花卉如菊花(大菊、小菊)、玫瑰、香水(葵)百合、康乃 馨中輪、劍蘭、火鶴花、非洲菊、洋桔梗十種(如表 2.1 所示)。然而花卉價位有高價高檔花 卉、中高檔花卉以及低檔平價容易購買到的「大宗花卉」。

(24)

表2.1 前十名之大宗花卉排序表(2005 年) 排序 花卉名稱 總成交量(把) 1 火鶴花 98,442,563 2 小菊 91,489,375 3 香水百合 59,340,994 4 大菊 56,034,178 5 玫瑰 53,949,723 6 非洲菊 43,952,297 7 劍蘭 28,380,092 8 葵百合 26,042,755 9 康乃馨中輪 19,378,977 10 洋桔梗 11,346,182

2.1.3 花卉種類與節慶

花卉種類易受到節慶的影響,尤其是在於節慶前後幾天的間隔天數影響最為深遠。如 圖 2.4 可以得知在 2003 年 2 月 14 日情人節將至的前幾天,圖形顯示出在於 2003 年 2 月 10 日此一時點,玫瑰花的需求量就會開始慢慢有了提升的現象。也就是說,靠近節慶前 3~5 天這幾天為需求量之上升變化期。接著,依據花卉拍賣業者所累積之經驗指出,大約 在節慶的前2~3 天範圍左右時,玫瑰花的需求量則會達到最高峰的狀態。這與總倉儲所顯 示的資料一致且吻合,到了情人節當天,需求量也就會慢慢地穩定下來,這也就得知玫瑰 花為情人節節日中最具代表意義的象徵物。 節慶對應花卉[18],如何選擇適合的花卉,讓過節過的更加有意義是一件相當重要的 事。相對的,對於研究花卉節慶之間的關係也就會更加明確,讓預測更加準確,如表2.2、 表 2.3 所示。再者,生產季節性的花卉種類,隨季節性的變化,花卉產量也因此而上升或 下降,如表2.4 解說之。 圖2.4 2003 年玫瑰花之總成交量變化趨勢圖

(25)

表2.2 國曆特殊節慶 編號 國曆日期 節日名稱 節慶對應花卉 1 1 月 1 日 開國紀念日 無特定花種 2 2 月 14 日 西洋情人節 玫瑰、百合、鬱金香、海芋 3 3 月 14 日 白色情人節 玫瑰、百合、鬱金香、海芋 4 4 月 5 日 清明節 劍蘭、菊花、百合、海芋 5 5 月 8 日 母親節 康乃馨 6 8 月 8 日 父親節 非洲菊、向日葵、石斛蘭 7 9 月 28 日 教師節 無特定花種 8 10 月 10 日 國慶紀念日 無特定花種 9 12 月 25 日 聖誕節 聖誕紅 表2.3 農曆特殊節慶 編號 農曆日期 節日名稱 編號 農曆日期 節日名稱 1 1 月 1 日 農曆春節 11 6 月 23 日 關公生 2 1 月 9 日 天公生 12 7 月 7 日 七夕中國情人節 3 1 月 15 日 元宵節 13 7 月 15 日 中元節 4 2 月 2 日 土地公生 14 8 月 15 日 中秋節 5 2 月 19 日 觀音生 15 9 月 9 日 重陽節 6 3 月 3 日 三日節 16 9 月 19 日 觀音出家 7 3 月 23 日 媽祖生 17 12 月 16 日 尾牙 8 4 月 8 日 浴佛節 18 12 月 24 日 送神 9 5 月 5 日 端午節 10 6 月 19 日 觀音得道 農曆節慶適用花卉無特定花種 (七夕中國情人節是用玫瑰花) 表2.4 具有生產季節性花卉主要產品 季節 月份 花卉1 花卉2 2 月 金魚草 玫瑰花 3 月 非洲菊 玫瑰花 春 4 月 洋桔梗 5 月 康乃馨 海芋 6 月 火鶴花 滿天星 夏 7 月 星辰花 向日葵 8 月 薑荷花 9 月 文心蘭 秋 10 月 夜來香 11 月 百合 12 月 唐菖蒲 冬 1 月 鬱金香

(26)

2.2 颱風特性分析

西太平洋的颱風多半都發生在菲律賓以東的海上,如加羅林群島(Karolinen)等地。這 些地方都是在北緯十度左右,也就是在東北信風帶內,同時太平洋上在夏季經常有高氣 壓,颱風形成後便跟隨高氣壓環流向西至西北進行。有時也會走西北或更偏向北的路線, 端視當時颱風周圍氣流方向而定。一般常是指向臺灣的方向,當颱風漸漸進行到北緯二十 至三十度之間後,已到高氣壓的邊緣,而漸轉向北進入西風帶,受西風帶影響轉向東北。 菲律賓、臺灣、琉球、日本等地,因在颱風必經之路附近,故常受颱風的侵襲而發生災害。 據中央氣象局[16]統計熱帶氣旋可知颱風生成的條件有五大特性: (1).表面溫度達攝氏 26 度(也有 26.5 度及 27 度的說法)以上的廣大溫暖海域,才能提供充 足的水汽蒸發。(2).須在南北緯五度以下的地區,因為在此地球自轉偏向力(科氏力)才大得 足以使氣流形成氣旋。(3).高低層的大氣之間的風速不能高相差太大才不致將已發展的積雲 吹散,如果沒有發展足夠的積雲,熱帶氣旋不會產生。(4).氣柱內明顯地不穩定或表面氣壓 相對較低,並且通常在其上方有一反氣旋。(5).其他特性如近中心『最大風速』達到或大於 33m/s、『最低氣壓』達到或小於 980mb。 經由上述對於颱風特性的認知,得知颱風特性之多,並非在短時間就可以弄清楚的。 所以為了能夠更清楚地了解每種颱風特性,故針對颱風路徑、降雨量、強度、近中心最大 風速、移動速度、近中心最低氣壓六大特性做進一步分析與解說。 本節主要分成四小節,第2.3.1 節說明颱風路徑與降雨量的關係;第 2.3.2 節述說颱風 強度與近中心最大風速的特性轉換;第2.3.3 節解說颱風移動速度;第 2.3.4 節闡述颱風強 度與近中心最低氣壓的相關。

2.2.1 颱風路徑與降雨量

颱風侵襲常會帶來豪雨,但即使是同樣路徑與強度的颱風,降雨量亦可能大不相同。 颱風降雨量的多寡須視路徑、強度、水汽含量、雲雨分布、地形、移動速度等而定。根據 路徑分析[16],各地降雨情況可歸納出下面七種情形: 1. 第一類路徑:『通過台灣北部或北部海上,向西或西北進行者。』颱風的降雨以北 部地區最嚴重,中部山區雨量亦多。如當時大陸上有高氣壓南下,更能增強雨勢, 常導致北部的大水災。 2. 第二類路徑:『穿過本省中部,向西或西北進行者。』颱風在登陸前,北部及東部 地區雨勢較強,穿過本省中部後,南部因西南風吹入導致雨勢增強,但以中南部 山區雨勢最烈,尤以阿里山地區為最嚴重。 3. 第三類路徑:『通過台灣南部或南部海上,向西或西北進行者。』颱風從台灣南端 通過,除東部雨量較多之外,其他地區雨量不多。 4. 第四類路徑:『沿東岸或東部海上北上者。』颱風沿東岸或東方海面北上,以東部 降雨最多,有時北部及東北部亦有較強雨勢。 5. 第五、六類路徑:『沿西岸或台灣海峽北上者以及通過中南部,再向東北出海者。』 颱風對西南部及東南部影響較大,雨量最多雨勢亦強烈,東部、北部及東北部雨 量不多。 6. 第 7 類路徑:為不屬於以上六類之特殊路徑者。

(27)

以上所描述之七類路徑可以由圖 2.5[16]清楚看出其分布情形: 圖2.5 颱風路徑分類圖[16]

2.2.2 颱風強度與近中心最大風速

颱風強度由強至弱可分為超級強烈颱風、強烈颱風、中度颱風、輕度颱風及熱帶低壓 五種強度類型如表 2.5 所示。但是一般來說都只會分成強烈颱風、中度颱風、輕度颱風三 種主要強度類型。一般人通常誤以為以肉眼所見外圍環流大小區分颱風強度,其實應該以 近颱風中心附近最大平均風速來劃分才有其真正價值[17]。相對的,依颱風近中心最大風 速來區別,其包括平均風速和瞬間最大陣風,兩者相差可達一、二倍之多。另一方面,近 中心最大風速如果越大,則所產生的破壞也就相對的越大,甚至會發生山洪暴發、河水暴 漲,淹水等問題。 表2.5 強度與近中心最大風速對照轉換表 近中心最大風速 颱風強度類型 公尺/秒 海浬/時 風級 熱帶低壓 17.2 以下 34 以下 8 級以下 輕度颱風 17.2~32.6 34~63 8 級~11 級 中度颱風 32.7~50.9 64~99 12 級~15 級 強烈颱風 51.0~66.9 100~129 16 級~19 級 超級強烈颱風 67 以上 130 以上 20 級以上 1 2 3 4 7 5 6 第一類路徑 第二類路徑 第三類路徑 第四類路徑 第五類路徑 第六類路徑 第七類路徑

(28)

2.2.3 颱風移動速度

移動速度意指颱風中心移動的速度。由於颱風移動速度的快慢會直接的影響颱風對於 所在位置的災害程度,故將颱風移動速之研究列入考慮。假設地球為球形,且時間間隔二 十四小時之兩點經緯度已知,則移動速度V 的定義如下[6]:

(

)

(

)

[

6371 cos 1 sin 1sin 2 cos 1cos 2cos 2 1

]

24 1 × φ φ + φ φ λ λ = − V 其中 φ 、1 φ :時間間隔二十四小時之兩緯度點 2 λ 、1 λ :時間間隔二十四小時之兩經度點 2 地球的半徑:7371(單位:km) 移動速度:V (km/hr)

2.2.4 颱風強度與近中心最低氣壓

目前颱風中心最低氣壓的高低是根據衛星雲圖決定最大風速,再由經驗公式換算而 來。由此可知中心最低氣壓與中心最高風力並非絕對的線性關係。過去根據飛機觀測顯 示,兩個颱風的最低氣壓一樣,而最大風速卻並非亦完全相同。相對的,當一個熱帶氣旋 有相當低的氣壓時,都是集中在中心形成強烈的氣壓梯度的,這其實是一般熱帶氣旋的特 性。因此一個熱帶氣旋氣壓極低時可以推論風力亦強,這在大部份情況都會成立。 基於颱風分級的標準各家說法皆無一定共識,故在眾多分級的方法中進而選擇其中一 個由香港熱帶氣旋追擊站(http://hktciw.uhome.net/)所定義的標準,如表 2.6[6]所示: 表2.6 颱風強度與近中心最低氣壓之對照轉換表 颱風類型 颱風強度(對應) 近中心最低氣壓(mb) 一級颱風 熱帶低壓 P > 980 二級颱風 輕度颱風 980≧P > 965 三級颱風 中度颱風 965≧P > 945 四級颱風 強烈颱風 945≧P > 920 五級颱風 超級強烈颱風 P≦920

2.2.5 小結

綜合以上所有颱風特性之解析與探討,了解到單從單一颱風特性進行一連串分析是無 法從中獲得有用的資訊。必須找到其所互相對應的颱風特性,如此一來,在於研究颱風特 性層面上,才有一定程度上的價值。如颱風七大路徑對應之降雨量而言,每當颱風侵襲台 灣時,相對的,一定順勢帶來大風大雨。因此,也就產生了一個有價值的資訊,那就是針 對哪些颱風路徑導致台灣哪部份雨量最多最為嚴重,故在此為了更清楚了解其關係,所以 進一步整理在表2.7所示:

(29)

表2.7 颱風七大路徑對應之降雨量程度表 降雨量 颱風路徑 北部地區 東部地區 中部地區 南部地區 (西南與東南) 降雨量偵測點 第一類路徑 ◎ □ △ □ 北部 第二類路徑 ◎ ◎ ◎ ◎ 全部 第三類路徑 □ ◎ □ □ 東部 第四類路徑 △ ◎ □ □ 東部 第五類路徑 □ □ □ ◎ 南部 第六類路徑 □ □ □ ◎ 南部 第七類路徑 ◎ 降雨大且嚴重 △ 降雨適中 □ 降雨不大 由表2.7可以清楚得知,每種颱風路徑所對應之台灣地區降雨量的程度。對其降雨程度 大小,在此可以選定所要偵測降雨量的點,可分為北部、東部與南部。再者,也可以進一 步將相似路徑予以整合並合併之,例如第三類路徑與第四類路徑可以歸納成同一類。同樣 地,第五類路徑與第六類路徑也可以歸納成另一類,因此七類颱風路徑也就可以縮減成三 到四類左右(第七類路徑可以忽略不管、第二類路徑可以依照不同要求,給定所要針對的降 雨量偵測點)。如此縮減動作,不但可以減少分析之維度數,也可以更容易拿來進行一連串 的研究依據。 接者,颱風特性去掉上述所探討的颱風路徑與降雨量之後,剩下颱風強度、颱風近中 心最大風速、颱風風速及颱風近中心最低氣壓四種。其中颱風風速尚未有其對應的颱風特 性,本身又為數值型資料,故在此不予探討。颱風強度對應颱風近中心最大風速,另一方 面,颱風強度又對應颱風近中心最低氣壓,故可以選擇颱風近中心最大風速或颱風近中心 最低氣壓來取代颱風強度(如表2.8所示)以方便計算。 表2.8 颱風強度對應近中心最大風速與最低氣壓之對照轉換表 近中心最大風速與最低氣壓 颱風強度類型 公尺/秒 海浬/時 近中心最低氣壓(mb) 熱帶低壓 17.2 以下 34 以下 P > 980 輕度颱風 17.2~32.6 34~63 980≧P > 965 中度颱風 32.7~50.9 64~99 965≧P > 945 強烈颱風 51.0~66.9 100~129 945≧P > 920 超級強烈颱風 67 以上 130 以上 P≦920 表2.8顯示出近中心最大風速或最低氣壓兩者皆可以取代颱風強度。由於此兩者皆為數 值型資料,因此有效取代颱風強度有利於在做資料分析時,數值型資料能夠更接近真實, 更方便做分析。

(30)

2.3 資料倉儲

伴隨著電腦及資訊科技的時代來臨與進步的快速,早期一般所使用傳統的關聯式資料 庫已經無法滿足大多數的使用者。人們對於資訊的需求不停高漲,需要的是更加快速且具 有彈性與多元化的資料分析。單憑藉著以往的資料庫技術來進行大量資料分析已不敷使 用,資料倉儲也因應此背景的需求而誕生於世。資料倉儲能夠運用的範圍非常廣泛,不但 能夠透過擷取與清理分散於不同地區及不同環境下的資料庫資料,而且還可以對資料庫資 料進行轉換與整合,將資料儲存在資料倉儲內,以供未來做決策之用。 在 1990 年代,殷默(B. Inmon)提出「資料倉儲」一詞,並於兩年後的 1992 年定義資 料倉儲是具有主題導向(Subject-oriented)、整合性(Integrated)、隨時間變化(Time-Variant)及 非揮發性(Non-Volatile)四種特性之資料庫[20]。此四種特性簡單敘述如表 2.9 所示。 表2.9 資料倉儲之四大特性 特性 內容簡述 主題導向 資料倉儲是基於分析特定的主題上而建立的,所有與主題無關的資料皆會被 刪除。例如高雄花卉批發市場所建立的資料倉儲,是以在高雄拍賣的花卉銷 售為主,事實上並不會存在高雄以外的拍賣資料 整合性 於資料倉儲內的資料都須具有一定相當程度的整合性,主要是整合企業中可 能同時存在的多個資料庫,並且跨越不同的平台,透過資料轉換過程機制, 使欄位顯示名稱、編碼表示方式、日期時間形式等相關主題屬性使之具有一 致性的格式。 隨時間變化 當新資料被增加儲存進日常的作業系統中,基於維持資料倉儲的可用性,因 此須在某些特定的時間點到作業系統中擷取新資料,如此一來方可確保資料 它的資料是最具時效性的。 非揮發性 資料一旦被新增儲存至資料倉儲之後,便難以被作任何更動,只會被使用者 查詢,因此它具有唯讀和累積的性質。 本節主要分成兩小節,第 2.3.1 節說明資料倉儲的建構模式;第 2.3.2 節介紹線上分析 處理的模式基礎。

2.3.1 資料倉儲的建構模式

在 1990 年殷默提出由上而下(Top-down)的資料倉儲建立模式之後,接著競箥又於 1996 年提出由下而上(Bottom-up)的建構方法[20]。換句話說,前者所主張由上而下法,主要是 建立在以企業資料倉儲為頂點概念下的一種傳統關聯式資料庫工具,向下分支延伸擴展至 不同部門類型所屬的資料庫,讓決策上的需求能夠獲得最大的滿足。然而競箥所提倡的由 下而上法[23][22],簡單的來說,是針對各種不同的商業程序來建立其所屬的資料超市(Data Mart),並藉由資料通道(Data bus)及制式化維度(Conformed Dimensions)的相關概念,將下 層所有資料超市利用最有效率的方式集結成為一個主要的總資料倉儲。由於花卉資料倉儲 概念建立在由下而上的建置方式,故以下只針對兩種資料倉儲建構之其中一種競箥模式詳 述其內容。

(31)

競箥模式:

競箥的資料倉儲模式架構主要是以維度資料建模法(Dimensional Data Modeling)來建 置出資料倉儲。然而,於維度資料建模法中,它採用資料表來做為建構模式的基礎,而非 運用以往傳統式的實體關聯圖。在競箥模型中,其資料表之構成要素包含事物表(Fact Table) 及維度資料表(Dimensional Table)。 事物表內所存放的資料列是大量且不允許重覆的。歷史資料往往都成千上萬筆,較少 的欄位,且只有部分為了做為關聯索引所必須利用文字資料呈現外,大部分的資料皆為數 值型態。另外,表內存在一定需求對應之維度資料表所作為關連的外鍵(Foreign Key)。屬 於靜態資料內容,一經載入之後便不能再做任何異動修改動作。然而維度資料表相較於事 物表之間差異程度上,僅上百或上千筆資料其資料量極小,表內擁有較多的欄位,且大部 份皆為文字型態。將所有於事物表內資料的屬性皆儲存在維度資料表內,有效率並有彈性 的管理維度內之階層關係,屬於動態資料型態與修改異動是被允許的。 緊接著,競箥的維度資料模型依其所屬結構之不同可進一步區分成三種主要的綱要: 分別為圖2.6 的星狀綱要(Star Schema)、圖 2.7 的雪花綱要(Snowflake Schema)、圖 2.8 的星 座綱要(Fact Constellation Schema)[12]。

圖2.6 星狀綱要圖 星狀綱要圖是大部分最多人所會採用的多維度模型。它主要是以事物表及多個維度資 料表所組合而成,以事物表為中心並由多個相關的維度資料表環繞著,其形狀有如星形。 圖2.6 為星狀綱要示意圖。而第二種綱要圖由於結構形狀像似雪花的結晶體,所以稱之為 雪花綱要圖。圖 2.7 為雪花網要之示意圖。可為星狀綱要圖的延伸或者是變化,因為事實 表格的資料來源有可能是來自企業已存在的作業型資料庫,而這些資料庫當初或許是以正 規劃的議題所規劃出的結構,為了達成企業關心主題的查詢目的。因此在某個維度下再次 建立其維度的延伸維度,以符合企業目的。 星狀綱要圖與雪花星狀綱要圖類似但經仔細分析與研究,發現與雪花是綱要圖最主要 不同的地方在於: 1. 星狀綱要圖的結構較於簡潔查詢效率比雪花綱要圖好。 2. 雪花綱要圖比較接近正規劃資料庫格式,所以轉換成本來說相對的就會比星狀綱 事物表 (Fact Table) 維度資料表 (Dimension Table) 維度資料表 (Dimension Table) 維度資料表 (Dimension Table) 維度資料表 (Dimension Table) 維度資料表 (Dimension Table) 維度資料表 (Dimension Table)

(32)

要還要來的低。 而應用層面來說則是必須視主題的複雜度及轉換成本加以考量,並無哪種綱要圖比較 好的說法。不過當事實表格的資料是需要做加總或是其他轉換運算後資料,則必須規劃在 最接近事實表格的維度以利轉換處理。 圖2.7 雪花綱要圖 第三種綱要架構它是由多個不同的事實表格去分享所有可能用到的各種維度,一個事 實表格可以想像成是為了達成某個企業關心的主題所設計出來的表格。當這些事實表格所 需分析的維度有被共用時,就可以用此種綱要來表示。換言之,這種可以看成是數個星狀 式 綱 要 的 結 合 方 式 , 有 人 亦 稱 為 星 系 綱 要(Galaxy Schema) 或 是 事 實 星 座 (Fact Constellation),統稱為星座綱要圖(Fact Constellation Schema)。如圖 2.8 所示。

圖2.8 星座綱要圖 競箥模式之資料倉儲建構概念是由下往上的方式,基於單一的商業流程立足點因而建 事物表 (Fact Table) 維度資料表 (Dimension Table) 維度資料表 (Dimension Table) 維度資料表 (Dimension Table) 維度資料表 (Dimension Table) 維度資料表 (Dimension Table) 維度資料表 (Dimension Table) 維度資料表 (Dimension Table) 維度資料表 (Dimension Table) 維度資料表 (Dimension Table) 事物表 (Fact Table) 維度資料表 (Dimension Table) 維度資料表 (Dimension Table) 維度資料表 (Dimension Table) 維度資料表 (Dimension Table) 維度資料表 (Dimension Table) 事物表 (Fact Table) 維度資料表 (Dimension Table) 維度資料表 (Dimension Table) 維度資料表 (Dimension Table)

(33)

立一個資料倉儲,競箥將此種架構的資料倉儲稱之為資料超市。對許多企業組織而言,其 內部同時包含多個商業流程可能性很高。因此在建置資料倉儲的過程中,需要針對每個不 同商業流程建立所屬的資料超市,爾後再將這些數個資料超市利用最有效率的方式進行向 上整合出一個整體的資料倉儲。 競箥建議最好一次建置單一個資料超市的方式做考量為其發展方法論,並針對單一個 資料超市的建構,分別提出四個維度化設計之流程步驟。即(1).選擇商業流程:競箥賦與商 業流程非常廣泛的定義,其定義可能包含有零售的銷售點、存貨、訂單等。故建議選擇一 個最有影響力的流程作為資料倉儲的首要商業程序的依據,其最有影響力在這裡是指當選 擇此流程對於最迫切的商業問題可以被順利解決。(2).定義資料細度:定義資料細度在此可 以解釋為決定資料倉儲中所包含資料詳細程度的流程。另外最為底層且詳細的資料細度稱 為原子(Atomic),也就表示不能再被細部分割的資料。針對如何才能選擇出最適當的資料 細度是非常重要的一門學問,因為不適當的選擇資料細度,會影響資料倉儲的使用者對於 資料分析上受到非常大的限制,例如某資料倉儲內僅包含每月資料而受限於缺少每月的資 料。(3).選擇維度:完成資料細度的定義後,接下來將選擇適當的維度資料表。在於大量的 屬性維度資料表內,它主要提供使用者進行更多面向的資料查詢。(4).確認事物表中的衡量 值:在於流程的最後一步則是決定事物表中的衡量值。衡量值的選擇對於系統開發者而 言,不僅具有更多的查詢結果同樣地也決定了資料倉儲系統的效能。 以競箥所提倡的維度資料建模法來說,把資料表作為其架構,其主要包含事物表及維 度資料表兩個基本組成要素。另外,競箥重視於流程導向的資料模式,嘗試地去找尋不同 商業流程間存在的交互作用。換而言之,就是找到資料倉儲中重要的衡量值(Measures)與 屬性(Dimensions)。選擇建構一個競箥模式的資料倉儲,花的時間也就比較少,效率也就相 對提升。

2.3.2 線上分析處理

在1993 年 Codd E.F 提出線上分析處理(On-Line Analytical Processing, OLAP)的概念 [13][10],簡單的來說,它是一種應用程式有著能夠直接存取資料倉儲且本身具有資料分析 的功能,而非僅僅只是作為報表工具的替代品。超方體(Cube)為資料倉儲裡資料的表示型 態,使用者透過線上分析處理機制對維度及衡量值進行操作,則可以對資料做適當的加值 應用,藉此獲得一定程度的資訊需求。 線上分析處理的基本十大操作方式,可分為兩個主要層面,第一個層面與維度有關的 操作,例如上捲(Roll-Up)、下挖(Drill-Down)、切片(Slicing)、切丁(Dicing)與轉軸(Pivoting) 五種。第二個層面與衡量值有關的操作,有視覺化(Visualize)、篩選(Selecting)、輸出 (Output)、排序(Sorting)及計算(Computing)五種,整理如表 2.10 所示。 表2.10 OLAP 基本十大操作說明表

(34)

層面 操作方式 解說 上捲(Roll-Up) 將維度的單位向上放大 下挖(Drill-Down) 將維度的單位向下縮小 切片(Slicing) 限制某維度的上下限範圍 切丁(Dicing) 限制多維度的上下限範圍 第一層面 (與維度相關) 轉軸(Pivoting) 把水平維度與垂直維度做交換(90 度) 視覺化(Visualize) 把數值化的衡量值利用圖形表達 篩選(Selecting) 限制住衡量值的範圍 輸出(Output) 將衡量值另儲存為檔案並供加值應用 排序(Sorting) 將衡量值由大到小或由小到大排列 第二層面 (與衡量值相關) 計算(Computing) 用特定程式來修改衡量值 線上分析處裡大體上主要可分為三種資料倉儲儲存體的型態,分別為多維度線上分析 處 理(Multidimensional On-Line Analytical Processing, MOLAP)、關聯式線上分析處理 (Relational On-Line Analytical Processing, MOLAP)、混合式線上分析處理(Hybrid On-Line Analytical Processing, MOLAP)。將於下列分別解說其意義,其意義分述如下。

1. ROLAP:利用傳統的關聯式資料庫來存放並彙總資料,其好處是利用現有儲存架 構,因此比較容易完成,但是查詢效率可能較差與所能儲存的空間較小的種種缺 失。 2. MOLAP:真正的多維度資料庫結構來存放彙總資料,好處是查詢效率相對之下比 ROLAP 較高、儲存空間較大、維護成本也低,但其缺點是必須重新開發與系統之 擴充性低。

3. HOLAP:為 ROLAP 與 MOLAP 的混合體,受益於 ROALP 較大的可擴延性和 MOLAP 的快速計算,有效綜合了兩種模式的特性,換句話說,也就是在於前兩 者的優、缺點之間取得一個平衡。

(35)

2.4 資料探勘之關聯性法則

本節主要分成兩小節,第 2.4.1 主要述說關聯性法則資料探勘技術介紹;第 2.4.2 節說 明相關之關聯性法則概略比較。

2.4.1 關聯性法則資料探勘技術

關聯法則探勘的模型是由Agrawal[8]等學者在1993年所提出。它用來呈現資料中特定 項目同時發生的關聯性,也就是說在發生項目A的情況下,同時也會發生項目B的可能性。 根據產生關聯法則的步驟中依照工作程序特性,大致上可以分成兩個階段,第一個階段是 從大量的資料中尋找符合支持度的高頻項目集合(Frequent Patterns);第二的階段就是將第 一個階段產生的高頻項目集合,進行信賴度驗證的工作。由於第一個階段必須利用繁複的 工作去掃瞄資料,並且透過不斷組合、刪減、驗證來產生高頻項目集。因此第一階段成為 探勘關聯法則最費時的地方,而第二個階段是利用第一階段的結果,推演出關聯法則。 關聯性法則的形式為 X → Y,其中 X、Y ⊂ I,且 X ∩ Y = Φ。支持度(Support)為支援 關聯規則交易(發生狀態)次數百分比。信賴度(Confidence)為發生左邊交易(狀態)中,同時 又 發 生 右 邊 交 易( 狀態) 的概率,也可說是每一條規則(Rule)之強度的度量單 位 。 而 Confidence(X → Y) = Support(X ∪ Y , D) / Support (X , D)。依照條件機率,若某關聯性法則 的信賴度超過一定限度時,其意義為若此交易(狀態)包含 X,有很高的機率會包含 Y。因 此,挖掘關聯性法則也就是要找出所有X → Y 形式的關聯性法則,並且滿足下列條件: Support(X ∪ , D)≥Min_Support 且 Confidence(Y XY)≥ Min_Confidence。

2.4.1.1 關聯性法則 Apriori 演算法

1994 年 Agrawal[8]等學者提出 Apriori 演算法。其演算法流程如圖 2.9 所示。

(36)

上述說明關聯性法則 Apriori 進行資料採擷之演算法,然而對其演算法流程之解析,很 難了解其所表達的意涵。故在此以另一種方式解說其演算步驟,其主要歸類分五大步驟, 其演算步驟說明如表2.11 所示。 表2.12 Apriori 演算步驟說明表 步驟 執行演算方式 1 先定義最小支持度和最小信賴度

2 Apriori 演算法使用之候選項目集合(Candidate Itemset)的觀念,若候選項目集合的支 持度 > 最小支持度(Minimun Support = 1),則該候選項目集合為高頻項目集合。 3 首先由資料庫讀取所有的記錄,求出候選C1 的支持度,再找出高頻項目集合 L1, 並利用這些高頻項目集合的結合,產生候選C2。 4 然後再SCAN 資料倉儲資料,得出 C2 的支持度後,找出高頻 L2,並利用這些 L2 的結合,產生候選C3。 5 重覆SCAN 資料倉儲資料,與最小支持度比較,產生高頻項目集合,再結合產生下 一級候選項目集合,直到不能結合出產生新的候選項目集合為止。

由圖2.10得知,Ci = Li-1 * Li-1,會將Li-1中具有相同i-2個項目的(i-1)-高頻項目集予以組 合,以產生一個新的i-項目集。且"Ci 中的每一項目集之任一子集合須在 Li-1 中出現,否 則此Ci 項目集須加以刪除"。如此scan資料至無法組合出更高頻項目集時,停止搜尋。 根據表 2.12 演算法的步驟,進行相關例子推導,利用高頻項目集產生候選項目集的情 形。假定資料庫中存在相關資料,其中包含 Event_1(Item(1)、Item(2))、Event_2(Item(3)、 Item(4)、Item(5))五個項目(事件(Event)為項目之集合,如圖 2.10 左上方所示),透過掃瞄資 料庫可以得到項目在資料庫中的次數。設定支持度為2,當項目發生次數大於或等於 2 時, 方能成為高頻項目。詳細候選項目與高頻項目產生流程如圖2.10 所示。演算到最後,可以 產生四個一階高頻項目:Item(1)、Item(2)、Item(3)、Item(5);四個二階高頻項目:Item(13)、 Item(23)、Item(25)、Item(35);一個三階高頻項目:Item(235)。如果要產生關聯法則,就 將這些高頻項目集進行信賴度的判斷,如果符合信賴度的條件,就能夠成為關聯法則。 圖2.10 Apriori 演算執行過程[21] Database L1 C2 = L1*L1 L2 C3 = L2*L2 L3 Min_Support = 2 小於2 者刪除 1 2 3 4 5 Event_1 Event_2

(37)

2.4.1.2 關聯性法則 DLG 演算法 Yen, S. J.等學者[26]提出DLG演算法[1],主要在改進尋找高頻項目集的步驟,其概念 是在產生高頻序列步驟中,只掃描資料庫一次並利用Bit Vector進行集合運算建立有向圖 (Directed Graph)。利用有向圖指出項目間的關聯,並且追蹤有向圖產生largeitemsets及 sequential patterns。DLG演算法可分為三個步驟,如表2.13所示。由表2.13得知步驟有三, 但是步驟中又有小步驟,因此以圖2.11例子來說明此步驟。 表2.13 DLG 演算步驟說明表 步驟 執行演算方式 1 產生 large 1-itemsets 並記錄相關資訊。 此步驟有下列的工作: (a) 在演算法實施之前對每一個 item 編一個整數。 (b) 掃瞄資料庫計算每一個 item 的 support值(出現次數)。

(c) 對每一個 large item 建立一個 bit vector。若此 item 出現在第 i 筆交易, 則此 bit 設定為 1,否則為 0。 Bit vector的長度為交易的數目。

2 建構一個關聯圖,指出 large items 之間的關聯。產生 large 2-itemset。 3 利用關聯圖產生 k-itemsets (k > 2)。

圖2.11 DLG 演算執行過程

假定Min_Support值等於2。Itemset {i1,i2, …,ik}的Support值為BV1∩BV2∩BV3∩… BVk 所形成位元向量中"1"的個數,其中"∩"表示布林函數中AND集合運算。然後求出圖左下方 的位元向量表格,如果想要得到itemset{1,2}的支持度值,其結果為BV1 ∩ BV2,即(1010) ∩ (0111)結果為(0010),則支持度值為1。經過第一階段步驟之後就不再掃瞄資料庫,利用位 元向量表來算產生圖之右下角有向圖(資料結構採linked list)。若BVi∩BVj之支持度值大於 Min_Support則i至j的有向邊被建立,同時{i,j}是一個large 2-itemset。最後large 2-itemsets為 {1,3}、{2,3}、{2,5}、{3,5}。

Min_Support = 2 小於2 者刪除

(38)

DLG演算法主要的優點是產生candidate itemsets容易,且僅需掃瞄資料庫一次。但如果 項目過多會形成一個複雜的有向圖形,如此以linked list實施在空間及時間上會比array方式 更加的負擔。 2.4.1.3 關聯性法則 RARM 演算法 Amitabha Das等人[9]提出了RARM演算法,是將原始的資料庫經由前置處理,存成一 個Trie的資料結構,如圖2.12所示。這個資料結構依Support Count由大到小儲存所有的1-項 目 組(1-itemsets) 及 2- 項 目 (2-itemsets) ; 之 後 就 在 這 個 Trie 上 面 進 行 尋 找 高 頻 -1項 目 組 (Frequent-1-itemsets)與高頻-2項目(Frequent-2-itemsets)的操作,尋找其它長度的高頻項目 組,仍然需要掃瞄交易資料庫。經由上述解說之後,在此用一個例子來說明會更清楚,如 圖2.13 RARM演算執行過程。 圖2.12 Tire 資料結構 圖2.13 RARM 演算執行過程 由資料庫進行前置處理得到圖下方Tire資料結構,之後再從Tire資料結構尋找高頻項目 集。由Tire資料結構圖可以清楚得知,高頻-1項目組為B與C並無高頻-2項目組。RARM演 算 法 提 出 一 個 前 置 處理 的 機 制 , 但 是 若 遇 到 使 用 者 想 要 尋 找 高 頻3-項目組(Frequent 3-itemsets)或更長的高頻項目組時,還是必須去重新掃描資料庫。且為結構中只儲存1-項目 組與2-項目組,無法將完整的交易資料載入。 0 1 2 Min_Support=2 小於2 者刪除

(39)

2.4.1.4 關聯性法則 DHP 演算法

Park, J. S.[24]於1995年提出DHP(Direct Hashing and Pruning)演算法,在候選-2項目集 合事先使用雜湊函數(Hash function)過濾部分不可能成為高頻項目集合的候選項目集合,以 減少比對的次數。其步驟有四,如表2.14所示。 表2.14 DHP 演算步驟說明表 步驟 執行演算方式 1 將每個交易下的項目使用與Apriori高頻項目集合產生候選項目集合相同的方式 建立Hash table。 2 針對資料庫下的所有項目建立對映編號,如1、2、3 3 使用雜湊函數計算Hash table下所有的集合,將所得出來的直放入相對映的 Bucket。 p.s. 雜湊函數為h{x,y} = ((order of x)*10 + (order of y)) mod7。 4 使用Apriori方法找出第2層的候選項目集合。

圖2.14 DHP 演算執行過程

如圖2.14的資料庫含有4筆紀錄,有A、B、C、D、E等5個不同的項目,最小支持度設 定為50%。也就是說候選項目集合的次數要超過2(含)次以上才能成為高頻項目集合,採用 的雜湊函數為h{x,y} = ((order of x)*10 + (order of y)) mod7。

步驟一首先將每個交易下的項目使用與Apriori高頻項目集合產生候選項目集合相同的 方式建立Hash table。因此Tid = 100下的項目有A、C、D結合之後就會產生{AC}、{AD}、

(40)

{CD}等3個集合,Tid = 200下的項目有B、C、E 結合之後就會產生{BC}、{BE}、{CE}等 3個集合,Tid = 300下的項目有A、B、C、E結合之後就會產生{AB}、{AC}、{AE}、{BC}、 {BE}、{CE}等6個集合,Tid = 400下的項目有B、E結合之後就會產生{BE}等1個集合。 步驟二對資料庫下的所有項目建立對映編號,因此A、B、C、D、E建立的對映編號為 1、2、3、4、5。與步驟三使用雜湊函數計算Hash table下所有的集合,將所求得出來的值 放入相對映的Bucket列。如集合{AB},則對映到的編號為{1,2},雜湊函數H(1,2) = (1*10+2) mod 7 = 5(餘數),故{AB}是放入第5 bucket;集合{AC},則對映到的編號為{1,3},雜湊函 數H(1,3) = (1*10 + 3) mod 7 = 6(餘數),所以{AC}是放入第6 bucket,依序以上的方法得知, 第0~6 bucket分別放入3、1、2、0、3、1、3個物件集合。 步驟四使用Apriori方法找出第2層的候選項目集合分別為{AB}、{AC}、{AE}、{BC}、 {BE}、{CE}等6個集合,經雜湊函數計算分別對映到的bucket位址為5、6、1、2、4、0 。 其各bucket的位址所含的集合個數分別為1、2、1、2、2、3,經過最低支持度檢測只有{AB}、 {BC}、{BE}、{CE},成為第2層的候選項目集合C2,{AB}、{AE}則成功的被雜湊函數事 先去除。 DHP演算法雖然利用簡單的雜湊函數減少了第2層的候選項目集合,但是其雜湊函數 會有碰撞的情形。如果碰撞太厲害,其執行效率會比Apriori更差。 2.4.1.5 關聯性法則 VIPER 演算法

Pradeep Shenoy 等人[25]提出 VIPER 演算法,主要是提出一套壓縮的方式,希望能減 少資料儲存的空間。但是VIPER 演算法在產生高頻項目組時,每次均要將前一個高頻項目 組解壓縮,才能產生候選項目組,並將結果再以壓縮的方式儲存在磁碟中。這一壓一解的 動作,降低了執行的效率。

2.4.2 關聯性法則演算法比較

經由2.4.1節對關聯性法則演算法Apriori、DLG、RARM、DHP、VIPER五種的說明, 了解到各種演算法有其不一樣的優缺點。如表2.14所示。 表2.14 關聯性法則之演算法優缺點比較表 演算法種類 優點 缺點 Apriori 可以找出高頻項目集 3 以上 反覆性高 DLG 使用Bit-Vector 來紀錄交易資料 花費相當大的記憶體空間 RARM 存成一個 Trie 的資料結構 尋找高頻3-項目組難度高 DHP 利用雜湊函數減少了第2 層候選項目集合 耗用大量的記憶體 VIPER 以壓縮的方式,希望能減少資料儲存的空間 需要高頻率的一壓一解,效率不佳 由表2.14可以得知,每種演算法之優缺點。在此本研究將選用以Aproiri演算法為基礎 的演算軟體(附錄E)來進行分析,雖然反覆性高,但是有著可以進行高頻項目集3以上的尋 找效率。VIPER演算法如果碰到需要產生高頻項目組時,就會進行一次壓縮。經由一次再 一次的壓縮,必定帶來電腦沉重的負擔,嚴重的話可能導致當機的情況發生。RARM演算 法碰到尋求高頻項目組也是如此。DLG演算法本身就需耗費相當大的記憶體空間,因此在

數據

表 2.1  前十名之大宗花卉排序表(2005 年)  排序  花卉名稱  總成交量(把) 1  火鶴花  98,442,563 2  小菊  91,489,375 3  香水百合  59,340,994 4  大菊  56,034,178 5  玫瑰  53,949,723 6  非洲菊  43,952,297 7  劍蘭  28,380,092 8  葵百合  26,042,755 9  康乃馨中輪  19,378,977 10  洋桔梗  11,346,182 2.1.3  花卉種類與節慶
表 2.2  國曆特殊節慶  編號  國曆日期  節日名稱  節慶對應花卉  1  1 月 1 日  開國紀念日  無特定花種  2  2 月 14 日  西洋情人節  玫瑰、百合、鬱金香、海芋  3  3 月 14 日  白色情人節  玫瑰、百合、鬱金香、海芋  4  4 月 5 日  清明節  劍蘭、菊花、百合、海芋  5  5 月 8 日  母親節  康乃馨  6  8 月 8 日  父親節  非洲菊、向日葵、石斛蘭  7  9 月 28 日  教師節  無特定花種  8  10 月 10 日 國慶紀
表 2.7  颱風七大路徑對應之降雨量程度表          降雨量  颱風路徑  北部地區  東部地區  中部地區  南部地區  (西南與東南)  降雨量偵測點 第一類路徑  ◎  □  △  □  北部  第二類路徑  ◎  ◎  ◎  ◎  全部  第三類路徑  □  ◎  □  □  東部  第四類路徑  △  ◎  □  □  東部  第五類路徑  □  □  □  ◎  南部  第六類路徑  □  □  □  ◎  南部  第七類路徑  ◎ 降雨大且嚴重    △ 降雨適中    □ 降雨不大
圖 2.6  星狀綱要圖          星狀綱要圖是大部分最多人所會採用的多維度模型。它主要是以事物表及多個維度資 料表所組合而成,以事物表為中心並由多個相關的維度資料表環繞著,其形狀有如星形。 圖 2.6  為星狀綱要示意圖。而第二種綱要圖由於結構形狀像似雪花的結晶體,所以稱之為 雪花綱要圖。圖 2.7 為雪花網要之示意圖。可為星狀綱要圖的延伸或者是變化,因為事實 表格的資料來源有可能是來自企業已存在的作業型資料庫,而這些資料庫當初或許是以正 規劃的議題所規劃出的結構,為了達成企業關心主題的查詢目的。
+7

參考文獻

相關文件

Since we use the Fourier transform in time to reduce our inverse source problem to identification of the initial data in the time-dependent Maxwell equations by data on the

An algorithm is called stable if it satisfies the property that small changes in the initial data produce correspondingly small changes in the final results. (初始資料的微小變動

In the past researches, all kinds of the clustering algorithms are proposed for dealing with high dimensional data in large data sets.. Nevertheless, almost all of

To complete the “plumbing” of associating our vertex data with variables in our shader programs, you need to tell WebGL where in our buffer object to find the vertex data, and

Following the supply by the school of a copy of personal data in compliance with a data access request, the requestor is entitled to ask for correction of the personal data

what is the most sophisticated machine learning model for (my precious big) data. • myth: my big data work best with most

We first define regular expressions with memory (REM), which extend standard regular expressions with limited memory and show that they capture the class of data words defined by

For the data sets used in this thesis we find that F-score performs well when the number of features is large, and for small data the two methods using the gradient of the