第一章 緒論
1.2 問題界定
Access Manager
LDAP
1.2.2 探勘颱風與大宗花卉資料
颱風侵襲台灣地區的次數不在少數,每次一來就有一定機率會帶來狂風豪雨,而這些 其實皆為颱風特性;颱風特性大體上分為颱風路徑、颱風雨量、颱風強度、颱風風速、颱 風之最低氣壓等相關特性。這些特性說穿了都是可以作為不同研究方向的出發點,而在此 研究將針對研究所需進而擷取選出所要用到的資訊與數據;另一方面,颱風特性將於第二 章參考文獻做更進一步說明與探究。
將颱風特性相關資訊與花卉資料利用資料探勘技術進行一連串的分析與研究,若得知 颱風侵襲台灣的某些颱風特性,便可進行大宗花卉量的分析。如圖 1.2 所示,本論文在第 五章部分將利用總資料倉儲內的花卉資料,與颱風相關特性運用資料探勘技術進行階段性 的研究。
在 眾 多 資 料 探 勘 模 式 之 中 , 可 以 將 這 些 研 究 歸 類 出 以 下 五 種 模 式 [11] : 歸 類 Classification) 、 分 群 (Clustering) 、 回 歸 (Regression) 、 關 聯 (Association) 和 時 間 序 列 (Sequence),以下將針對資料的探勘進行概略說明。
1. 歸類(Classification):根據「一些」變數的數值進行計算,然後依照計算的結果將 資料分類於幾個離散的數值當中。例如企業可以根據客戶的收入、消費金額、年 齡等資料進行分析,然後將顧客群分類為主力消費群或是次要消費群。
2. 分群(Clustering):將資料依照特性的「相似度」進行自然的分組,然後找出群組 間的相異以及群組內的相似之處。
3. 回歸(Regression):在過去「連續性」的資料屬性下,此模式利用過去一系列的數 值來預估一個連續數值的可能性。
4. 時間序列(Time series):利用「現有數值」資料來預測將來可能的數值。此數值會 有時間先後發生的順序,並且具有時間的階層性,例如每個月、每個季節、或者 是某些假日等。
5. 關聯(Association):是要找出某些事件同時發生的關聯性。例如颱風強度為中度颱 風同時大宗花卉-玫瑰之當天四大市場拍賣量的比較(台北>彰化>台中>台南)。
本研究所要分析的變數(變項),基本上超過45種以上。因此「分類」與「分群」此兩 種模式的資料探勘可能會造成無法有效分析資料,並且變項中不只包含數值面(最大風速、
降雨量、移動速度等),還有包含文字面(近節慶區段、移動路徑、移動方向等)。如此一來,
將無法進行數值運算。由於侵台颱風之日並非連續性的資料,如果用來分析侵台颱風這種 間斷性資料(停留天數、近節慶個數、最短之近節慶天數等),必定有其無法預測的困難度 存在。同樣地,以時間數列來說,侵颱颱風移動路徑並非數值型,故與回歸有著同樣預測 的難度,也是不可行的。因此,本研究將選擇關聯性法則進行颱風對大宗花卉影響的一連 串分析。由於颱風相關資料與資料倉儲中的大宗花卉是屬於兩種不同類型的資料,因此需 要進行階段性關聯分析。加上資料倉儲的資料當中存在一些很難分析的變相存在(休市、節 慶等),所以採用關聯性法則來分析颱風對大宗花卉影響比較適合。故再此研究將不會針對 其他四種模式予以深入探討之。
在一般的情況下,關聯法則的探勘方式是採用透過項目組合的方式,然後不斷檢查掃 瞄資料,來判斷項目之間的關聯性。如此可以將颱風特性變相與大宗花卉量變項透過項目
組合的方式正確產生有用的結果,加上資料倉儲資料只有1996年至2007年。故對應侵台颱 風相關資料時,可用資料倉儲資料只剩1996年至2005年。接著以各大花卉批發市場作為變 項時,資料則會變的更少、更複雜、更加難以分析。
不過隨著「資料量」不斷成長,「資料變項」的增加,電腦系統掃瞄資料的工作的負 擔也會越加沈重,導致每次探勘都必須耗費越來越冗長的時間,才能完成工作。因此近年 來不斷有研究聚焦在面對關聯法則探勘效率的議題。利用不同的資料結構以及不同的項目 關聯檢查機制,期望能夠有效改善探勘效率,並防止減少探勘效能的降低。
圖1.2 關聯性法則方法與界定
1.2.3 大宗花卉為研究範圍
花卉種類數百種,有些花卉產量少而且不受歡迎,因此拿來做分析,並非是一項很好 的選擇。基於以所要分析花卉為考量點。故本次研究指定大宗花卉所限定的花卉種類範圍 來進行深入分析,將由文獻探討2.1 節之 2.1.2 節清楚定義大宗花卉與選定之相關花卉種類 範圍。
總資料倉儲
主關聯性法則 分析
花卉資料
( 大宗花卉
)
建立關聯性法則
颱風特性 颱風路徑
颱風雨量
颱風強度
颱風低氣壓
高雄
台南 台中 彰化 台北
資料 探勘 關聯 法則