緒論 - 使用時間序列資料探勘演算法識別環境因素對癲癇抽搐之影響

動(seasonal fluctuation)、不規則變動(irregular fluctuation) [5]，從這四種類型結果中觀察出規律性則可幫助研究分析。

1.1.3 時間序列分析

時間序列(Time series)是一種依照時間順序排列的數據集合，時間序列數據的主要性質為:大數據、高維度，且時間序列的特點在於其數值的連續性，故在各種研究中時間序列總被視為一個整體來進行處理，至於在時間序列中如何影響其表示方式與型態，則是透過降低原始數據維度，即數據點的數量來進行處理 [22]。

至於要如何對時間序列數據表示出來，常見的方法有以下幾種: (1)使用不同的相似度測量方法來進行比較 [23]；(2)使用固定長度的區塊來將時間序列分割成子序列，

然侯由原始數據的原始形狀表示；(3)或是將數據可視化，透過使用集群或日曆等工具來將原始數據相互間隔，或用螺旋工具將時間序列分別映射成環；這些方法均有助於應用在挖掘數據，或用在模式與聚類的發現分析上。

時間序列資料探勘(Time series data mining)，則是從原始數據或是時間序列數據中挖掘隱藏在其中的訊息或知識。至於時間序列領域的數據如何進行分類，則有許多人有不同看法，Yang 等人提出透過固定某一部分時間序列數據來取代原始數據，這項技術改進了數據中指標與精確度 [24]；而 Li 等人則採用分割的概念，透過開發出基於最近鄰居(1-NN)的半監督學習方法，來進行處理 ECG(心電圖)類型的數據 [25]。另一方面，規則挖掘在資料挖掘領域上也是相當經典的課題，規則挖掘主要用於將股票、金融業的時間序列數據轉換成符號字串 [26]，而目前時間序列數據的聚類大都透過非監督學習的時間序列所組成，其中時間序列聚類的方法主要分為三種，第一種是透過時間鄰近方法直接作用於原始時間序列數據上，第二種則是將原始時間序列數據轉換成低維度的特徵向量方式，最後一種則是認為時間序列是基於某種模型而生成的分布 [27]。

而在時間序列資料探勘中，模式則被視為最常見的挖掘方法，目前在許多領域上皆有使用，如:在金融時間序數據中，模式利用關聯式分析來解決其中問題，或是在地球科學的領域中，利用其技術進行挖掘，並用來檢測氣候中有何變化，或在進行地震或核爆的識別 [28]，與農業的乾旱、風速預測等各種領域上；而這些使用不同測量方法的聚類模式也會互相比較彼此的效能，藉此相互改進出更經典的聚類模式。

1.2 研究動機與目的

癲癇(epilepsy)，是一種長期性腦神經系統疾病，以癲癇抽搐發作為特徵 [29]，

患者分布全年齡層，目前全世界約有 5000 萬人曾罹患過癲癇 [30]，當癲癇發病時，

患者的大腦皮層神經細胞會產生過度與異常的活動，並產生局部或全身性的抽搐與僵直，輕者無法控制自己的行動，嚴重者甚至會導致死亡；且每 100 人中就有 5-10%的人都曾在 80 歲前發生過一次癲癇 [31]，當中又有 40-50%的人會發病二次以上 [32]，這顯示出癲癇的高罹患率與高復發性，使它成為全球最普遍的腦神經系統疾病之一。

癲癇無法徹底治癒，僅能以藥物控制，雖然近七成的癲癇病例都可靠藥物控制 [33]，但因未能找出詳細的發病機制與觸發誘因 [34]，患者間發病前也無共通徵兆，

這都使得患者長期受該疾病折磨，生活在無法預期何時會發病中。是故，找出該疾病發病誘因應有助於研究此疾病之發病機制。

目前大多研究癲癇之誘因，多集中在探討環境因素中的磁場與光線的改變能否誘發癲癇 [35，36]，但其多數結果仍無法確切的證實發病成因為何，只能確認某些因素可能會誘發，而環境因素的氣候對誘發不同類型神經疾病也已被證實 [1，

2]；有鑑於此，筆者欲透過分析環境因素中的氣候是否有存在誘發癲癇之可能 [37]，

並尋找當中的可能誘發變因，與癲癇是否會因季節性而有不同的好發趨勢。

1.3 論文架構

本論文內容編排如下，第二章為來源資料介紹，資料使用前的前置處理流程與研究處理流程設計，並介紹本論文中主要使用的重點模型和相關統計模型介紹；第三章則是使用各種統計與時間序列模型的實驗結果，並探討分析癲癇與氣候變因之間相關與否，且藉由分群分佈實驗來分析不同地區的癲癇患者的年齡層與性別族群與氣候間有無相關；最後第四章則進行總結，分析第三章的實驗結果，並提出癲癇誘因之可能假設與探討癲癇是否有季節好發趨勢，最後提出未來相關研究方向與能改進的地方。

在文檔中使用時間序列資料探勘演算法識別環境因素對癲癇抽搐之影響 (頁 13-17)