第四章 研究案例
4.3 模式架構
| − |
( 4-1)
N 為水質因子之濃度值,下標max 與 min分別表示各種水質因子 本身的最大值與最小值,而所謂「反正規化」處理,即是將類神經網 路的預測結果利用上式反求得其對應的原始值。
4.3 模式架構
本研究將28個測站透過聚類方式依測站的特性分區,找出具有相
濃度推估模式,最後以克利金(Kriging)方法作砷濃度空間分布之呈現,
其模式架構之流程圖如圖 4-6所示。
聚類的概念乃是將輸入的資料加以分成不同的類別,將同質性高 的資料聚集高的資料聚集為一類,進而分離出同質性低的資料,換句 話說同一群同一聚類內的資料特性相似度高,而不同聚類間的資料特 性差異較大。本研究將 28 個測站,將包含砷之 13 個水質因子濃度作 為分類所輸入的變數。本研究考慮在建立好砷濃度推估模式後,未將 砷濃度作為推估模式之輸入,單輸入其他水質因子至模式中推估砷濃 度,故初步將蒐集的資料分成訓練資料(1992-1997年與2000-2005年)、 測試資料(1998-1999年)如表 4-5,其中2000年後因研究區域內測站因 經費縮減,僅剩下 6 站繼續監測水質,故這部份不適合代表全區域測 站作為測試資料。接著將訓練部份包含砷之13個水質因子濃度輸入自 組特徵映射網路(SOM),進一步找出具有相同特性的測站,探討各測站 間空間分布的關聯性及各水質因子與砷濃度的關係。
表 4-5 訓練與測試資料
年份 筆數
Training 1992-1997 年、2000-2005 年 共 654 筆
Testing 1998-1999 年 共 179 筆
本模式因研究區域內水質監測值變異性大,各監測站之水文、地 質結構造成特性不同。若由人工選取訓練及驗證資料,容易因選取資
料差異造成訓練及驗證結果產生人為誤差,為解決此問題以達到良好 訓練,採用K疊交叉驗證法(K-fold cross-validation)進行訓練與驗證。
K-fold cross-validation主要將資料分為 K個子集合,每次選取一個子集 合作為驗證資料,剩餘的K-1個子集合作為訓練資料;本研究選用K=6, 即將資料分為 6 個子集合,每個子集合中的資料以約兩年為單位作為 一個子集合,並對此網路架構訓練 6 次,使每個子集合都輪值過驗證 資料,直到訓練完成之後,再將訓練與驗證資料分別計算平均誤差;
另外,將獨立出來的測試資料輸入至模式中推估砷濃度,並計算誤差 作為優選模式之參考。本模式的網路訓練與測試流程如圖 4-7所示。
由於SOM 拓樸層的分類個數較難決定,本研究利用訓練、驗證資 料之評估指標來決定拓樸層大小、類神經網路的初始輸入參數。圖 4-3 為不同拓樸層大小之模式表現,類神經網路訓練結果表示網路的學習 情況,而驗證結果則決定網路架構,並搭配交叉驗證方法嘗試多次不 同初始輸入參數時,所產生之結果作為優選模式之用。依驗證資料的 評估指標所示,以 4×4 具有最小的誤差,而往後誤差逐漸增加,有過 度描述的情形,因此選用4×4拓樸架構作為SOM 分類個數的標準。
本研究提出與以往自組特徵映射網路(SOM)結合網路輸出層推估 模式相異的方法,在SOM聚類過程加入砷濃度資訊於輸入資料,作為 其中一聚類的資訊,以期望有助於聚類的結果,如此也使得輸出拓樸 圖,包含砷之中心點資料可以與其他輸入之水質因子可直接比較對應 關係。本研究針對不同的砷輸入情況:無加入砷濃度與加入砷濃度於
濃度1000(µg/L)來探討聚類情況,圖 4-4為僅輸入12個水質因子而未
至輸出層,得到網路輸出之砷濃度推估值。
圖 4-3 SOM 不同拓樸層之模式表現
100 110 120 130 140 150 160 170 180
9 16 25 36 49 64
RMSE (ug/L)
node
Train RMSE Valid RMSE
圖 4-44 SOM 聚聚類砷濃度分分布圖(無加加入砷)
圖 4--5 SOM 聚聚類砷濃度度分布圖(加加入砷)
圖 4-6 地下水砷濃度推估模式流程圖
輸入水質因子資料 決定一組網路初始參數
依交叉驗證法將資料分成 6組相同筆數的子集合
第1組為驗證 5組為訓練
輸入資料至模式中 進行網路學習
計算出訓練與驗證的 模式平均誤差
訓練完成?
是 交換訓練與驗證資料
第2組為驗證 另5組為訓練
否
誤差為優選模式的參考 選出最佳模式的初始參數
圖 4-7 交叉驗證流程圖