模式架構

第四章研究案例

4.3 模式架構

| − |

( 4-1)

N 為水質因子之濃度值，下標max 與 min分別表示各種水質因子本身的最大值與最小值，而所謂「反正規化」處理，即是將類神經網路的預測結果利用上式反求得其對應的原始值。

4.3 模式架構

本研究將28個測站透過聚類方式依測站的特性分區，找出具有相

濃度推估模式，最後以克利金(Kriging)方法作砷濃度空間分布之呈現，

其模式架構之流程圖如圖 4-6所示。

聚類的概念乃是將輸入的資料加以分成不同的類別，將同質性高的資料聚集高的資料聚集為一類，進而分離出同質性低的資料，換句話說同一群同一聚類內的資料特性相似度高，而不同聚類間的資料特性差異較大。本研究將 28 個測站，將包含砷之 13 個水質因子濃度作為分類所輸入的變數。本研究考慮在建立好砷濃度推估模式後，未將砷濃度作為推估模式之輸入，單輸入其他水質因子至模式中推估砷濃度，故初步將蒐集的資料分成訓練資料(1992-1997年與2000-2005年)、測試資料(1998-1999年)如表 4-5，其中2000年後因研究區域內測站因經費縮減，僅剩下 6 站繼續監測水質，故這部份不適合代表全區域測站作為測試資料。接著將訓練部份包含砷之13個水質因子濃度輸入自組特徵映射網路(SOM)，進一步找出具有相同特性的測站，探討各測站間空間分布的關聯性及各水質因子與砷濃度的關係。

表 4-5 訓練與測試資料

年份筆數

Training 1992-1997 年、2000-2005 年共 654 筆

Testing 1998-1999 年共 179 筆

本模式因研究區域內水質監測值變異性大，各監測站之水文、地質結構造成特性不同。若由人工選取訓練及驗證資料，容易因選取資

料差異造成訓練及驗證結果產生人為誤差，為解決此問題以達到良好訓練，採用K疊交叉驗證法(K-fold cross-validation)進行訓練與驗證。

K-fold cross-validation主要將資料分為 K個子集合，每次選取一個子集合作為驗證資料，剩餘的K-1個子集合作為訓練資料；本研究選用K=6，即將資料分為 6 個子集合，每個子集合中的資料以約兩年為單位作為一個子集合，並對此網路架構訓練 6 次，使每個子集合都輪值過驗證資料，直到訓練完成之後，再將訓練與驗證資料分別計算平均誤差；

另外，將獨立出來的測試資料輸入至模式中推估砷濃度，並計算誤差作為優選模式之參考。本模式的網路訓練與測試流程如圖 4-7所示。

由於SOM 拓樸層的分類個數較難決定，本研究利用訓練、驗證資料之評估指標來決定拓樸層大小、類神經網路的初始輸入參數。圖 4-3 為不同拓樸層大小之模式表現，類神經網路訓練結果表示網路的學習情況，而驗證結果則決定網路架構，並搭配交叉驗證方法嘗試多次不同初始輸入參數時，所產生之結果作為優選模式之用。依驗證資料的評估指標所示，以 4×4 具有最小的誤差，而往後誤差逐漸增加，有過度描述的情形，因此選用4×4拓樸架構作為SOM 分類個數的標準。

本研究提出與以往自組特徵映射網路(SOM)結合網路輸出層推估模式相異的方法，在SOM聚類過程加入砷濃度資訊於輸入資料，作為其中一聚類的資訊，以期望有助於聚類的結果，如此也使得輸出拓樸圖，包含砷之中心點資料可以與其他輸入之水質因子可直接比較對應關係。本研究針對不同的砷輸入情況：無加入砷濃度與加入砷濃度於

濃度1000(µg/L)來探討聚類情況，圖 4-4為僅輸入12個水質因子而未

至輸出層，得到網路輸出之砷濃度推估值。

圖 4-3 SOM 不同拓樸層之模式表現

100 110 120 130 140 150 160 170 180

9 16 25 36 49 64

RMSE (ug/L)

node

Train RMSE Valid RMSE

圖 4-44 SOM 聚聚類砷濃度分分布圖(無加加入砷)

圖 4--5 SOM 聚聚類砷濃度度分布圖(加加入砷)

圖 4-6 地下水砷濃度推估模式流程圖

輸入水質因子資料決定一組網路初始參數

依交叉驗證法將資料分成 6組相同筆數的子集合

第1組為驗證 5組為訓練

輸入資料至模式中進行網路學習

計算出訓練與驗證的模式平均誤差

訓練完成？

是交換訓練與驗證資料

第2組為驗證另5組為訓練

否

誤差為優選模式的參考選出最佳模式的初始參數

圖 4-7 交叉驗證流程圖

在文檔中以類神經網路探討雲林沿海地區地下水砷濃度與水質特徵 (頁 59-68)

第四章 研究案例

4.3 模式架構

4.3 模式架構

第四章研究案例