I-Shou University Institutional Repository:Item 987654321/21418

全文

(1)義. 守. 大. 學. 資訊工程研究所碩士論文基於遞迴式奇異值分解之線上模糊極限學習機 Online Fuzzy Extreme Learning Machine Based on Recursive Singular Value Decomposition 研究生：鄭育淵指導教授：歐陽振森博士. 中華民國 106 年 7 月.

(2) 基於遞迴式奇異值分解之線上模糊極限學習機 Online Fuzzy Extreme Learning Machine Based on Recursive Singular Value Decomposition Student：Yu-Yuan Cheng. 研究生：鄭育淵. Advisor：Chen-Sen Ouyang. 指導教授：歐陽振森博士. 義守大學資訊工程研究所碩士論文. A Thesis Submitted to Department of Information Engineering I-Shou University in Partial Fulfillment of the Requirements for the Master degree in Information Engineering July 2017 Kaohsiung, Taiwan, Republic of China. 中華民國一○六年七月.

(3)

(4) 基於遞迴式奇異值分解之線上模糊極限學習機研究生：鄭育淵. 指導教授：歐陽振森博士. 義守大學資訊工程研究所. 摘要本研究提出一種基於遞迴式奇異值分解之線上模糊極限學習機，用以改良原始模糊極限學習機，使之適用於解決分類或迴歸建模中之線上學習問題。與原始模糊極限學習機相同，本方法中隱藏層模糊歸屬函數之相關權重乃是透過隨機給值的方式來設定。然而，本方法使用遞迴式奇異值分解取代原先摩爾彭洛斯廣義逆矩陣，用以針對逐筆輸入資料求出當時之最佳輸出層權重，因此適用於線上學習。實驗結果顯示，相較於原始模糊極限學習機，本方法可進行線上學習，並可達到一致的建模準確率。此外，本方法較他人之線上循序學習演算法更具有較佳之建模準確率與穩定性。. 關鍵字：極限學習機、類神經網路、模糊系統、模糊推論系統、遞迴式奇異值分解、線上學習、模糊極限學習機.

(5) Online Fuzzy Extreme Learning Machine Based on Recursive Singular Value Decomposition Student：Yu-Yuan Cheng. Advisor：Chen-Sen Ouyang. Department of Information Engineering I-Shou University. Abstract In this study, we propose an online fuzzy extreme learning machine based on the recursive singular value decomposition for improving the fuzzy extreme learning machine, and therefore making it applicable for solving online learning problems in classification or regression modeling. Like the original fuzzy extreme learning machine, our approach randomly assigns values to weights of fuzzy membership functions in the hidden layer. However, the Moore-Penrose pseudoinverse is replaced with the recursive singular value decomposition for calculating the optimal weights corresponding to the output layer. Compared with the original fuzzy extreme learning machine, our approach is applicable for the online learning of classification or regression modeling and produces the same modeling accuracy. Moreover, our approach possesses the better modeling accuracy and stability than the other approach, namely, online sequential learning algorithm.. Keywords：extreme learning machine, artificial neural network, fuzzy system, fuzzy inference system, recursive singular value decomposition, online learning, fuzzy extreme learning machine.

(6) 致謝感謝在就讀研究所的兩年期間老師與同學們的幫助，讓我在這兩年間了解到做研究該抱持的心態，遇到困難時如何解決問題、如何正確排解壓力、如何重整姿態再接再厲，不只從他們身上學習到研究的精神，也了解到人生的哲理。由衷感謝兩年間苦心指導我的歐陽振森教授，循循善誘，在遇到困難時教導我如何去面對與解決問題。也感謝口試委員吳志宏教授和柯松源教授的指導與建議，得以順利完成論文。感謝學長陳旻緯、林衢宏、陳奕銘、黃俊翰、陳柏仲、王永在、錢士瑞、張誌晟，同儕林建明、高子晉、許力元、林騰宇、蔡宗恩在研究期間與論文撰寫期間的鼓勵與幫助，在我跌落谷底時拉我一把，給予自己繼續奮鬥的動力。最後感謝家人與朋友這段期間的關心與鼓勵，願意傾聽我的聲音，並推著我繼續往前。最後，由衷的感謝老師、朋友與家人，在此獻上最真誠的敬意與感謝，並將這份喜悅與他們分享。.

(7) 目錄第一章. 緒論 ........................................................................................................................................... 1. 一、研究背景與動機 ....................................................................................................................... 1 二、研究目的 ................................................................................................................................... 4 第二章文獻探討 ..................................................................................................................................... 5 一、極限學習機 ............................................................................................................................... 5 二、隱藏節點數的調整 ................................................................................................................... 6 三、隱藏層節點的改良 ................................................................................................................... 7 四、線上學習演算法 ....................................................................................................................... 8 五、改善解釋性與推廣性 ............................................................................................................... 9 第三章研究方法 ................................................................................................................................... 13 第四章實驗結果 ................................................................................................................................... 17 一、資料集介紹 ............................................................................................................................. 17 (一) 迴歸資料集介紹 ............................................................................................................. 17 (二) 分類資料集介紹 ............................................................................................................. 21 (三) 實驗流程 ......................................................................................................................... 24 二、實驗結果 ................................................................................................................................. 25 (一) 迴歸資料集實驗結果 ..................................................................................................... 26 (二) 分類資料集實驗結果 ..................................................................................................... 31 (三) 實驗總結 ......................................................................................................................... 36 結論與未來展望 ..................................................................................................................................... 37 參考文獻 ................................................................................................................................................. 38. i.

(8) 圖目錄圖一. 神經元示意圖 ............................................................................................................... 1. 圖二. 單隱藏層 ANN 示意圖 ................................................................................................. 2. 圖三. 多隱藏層 ANN 示意圖 ................................................................................................. 3. 圖四 ELM 架構示意圖 .......................................................................................................... 7 圖五 F-ELM 架構範例 ........................................................................................................ 10 圖六. 研究方法流程圖 ......................................................................................................... 13. 圖七最佳隱藏層節點數計算範例 ..................................................................................... 25. ii.

(9) 表目錄表一迴歸資料集 ................................................................................................................. 19 表二分類資料集 ................................................................................................................. 19 表三 Auto MPG 資料欄位說明 .......................................................................................... 20 表四 Kinematics of Robot Arm 資料欄位說明 .................................................................. 20 表五 California Housing 資料欄位說明 ............................................................................. 21 表六 2D Plane 資料欄位說明 ............................................................................................. 21 表七 Page Blocks 類別欄位說明........................................................................................ 22 表八. Image Segmentation 類別欄位說明 .......................................................................... 23. 表十 Breast Cancer Wisconsin Data Set 類別欄位說明....................................................... 23 表九 Spam Emails 類別欄位說明 ......................................................................................... 23 表十一 2D Plane 實驗結果 ................................................................................................. 27 表十二 Kinematics 實驗結果 ............................................................................................. 28 表十三 Auto MPG 實驗結果 .............................................................................................. 29 表十四 California Housing 實驗結果 ................................................................................. 30 表十五. Image Segmentation 實驗結果 .............................................................................. 32. 表十六 Page Block 實驗結果 ............................................................................................. 33 表十七 Spam Emails 實驗結果 ............................................................................................ 34 表十八 Breast Cancer Wisconsin Data Set 實驗結果............................................................ 35. iii.

(10) 第一章緒論一、研究背景與動機近年來，因感測硬體的進步與儲存裝置容量的大幅提升，大量資料得以被蒐集與保存，這些由數種大型資料集所組成的資料集合，即為大數據的基本概念。這些大型資料集就如同一座未經開墾的金礦，需經過統計、分析和整理等資料庫知識發現方法(Knowledge Discover in Database; KDD)後，才能發現隱藏在大量數據中具有價值的部分。然而這些大型資料集已超出人類的計算和分析極限，必須藉由計算機輔助以統計、解析與資料視覺化這些數據。而針對不同種類的問題與需求，存在不同的分析方法，這些分析方法的發明與改良至今仍是熱門的議題。. 圖一. 1. 神經元示意圖.

(11) 目前較常見應用於 KDD 的資料分析方法有:支持向量機、決策樹、人工神經網路(artificial neural network; ANN )、關聯法則等演算法。其中 ANN 的自我學習能力與調整能力強，亦可適用於非線性函數，相較於一般邏輯性的推導，更能解決高複雜度的問題，而成為近年來熱門的研究對象。ANN 是以人工神經元(artificial neurons)為基礎，透過模擬生物中樞神經結構的數學模型，一個完整的神經元需具備輸入值、權重(weight)、閥值(bias)、傳遞函數和輸出，如圖一所示。神經元通常由前往後傳遞，由數個神經元結合成隱藏層(hidden layer)，隱藏層內部包含的神經元則稱為隱藏節點(hidden nodes)。依照問題的複雜程度，ANN 所需的隱藏神經元數量會有差異。按照所使用的隱藏神經元層數的多寡，可以將 ANN 區分為單隱藏層(single layer)和多隱藏層 (multiple layer)兩種架構，如圖二、圖三所示。依 ANN 神經元傳遞的方式不同，可以區分為由前往後傳遞的前饋式神經網路(feedforward neurons network; FNN)和將輸出往前回饋的遞迴式神經網路(recurrent neurons network; RNN)。ANN 可以透過調整權重及神經元的反覆傳遞使最終的輸出結果與目標相近，最終達到收斂 (convergence) ，這段過程稱之為訓練 (training) 。隱藏層. 輸入層. 輸出層. ……. ……. …… 圖二. 單隱藏層 ANN 示意圖. 2.

(12) 輸出層. ……. ……. 第二隱藏層. ……. 第一隱藏層. ……. 輸入層. 圖三. 多隱藏層 ANN 示意圖. 然而隨著資料量的大幅增加和問題的複雜程度的提升，為了解決更複雜的問題，ANN 只好提升隱藏層數量和神經元數量，然而提升隱藏層數量會導致訓練資源和訓練時間大幅增加。為了使訓練更快速，Huang 等人提出了單隱藏層前饋式神經網路架構(single hidden layer feedforward neural network; SLFN)[1]的極限學習機(extreme learning machine; ELM)[1]。ELM 會配合資料量決定初始的隱藏層神經元數量，並且用隨機的方式產生隱藏層權重與隱藏節點閥值，以達到縮短訓練時間的目的。因此，比起傳統的 ANN，ELM 更能大幅縮短訓練時間和資源消耗。為了減少 ELM 訓練時所需的資源，Huang 等人使用了遞迴最小平方法(recursive least-square algorithm; RLS)[9]，提出線上序列極限學習機(online sequential ELM; OS-ELM)[9]加以改良。由於以往批次(batch)訓練的 ELM 在訓練階段時，需要完整的資料輸入才能進行訓練。而加入 RLS 的 OS-ELM 會先取得少量的資料，對該資料進行訓練並產生初始輸出，用該輸出作為下一批資料的訓練依據，並加入下一次訓練。透過這種遞迴更新的訓練方式，得以改善批次輸入資料的高成本或資料過時等問題。此外 Wong 等人針對極限學習機解釋性較差的問題，以模糊推論系統(fuzzy inference system; 3.

(13) FIS)取代原本 ELM 使用的傳遞函數，提出了模糊極限學習機(fuzzy extreme learning machine; FELM)[6]，FIS 使用了模糊邏輯將精確的輸入映射到模糊集合，借模糊邏輯來模擬人類決策的邏輯，使得 F-ELM 在結果的解釋性和複雜問題的適應性有明顯的改善。. 二、研究目的本研究的主要目的有兩個，其一是實現 F-ELM 的線上學習能力，另一目的為穩定線上學習後的分類與迴歸分析結果。本研究基於 F-ELM 的基礎架構，先嘗試合併 OS-ELM 的學習演算法，成為線上序列模糊極限學習機(online sequential F-ELM; OS-F-ELM)，使 OS-F-ELM 能取得最新資料後更新輸出參數。然而 OS-F-ELM 容易受到隱藏層權重影響，使分類或迴歸分析可能出現極差的結果，此結果會嚴重影響後續新加入資料的訓練與測試。為了改善 OS-F-ELM 不穩定的問題，本研究結合 F-ELM 與遞迴奇異值分解(recursive singular value decomposition; RSVD)提出遞迴式奇異值分解模糊極限學習機(recursive singular value decomposition F-ELM; RSVD-F-ELM)，改用 RSVD 優化和傳遞輸出參數，最終達到提高分析結果穩定性和達成線上學習目的。. 4.

(14) 第二章文獻探討由於 ELM 為 SLFN 架構，相較於一般的 ANN，ELM 確實可以大幅縮短訓練所需的時間與硬體資源。然而與 ANN 的理論不同，ELM 隨機決定權重，並且維持單隱藏層，由於單層結構且訓練時不用調整權重，因此訓練速度有顯著的提升。ELM 提出以來，關於優化演算法相關研究陸續提出，像是加入線上學習功能[9]、調整隱藏層結點數量[11][12]、解釋性改良[6]等。基於隨機權重與 SLFN 架構的關係，ELM 在訓練時間上遠勝於傳統 ANN，然而也因隨機權重的關係， ELM 訓練結果受隨機值影響，測試準確性誤差範圍大且解釋性較差。因此 OS-ELM、F-ELM 等基於 ELM 的改良演算法陸續被提出，本小節將回顧 ELM 演算法及其他改良演算法。. 一、極限學習機由於傳統前饋式神經網路的參數，如學習演算法、權重、閥值等需要透過使用者依需求自行調整，在訓練上往往會因多餘的學習演算法導致訓練速度變慢，此外有較高機率產生局部最佳解。 2004 年時，Huang 為了改善上述問題而提出了 ELM，Huang 透過[2][3]認為 SLFN 架構配合隨機輸入權重就具有學習能力，並經[4]驗證後，Huang 認為單層前饋式神經網路的隱藏層權重不需要調整，且理論上速度會遠快於一般多隱藏層架構的類神經網路，ELM 的架構如圖四。在[2][3]所提及的理論，SLFN 的隱藏層閥值和隱藏層權重可以被視為歐幾里得空間的線性系統：𝐴 = ； 𝐴∈𝑅. ×. ，. ∈ 𝑅 。依據 Bartlett 的理論[5]得知訓練誤差與輸出權重具有正相關性，輸出權重. 的範數愈小，訓練誤差也就愈小。因此可以透過摩爾彭洛斯廣義逆矩陣 (Moore-Penrose pseudoinverse; MP inverse)去得到輸出權重的最小化平方範數，使訓練誤差最小化。極限學習機的訓練可以分成兩個步驟，步驟一為隱藏節點權重的計算；步驟二為輸出權重的最佳化。. 5.

(15) 1.. 步驟一：計算隱藏節點權重。首先使用者會先定義隱藏節點個數，計算各個隱藏節點權重，最後合併為隱藏層輸出矩陣。假設使用者定義隱藏節點個數為𝐿；輸入資料筆數為𝑁；各隱藏節點的閥值為𝑏𝑖，𝑏𝑖 =[𝑏 , ⋯ , 𝑏𝐿 ]；每筆輸入資料為. 𝑖 , 𝑡𝑖. ，其中 𝑖 為輸入特徵，. [𝑡 , 𝑡 , ⋯ , 𝑡𝑁 ]𝑇 ∈ R ；則隱藏層函數𝐺. 𝑖. =[ ,. ,⋯,. 𝑁]. 𝑇. ∈ R 且𝑡𝑖 為測試目標，𝑡𝑖 =. 的計算如(1)所示，常見的𝐺. 有徑向基底函數(Radial. basis function; RBF)或 S 型函數(Sigmoid function)，最後將所有獲得的𝐺. 合併成隱藏層輸出. 矩陣H，如(2)所示。 ∑𝐿𝑗= 𝛽𝑗 𝐺 𝑤𝑖 ∙. ∑𝐿𝑖= 𝛽𝑖 𝐺(𝑤𝑖 ∙ H 𝑤 , ⋯ , 𝑤𝐿 , 𝑏 , ⋯ , 𝑏𝐿 ,. 2.. ,⋯,. 𝑁. 𝑖. + 𝑏𝑖 = 𝑡𝑖 ，𝑖 = 1, ⋯ , 𝑁. + 𝐺𝑏𝑖 )𝑤=∙ 𝑡𝑗 ，𝑗 + 𝑏= 1,⋯⋯𝐺, 𝑁𝑤𝐿 ∙ ⋮ ⋯ ⋮ =[ 𝐺 𝑤 ∙ 𝑁 + 𝑏 ⋯ 𝐺 𝑤𝐿 ∙. (1). + 𝑏𝐿. 𝑗. ] 𝑁. + 𝑏𝐿. 𝑁×𝐿. (2). 步驟二：最佳化輸出權重。為了最佳化輸出權重，根據[5]的理論，可以透過 MP inverse 的計算，使輸出權重為最佳解。假設𝛽 為隱藏層輸出權重，𝛽 = [𝛽 , 𝛽 , ⋯ 𝛽𝑁 ]𝑇 。H + 為H的 MP inverse ，如(3)所示，T = [𝑡 , 𝑡 , ⋯ 𝑡𝑁 ]𝑇 ，(3)亦可以表示為(4)，經過 MP inverse 所求得的𝛽會有最佳解。 (3). 𝛽 = 𝐻+ 𝑇 𝛽 = 𝐻𝑇 𝐻. −. 𝐻𝑇 𝑇. (4). 二、隱藏節點數的調整不同於以往的 ANN，因 ELM 隨機決定權重的關係，需要設置較多的隱藏層節點提升推廣能力，過少的節點會導致訓練效果不好；而增加隱藏層節點則會使訓練時間大幅延長，最糟糕的情況下可能陷入局部最佳解，造成過度訓練的現象，因此隱藏層的節點過多或過少都會影響學習機. 6.

(16) 的效率。基於此想法，Hung 等人在 2007 年提出增加式極限學習機(incremental ELM; I-ELM)[15]， I-ELM 要增加節點數時，會先提供數個不同的隱藏層節點，並透過適應函數找到最適合的節點後，再加入隱藏層中。2008 年，Rong 等人提出修剪極限學習機(pruning ELM; P-ELM)[16]，和逐步增加節點的 I-ELM 相反，P-ELM 則是從較多的隱藏層節點中，選出多餘且無用的節點刪去。 P-ELM 在 2010 年時，由 Miche 等人改良並提出最佳化修剪極限學習機(optimal pruned ELM; OPELM)[11]。. 三、隱藏層節點的改良 ELM 透過隨機取得輸入權重和閥值，大幅提升了訓練速度，然而隨機取得的輸入權重和閥值可能在經過隱藏層節點後，使隱藏層的輸出矩陣未能滿足滿行秩(full column rank)，這會使最後的輸出權重產生計算上的誤差或解不出輸出權重，導致準確度的嚴重下降。2011 年，Wang 等人使用高斯徑向基底函數(Gaussian radial basis-type function)當作啟動函數，提出(effective extreme learning machine; EELM) [13]，高斯徑向基底函數會區分矩陣的對角元素與非對角元素，使對角元素之絕對值總和大於非對角元素絕對值總和，因此能選出適合的輸入權重和閥值，使隱藏層輸出矩陣滿足滿行秩。. 圖四. ELM 架構示意圖. 7.

(17) 四、線上學習演算法由於 ELM 是以批次輸入的方式取得輸入資料，因此 Liang 等人於 2006 年提出 OS-ELM[9]以改良 ELM，使 ELM 得以線上學習。由於原始的 ELM 需要取得批次輸入資料後才進行訓練，批次輸入需要完整的蒐集完所有欲分析資料後才可開始進行訓練，然而實際上要蒐集完整的資料是一件不容易的事情，除了蒐集資料的設備外，從設備上回收資料、資料的儲存、蒐集資料所需的時間、物力、人力等皆為成本考量。此外像是具有即時性的資料，等到全部的資料蒐集完成，該資料的是否適應當下環境等參考性問題也有待考量，使用這些資料所訓練出來的模型也就相對的失去應有的價值。考慮上述種種問題，為了減少資料蒐集的成本和維持訓練模型的價值，Liang 等人設法用線上演算法改善批次訓練可能產生的問題。OS-ELM 使用逐一(one-by-one)或逐群(chunk-by-chunk) 的方式取得輸入資料，並使用 RLS 找出最佳解。OS-ELM 演算法分成兩個步驟，分別為初始化步驟和序列學習步驟。. 1.. 步驟一：初始化步驟。在初始化步驟，OS-ELM 會先取得一部份的輸入資料訓練，並計算初始輸出權重。使用者須先定義輸入序列𝑁0 ，𝑁0 ≥ 𝐿；初始化所需輸入資料 𝑖 ， 𝑇. 料目標T0，T0 =[𝑡 , 𝑡 , ⋯ , 𝑡𝑁0 ] 。經由隱藏層函數𝐺. 𝑖. =[ ,. ,⋯,. 計算後，合併所有𝐺. 陣H0，如(5)所示，最後透過 MP inverse 最佳化得到初始最佳化權重𝛽 可表示成(7)所示。. 8. 𝑁0 ]. 0. 𝑇. ；初始化輸入資得到初始輸出矩. ，如(6)所示，其中M0.

(18) 𝐺 𝑤 ,𝑏 , ⋯ 𝐺 𝑤𝐿 , 𝑏 , ⋮ ⋯ ⋮ H0 = [ 𝐺(𝑤 , 𝑏𝑁 , 𝑁0 ) ⋯ 𝐺(𝑤𝐿 , 𝑏𝑁 , 𝛽. 0. 𝑁0 ). (5) 𝑁0 ×𝐿. = M0 H0𝑇 T0. M0 = H0𝑇 H0 2.. ]. (6). −. (7). 步驟二：序列學習步驟。由步驟一，我們可以得到𝛽. 0. 和M0 作為序列學習的初始值。在序列學習步驟中，每當獲得一. 次新的輸入資料，會依據該輸入資料先計算出隱藏層輸出向量 [𝐺 𝑤 , 𝑏 ,. +. , ⋯ , 𝐺 𝑤𝐿 , 𝑏𝐿 ,. +. ]，最後透過 RLS 演算法更新輸出權重𝛽. +. +. ，. +. =. ，如(8)、(9)所. 示，直到最後取得一筆輸入資料後結束序列學習，此時獲得的輸出權重𝛽為現有資料的最佳化權重。 M 𝛽. +. +. =M −. =𝛽 +M. +. M 1+ +. + 𝑇 +. 𝑇. +. M. (𝑡 𝑇+ −. M (8). + 𝑇 +. 𝛽. ). (9). 五、改善解釋性與推廣性 2015 年，針對 ELM 解釋性較差的問題，Wong 等人在 ELM 中加入了 FIS，提出 F-ELM，用 FIS 取代原本 ELM 隱藏層函數，並加入規則結合矩陣(rule-combination matrix; matrix-C)與忽略矩陣(don't care matrix; matrix-D)兩個二元矩陣隨機決定歸屬函數(membership function)的使用參數與是否忽略某些歸屬函數，F-ELM 之架構如圖五所示。模糊集合理論[14]由 Zadeh 提出，模糊理論可以用來解決決策邊界的問題。一般計算機的分類定義依使用者需求由使用者自定義，而傳統的定義只有 0 或 1，即屬於或不屬於兩種，如(10)所示，其中γ為𝑈集合之特徵函數。. γ. ={. 1, 當. ∈ 𝑈. 0 ,當 ∉ 𝑈. 9. ( 10 ).

(19) C(1,:,1). D(1,1). 𝑤. C(2,:,1). Σ D(2,1). C(1,:,2) Σ. D(1,2). 𝑤. C(2,:,2). D(2,2). 圖五. F-ELM 架構範例. 10.

(20) 然而實際問題的應用上，用傳統二元分類的定義會產生許多問題，且無法顯示程度上的差異，因此模糊集合理論在 0 到 1 之間設以實數值來描述問題的歸屬關係。[7][8]所提出的 FIS 為使用了模糊集合和模糊邏輯詮釋言語上的模糊資訊，並以 if-then 的方式表現。根據 FIS 加以修改，FELM 的計算可以分為歸屬函數計算、改良式概率 OR 運算(Modified Probabilities OR; Modified PROBOR)和輸出權重最佳化，以上三個步驟。. 1.. 步驟一：歸屬函數計算。在步驟一，每筆輸入資料會帶入五種不同程度的高斯模糊函數，並計算歸屬函數𝜇，如(11)所示。假設輸入資料有𝑁筆，每筆資料有𝑛個特徵，隱藏神經元有𝐿個，輸入資料的模式為則 𝑗 為表示的𝑗筆輸入，𝑡𝑗 為第𝑗筆輸入的目標，𝑗 = 1 to 𝑁；. 𝑗𝑖 表示第𝑗筆輸入中，. 𝑗 , 𝑡𝑗. ，. 的第𝑖個特. 徵𝑖 = 1 to 𝑛；𝑎 為高斯模糊函數，𝑎 = [0, 0.25, 0.5, 0.75, 1]，𝑘 = 1 to 5, 𝑘 ∈ 𝑅 +；𝜎為高斯模糊函數𝑎之標準差，𝑎中各項值所代表之程度高低：0 代表極低、0.25 代表低、0.5 代表中等、 0.75 代表高、1 代表極高。. 𝜇(𝑘,. 2.. 𝑗𝑖 ). = exp [−. (. 𝑗𝑖. −𝑎 ) ] 2𝜎. ( 11 ). 步驟二：以 Modified PROBOR 計算模糊推論系統的輸出𝒗𝒊𝒍 。由步驟一，可以得到各輸入資料的𝜇，同時系統會隨機生成規則結合矩陣和忽略矩陣。合併歸屬函數可以得到模糊推論系統的輸出. 𝑖. ，如(12)所示，其中𝐷 𝑖, 𝑙 是忽略矩陣，矩陣大小為. 𝑛 × 𝐿，其中𝑙 = 1 to 𝐿；而𝐶 𝑖, 𝑘, 𝑙 為規則結合矩陣，矩陣大小為𝑛 × 𝑘 × 𝐿。 1 𝑖. ={. , 𝐷 𝑖, 𝑙 = 1. 5. 1 − ∏ (1 − 𝐶 𝑖, 𝑘, 𝑙 𝜇(𝑘, =. 11. 𝑗𝑖 )). , 𝐷 𝑖, 𝑙 = 0.

(21) ( 12 ). 3.. 步驟三：最佳化輸出權重。由步驟二所得到的. 𝑖. ，透過 AND 運算元，如(13)所示，可以得到各筆輸入的啟動強度𝑤𝑗 。. ̂，如(14)所示。最後再由 MP inverse 計算最佳化權結合所有𝑤可以得到獲得隱藏層輸出矩陣H 重𝛽，如(15)所示。. 𝑤𝑗 = ∏. 𝑖. ( 13 ). 𝑖=. 𝑤. ̂ =[ H. ⋯𝑤𝐿 ⋮ ⋯ ⋮ ] 𝑤𝑁 ⋯ 𝑤𝑁𝐿 𝑁×𝐿 ̂ +T 𝛽=H. 12. ( 14 ). ( 15 ).

(22) 第三章研究方法本研究在 F-ELM 中加入 RSVD 去最佳化輸出權重，提出 RSVD-F-ELM，使其具有線上學習能力，並取代 MP inverse，改善線上學習時的不穩定狀況。本研究的方法流程如圖六所示，主要方法可分為兩個部分，分別為 FIS 計算和 RSVD 遞迴最佳化權重兩部分。. 圖六. 研究方法流程圖. 13.

(23) 1.. 步驟一：由 FIS 計算各資料之啟動強度，再合併為輸出矩陣。本研究沿用 F-ELM 的架構，由(16)、(17)、(18)先計算輸出矩陣H。首先透過五個高斯歸屬函數 𝑎 = 0.25 𝑘 − 1 和標準差𝜎 計算出各筆輸入資料之模糊歸屬函數 𝜇 ；接著 Modified PROBOR 計算該輸入資料之模糊推論輸出；再來由 AND 運算子計算啟動強度𝑤，最後合併為輸出矩陣H。 𝜇(𝑘,. 𝑖. ={. 𝑗𝑖 ) = exp [−. 1. (𝑥𝑗𝑖 −𝑎𝑘 ) 𝜎2. 2. ( 16 ). ]. , 𝐷 𝑖, 𝑙 = 1. 1 − ∏5 = (1 − 𝐶 𝑖, 𝑘, 𝑙 𝜇(𝑘,. 𝑗𝑖 )). ⋯𝑤𝐿 H=[ ⋮ ⋯ ⋮ ] ，𝑤𝑗 = ∏𝑖= 𝑤𝑁 ⋯ 𝑤𝑁𝐿 𝑁×𝐿. , 𝐷 𝑖, 𝑙 = 0. ( 17 ). 𝑤. 2.. 𝑖. ( 18 ). 步驟二：RSVD 計算。與 F-ELM 不同，本研究在最佳化權重部分用 RSVD 取代 MP inverse 來改良計算目標函數的 ̂ 分解，最佳解。令𝐹 𝛽 為最佳化函數，要使𝛽為最佳解需滿足(19)；而(19)可以透過 SVD 將H ̂ = UΣV T，Σ ′ V 𝑇 = UΣV 𝑇。當(20)滿足以下條件(21)、(22)、(23)時，則𝐹̂ 𝛽 如(20)所示，其中H 會有最小值，其中T = [𝑡 , 𝑡 , ⋯ , 𝑡 ]𝑇 ，β = [𝛽 , 𝛽 , ⋯ , 𝛽 ]。 𝐹 𝛽 = ‖T − H𝛽‖ ( 19 ) 𝐹̂ 𝛽 = ‖T − UΣV 𝑇 𝛽‖ = ‖T − Σ ′ V 𝑇 𝛽‖ ( 20 ). 14.

(24) 由上述理論得知，當滿足𝐹̂ 𝛽 的條件時，可以得到最佳輸出權重；為了計算最佳輸出權重，RSVD 的可以細分為四個部分，初始化部分、學習部分、最佳化部分與遞迴部分。. Σ′ Σ =[ ] ， 𝑛≥1 0. H = U Σ V𝑇 { Σ ′ − V 𝑇− ， 𝑛≥2 [ ] = Un Σn Vn𝑇 𝑇 𝑤. T′ ] T ′′ ， 𝑛≥2 T′ ] = [ ′′ ] T. ( 21 ). ( 22 ). U𝑇 T = [ T′ − U [ 𝑡 { 𝑇. ( 23 ). (1) 步驟(一)：初始化部分。首先取得第一筆輸入資料，當輸入𝑛 = 1時，由(22)可以計算出H中的第一筆啟動強度H 之奇異值分解，可以得到U 、Σ 和V 𝑇，由(23)可以解出T ′；由於Σ 為對角矩陣，因此可以由(21)簡化得到 Σ ′ 。. (2) 步驟(二)：學習部分。之後每獲得一筆新輸入資料時，令輸入𝑛 = 𝑛 + 1，由(22)以計算出Un 、Σn 和Vn𝑇 ，與步驟(一) 一樣，由(21)和(23)可以解出T ′ 和Σ ′ 。. 15.

(25) (3) 步驟(三)：最佳化部分。由步驟 ( 二 ) 計算出 T ′ 和 Σ ′ 後，由 (24) 、 (25) 兩式可以計算出最小化輸出 𝛽 ，其中 𝑧 ∗ = [𝑧 ∗ , 𝑧 ∗ , ⋯ , 𝑧 ∗ ]；𝑡 ′ 代表T′ 中第𝑙個目標值；𝑒 ′ 代表Σ ′ 中的第𝑙個對角線分量；𝑟𝑎𝑛𝑘 H 代表矩陣H 的秩. 𝛽n = V 𝑧 ∗. 𝑧. ∗. 𝑡′ ′ ，當 𝑙 ≤ 𝑟𝑎𝑛𝑘 H ={ 𝑒 0 ，當𝑟𝑎𝑛𝑘 H < 𝑙 ≤ 𝐿. ( 24 ). ( 25 ). (4) 步驟(四)：遞迴部分。當取得的輸入為最後的輸入資料時，即𝑛 = 𝑁時結束遞迴運算，並獲得輸出權重的最佳解；否則回到步驟(二)繼續學習部分。. 16.

(26) 第四章實驗結果本研究分別使用 F-ELM、OS-F-ELM 和 RSVD-F-ELM 三種方法在同樣的情境下進行分類和迴歸資料集的訓練，分類資料集測試分類的正確率；迴歸資料集計算均方差。參數調整部分，標準差𝜎分為三種情況，隨機在該範圍區間中產生：𝜎𝑎 = [0, 0.2]；𝜎𝑏 = [0.2, 0.5]；𝜎𝑐 = [0, 0.5]。實驗主要比較上述三種演算法在三種不同隨機範圍的𝜎狀態下，所展現的推廣能力。所使用的資料集與其屬性在下列表有詳細說明。. 一、資料集介紹在此實驗中，我們選用了 8 個資料集進行實驗與結果比對，其中包含 4 個迴歸資料集和 4 個分類資料集，為了驗證模糊極限學習機在不同種類資料的情況下所產生的結果，本實驗盡可能使用不同的資料筆數、不同的特徵數量和不同數量類別的資料集來做實驗，以下會針對資料集的部分進行介紹，表一、表二分別為迴歸資料集與分類資料集的資料集名稱、訓練與測試筆數和特徵數量的總表，表三～表六為各迴歸資料集的資料欄位說明、表七～表十為各分類資料集的類別欄位說明。. (一) 迴歸資料集介紹 1.. Auto MPG[9] 表三為美國卡內基梅隆大學的 StatLib 取得，並經 CMU StatLib 修訂，用來分類汽車汽缸。本實驗使用數據參考[9]所修訂的版本，含 392 筆資料，6 個特徵和 1 個輸出參數。. 17.

(27) 2.. Kinematics of Robot Arm[9] 表四為 8 link 之機械手臂的運動性資料與雜訊，內含 8 個輸入特徵和 1 個輸出參數。. 3.. California Housing[9] 表五由 1990 年，美國加州人口普查時所蒐集的區域性資料，包含該區域之經緯、人口密度、屋齡和住戶均收入等資料來預測平均房價。該資料含 8 個特徵和 1 個輸出參數。. 4.. 2D Planes[9] 表六為 2D Planes 為人造資料集，由 10 個參數獨立透過(26)去產生訓練樣本的輸入特徵，並依規則(27)產生測試輸出目標。此資料含 10 個輸入特徵和 1 個輸出參數。. 𝑃 𝑋 = −1 = 𝑃 𝑋 = 1 =. 1 2. ( 26 ). 1 𝑃 𝑋 = −1 = 𝑃 𝑋 = 0 = 𝑃 𝑋 = 1 = ，n = 2,3, … … ,10 3 {. 𝑋 = 1，𝑌 = 3 + 3𝑋 + 2𝑋3 + 𝑋4 + 𝜎 0,1 𝑋 = −1，𝑌 = −3 + 3𝑋5 + 2𝑋6 + 𝑋7 + 𝜎 0,1. 18. ( 27 ).

(28) 表一. 迴歸資料集. 資料集名稱. 訓練資料數. 測試資料數. 特徵數量. Auto-MPG. 196. 196. 6. Kinematics of Robot Arm. 4000. 4192. 8. California Housing. 10320. 10320. 8. 2D Planes. 10000. 12784. 10. 表二. 分類資料集. 資料集名稱. 訓練資料數. 測試資料數. 特徵數量. 類別數量. Spam Emails. 3000. 1601. 57. 2. Page Blocks. 2700. 2773. 10. 5. Image Segmentation. 1100. 1210. 19. 7. 285. 286. 9. 2. Breast Cancer Wisconsin Data Set. 19.

(29) 表三. Auto MPG 資料欄位說明. 特徵名稱. 資料型態. 特徵說明. displacement. 實數. 引擎排氣量. horsepower. 實數. 馬力. weight. 實數. 車重. acceleration. 實數. 加速度. model year. 整數. 引擎年份型號. origin. 整數. 引擎來源. mpg. 實數. 每英哩燃耗. cylinders. 離散值. 汽缸型號，此為輸出參數. 表四. Kinematics of Robot Arm 資料欄位說明. 特徵名稱. 資料型態. theta 1. 實數. theta 2. 實數. theta 3. 實數. theta 4. 實數. theta 5. 實數. theta 6. 實數. theta 7. 實數. theta 8. 實數. y. 實數，輸出參數. 20.

(30) 表五. California Housing 資料欄位說明. 特徵名稱. 資料型態. 特徵說明. longitude. 實數. 經度. latitude. 實數. 緯度. housingMedianAge. 實數. 住宅屋齡中位數. totalRooms. 實數. 總隔間數. totalBedrooms. 實數. 總寢室數. population. 實數. 人口. households. 實數. 戶數. medianIncome. 實數. 收入中位數. medianHouseValue. 實數. 房屋中值，輸出參數. 表六. 2D Plane 資料欄位說明. 特徵名稱 𝑋 ~𝑋. 資料型態實數. 0. 實數，輸出參數. 𝑌. (二) 分類資料集介紹 1.. Page Blocks[9] 資料是透過段落分析法，由檢測原始文件檔各區塊後，將該區塊內容依特徵分辨內容的資料集。該資料含 10 個輸入特徵和 5 種輸出類別，類別如表七所示。. 21.

(31) 2.. Image Segmentation[9] 由 7 種不同的室外影像以 3 × 3 像素大小取隨機區塊切割而成，依特徵 19 個輸入特徵判斷該部分影像屬於哪種區域，最終分類的區域為輸出特徵，共有 7 種不同的類別，類別如表八所示。. 3.. Spam Emails[9] 判斷是否為垃圾郵件，比對特殊字元或字串，以該資料集捐贈者 George Forman 為例，當信件中提及 George 與其居住區碼 650 時，有高可能性為非垃圾郵件。此外對不同長度之字串，配合文字特徵給予不同定義，如大小寫、連續大寫、標點等特徵，加以判斷是否為垃圾郵件，分類類別分別為垃圾郵件(spam)與非垃圾郵件(non-spam)，類別如表九所示。. 4.. Breast Cancer Wisconsin Data Set [17] 由威斯康辛大學，William 醫生所整理的乳癌診斷資料集，由癌細胞的細胞核特徵，如大小、形狀、染色體、是否分裂等 9 個特徵進行分類，分類類別有兩種，分別為良性腫瘤與惡性腫瘤，類別如表十所示。表七. Page Blocks 類別欄位說明. 輸出類別名稱. 輸出類別說明. Text. 文字類別，以 1 表示. Horizontal line. 水平線，以 2 表示. picture. 圖片，以 3 表示. Vertical line. 垂直線，以 4 表示. graphic. 圖形，以 5 表示. 22.

(32) 表八. Image Segmentation 類別欄位說明. 輸出類別名稱. 輸出類別說明. Brickface. 磚牆，以 1 表示. Cement. 水泥牆，以 2 表示. Foliage. 葉子，以 3 表示. grass. 草皮，以 4 表示. Path. 道路，以 5 表示. Sky. 天空，以 6 表示. Window. 窗戶，以 7 表示. 表十 Breast Cancer Wisconsin Data Set 類別欄位說明. 輸出類別名稱. 輸出類別說明. benign. 腫瘤判斷為良性，以 2 表示. malignant. 腫瘤判斷為惡性，以 4 表示. 表九 Spam Emails 類別欄位說明. 輸出類別名稱. 輸出類別說明. spam. 判斷為垃圾郵件，以 1 表示. non-spam. 判斷為非垃圾郵件，以 0 表示. 23.

(33) (三) 實驗流程在本實驗中，為了找出各資料集最適應隱藏節點數，本研究參考[9]所使用之驗證方法。實驗主要分為兩個階段，驗證階段和測試階段，驗證階段會先得到最佳節點數，測試階段再由最佳節點數進行測試，分類資料的測試結果為準確率，迴歸的測試結果為均方差。. 1.. 步驟一：驗證階段。. 驗證階段的主要目標為找出該資料的最佳隱藏層節點數。在每一次的驗證中，我們會從每一筆訓練資料中先隨機取得 75%的資料作為驗證的訓練樣本、剩下的 25%作為驗證測試樣本。為了找出最適應隱藏節點，必須先測試每個驗證樣本集的準確性，驗證的隱藏層節點數從 1 開始逐漸累加至 100，每一種隱藏層節點數重複訓練 25 次，每次訓練皆重新取得隨機標準差、C、D 矩陣。最後，每種節點數可以得到 25 個測試結果，由 25 個結果平均後進行比較，若為分類資料，則取最大的準確率；若為迴歸資料，則取最小的均方根之節點數作為最後測試所使用的節點數。以 Page Blocks 分類資料集為例，最佳隱藏節點數計算之範例如圖七所示，x 軸代表隱藏層節點的個數，y 軸代表測試的正確率，藍線、橘線和虛線分別代表 F-ELM、OS-F-ELM 和 RSVD-F-ELM 在各隱藏節點數的測試正確率，圖七之 OS-FELM 在節點數等於 5 時有最高的平均正確率，F-ELM 和 RSVD-F-ELM 在節點數 91 時有最高平均正確率，因此 OS-F-ELM 在測試階段的最佳隱藏層節點數為 5，其他兩種方法則為 91，以此類推。. 2.. 步驟二：測試階段。. 在本階段，每個訓練資料集會使用最佳節點數重複進行 50 次訓練和測試，每次都將重新取得隨機的標準差和 C、D 矩陣。最終的測試結果為 50 次測試結果之平均值。. 24.

(34) 二、實驗結果本實驗使用三種不同的學習演算法，分別為 F-ELM、OS-F-ELM 和 RSVD-F-ELM 三種學習演算法。其中 F-ELM 為批次輸入的模糊極限學習機；OS-F-ELM 為套用了線上序列演算法[9]之 F-ELM；RSVD-F-ELM 為本論文所研究之主要方法，套用了遞迴式奇異值分解的 F-ELM，透過遞迴式奇異值分解達到線上學習的能力。由以上三種學習演算法，分別使用三種不同範圍之隨機標準差𝜎進行比較。𝜎的範圍分別為 0 至 0.2、0 至 0.5 和 0.2 至 0.5，當𝜎極度接近 0 時可能導致訓練與測試的不穩定，使用較差的𝜎比較各方法在參數不穩定時的表現。實驗的比較結果在下列各資料集的實驗中，以表格的方式呈現，使用的隱藏層節點數分別為對 F-ELM 有利、對 OS-FELM 有利以及對 RSVD-F-ELM 有利，對該學習機有利之隱藏層節點數以粗體表示。三種不同之標準差區間的最佳解以粗體字表示，最後各資料集的測試最佳解以*號標記。. Page Blocks 各隱藏節點數平均測試正確率 100.00% 80.00% 60.00% 1 6 11 16 21 26 31 36 41 46 51 56 61 66 71 76 81 86 91 96. 40.00% FELM. 圖七. OSFELM. RSVDFELM. 最佳隱藏層節點數計算範例. 25.

(35) (一). 迴歸資料集實驗結果. 表十一至表十四分別為 2D Plane、Kinematics of Robot Arm、Auto MPG 和 California Housing 四個迴歸資料集的訓練和測試結果，其中平均訓練均方差與平均測試均方差分別為 50 次訓練與測試所平均之結果，均方差愈小代表結果愈好，粗體字為該標準差範圍中的最佳數據，*代表三種標準差範圍中的最佳數據。. 1.. 2D Plane：實驗結果如表十一所示，F-ELM、OS-F-ELM 與 RSVD-F-ELM 之最佳隱藏層節點數皆為 95，當標準差範圍落在 0 到 0.2 區間以及 0 到 0.5 區間時，F-ELM 與 RSVD-F-ELM 較 OS-F-ELM 穩定；當標準差區間為 0 到 0.5 時，F-ELM 和 RSVD-F-ELM 有最小的訓練和測試均方差 0.007 以及最小的平均標準差 0.005。. 2.. Kinematics of Robot Arm：實驗結果如表十二所示，F-ELM、OS-F-ELM 與 RSVD-F-ELM 之最佳隱藏層節點數皆為 95，當標準差範圍落 0.2 到 0.5 區間時，F-ELM 和 RSVD-F-ELM 有最小的測試均方差 0.126 以及最小的標準差 0.003。. 3.. Auto MPG：迴歸測試結果如表十三，F-ELM 與 RSVD-F-ELM 之隱藏層節點數皆為 31；OSF-ELM 的隱藏層節點數為 34。當標準差範圍落 0.2 到 0.5 區間且隱藏層節點數為 34 時，FELM 和 RSVD-F-ELM 有最小的測試均方差 0.005；隱藏層節點數為 31 時有最小的平均測試標準差 0.01。. 4.. California Housing：迴歸測試結果如表十四，F-ELM 與 RSVD-F-ELM 之隱藏層節點數皆為 71；OS-F-ELM 的隱藏層節點數為 11。當隱藏層節點數為 71 且標準差範圍落 0.2 到 0.5 區間時，F-ELM 和 RSVD-F-ELM 有最小的測試均方差 0.129。. 26.

(36) 表十一方法. 2D Plane 實驗結果. 隱藏層. 隨機標準差. 平均訓練. 平均測試. 平均訓練. 平均測試. 節點數. 範圍. 均方差. 均方差. 標準差. 標準差. 0.013. 0.014. 0.009. 0.009. 2197.84. 5.51E+14. 6.01E+14. 3.89E+15. 4.25E+15. 2190.81*. RSVDFELM. 0.013. 0.014. 0.009. 0.009. 2249.06. F-ELM. 0.007*. 0.007*. 0.005*. 0.005*. 2310.03. 2.09E+19. 2.04E+19. 1.10E+20. 1.08E+20. 2304.48. RSVDFELM. 0.007*. 0.007*. 0.005*. 0.005*. 2312.24. F-ELM. 0.062. 0.062. 0.009. 0.009. 2361.22. 0.062. 0.062. 0.009. 0.009. 8814.06. 0.062. 0.062. 0.009. 0.009. 2315.09. F-ELM [0, 0.2]. OS-F-ELM. OS-F-ELM. OS-F-ELM RSVDFELM. 95. [0, 0.5]. [0.2, 0.5]. 27. 平均時間.

(37) 表十二方法. Kinematics 實驗結果. 隱藏層. 隨機標準差. 平均訓練. 平均測試. 平均訓練. 平均測試. 節點數. 範圍. 均方差. 均方差. 標準差. 標準差. 0.063. 3.21E+14. 0.073. 2.21E+15. 303.55. 1.3E+19. 1.6E+20. 8.00E+19. 1.15E+21. 307.86. RSVDFELM. 0.063. 3.2E+14. 0.073. 2.21E+15. 349.72. F-ELM. 0.038*. 3.8E+10. 0.055. 2.64E+11. 298.93*. 5E+18. 5.7E+19. 3.51E+19. 3.94E+20. 300.82. RSVDFELM. 0.038*. 3.1E+10. 0.055. 2.23E+11. 334.04. F-ELM. 0.125. 0.126*. 0.003*. 0.003*. 299.78. 0.125. 0.126*. 0.003*. 0.003*. 418.90. 0.125. 0.126*. 0.003*. 0.003*. 330.62. F-ELM OS-F-ELM. OS-F-ELM. OS-F-ELM RSVDFELM. [0, 0.2]. 95. [0, 0.5]. [0.2, 0.5]. 28. 平均時間.

(38) 表十三方法. Auto MPG 實驗結果. 隱藏層. 隨機標準差. 平均訓練. 平均測試. 平均訓練. 平均測試. 平均時間. 節點數. 範圍. 均方差. 均方差. 標準差. 標準差. 0.048. 6.9E+9. 0,062. 3.48E+10. 4.03. 2.09E+19. 4.34E+20. 0.292. 6.1E+19. 4.39. F-ELM. 31. OS-F-ELM. 31. RSVDFELM. 31. 0.048. 6.8E+9. 0.062. 3.44E+10. 4.19. F-ELM. 31. 0.027*. 1.4E+9. 0.041. 6.98E+9. 4.00*. OS-F-ELM. 31. 5.65E+18. 7.54E+18. 3.95E+19. 5.32E+19. 4.44. RSVDFELM. 31. 0.027*. 1.26E+18. 0.041. 8.97E+18. 4.18. F-ELM. 31. 0.102. 0.111*. 0.005*. 0.010*. 4.02. OS-F-ELM. 31. 1.506. 1.104. 9.934. 7.031. 4.32. RSVDFELM. 31. 0.102. 0.111*. 0.005*. 0.010*. 4.18. F-ELM. 34. 0.044. 1.93E+12. 0.059. 2.69E+11. 4.63. OS-F-ELM. 34. 2.45E+20. 1.7E+21. 1.70E+21. 1.18E+22. 4.49. RSVDFELM. 34. 0.044. 1.93E+12. 0.059. 2.69E+11. 4.97. F-ELM. 34. 0.024*. 1.41E+12. 0.038. 9.97E+12. 4.79. OS-F-ELM. 34. 1.98E+20. 1.04E+18. 1.14E+18. 5.94E+18. 4.19*. RSVDFELM. 34. 0.024*. 1.4E+12. 0.038. 9.93E+12. 4.86. F-ELM. 34. 0.099. 0.109. 0.005*. 0.014. 4.79. OS-F-ELM. 34. 0.287. 0.358. 0.910. 1.217. 4.33. RSVDFELM. 34. 0.099. 0.109. 0.005*. 0.014. 4.78. [0, 0.2]. [0, 0.5]. [0.2, 0.5]. [0, 0.2]. [0, 0.5]. [0.2, 0.5]. 29.

(39) 表十四方法. California Housing 實驗結果. 隱藏層. 隨機標準差. 平均訓練. 平均測試. 平均訓練. 平均測試. 平均時間. 節點數. 範圍. 均方差. 均方差. 標準差. 標準差. 0.054. 2.5E+10. 0.059. 1.6E+11. 553.53*. 2.44E+15. 3.14E+15. 1.45E+16. 2.21E+16. 614.16. F-ELM. 71. OS-F-ELM. 71. RSVDFELM. 71. 0.054. 2.5E+10. 0.059. 1.6E+11. 597.86. F-ELM. 71. 0.036*. 3.4E+5. 0.048. 2E+6. 561.27. OS-F-ELM. 71. 0.045. 0.045. 0.047. 0.047. 611.07. RSVDFELM. 71. 0.036*. 2.8E+5. 0.048. 1.9E+6. 587.17. F-ELM. 71. 0.127. 0.129*. 0.002. 0.002. 614.61. OS-F-ELM. 71. 0.157. 0.157. 0.001*. 0.001*. 1159.49. RSVDFELM. 71. 0.127. 0.129*. 0.002. 0.002. 589.16. F-ELM. 11. 0.087. 2.27E+7. 0.059. 1.6E+8. 96.25. OS-F-ELM. 11. 2.5E+18. 1.9E+18. 1.6E+19. 1.2E+19. 86.19*. RSVDFELM. 11. 0.087. 2.27E+7. 0.059. 1.6E+8. 93.92. F-ELM. 11. 0.057*. 1077.92. 0.051. 5930.67. 88.84. OS-F-ELM. 11. 8.7E+19. 7.1E+19. 6.2E+20. 5.1E+20. 86.27. RSVDFELM. 11. 0.057*. 1077.92. 0.051. 5930.67. 99.43. F-ELM. 11. 0.178. 0.177*. 0.023*. 0.022*. 100.16. OS-F-ELM. 11. 13.16. 9.89. 65.47. 52.25. 117.08. RSVDFELM. 11. 0.178. 0.177*. 0.023*. 0.022*. 99.75. [0, 0.2]. [0, 0.5]. [0.2, 0.5]. [0, 0.2]. [0, 0.5]. [0.2, 0.5]. 30.

(40) (二) 分類資料集實驗結果表十五至表十八分別為 Image Segmentation、Page Block、Spam Emails 和 Breast Cancer Wisconsin 四個資料集的訓練和測試結果，其中平均訓練正確率與平均測試正確率分別為 50 次訓練與測試所平均之結果，正確率愈大代表結果愈好，粗體字為該標準差範圍中的最佳數據，*代表三種標準差範圍中的最佳數據。。. 1.. Image Segmentation：分類測試結果如表十五所示，F-ELM 與 RSVD-F-ELM 之隱藏層節點數皆為 98；OS-F-ELM 的隱藏層節點數為 81。當隱藏層節點數為 98 且標準差範圍落 0.2 到 0.5 區間時，F-ELM 和 RSVD-F-ELM 有最好的測試分類正確率 93.14%以及最小的平均訓練、測試標準差 0.007。. 2.. Page Block：測試結果如表十六所示，F-ELM 與 RSVD-F-ELM 之最佳隱藏層節點數皆為 91；OS-F-ELM 的最佳隱藏層節點數為 5。當隱藏層節點數為 91 且標準差範圍落 0.2 到 0.5 區間時，F-ELM 和 RSVD-F-ELM 有最高的測試分類正確率 95.32%以及最小的平均測試標準差 0.003。. 3.. Spam Emails：分類測試結果如表十七，F-ELM 與 RSVD-F-ELM 之最佳隱藏層節點數皆為 98；OS-F-ELM 的最佳隱藏層節點數為 81。當隱藏層節點數為 98，且標準差範圍落 0.2 到 0.5 區間時，F-ELM 和 RSVD-F-ELM 有最好的分類正確率 85.25%。. 4.. Breast Cancer Wisconsin：分類測試結果如表十八所示，F-ELM 與 RSVD-F-ELM 之最佳隱藏層節點數皆為 91；OS-F-ELM 的最佳隱藏層節點數為 5。當隱藏層節點數為 30 且標準差範圍落 0.2 到 0.5 區間時，F-ELM 和 RSVD-F-ELM 有最好的分類正確率 95.81%以及最小的平均測試標準差 0.007。. 31.

(41) 表十五方法. Image Segmentation 實驗結果. 隱藏層. 隨機標準差. 平均訓練. 平均測試. 平均訓練. 平均測試. 平均時間. 節點數. 範圍. 正確率. 正確率. 標準差. 標準差. 75.93%. 74.33%. 0.226. 0.222. 203.92. 16.66%. 16.05%. 0.067. 0.061. 197.89. F-ELM. 98. OS-F-ELM. 98. RSVDFELM. 98. 75.81%. 74.18%. 0.228. 0.222. 192.38. F-ELM. 98. 86.07%. 84.93%. 0.174. 0.170. 185.23*. OS-F-ELM. 98. 65.67%. 65.35%. 0.364. 0.359. 188.79. RSVDFELM. 98. 85.98%. 84.84%. 0.177. 0.173. 193.29. F-ELM. 98. 94.24%*. 93.14%*. 0.007*. 0.007*. 189.26. OS-F-ELM. 98. 91.98%. 91.33%. 0.111. 0.112. 261.71. RSVDFELM. 98. 94.24%*. 93.14%*. 0.007*. 0.007*. 212.25. F-ELM. 81. 75.54%. 74.23%. 0.197. 0.196. 158.61. OS-F-ELM. 81. 17.31%. 17.58%. 0.089. 0.083. 153.95*. RSVDFELM. 81. 75.43%. 74.12%. 0.198. 0.197. 163.76. F-ELM. 81. 85.65%. 84.82%. 0.159. 0.160. 158.54. OS-F-ELM. 81. 38.75%. 38.75%. 0.354. 0.35. 153.95*. RSVDFELM. 81. 85.66%. 84.85%. 0.159. 0.159. 161.11. F-ELM. 81. 93.33%*. 92.60%*. 0.007*. 0.009. 166.42. OS-F-ELM. 81. 48.69%. 48.21%. 0.375. 0.375. 213.19. RSVDFELM. 81. 93.33%*. 92.60%*. 0.007*. 0.009. 163.68. [0, 0.2]. [0, 0.5]. [0.2, 0.5]. [0, 0.2]. [0, 0.5]. [0.2, 0.5]. 32.

(42) 表十六方法. Page Block 實驗結果. 隱藏層. 隨機標準差. 平均訓練. 平均測試. 平均訓練. 平均測試. 平均時間. 節點數. 範圍. 正確率. 正確率. 標準差. 標準差. 94.53%. 93.21%. 0.023. 0.018. 242.12. 50.79%. 51.05%. 0.136. 0.135. 315.41. F-ELM. 91. OS-F-ELM. 91. RSVDFELM. 91. 94.52%. 93.21%. 0.022. 0.018. 251.68. F-ELM. 91. 95.81%. 94.22%. 0.028. 0.026. 238.62*. OS-F-ELM. 91. 48.47%. 48.50%. 0.079. 0.078. 315.70. RSVDFELM. 91. 95.81%. 94.22%. 0.028. 0.026. 257.26. F-ELM. 91. 96.97%*. 95.32%*. 0.002*. 0.003*. 242.07. OS-F-ELM. 91. 50.18%. 50.30%. 0.060. 0.060. 572.83. RSVDFELM. 91. 96.97%*. 95.32%*. 0.002*. 0.003*. 247.63. F-ELM. 5. 83.16%. 83.23%. 0.221. 0.221. 17.55. OS-F-ELM. 5. 71.62%. 72.27%. 0.281. 0.283. 13.77*. RSVDFELM. 5. 83.16%. 83.26%. 0.221. 0.221. 18.87. F-ELM. 5. 86.67%. 86.67%. 0.158. 0.157. 17.43. OS-F-ELM. 5. 79.38%. 79.80%. 0.267. 0.269. 13.96. RSVDFELM. 5. 86.67%. 86.67%. 0.158. 0.157. 18.94. F-ELM. 5. 90.65%*. 90.60%*. 0.008*. 0.008. 17.64. OS-F-ELM. 5. 87.52%. 87.99%. 0.105. 0.107. 28.15. RSVDFELM. 5. 90.65%*. 90.60%*. 0.008*. 0.007*. 18.69. [0, 0.2]. [0, 0.5]. [0.2, 0.5]. [0, 0.2]. [0, 0.5]. [0.2, 0.5]. 33.

(43) 表十七 Spam Emails 實驗結果方法. 隱藏層. 隨機標準差. 平均訓練. 平均測試. 平均訓練. 平均測試. 平均時間. 節點數. 範圍. 正確率. 正確率. 標準差. 標準差. 59.81%. 60.14%. 0.087. 0.091. 925.48. 52.90%. 53.41%. 0.093. 0.099. 978.83. F-ELM. 98. OS-F-ELM. 98. RSVDFELM. 98. 63.49%. 63.81%. 0.081. 0.088. 851.8*. F-ELM. 98. 76.86%. 77.42%. 0.131. 0.131. 905.26. OS-F-ELM. 98. 66.10%. 66.73%. 0.167. 0.170. 951.97. RSVDFELM. 98. 78.88%. 79.57%. 0.106. 0.109. 1025.81. F-ELM. 98. 84.92%*. 85.25%*. 0.056. 0.055. 926.01. OS-F-ELM. 98. 73.66%. 74.16%. 0.168. 0.171. 1005.21. RSVDFELM. 98. 84.92%*. 85.25%*. 0.056. 0.055. 918.64. F-ELM. 81. 59.26%. 59.43%. 0.084. 0.090. 1016.55. OS-F-ELM. 81. 52.90%. 53.10%. 0.101. 0.109. 754.55. RSVDFELM. 81. 63.49%. 63.81%. 0.081. 0.088. 1014.67. F-ELM. 81. 76.00%. 76.74%. 0.113. 0.114. 1017.27. OS-F-ELM. 81. 61.69%. 62.11%. 0.161. 0.167. 744.78. RSVDFELM. 81. 78.88%. 79.57%. 0.106. 0.109. 1025.81. F-ELM. 81. 83.78%. 84.41%. 0.049*. 0.050*. 1007.28. OS-F-ELM. 81. 68.10%. 68.60%. 0.167. 0.170. 771.63. RSVDFELM. 81. 83.77%. 84.42%. 0.049*. 0.050*. 810.26. [0, 0.2]. [0, 0.5]. [0.2, 0.5]. [0, 0.2]. [0, 0.5]. [0.2, 0.5]. 34.

(44) 表十八 Breast Cancer Wisconsin Data Set 實驗結果方法. 隱藏層. 隨機標準差. 平均訓練. 平均測試. 平均訓練. 平均測試. 平均時間. 節點數. 範圍. 正確率. 正確率. 標準差. 標準差. 89.71%. 88.20%. 0.091. 0.091. 8.55. 64.10%. 63.12%. 0.196. 0.188. 11.22. F-ELM. 30. OS-F-ELM. 30. RSVDFELM. 30. 89.72%. 88.24%. 0.091. 0.090. 9.06. F-ELM. 30. 93.70%. 92.50. 0.070. 0.072. 8.60. OS-F-ELM. 30. 84.77%. 83.93%. 0.210. 0.193. 11.68. RSVDFELM. 30. 93.70%. 92.49%. 0.070. 0.072. 8.81. F-ELM. 30. 96.71%*. 95.81%*. 0.005*. 0.007*. 8.41*. OS-F-ELM. 30. 93.48%. 92.33%. 0.130. 0.112. 11.51. RSVDFELM. 30. 96.71%*. 95.81%*. 0.005*. 0.007*. 8.77. F-ELM. 13. 91.25%. 90.30%. 0.031. 0.031. 5.03. OS-F-ELM. 13. 55.18%. 55.40%. 0.194. 0.187. 3.75. RSVDFELM. 13. 91.25%. 90.30%. 0.031. 0.031. 4.99. F-ELM. 13. 94.73%. 93.79%. 0.024. 0.028. 5.22. OS-F-ELM. 13. 82.12%. 81.76%. 0.222. 0.220. 3.67*. RSVDFELM. 13. 94.73%. 93.79%. 0.024. 0.028. 5.16. F-ELM. 13. 95.61%*. 94.97%*. 0.012*. 0.013*. 4.83. OS-F-ELM. 13. 94.88%. 94.42%. 0.046. 0.044. 3.82. RSVDFELM. 13. 95.61%*. 94.97%*. 0.012*. 0.013*. 5.41. [0, 0.2]. [0, 0.5]. [0.2, 0.5]. [0, 0.2]. [0, 0.5]. [0.2, 0.5]. 35.

(45) (三) 實驗總結由上述實驗結果中可以發現，不管在分類資料集或迴歸資料集，當σ的範圍落在[0, 0.2]或 [0,0.5]兩種區間時，RSVD-F-ELM 的訓練與測試結果皆較 OS-F-ELM 好。若將對 RSVD-F-ELM 有利的隱藏層節點數之實驗稱為 A 實驗，對 OS-F-ELM 有利則稱 B 實驗，從實驗結果中可以發現，不管 A 實驗或 B 實驗，RSVD-F-ELM 都會有較好的測試結果和較小的測試標準差。實驗中，當𝜎的範圍落在[0.2, 0.5]區間，會具有最穩定的訓練與測試；𝜎的範圍落在[0, 0.2]和[0, 0.5]兩個區間時，可能發生極為糟糕的測試結果，在迴歸實驗中最明顯，具有極大的測試結果和標準差，而在不穩定的參數條件下，RSVD-F-ELM 還是有較好的測試結果。在時間方面，RSVD-F-ELM 在訓練與測試所消耗時間會比 F-ELM 要來的長，但 RSVD-F-ELM 具有線上學習能力，當獲得新輸入時，F-ELM 需重新計算，累計時間就會比 RSVD-F-ELM 長。此外 RSVD-F-ELM 與 F-ELM 的測試結果十分接近，甚至一樣，即兩者的推廣能力非常接近，但 RSVD-F-ELM 具有線上學習能力，具有更彈性的應用空間。. 36.

(46) 結論與未來展望使用模糊推論系統取代原本極限學習機中的參數配置可以增加解釋性和可理解性，確實的解決黑盒現象，並使極限學習機在分類與迴歸分析的表現更穩定；使用遞迴奇異值分解的方式取代廣義逆矩陣優化輸出參數，使 RSVD-F-ELM 能夠有穩定的表現且能夠進行線上學習。由本研究之實驗結果，我們證實 RSVD-F-ELM 在推廣能力上非常接近原始的 F-ELM，此外 RSVD-F-ELM 可以進行線上學習，能有效的減少資料蒐集成本問題和提升學習的效率。此外，本研究中發現在某些特定的輸入資料或參數調整下，會使 F-ELM 與 RSVD-F-ELM 有較差的測試結果，並同時導致 OS-F-ELM 測試結果十分異常，如實驗中所調整的三種𝜎值中可以看出明顯的差異，若能找出該異常的原因，相信能使最佳化輸出參數的部分再得到改善，更能提高極限學習機訓練與測試的準確率和穩定度。. 37.

(47) 參考文獻 [1] G.-B. Huang, Q.-Y. Zhu, and C.-K. Siew, “Extreme learning machine: a new learning scheme of feedforward neural networks,” 2004 IEEE International Joint Conference on Neural Networks, vol. 2, pp. 985-990, 2004. [2] S. Tamura and M. Tateishi, “Capabilities of a four-layered feedforward neural network: four layers versus three,” IEEE Transactions on Neural Networks, vol. 8, no. 2, pp. 251-255, 1997. [3] G.-B. Huang, “Learning capability and storage capacity of two-hidden-layer feedforward networks,” IEEE Transactions on Neural Networks, vol. 14, no. 2, pp. 274-281, 2003. [4] G.-B. Huang, “Real-time learning capability of neural networks,” IEEE Journals & Magazines, vol.17, no. 4, pp. 863-878, 2006. [5] P. L. Bartlett, “The sample complexity of pattern classification with neural networks: the size of the weights is more important than the size of the network,” IEEE Transactions on Information Theory, vol. 44, no. 2, pp. 525-536, Mar. 1998. [6] S.-Y. Wong, K.-S. Yap, H.-J. Yap, S.-C. Tan, and S.-W. Chang, “On Equivalence of FIS and ELM for Interpretable Rule-Based Knowledge Representation,” IEEE Transactions on Neural Networks and Learning Systems, vol. 26, no. 7, pp.1417-1430, 2015. [7] L. A. Zadeh, “Outline of a new approach to the analysis of complex systems and decision processes,” IEEE Transactions on Systems, Man, and Cybernetics: Systems, vol. SMC-3, no. 1, pp. 28–44, Jan. 1973. [8] L. A. Zadeh, “The concept of a linguistic variable and its application to approximate reasoning— I,” Information Sciences, vol. 8, no. 3, pp. 199–249, 1975.. 38.

(48) [9] N.-Y. Liang, G.-B. Huang, P. Saratchandran, and N. Sundararajan, “A Fast and Accurate Online Sequential Learning Algorithm for Feedforward Networks,” IEEE Transactions on Neural Networks, vol. 17, no. 6, pp. 1411-1423, Nov. 2006. [10] E. K. P. Chong and S. H. Żak, An Introduction to Optimization. New York: Wiley, 2001. [11] Y. Miche, A. Sorjamaa, P. Bas, O. Simula, C. Jutten, and A. Lendasse, “OP-ELM: Optimally Pruned Extreme Learning Machine,” IEEE Transactions on Neural Networks, vol. 21, no. 1, pp. 158-162, Jun. 2010. [12] M.-R. Zhao, J.-M. Zhang, and F. Han, “An improved extreme learning machine with adaptive growth of hidden nodes based on particle swarm optimization,” 2014 International Joint Conference on Neural Networks, pp. 886-890, Jul. 2014. [13] Y.-G. Wang, F.-L. Cao, and Y.-B. Yuan, “A study on effectiveness of extreme learning machine,” Neurocomputing, vol. 74, no. 16, pp. 2483-2490, 2011. [14] L. A. Zadeh, “Fuzzy sets,” Information Control, vol. 8, pp. 338-353, 1965 [15] G.-B. Huang, and L. Chen, “Convex incremental extreme learning machine,” Neurocomputing, vol. 70, no. 16, pp. 3056-3062, 2007. [16] H.-J. Rong, Y.-S. Ong, A.-H. Tan, and Z. Zhu, “A fast pruned-extreme learning machine for classification problem,” Neurocomputing, vol. 72, no. 1, pp. 359-366, 2008. [17] O. L. Mangasarian and W. H. Wolberg: “Cancer diagnosis via linear programming”, SIAM News, vol. 23, no. 5, pp. 1 & 18, Sep. 1990.. 39.

(49)