文獻探討

第二章文獻探討

由於 ELM 為 SLFN 架構，相較於一般的 ANN，ELM 確實可以大幅縮短訓練所需的時間與

硬體資源。然而與ANN 的理論不同，ELM 隨機決定權重，並且維持單隱藏層，由於單層結構且

訓練時不用調整權重，因此訓練速度有顯著的提升。ELM 提出以來，關於優化演算法相關研究陸續提出，像是加入線上學習功能[9]、調整隱藏層結點數量[11][12]、解釋性改良[6]等。基於隨機權重與SLFN 架構的關係，ELM 在訓練時間上遠勝於傳統 ANN，然而也因隨機權重的關係，

ELM 訓練結果受隨機值影響，測試準確性誤差範圍大且解釋性較差。因此 OS-ELM、F-ELM 等基於ELM 的改良演算法陸續被提出，本小節將回顧 ELM 演算法及其他改良演算法。

一、極限學習機

由於傳統前饋式神經網路的參數，如學習演算法、權重、閥值等需要透過使用者依需求自行調整，在訓練上往往會因多餘的學習演算法導致訓練速度變慢，此外有較高機率產生局部最佳解。

2004 年時，Huang 為了改善上述問題而提出了 ELM，Huang 透過[2][3]認為 SLFN 架構配合隨機輸入權重就具有學習能力，並經[4]驗證後，Huang 認為單層前饋式神經網路的隱藏層權重不需要調整，且理論上速度會遠快於一般多隱藏層架構的類神經網路，ELM 的架構如圖四。在[2][3]所提及的理論，SLFN 的隱藏層閥值和隱藏層權重可以被視為歐幾里得空間的線性系統：𝐴 = ； 𝐴 ∈ 𝑅^×， ∈ 𝑅 。依據 Bartlett 的理論[5]得知訓練誤差與輸出權重具有正相關性，輸出權重的範數愈小，訓練誤差也就愈小。因此可以透過摩爾彭洛斯廣義逆矩陣(Moore-Penrose pseudoinverse; MP inverse)去得到輸出權重的最小化平方範數，使訓練誤差最小化。極限學習機的訓練可以分成兩個步驟，步驟一為隱藏節點權重的計算；步驟二為輸出權重的最佳化。

6 basis function; RBF)或 S 型函數(Sigmoid function)，最後將所有獲得的𝐺 合併成隱藏層輸出矩陣H，如(2)所示。

的效率。基於此想法，Hung 等人在 2007 年提出增加式極限學習機(incremental ELM; I-ELM)[15]，

I-ELM 要增加節點數時，會先提供數個不同的隱藏層節點，並透過適應函數找到最適合的節點後，再加入隱藏層中。2008 年，Rong 等人提出修剪極限學習機(pruning ELM; P-ELM)[16]，和逐步增加節點的I-ELM 相反，P-ELM 則是從較多的隱藏層節點中，選出多餘且無用的節點刪去。

P-ELM 在 2010 年時，由 Miche 等人改良並提出最佳化修剪極限學習機(optimal pruned ELM; OP-ELM)[11]。

三、隱藏層節點的改良

ELM 透過隨機取得輸入權重和閥值，大幅提升了訓練速度，然而隨機取得的輸入權重和閥值可能在經過隱藏層節點後，使隱藏層的輸出矩陣未能滿足滿行秩(full column rank)，這會使最後的輸出權重產生計算上的誤差或解不出輸出權重，導致準確度的嚴重下降。2011 年，Wang 等人使用高斯徑向基底函數(Gaussian radial basis-type function)當作啟動函數，提出(effective extreme learning machine; EELM) [13]，高斯徑向基底函數會區分矩陣的對角元素與非對角元素，使對角元素之絕對值總和大於非對角元素絕對值總和，因此能選出適合的輸入權重和閥值，使隱藏層輸出矩陣滿足滿行秩。

圖四 ELM 架構示意圖

四、線上學習演算法

由於ELM 是以批次輸入的方式取得輸入資料，因此 Liang 等人於 2006 年提出 OS-ELM[9]以改良ELM，使 ELM 得以線上學習。由於原始的 ELM 需要取得批次輸入資料後才進行訓練，批次輸入需要完整的蒐集完所有欲分析資料後才可開始進行訓練，然而實際上要蒐集完整的資料是一件不容易的事情，除了蒐集資料的設備外，從設備上回收資料、資料的儲存、蒐集資料所需的時間、物力、人力等皆為成本考量。此外像是具有即時性的資料，等到全部的資料蒐集完成，該資料的是否適應當下環境等參考性問題也有待考量，使用這些資料所訓練出來的模型也就相對的失去應有的價值。

考慮上述種種問題，為了減少資料蒐集的成本和維持訓練模型的價值，Liang 等人設法用線上演算法改善批次訓練可能產生的問題。OS-ELM 使用逐一(one-by-one)或逐群(chunk-by-chunk) 的方式取得輸入資料，並使用 RLS 找出最佳解。OS-ELM 演算法分成兩個步驟，分別為初始化步驟和序列學習步驟。

1.

步驟一：初始化步驟。

在初始化步驟，OS-ELM 會先取得一部份的輸入資料訓練，並計算初始輸出權重。使用者須先定義輸入序列𝑁₀，𝑁₀ ≥ 𝐿；初始化所需輸入資料 _𝑖， _𝑖 = [ , , ⋯ , _𝑁₀]^𝑇；初始化輸入資

料目標T₀，T₀=[𝑡 , 𝑡 , ⋯ , 𝑡_𝑁₀]^𝑇。經由隱藏層函數𝐺 計算後，合併所有𝐺 得到初始輸出矩陣H₀，如(5)所示，最後透過 MP inverse 最佳化得到初始最佳化權重𝛽⁰，如(6)所示，其中M₀ 可表示成(7)所示。

9 FIS 取代原本 ELM 隱藏層函數，並加入規則結合矩陣(rule-combination matrix; matrix-C)與忽略矩陣(don't care matrix; matrix-D)兩個二元矩陣隨機決定歸屬函數(membership function)的使用參數與是否忽略某些歸屬函數，F-ELM 之架構如圖五所示。模糊集合理論[14]由 Zadeh 提出，模糊理論

𝑤 C(1,:,1)

C(2,:,1) D(1,1)

D(2,1)

𝑤 C(1,:,2)

C(2,:,2) D(1,2)

D(2,2)

圖五 F-ELM 架構範例

然而實際問題的應用上，用傳統二元分類的定義會產生許多問題，且無法顯示程度上的差異，

因此模糊集合理論在 0 到 1 之間設以實數值來描述問題的歸屬關係。[7][8]所提出的 FIS 為使用了模糊集合和模糊邏輯詮釋言語上的模糊資訊，並以if-then 的方式表現。根據 FIS 加以修改，F-ELM 的計算可以分為歸屬函數計算、改良式概率 OR 運算(Modified Probabilities OR; Modified PROBOR)和輸出權重最佳化，以上三個步驟。

( 12 )

3.

步驟三：最佳化輸出權重。

由步驟二所得到的 _𝑖，透過AND 運算元，如(13)所示，可以得到各筆輸入的啟動強度𝑤_𝑗。結合所有𝑤可以得到獲得隱藏層輸出矩陣Ĥ，如(14)所示。最後再由 MP inverse 計算最佳化權重𝛽，如(15)所示。

( 13 )

( 14 )

( 15 ) 𝑤_𝑗 = ∏ _𝑖

𝑖=

Ĥ = [

𝑤 ⋯ 𝑤_𝐿

⋮ ⋯ ⋮ 𝑤_𝑁 ⋯ 𝑤_𝑁𝐿

]

𝑁×𝐿

𝛽 = Ĥ⁺T

在文檔中 I-Shou University Institutional Repository:Item 987654321/21418 (頁 14-22)

第二章 文獻探討

一、 極限學習機

三、 隱藏層節點的改良

四、 線上學習演算法

1.

3.

第二章文獻探討

一、極限學習機

三、隱藏層節點的改良

四、線上學習演算法