• 沒有找到結果。

第二章 文獻探討

由於 ELM 為 SLFN 架構,相較於一般的 ANN,ELM 確實可以大幅縮短訓練所需的時間與

硬體資源。然而與ANN 的理論不同,ELM 隨機決定權重,並且維持單隱藏層,由於單層結構且

訓練時不用調整權重,因此訓練速度有顯著的提升。ELM 提出以來,關於優化演算法相關研究 陸續提出,像是加入線上學習功能[9]、調整隱藏層結點數量[11][12]、解釋性改良[6]等。基於隨 機權重與SLFN 架構的關係,ELM 在訓練時間上遠勝於傳統 ANN,然而也因隨機權重的關係,

ELM 訓練結果受隨機值影響,測試準確性誤差範圍大且解釋性較差。因此 OS-ELM、F-ELM 等 基於ELM 的改良演算法陸續被提出,本小節將回顧 ELM 演算法及其他改良演算法。

一、 極限學習機

由於傳統前饋式神經網路的參數,如學習演算法、權重、閥值等需要透過使用者依需求自行 調整,在訓練上往往會因多餘的學習演算法導致訓練速度變慢,此外有較高機率產生局部最佳解。

2004 年時,Huang 為了改善上述問題而提出了 ELM,Huang 透過[2][3]認為 SLFN 架構配合隨機 輸入權重就具有學習能力,並經[4]驗證後,Huang 認為單層前饋式神經網路的隱藏層權重不需要 調整,且理論上速度會遠快於一般多隱藏層架構的類神經網路,ELM 的架構如圖四。在[2][3]所 提及的理論,SLFN 的隱藏層閥值和隱藏層權重可以被視為歐幾里得空間的線性系統:𝐴 = ; 𝐴 ∈ 𝑅 × , ∈ 𝑅 。依據 Bartlett 的理論[5]得知訓練誤差與輸出權重具有正相關性,輸出權重 的 範 數 愈 小 , 訓 練 誤 差 也 就 愈 小 。 因 此 可 以 透 過 摩 爾 彭 洛 斯 廣 義 逆 矩 陣(Moore-Penrose pseudoinverse; MP inverse)去得到輸出權重的最小化平方範數,使訓練誤差最小化。極限學習機的 訓練可以分成兩個步驟,步驟一為隱藏節點權重的計算;步驟二為輸出權重的最佳化。

6 basis function; RBF)或 S 型函數(Sigmoid function),最後將所有獲得的𝐺 合併成隱藏層輸出 矩陣H,如(2)所示。

7

的效率。基於此想法,Hung 等人在 2007 年提出增加式極限學習機(incremental ELM; I-ELM)[15],

I-ELM 要增加節點數時,會先提供數個不同的隱藏層節點,並透過適應函數找到最適合的節點 後,再加入隱藏層中。2008 年,Rong 等人提出修剪極限學習機(pruning ELM; P-ELM)[16],和逐 步增加節點的I-ELM 相反,P-ELM 則是從較多的隱藏層節點中,選出多餘且無用的節點刪去。

P-ELM 在 2010 年時,由 Miche 等人改良並提出最佳化修剪極限學習機(optimal pruned ELM; OP-ELM)[11]。

三、 隱藏層節點的改良

ELM 透過隨機取得輸入權重和閥值,大幅提升了訓練速度,然而隨機取得的輸入權重和閥值 可能在經過隱藏層節點後,使隱藏層的輸出矩陣未能滿足滿行秩(full column rank),這會使最後 的輸出權重產生計算上的誤差或解不出輸出權重,導致準確度的嚴重下降。2011 年,Wang 等人 使用高斯徑向基底函數(Gaussian radial basis-type function)當作啟動函數,提出(effective extreme learning machine; EELM) [13],高斯徑向基底函數會區分矩陣的對角元素與非對角元素,使對角 元素之絕對值總和大於非對角元素絕對值總和,因此能選出適合的輸入權重和閥值,使隱藏層輸 出矩陣滿足滿行秩。

圖四 ELM 架構示意圖

8

四、 線上學習演算法

由於ELM 是以批次輸入的方式取得輸入資料,因此 Liang 等人於 2006 年提出 OS-ELM[9]以 改良ELM,使 ELM 得以線上學習。由於原始的 ELM 需要取得批次輸入資料後才進行訓練,批 次輸入需要完整的蒐集完所有欲分析資料後才可開始進行訓練,然而實際上要蒐集完整的資料是 一件不容易的事情,除了蒐集資料的設備外,從設備上回收資料、資料的儲存、蒐集資料所需的 時間、物力、人力等皆為成本考量。此外像是具有即時性的資料,等到全部的資料蒐集完成,該 資料的是否適應當下環境等參考性問題也有待考量,使用這些資料所訓練出來的模型也就相對的 失去應有的價值。

考慮上述種種問題,為了減少資料蒐集的成本和維持訓練模型的價值,Liang 等人設法用線 上演算法改善批次訓練可能產生的問題。OS-ELM 使用逐一(one-by-one)或逐群(chunk-by-chunk) 的方式取得輸入資料,並使用 RLS 找出最佳解。OS-ELM 演算法分成兩個步驟,分別為初始化 步驟和序列學習步驟。

1.

步驟一:初始化步驟。

在初始化步驟,OS-ELM 會先取得一部份的輸入資料訓練,並計算初始輸出權重。使用者須 先定義輸入序列𝑁0,𝑁0 ≥ 𝐿;初始化所需輸入資料 𝑖𝑖 = [ , , ⋯ , 𝑁0]𝑇;初始化輸入資

料目標T0,T0=[𝑡 , 𝑡 , ⋯ , 𝑡𝑁0]𝑇。經由隱藏層函數𝐺 計算後,合併所有𝐺 得到初始輸出矩 陣H0,如(5)所示,最後透過 MP inverse 最佳化得到初始最佳化權重𝛽 0 ,如(6)所示,其中M0 可表示成(7)所示。

9 FIS 取代原本 ELM 隱藏層函數,並加入規則結合矩陣(rule-combination matrix; matrix-C)與忽略矩 陣(don't care matrix; matrix-D)兩個二元矩陣隨機決定歸屬函數(membership function)的使用參數與 是否忽略某些歸屬函數,F-ELM 之架構如圖五所示。模糊集合理論[14]由 Zadeh 提出,模糊理論

10

𝑤 C(1,:,1)

C(2,:,1) D(1,1)

D(2,1)

𝑤 C(1,:,2)

C(2,:,2) D(1,2)

D(2,2)

Σ

Σ

圖五 F-ELM 架構範例

11

然而實際問題的應用上,用傳統二元分類的定義會產生許多問題,且無法顯示程度上的差異,

因此模糊集合理論在 0 到 1 之間設以實數值來描述問題的歸屬關係。[7][8]所提出的 FIS 為使用 了模糊集合和模糊邏輯詮釋言語上的模糊資訊,並以if-then 的方式表現。根據 FIS 加以修改,F-ELM 的計算可以分為歸屬函數計算、改良式概率 OR 運算(Modified Probabilities OR; Modified PROBOR)和輸出權重最佳化,以上三個步驟。

12

( 12 )

3.

步驟三:最佳化輸出權重。

由步驟二所得到的 𝑖 ,透過AND 運算元,如(13)所示,可以得到各筆輸入的啟動強度𝑤𝑗 。 結合所有𝑤可以得到獲得隱藏層輸出矩陣Ĥ,如(14)所示。最後再由 MP inverse 計算最佳化權 重𝛽,如(15)所示。

( 13 )

( 14 )

( 15 ) 𝑤𝑗 = ∏ 𝑖

𝑖=

Ĥ = [

𝑤 ⋯ 𝑤 𝐿

⋮ ⋯ ⋮ 𝑤𝑁 ⋯ 𝑤𝑁𝐿

]

𝑁×𝐿

𝛽 = Ĥ+T

13

相關文件