訊號振幅之影響

第四章特徵擷取方法之特性分析

4.1 樣本熵

4.1.4 訊號振幅之影響

圖 27 顯示訊號振幅不會影響樣本熵的計算結果，其原因為在決定 樣本熵的參數 r 的時候，一般會設定為訊號標準差的倍數，而標準差的 定義與方均根值十分相似，也可用於代表訊號的能量，所以其實在設定 參數 r 的時候，便已經考慮了訊號振幅的影響，若訊號的振幅被放大，

則亂度認定的門檻也隨之等比例上升，因此樣本熵的計算結果理當不受訊號振幅影響。

(a)誤差圖

(b)平均誤差率 (c)標準差

圖 24 資料長度對樣本熵的影響

(a)誤差圖

圖 25 參數 r 對樣本熵的影響

500 1000 1500 2000 2500 3000 3500 4000 4500 5000

2.1

0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 0

mean error rate

Length test

0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 0

(b)平均誤差率 (c)標準差

mean error rate

r test

(a)誤差圖

4.2.2 階次之影響

討論階次的影響時，作者將白雜訊的長度固定為 1000 點，圖 29 顯示，當局部排序的種類遠小於資料長度時，計算的結果很接近理論值，

如階次 m = 2 時，白雜訊的排序熵非常接近 1，但是若設定階次為 2，則 只有兩種可能的排列方式，若要討論排列方式分布的亂度，只有兩種排 列方式明顯是不恰當的。當階次 m = 5 時，會有 120 種排列方式，此時 資料長度大約是排列方式種類的 8 倍，即每種排列方式都大約有 7~9 個 樣本，如此雖然結果不盡理想，但與理論解的差距並不大。階次 m = 6 時，會有 720 種排列方式，此時資料長度與排列方式的種類很接近，每種排列方式僅有 1~2 個樣本，7 個樣本與 9 個樣本之間的差距為 28.57%，

但 1 個樣本與 2 個樣本的差距高達 100%，因此當資料長度與排列方式的種類很接近時，計算結果與理論值的誤差會忽然變大(圖 29(a))，同時計算的精確度也會降低(圖 29(b)(c))，而階次繼續增加時，排列方式的種類會超過資料長度，此時就白雜訊而言，會有大量的排列方式沒有任何樣本，而其他的排列方式都只有一個樣本，因此結果又接近理論值，但是作者認為此結果並沒有很大的意義，因為這種行為有點類似訊號處理時過取樣(Over sampling)的現象，尤其是想要取得排列方式的分布情形時，可能會因為有太多的排列方式，而看不出兩個訊號排列方式的分布情形的差異，因此作者認為訊號的資料長度應該要大於排列方式的種類，

並且排列方式的種類最好能大於 100 種，即階次 m 大於 5 的設定會比較 適當。

4.2.3 訊號平均值之影響

500 1000 1500 2000 2500 3000 3500 4000 4500 5000

0.9

0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 0

mean error rate

Length test

0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 0

(a)誤差圖

mean error rate

order test

(b)平均誤差率 (c)標準差

4.3 方均根值

4.3.1 資料長度之影響

方均根值是計算訊號能量的方法，由圖 32(a)可以發現白雜訊在不同長度時計算結果的平均很一致，而且資料長度大於 250 點計算的平均誤差率就可以小於 3%，資料長度大於 500 點時平均誤差率會小於 2%，

但之後繼續增加資料長度，平均誤差率下降的幅度就大幅降低，資料長度大於 2100 點時平均誤差率會才小於 1%(圖 32(b)(c))。

4.3.2 訊號平均值之影響

以訊號處理的觀點而言，一個訊號可以分為直流成分與高頻成分，

因此訊號的能量也是由這兩部分所提供，如圖 33(a)所示，當直流成分為 0 時，方均根值所度量的僅僅是白雜訊本身的能量，隨著平均值的增加，方均根值的計算結果也隨之成長。圖 33(b)(c)則顯示，雖然平均值的改變會嚴重影響方均根值的計算結果，但帶有直流成分的白雜訊，其方均根值的標準差並不會隨著平均值的增加而有顯著的成長，而且平均誤差率還會因此而降低。

4.3.3 訊號振幅之影響

如第三章第一節所介紹的，訊號的振幅與平均能量有關，而方均根值就是在計算訊號的平均能量，因此若同樣的訊號有不同的振幅時，方均根值的計算結果也會隨著振幅的改變而改變，圖 34 顯示訊號的方均根值與振幅變化成正比，並且計算結果的標準差也與振幅變化成正比，

而平均誤差率則維持在一定的範圍之內。

(a)誤差圖

(b)平均誤差率 (c)標準差

圖 32 資料長度對方均根值的影響

(a)誤差圖

圖 33 訊號平均值對方均根值的影響

500 1000 1500 2000 2500 3000 3500 4000 4500 5000

0.55

0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 0.005

mean error rate

Length test

0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 0

(b)平均誤差率 (c)標準差

mean error rate

DC test

4.4 頻譜熵

4.4.1 資料長度之影響

由於白雜訊的能量分布會均勻出現於整個頻譜上，所以其頻譜熵正規化後的理論解是 1，圖 35(a)中的結果顯示，資料長度越長，頻譜熵會越接近 1，由圖 35(b)(c)可知頻譜熵只需要 128 個點，其平均誤差率就會小於 1%，頻譜熵的計算能夠這麼準確，主要是頻譜熵為計算訊號頻譜的亂度，對一個非時變穩態訊號而言，其頻譜的特徵是相當固定的，透過傅立葉轉換只需要少量的資料點，就能得到一致的結果，但如果訊號為時變非穩態訊號，則計算精準度可能會不如預期。

4.4.2 訊號平均值之影響

當訊號由時域轉換到頻域時，訊號的平均值可以表示為訊號的直流成分(DC component)，若於白雜訊中加入一個直流成分，則原先均勻分布的頻譜便會在頻率為零的成分上有一個突出的能量，因此當直流成分越強時，訊號的頻譜熵會越低，而且圖 36 顯示，當訊號直流成分越強時，頻譜熵的計算結果越分散，但即使訊號的直流成分一直增加，其平均誤差率然維持在 1%以下。

4.4.3 訊號振幅之影響

由傅立葉轉換的理論可以知道，當訊號振幅改變時，只會使每個傅立葉基底的係數等比例改變，而頻譜熵所分析的是頻譜分布的亂度，與其數值無關，因此如圖 37(a)所示，改變訊號的振幅並不會影響頻譜熵的數值，圖 37(b)(c)的結果也顯示，改變訊號的振幅不會影響頻譜熵計算的準確性。

(a)誤差圖

(b)平均誤差率 (c)標準差

圖 35 資料長度對頻譜熵的影響

(a)誤差圖

圖 36訊號平均值對頻譜熵的影響

500 1000 1500 2000 2500 3000 3500 4000

0.96

0 500 1000 1500 2000 2500 3000 3500 4000 4500

mean error rate

Length test

0 500 1000 1500 2000 2500 3000 3500 4000 4500

0.5

(b)平均誤差率 (c)標準差

mean error rate

DC test

4.5 多尺度方法

4.5.2 組合多尺度排序熵

4.5.2 討論的是白雜訊與 1/f 雜訊的多尺度排序熵及組合多尺度排序熵如圖 39，由熵值的標準差可以發現組合多尺度排序熵在大尺度時，

計算的結果明顯比較集中，其中又以計算白雜訊時的改善效果最為明顯。

另外也可以發現白雜訊在不同尺度時，多尺度排序熵的值都大於 1/f 雜訊，因此以排序熵分析的觀點而言，白雜訊時域局部的排序行為比 1/f 雜訊更複雜。

而圖 39 中排序熵的值在第八個尺度時落至低點，之後又回升，此現象並非訊號的特性，而是因為樣本長度設定為 1000 點，在第八個尺度時，粗粒化後的資料只有 125 點，此數值非常接近 5!，此現象與 4.3.2 中所討論的情形相同，是資料長度過短的影響。

圖 39 MPE 與 CMPE 之比較

2 4 6 8 10 12 14 16 18 20

0.85 0.9 0.95 1

scale

entropy

1/f noise-MPE 1/f noise-CMPE White noise-MPE White noise-CMPE

4.5.3 組合多尺度方均根值

另外，白雜訊的 MBSE 計算結果的平均值很固定，而且和其他多尺度分析方法相比，計算結果的標準差也很小，與 4.4.1 的研究結果相符，

但計算 1/f 雜訊時，其計算結果的標準差卻很大，而且會隨著尺度增加而大幅增加，因此多頻帶頻譜熵可能不適合用於處理含有 1/f 雜訊的訊號，至於其他應用是否適合，則需要更多實驗才能得知。

圖 41 白雜訊與 1/f 雜訊之 MBSE 4.6 小結

本章前五節分別討論了樣本熵、頻譜熵、排序熵、RMS 以及多尺度方法的特性，整體而言排序熵與頻譜熵所需要的資料點數最短(表 3)，因此用於多尺度分析時，大尺度計算不準的現象也較不明顯。訊號平均值的部分，

影響較多的演算法為頻譜熵與 RMS，而本論文研究的資料是機台振動的加速度訊號，理論上均值應該為 0，因此在使用頻譜熵與 RMS 相關之演算法時，應先濾除訊號的直流成分，以增加辨識的成功率。振幅影響的部分，除

2 4 6 8 10 12 14 16 18 20

0.75 0.8 0.85 0.9 0.95

scale

entropy

1/f noise-MBSE White noise-MBSE

視感測器增益的誤差，很適合用於機械振動錯誤診斷的領域，而 RMS 的相關演算法則需要較精準的儀器調校，才能得到準確的結果，整理結果如表 4 所示。

多尺度分析的部分， RMS 本身的計算結果雖然不是很集中，但當尺度逐漸增大時，計算結果並不會明顯變差，而 MPE 與 MBSE 則是在小尺度下會有很集中的計算結果，但當尺度增加時，計算結果的標準差也會隨之增加，

最差的情況是出現在 MSE 計算 1/f 雜訊的時候，我們可以看到計算結果相當分散(圖 38)，而本論文提出的組合多尺度的方法，除了 MSRMS 計算 1/f 雜訊時，改善效果不明顯之外，其他的演算法都可以看到改善的成效。

表 3 資料長度影響之比較

資料長度影響

⁄ ⁄

樣本熵 750 點 2200 點

頻譜熵小於 128 點小於 128 點

排序熵小於 100 點 300 點

RMS 250 點 2100 點

表 4 平均值、振幅影響之比較

平均值影響振幅影響

平均值 ⁄ 平均值 ⁄ 樣本熵不影響不影響不影響不影響不影響不影響

頻譜熵降低升高升高不影響不影響不影響

排序熵不影響不影響不影響不影響不影響不影響

RMS 正比不影響反比正比正比不影響

第五章特徵選取與支持向量機

在第五章中，將介紹兩種特徵選取的流程，並比較四種支持項量機的分類架構，找出較適合本文使用的方法。

5.1 特徵選取

在訓練前先進行特徵選取是希望減少特徵的數量，減少特徵數主要有兩個優點，因為訓練辨識模型的時間與所使用的特徵數高度相關，所以減少特徵數可以有效降低訓練辨識模型的時間成本，再者特徵數過多時，會出現 over-fitting 的現象，也就是加入了太多不必要的特徵，反而使得辨識率下降，

本節中將介紹兩個特徵選取的方法，以選出有用的特徵。

5.1.1 Fisher score

Fisher score [26]可以用來計算第 k 個特徵對於辨識第 i 類與第 j 類的 重要性，其公式如式(32)

( )

(32)

∑ ， √ ∑

其中 為第 i 類第 k 個特徵， 為第 i 類第 k 個特徵的平均值，

為第 i 類第 k 個特徵的標準差，為第 i 類狀況的樣本數。計算出每 一個特徵的重要性後，再依重要性排序，並挑選出幾個重要性較高的特徵作為辨識時使用的特徵，圖 42 為特徵選取流程的示意圖。此方法應

在文檔中旋轉機械線上監控與異常辨識系統 (頁 41-0)

第四章 特徵擷取方法之特性分析

4.1 樣本熵

4.1.4 訊號振幅之影響

第五章 特徵選取與支持向量機

第四章特徵擷取方法之特性分析

第五章特徵選取與支持向量機