應用多項式近似法與主成份分析於心肌梗塞之特徵擷取

(1)

亞東技術學院

應用多項式近似法與主成份分析於心肌梗塞之特徵擷取

袁國榮

*

林俊杰

**

陳正道

***

摘要

根據衛生署所公布的十大死因統計，心臟疾病中以心肌梗塞(Myocardial Infarction)為高死亡率的病症，且需要快速且準確的診斷以爭取時間急救。心肌梗塞的發生是因為心臟所需血液受阻，而醫師在診斷心肌梗塞病症時，主是依據 12 導程心電圖的 ST 段變化來診斷[3]，因此本研究希望從 12 導程心電圖萃取重要特徵，輔助醫師進一步診斷，避免醫師因過勞而誤診。本研究資料以選取之資料庫的 12 導程心電圖進行實驗分析，首先利用低通濾波器解決高頻雜訊問題，並利用經驗模態分解與中值濾波器去除基線飄移，再結合多項式近似法和主成份分析的優點進行特徵擷取，多項式近似法可描述 ST 段波形並轉換成係數，而主成份分析可縮減維度，減少資料複雜度提高分類效果。實驗結果顯示本研究所提出的多項式近似法結合主成份分析進行特徵擷取，無論是在支持向量機分類器上優於 ST 段為基礎的特徵，分類準確度最高達到 98.28%。有此可知，有效的特徵擷取可提升分類效果，故本研究在心肌梗塞的辨識上有顯著且穩定的效果，並有效降低醫師誤診的情況，提高醫療品質。關鍵詞：心肌梗塞，12 導程心電圖，主成份分析，多項式近似法，特徵擷取

壹、緒論

長久以來心臟病一直是已開發國家的首要敵人，而在台灣心臟疾病高居十大死因的第二位，隨著時代的進步，民眾大多忙於工作，使得生活步調緊湊，導致大多數人都以外食為主，大多缺乏蔬果的均衡，使得營養失調身體負擔加重，此外許多民眾還有抽菸、酗酒的習慣，更增加了罹患心臟疾病的機率。心臟疾病中以心肌梗塞最為需急迫治療，心肌梗塞的發生是由於流至心臟的血液被阻斷，冠狀動脈被血塊塞住[4]，若沒有立即的治療就會導致心臟損害影響心臟功能，所以不能有任何的延誤，否則心肌會壞死並無法復原，而如果是大範圍的阻塞則會導致猝死 [1-2]，因此對於心肌梗塞之病症是需要快速且準確的診斷。本研究預計在複雜的 12 導程心電圖中，利用多項式近似法結合主成份分析擷取重要特徵，則能夠有效的判斷病人是否患有心肌梗塞，在研究中，我們會建立一個診斷心肌梗塞的模型，以驗證特徵擷取的優劣，並可以提供臨床診斷之使用。我們將利用於醫院取得之的數據進行整理，萃取 12 導程之心電圖資料，將心電訊號透過低通濾波器(Low-Pass Filter)過濾高頻雜訊，利用經驗模態分解 (Empirical Mode Decomposition，EMD)[5]和中值濾波器(Median Filter) 去除基線飄移以完成前置處理；並利用多項式近似法描述 ST 段波形並轉換為係數，藉此特徵值進行主成份分析作資料簡化和擷取有效特徵，最後透過支持向量機分類辨識，以驗證特徵擷取之可靠性，則可協助醫師在診斷時提供有效的資訊，並可減少誤判成本以提升醫療品質。其因為心肌梗塞的判別有時間上的急迫性，臨床判斷的準確度也不高，所以在心肌梗塞的 * _{作者為亞東技術學院行銷與流通管理系副教授。} ** _{作者為亞東技術學院行銷與流通管理系兼任講師。} ***_{作者為亞東技術學院行銷與流通管理系講師。}

(2)

判別上，我們將盡量提高判斷準確度以達到所要的結果。

貳、文獻探討

多項式近似法描述 ST 段的變化 Jeong 等人使用最小平方法曲線，近似整個 ST 段心跳的波形，所獲得的資料取代原始心電圖波形，藉由適度的近似可減少雜訊的干擾，有效擬合曲線 [7]。多項式近似法可以有效擬合曲線，而心電圖的波形當然也能被充分詮釋，透過多項式近似法能描述 ST 段波形，並藉由轉換後的係數為新的特徵值，透過新的特徵值能不僅能表達波形的趨勢，也能將資料簡化也去除不必要的小抖動，最後則進一步結合主成份分析強化特徵擷取的流程。 主成份分析進行特徵擷取 利用多項近似法所求得的係數進行主成份分析，主成份分析會先算出資料的共變異數矩陣 S，並求出特徵值(Eigenvalue)並按大小排序，再帶回共變異矩陣求得特徵向量(Eigenvector)則可得到其主成份，而主成份間是不相關的，所以各個主成份解釋變數並沒有重疊，可以利用此特性使資料個別差異拉大，也就可以在分類上獲得更好的效果，而越前面的主成份變異程度越大，也越能解釋資料，所以我們會取前幾個主成份，而後面的主成份對於資料解釋並沒有太大的幫助，所以我們取前幾個主成份藉此達到資料簡化的目的，而又能有效保留資料特徵。我們可以透過下式 (1) ，利用主成份和原始資料算出主成份得點 (Score)，並以此作為後續的實驗資料。 1( 1 1) 2( 2 2) ( ) i j i j i jp pi p y a x x a x x  a x x (1)

參、研究方法

本研究流程可分為三個部分，第一個部分為前置處理，將原始心電圖波形利用低通濾波器、經驗模態分解和中值濾波器以達到去除雜訊以及基線飄移的效果；第二部分為特徵擷取，將完整心跳截取 ST-T 段波形，並分為兩種處理方法，一種是將 12 導程相同時間點的 ST-T 段作接合，並利用主成份分析擷取特徵，而另外一種是將 ST 段波形作多項式近似法，以過濾掉不重要的訊息，並利用主成份分析擷取特徵 [6]；第三部分為分類，利用支持向量機為分類器，判斷是否為心肌梗塞之資料。 12 導程心電圖量測時，常因為呼吸、交流電、肌電訊號或是外在環境干擾等影響，而我們必須盡可能減少雜訊的干擾，以得到我們所需的心電訊號。如圖所示，心電圖會受到雜訊干擾而產生高頻的小振動。 0 1000 2000 3000 4000 5000 6000 7000 8000 9000 10000 -500 0 500 1000 1500 2000 2500 3000 time a m p litu d e 圖 1. 含有雜訊的 12 導程心電圖(lead II) 而 ECG 訊號主要在於 0.7 至 30Hz，所以我們利用 10 階的低通濾波器，將截止頻率設於 40Hz，可以有效過濾不必要的高頻雜訊，以抑制呼吸、交流電及肌電訊號等干擾。

經驗模態分解(Empirical Mode Decomposition, EMD)是針對非線性非穩態的時間序列資料作分析，利用資料變化的內部尺度，將資料分解成多個內建模態函數(Intrinsic Mode Function, IMF)和一個可當趨勢的剩餘函數，藉由 IMFs 可突顯訊號在不同時間尺度的局部特徵，高頻的成份會出現在較前面的內建模態函數，相對的較低頻的成份會出現在較後面的內建模態函數，最後一個剩餘函數通常會包含在最後一個內建模態函數內，本研究藉由殘餘函數解決低頻的基線飄移，再利用 1000ms 中值濾波器修正基線飄移的效果，使基線飄移可被穩定且完善的移除，如下圖所示，將原始心電圖減去殘餘函數則可有效去除基線飄移。 0 1000 2000 3000 4000 5000 6000 7000 8000 9000 10000 -1500 -1000 -500 0 500 1000 1500 time am pl itu de 圖 2. 圖 1 去除雜訊後之心電圖訊號(lead II)

(3)

12 導程之特徵擷取 醫師在判斷心肌梗塞時都會針對 ST 段波形判斷，而心肌梗塞之病症在心電圖上的變化，首先 T 波會升高然後反轉，接著 ST 段會上升，主要變化是在 ST 段波形，但本研究考慮擷取之準確性所以擷取 ST-T 段如下圖圖 3. ST-T 段說明 [8] 12 導程資料結合 成功擷取到每個心跳的 ST-T 段後，本研究將同時間點不同導程之 ST-T 段波形進行重新取樣並接合，其順序是(I, II, III, AVL, AVL, AVF, V1, V2, V3, V4, V5, V6)，目的是希望一筆資料能夠考慮 12 導程所有的心跳，避免因單一導程而影響誤判，如下圖所示，可將心跳接合為新的特徵值 0 200 400 600 800 1000 1200 -2000 -1500 -1000 -500 0 500 1000 time a m p itu d e 圖 4. 12 程式 ST-T 段結合範例 12導程接合後，利用多項式近似法擬合ST-T段波形，希望能透過多項式近似法描述ST-T段波形的上升或下降，將 ST-T 段的變化轉換成所求得的係數 n

c

c 

₀ ，如式(2)，以達到特徵擷取的效果，並結合主成份分析強化特徵擷取步驟。圖5為利用多項式近似法能有效描述ST-T段波形趨勢。 n n

x

c

x

c

x

p

(

)



₀



₁







(2) 0 100 200 300 400 500 600 700 -800 -600 -400 -200 0 200 400 600 800 1000 1200 time a m p it u d e 圖 5.多項式近似法(紅色部分)擬合 ST 段波形 主成分分析 將每個導程的 ST-T 段分別進行擬合後，每個 ST-T 段會分別有不同的係數，假如我們利用四階的多項式近似法進行擬合，每個導程的 ST-T 段會求得五個係數，所以每筆資料會有六十個特徵值，也就是每筆資料都含有同時間但不同導程的 ST-T 段，如圖 21 所示。













1 , 7 , 6 , 5 , 4 , 3 , 2 , 1 , 60 , 3 7 , 3 6 , 3 5 , 3 4 , 3 3 , 3 2 , 3 1 , 3 60 , 2 7 , 2 6 , 2 5 , 2 4 , 2 3 , 2 2 , 2 1 , 2 60 , 1 7 , 1 6 , 1 5 , 1 4 , 1 3 , 1 2 , 1 1 , 1 n n n n n n n n

c







圖 6. 擷取完後的 12 導程特徵值最後我們利用多項近似法所求得的係數進行主成份分析，主成份間是不相關的，所以各個主成份解釋變數並沒有重疊，可以利用此特性使資料個別差異拉大，也就可以在分類上獲得更好的效果，而越前面的主成份變異程度越大，也越能解釋資料，所以我們會取前幾個主成份，而後面的主成份對於資料解釋並沒有太大的幫助，所以我們取前幾個主成份藉此達到資料簡化的目的，而又能有效保留資料特徵[9]。 特徵值進行分類 本研究利用特徵擷取後得點(Score)進行分類辨識，以支持向量機進行訓練，藉此檢驗心肌梗塞之特徵擷取效果，並完成整個預測模型。特徵擷取後的特徵值為非線性資料，所以在支持向量機過程中，必須先選擇核心函數，並將非線性的向量映射到更高維的特徵空間(Feature Space)，並找出分隔超平面，並希

(4)

望讓邊界(Margin)越大，則資料呈現的越清楚，分類效果就會越好。

肆、實驗結果

本研究主要是建立 12 導程心電圖在心肌梗塞疾病上的分類與預測系統，其建構方式是使用 Matlab 2008a 程式語言所撰寫。本章節會將特徵擷取後的特徵值，藉由支持向量機分類辨識，以驗證特徵擷取的效果。最後將分類後的數據結果與其他傳統的方法比較，以證實本研究的特徵擷取方法是可行且有效的，也就可有效判斷是否患有心肌梗塞。本研究利用準確性(Accuracy)、敏感性(Sensitivity)和專一性(Specificity) 三個指標來評估分類效果的好壞。以下根據三個評估指標衡量特徵擷取的效果，將本研究的方法結合多項式近似法和主成份分析(Poly+PCA)與其他特徵擷取方法單獨使用多項式近似法 (Poly) 和主成份分析 (PCA)作比較。表 1.準確性比較

Accuracy

Poly

PCA

Poly+PCA

SVM Mean 82.3% 97.03%

98.28%

Std

0.0107 0.0040

0.0017

由上表所知，本研究方法 Poly+PCA 其準確性高達 98.28%，比起其他特徵擷取方法的準確性來的高，也表示最能準確判斷心肌梗塞疾病，並證實了多項式近似法是可有效結合主成份分析進行特徵擷取，且獲得不錯的效果。表 2. 敏感性比較

Sensitivity

Poly

PCA

Poly+PCA

SVM Mean 92.1% 98.44%

98.76%

Std

0.0074 0.0027

0.0009

在敏感性上三種方法都有著不錯的效果，也證實了不管是哪種特徵擷取方法，在本研究中對於患有心肌梗塞的病歷是比較能準確判斷的。而在敏感性主成份分析的方法雖然已經獲得不錯的效果，但本研究的特徵擷取方法其敏感性高達 98.76%，並且在每次測試時的變異不大，也就代表 Poly+PCA 的方法較穩定且準確。表 3. 專一性比較

Specificity

Poly

PCA

Poly+PCA

SVM Mean 60.7% 93.88%

97.21%

Std

0.0223 0.0131

0.0058

由表 3 可明顯看出本研究於正常健康之病例準確性仍高於其於兩種方法。因為本研究是針對 ST-T 段波形進行特徵擷取，而且研究資料中健康的資料較少，本研究仍可達到九成七之專一性數據，足可見本方法之穩定與可靠性。

伍、結論

綜合以上實驗結果我們可以得知利用多項式近似法雖然可描述 ST 段波形，但只能單純了解 ST 段的趨勢，並不能有效將資料差異拉大，所以在分類上改善空間有限且效果較差，但主成份分析可將資料簡化並使主成份間互相獨立，對於分類效果有相當大的幫助，但在醫療的領域上會希望越精準判斷越好，因此本研究結合多項式近似法和主成份分析，多項式近似法可了解 ST-T 段趨勢，結合主成份分析將資料簡化並擷取特徵值，兩種方法的結合可互相輔助且不衝突，也證實了本研究之特徵擷取是相對較好的。在實驗結果中敏感性都比專一性來的高，也就表示能較準確判斷患有心肌梗塞的病歷，而在醫療成本的角度其實是比較能接受專一性較低的，當患有心肌梗塞的病人被誤判為健康，所要付出的誤差成本是較高的，因為這樣的誤判有可能會枉送病人的生命，所以如果敏感性較低所要付出的代價是很高的，然而專一性較低就表示有健康的病人被誤判為患有心肌梗塞，這類的誤判不會有生命上的危險，所以專一性較低相較於敏感性較低是較能被接受的。相較於其他兩種特徵擷取，本研究能有效保留重要特徵值，在判斷心肌梗塞上有著卓越的效果，其準確度高達 98.28%，此透過本研究之特徵擷取方法，

(5)

可以輔助醫師判斷心肌梗塞之病例，以減少判斷錯誤之成本。

參考文獻

書籍：

[1] Garcia, T. B., Holtz, N. E., Introduction to 12-Lead ECG: The Art of Interpretation, Jones and Bartlett Learning, 2002.

[2] Clifford, G. D., Azuaje, F., Mcsharry, P., Advanced Methods and Tools for ECG Data Analysis, Artech House Publishers, 2006.

期刊：

[3] 蔣季蓁，〈心臟功能室檢查儀器介紹〉，《義大醫訊》 2008，頁 51-56 頁。

[4] Van’t Hof, A. WJ., et al., “Clinicial Value of 12-lead Electrocardiogram after Successful Reperfusion Therapy for Acute Myocardial Infarction,” Lancet 350, 1997, pp. 615-619.

[5] Huang N.E., et al., ”The Empirical Mode Decomposition and the Hubert Spectrum for Nonlinear and Nonstationary Time Series Analysis,” A

Mathematical & Physical and Engineering Sciences, 454, 1998, pp. 903-95.

[6] Manuel, B. V., Binwei, W., Kenneth, E. B., “ECG Signal Denoising and Baseline Wander Correction Based on the Empirical Mode Decomposition,” Computers in Biology and Medicine, vol. 38, 2008, pp. 1-13,.

[7] Jeong, G.Y., Yu, K.H., Yoon, M.J., Inooka, E.,"ST shape classification in ECG by constructing reference ST set," Medical Engineering and Physics, vol. 32, 2010, pp. 1025-1031. 學位論文： [8] 王鴻武，〈臨床 12 導程心電圖資訊系統與醫療資訊系統、影像儲存系統的整合〉（中壢：元智大學，碩士論文，2008）。 [9] 葉豐銘，〈12 導程心電圖之心房顫動辨識〉（中壢：元智大學，碩士論文，2010）。 .

(6)