• 沒有找到結果。

應用多項式近似法與主成份分析於心肌梗塞之特徵擷取

N/A
N/A
Protected

Academic year: 2021

Share "應用多項式近似法與主成份分析於心肌梗塞之特徵擷取"

Copied!
6
0
0

加載中.... (立即查看全文)

全文

(1)

亞 東 技 術 學 院

應用多項式近似法與主成份分析於心肌梗塞之特徵擷取

袁國榮

*

林俊杰

**

陳正道

***

摘要

根據衛生署所公布的十大死因統計,心臟疾病中 以心肌梗塞(Myocardial Infarction)為高死亡率的病 症,且需要快速且準確的診斷以爭取時間急救。心肌 梗塞的發生是因為心臟所需血液受阻,而醫師在診斷 心肌梗塞病症時,主是依據 12 導程心電圖的 ST 段變 化來診斷[3],因此本研究希望從 12 導程心電圖萃取 重要特徵,輔助醫師進一步診斷,避免醫師因過勞而 誤診。本研究資料以選取之資料庫的 12 導程心電圖 進行實驗分析,首先利用低通濾波器解決高頻雜訊問 題,並利用經驗模態分解與中值濾波器去除基線飄 移,再結合多項式近似法和主成份分析的優點進行特 徵擷取,多項式近似法可描述 ST 段波形並轉換成係 數,而主成份分析可縮減維度,減少資料複雜度提高 分類效果。實驗結果顯示本研究所提出的多項式近似 法結合主成份分析進行特徵擷取,無論是在支持向量 機分類器上優於 ST 段為基礎的特徵,分類準確度最 高達到 98.28%。有此可知,有效的特徵擷取可提升 分類效果,故本研究在心肌梗塞的辨識上有顯著且穩 定的效果,並有效降低醫師誤診的情況,提高醫療品 質。 關鍵詞:心肌梗塞,12 導程心電圖,主成份分析, 多項式近似法,特徵擷取

壹、緒論

長久以來心臟病一直是已 開發國家的首要敵 人,而在台灣心臟疾病高居十大死因的第二位,隨著 時代的進步,民眾大多忙於工作,使得生活步調緊 湊,導致大多數人都以外食為主,大多缺乏蔬果的均 衡,使得營養失調身體負擔加重,此外許多民眾還有 抽菸、酗酒的習慣,更增加了罹患心臟疾病的機率。 心臟疾病中以心肌梗塞最為需急迫治療,心肌梗塞的 發生是由於流至心臟的血液被阻斷,冠狀動脈被血塊 塞住[4],若沒有立即的治療就會導致心臟損害影響心 臟功能,所以不能有任何的延誤,否則心肌會壞死並 無法復原,而如果是大範圍的阻塞則會導致猝死 [1-2],因此對於心肌梗塞之病症是需要快速且準確的 診斷。 本研究預計在複雜的 12 導程心電圖中,利用多 項式近似法結合主成份分析擷取重要特徵,則能夠有 效的判斷病人是否患有心肌梗塞,在研究中,我們會 建立一個診斷心肌梗塞的模型,以驗證特徵擷取的優 劣,並可以提供臨床診斷之使用。我們將利用於醫院 取得之的數據進行整理,萃取 12 導程之心電圖資 料,將心電訊號透過低通濾波器(Low-Pass Filter)過濾 高 頻 雜 訊 , 利 用 經 驗 模 態 分 解 (Empirical Mode Decomposition,EMD)[5]和中值濾波器(Median Filter) 去除基線飄移以完成前置處理;並利用多項式近似法 描述 ST 段波形並轉換為係數,藉此特徵值進行主成 份分析作資料簡化和擷取有效特徵,最後透過支持向 量機分類辨識,以驗證特徵擷取之可靠性,則可協助 醫師在診斷時提供有效的資訊,並可減少誤判成本以 提升醫療品質。其因為心肌梗塞的判別有時間上的急 迫性,臨床判斷的準確度也不高,所以在心肌梗塞的 * 作者為亞東技術學院行銷與流通管理系副教授。 ** 作者為亞東技術學院行銷與流通管理系兼任講師。 ***作者為亞東技術學院行銷與流通管理系講師。

(2)

判別上,我們將盡量提高判斷準確度以達到所要的結 果。

貳、文獻探討

多項式近似法描述 ST 段的變化 Jeong 等人使用最小平方法曲線,近似整個 ST 段心跳的波形,所獲得的資料取代原始心電圖波形, 藉由適度的近似可減少雜訊的干擾,有效擬合曲線 [7]。多項式近似法可以有效擬合曲線,而心電圖的波 形當然也能被充分詮釋,透過多項式近似法能描述 ST 段波形,並藉由轉換後的係數為新的特徵值,透 過新的特徵值能不僅能表達波形的趨勢,也能將資料 簡化也去除不必要的小抖動,最後則進一步結合主成 份分析強化特徵擷取的流程。 主成份分析進行特徵擷取 利用多項近似法所求得的 係數進行主成 份分 析,主成份分析會先算出資料的共變異數矩陣 S,並 求出特徵值(Eigenvalue)並按大小排序,再帶回共變異 矩陣求得特徵向量(Eigenvector)則可得到其主成份, 而主成份間是不相關的,所以各個主成份解釋變數並 沒有重疊,可以利用此特性使資料個別差異拉大,也 就可以在分類上獲得更好的效果,而越前面的主成份 變異程度越大,也越能解釋資料,所以我們會取前幾 個主成份,而後面的主成份對於資料解釋並沒有太大 的幫助,所以我們取前幾個主成份藉此達到資料簡化 的目的,而又能有效保留資料特徵。我們可以透過下 式 (1) , 利 用 主 成 份 和 原 始 資 料 算 出 主 成 份 得 點 (Score),並以此作為後續的實驗資料。 1( 1 1) 2( 2 2) ( ) i j i j i jp pi p ya xxa xx  a xx (1)

參、研究方法

本研究流程可分為三個部分,第一個部分為前置 處理,將原始心電圖波形利用低通濾波器、經驗模態 分解和中值濾波器以達到去除雜訊以及基線飄移的 效果;第二部分為特徵擷取,將完整心跳截取 ST-T 段波形,並分為兩種處理方法,一種是將 12 導程相 同時間點的 ST-T 段作接合,並利用主成份分析擷取 特徵,而另外一種是將 ST 段波形作多項式近似法, 以過濾掉不重要的訊息,並利用主成份分析擷取特徵 [6];第三部分為分類,利用支持向量機為分類器,判 斷是否為心肌梗塞之資料。 12 導程心電圖量測時,常因為呼吸、交流電、 肌電訊號或是外在環境干擾等影響,而我們必須盡可 能減少雜訊的干擾,以得到我們所需的心電訊號。如 圖所示,心電圖會受到雜訊干擾而產生高頻的小振 動。 0 1000 2000 3000 4000 5000 6000 7000 8000 9000 10000 -500 0 500 1000 1500 2000 2500 3000 time a m p litu d e 圖 1. 含有雜訊的 12 導程心電圖(lead II) 而 ECG 訊號主要在於 0.7 至 30Hz,所以我們利 用 10 階的低通濾波器,將截止頻率設於 40Hz,可以 有效過濾不必要的高頻雜訊,以抑制呼吸、交流電及 肌電訊號等干擾。

經驗模態分解(Empirical Mode Decomposition, EMD)是針對非線性非穩態的時間序列資料作分析, 利用資料變化的內部尺度,將資料分解成多個內建模 態函數(Intrinsic Mode Function, IMF)和一個可當趨勢 的剩餘函數,藉由 IMFs 可突顯訊號在不同時間尺度 的局部特徵,高頻的成份會出現在較前面的內建模態 函數,相對的較低頻的成份會出現在較後面的內建模 態函數,最後一個剩餘函數通常會包含在最後一個內 建模態函數內,本研究藉由殘餘函數解決低頻的基線 飄移,再利用 1000ms 中值濾波器修正基線飄移的效 果,使基線飄移可被穩定且完善的移除,如下圖所 示,將原始心電圖減去殘餘函數則可有效去除基線飄 移。 0 1000 2000 3000 4000 5000 6000 7000 8000 9000 10000 -1500 -1000 -500 0 500 1000 1500 time am pl itu de 圖 2. 圖 1 去除雜訊後之心電圖訊號(lead II)

(3)

12 導程之特徵擷取 醫師在判斷心肌梗塞時都會針對 ST 段波形判 斷,而心肌梗塞之病症在心電圖上的變化,首先 T 波會升高然後反轉,接著 ST 段會上升,主要變化是 在 ST 段波形,但本研究考慮擷取之準確性所以擷取 ST-T 段如下圖 圖 3. ST-T 段說明 [8] 12 導程資料結合 成功擷取到每個心跳的 ST-T 段後,本研究將同 時間點不同導程之 ST-T 段波形進行重新取樣並接 合,其順序是(I, II, III, AVL, AVL, AVF, V1, V2, V3, V4, V5, V6),目的是希望一筆資料能夠考慮 12 導程所有 的心跳,避免因單一導程而影響誤判,如下圖所示, 可將心跳接合為新的特徵值 0 200 400 600 800 1000 1200 -2000 -1500 -1000 -500 0 500 1000 time a m p itu d e 圖 4. 12 程式 ST-T 段結合範例 12導程接合後,利用多項式近似法擬合ST-T段波 形,希望能透過多項式近似法描述ST-T段波形的上升 或 下 降 , 將 ST-T 段 的 變 化 轉 換 成 所 求 得 的 係 數 n

c

c 

0 ,如式(2),以達到特徵擷取的效果,並結合 主成份分析強化特徵擷取步驟。圖5為利用多項式近 似法能有效描述ST-T段波形趨勢。 n n

x

c

x

c

c

x

p

(

)

0

1

(2) 0 100 200 300 400 500 600 700 -800 -600 -400 -200 0 200 400 600 800 1000 1200 time a m p it u d e 圖 5.多項式近似法(紅色部分)擬合 ST 段波形 主成分分析 將每個導程的 ST-T 段分別進行擬合後,每個 ST-T 段會分別有不同的係數,假如我們利用四階的 多項式近似法進行擬合,每個導程的 ST-T 段會求得 五個係數,所以每筆資料會有六十個特徵值,也就是 每筆資料都含有同時間但不同導程的 ST-T 段,如圖 21 所示。

1 , 7 , 6 , 5 , 4 , 3 , 2 , 1 , 60 , 3 7 , 3 6 , 3 5 , 3 4 , 3 3 , 3 2 , 3 1 , 3 60 , 2 7 , 2 6 , 2 5 , 2 4 , 2 3 , 2 2 , 2 1 , 2 60 , 1 7 , 1 6 , 1 5 , 1 4 , 1 3 , 1 2 , 1 1 , 1 n n n n n n n n

c

c

c

c

c

c

c

c

c

c

c

c

c

c

c

c

c

c

c

c

c

c

c

c

c

c

c

c

c

c

c

c

圖 6. 擷取完後的 12 導程特徵值 最後我們利用多項近似法所求得的係數進行主 成份分析,主成份間是不相關的,所以各個主成份解 釋變數並沒有重疊,可以利用此特性使資料個別差異 拉大,也就可以在分類上獲得更好的效果,而越前面 的主成份變異程度越大,也越能解釋資料,所以我們 會取前幾個主成份,而後面的主成份對於資料解釋並 沒有太大的幫助,所以我們取前幾個主成份藉此達到 資料簡化的目的,而又能有效保留資料特徵[9]。 特徵值進行分類 本研究利用特徵擷取後得點(Score)進行分類辨 識,以支持向量機進行訓練,藉此檢驗心肌梗塞之特 徵擷取效果,並完成整個預測模型。特徵擷取後的特 徵值為非線性資料,所以在支持向量機過程中,必須 先選擇核心函數,並將非線性的向量映射到更高維的 特徵空間(Feature Space),並找出分隔超平面,並希

(4)

望讓邊界(Margin)越大,則資料呈現的越清楚,分類 效果就會越好。

肆、實驗結果

本研究主要是建立 12 導程心電圖在心肌梗塞疾 病上的分類與預測系統,其建構方式是使用 Matlab 2008a 程式語言所撰寫。本章節會將特徵擷取後的特 徵值,藉由支持向量機分類辨識,以驗證特徵擷取的 效果。最後將分類後的數據結果與其他傳統的方法比 較,以證實本研究的特徵擷取方法是可行且有效的, 也就可有效判斷是否患有心肌梗塞。本研究利用準確 性(Accuracy)、敏感性(Sensitivity)和專一性(Specificity) 三個指標來評估分類效果的好壞。以下根據三個評估 指標衡量特徵擷取的效果,將本研究的方法結合多項 式近似法和主成份分析(Poly+PCA)與其他特徵擷取 方 法 單 獨 使 用 多 項 式 近 似 法 (Poly) 和 主 成 份 分 析 (PCA)作比較。 表 1.準確性比較

Accuracy

Poly

PCA

Poly+PCA

SVM Mean 82.3% 97.03%

98.28%

Std

0.0107 0.0040

0.0017

由上表所知,本研究方法 Poly+PCA 其準確性高 達 98.28%,比起其他特徵擷取方法的準確性來的 高,也表示最能準確判斷心肌梗塞疾病,並證實了多 項式近似法是可有效結合主成份分析進行特徵擷 取,且獲得不錯的效果。 表 2. 敏感性比較

Sensitivity

Poly

PCA

Poly+PCA

SVM Mean 92.1% 98.44%

98.76%

Std

0.0074 0.0027

0.0009

在敏感性上三種方法都有著不錯的效果,也證實 了不管是哪種特徵擷取方法,在本研究中對於患有心 肌梗塞的病歷是比較能準確判斷的。而在敏感性主成 份分析的方法雖然已經獲得不錯的效果,但本研究的 特徵擷取方法其敏感性高達 98.76%,並且在每次測 試時的變異不大,也就代表 Poly+PCA 的方法較穩定 且準確。 表 3. 專一性比較

Specificity

Poly

PCA

Poly+PCA

SVM Mean 60.7% 93.88%

97.21%

Std

0.0223 0.0131

0.0058

由表 3 可明顯看出本研究於正常健康之病例準 確性仍高於其於兩種方法。因為本研究是針對 ST-T 段波形進行特徵擷取,而且研究資料中健康的資料較 少,本研究仍可達到九成七之專一性數據,足可見本 方法之穩定與可靠性。

伍、結論

綜合以上實驗結果我們可以得知利用多項式近 似法雖然可描述 ST 段波形,但只能單純了解 ST 段 的趨勢,並不能有效將資料差異拉大,所以在分類上 改善空間有限且效果較差,但主成份分析可將資料簡 化並使主成份間互相獨立,對於分類效果有相當大的 幫助,但在醫療的領域上會希望越精準判斷越好,因 此本研究結合多項式近似法和主成份分析,多項式近 似法可了解 ST-T 段趨勢,結合主成份分析將資料簡 化並擷取特徵值,兩種方法的結合可互相輔助且不衝 突,也證實了本研究之特徵擷取是相對較好的。 在實驗結果中敏感性都比專一性來的高,也就表 示能較準確判斷患有心肌梗塞的病歷,而在醫療成本 的角度其實是比較能接受專一性較低的,當患有心肌 梗塞的病人被誤判為健康,所要付出的誤差成本是較 高的,因為這樣的誤判有可能會枉送病人的生命,所 以如果敏感性較低所要付出的代價是很高的,然而專 一性較低就表示有健康的病人被誤判為患有心肌梗 塞,這類的誤判不會有生命上的危險,所以專一性較 低相較於敏感性較低是較能被接受的。 相較於其他兩種特徵擷取,本研究能有效保留重 要特徵值,在判斷心肌梗塞上有著卓越的效果,其準 確度高達 98.28%,此透過本研究之特徵擷取方法,

(5)

可以輔助醫師判斷心肌梗塞之病例,以減少判斷錯誤 之成本。

參考文獻

書籍:

[1] Garcia, T. B., Holtz, N. E., Introduction to 12-Lead ECG: The Art of Interpretation, Jones and Bartlett Learning, 2002.

[2] Clifford, G. D., Azuaje, F., Mcsharry, P., Advanced Methods and Tools for ECG Data Analysis, Artech House Publishers, 2006.

期刊:

[3] 蔣季蓁,〈心臟功能室檢查儀器介紹〉,《義大醫訊》 2008,頁 51-56 頁。

[4] Van’t Hof, A. WJ., et al., “Clinicial Value of 12-lead Electrocardiogram after Successful Reperfusion Therapy for Acute Myocardial Infarction,” Lancet 350, 1997, pp. 615-619.

[5] Huang N.E., et al., ”The Empirical Mode Decomposition and the Hubert Spectrum for Nonlinear and Nonstationary Time Series Analysis,” A

Mathematical & Physical and Engineering Sciences, 454, 1998, pp. 903-95.

[6] Manuel, B. V., Binwei, W., Kenneth, E. B., “ECG Signal Denoising and Baseline Wander Correction Based on the Empirical Mode Decomposition,” Computers in Biology and Medicine, vol. 38, 2008, pp. 1-13,.

[7] Jeong, G.Y., Yu, K.H., Yoon, M.J., Inooka, E.,"ST shape classification in ECG by constructing reference ST set," Medical Engineering and Physics, vol. 32, 2010, pp. 1025-1031. 學位論文: [8] 王鴻武,〈臨床 12 導程心電圖資訊系統與醫療資 訊系統、影像儲存系統的整合〉(中壢:元智大學, 碩士論文,2008)。 [9] 葉豐銘,〈12 導程心電圖之心房顫動辨識〉(中 壢:元智大學,碩士論文,2010)。 .

(6)

參考文獻

相關文件

△△聯合診所所提供之服務範圍計有門診醫療服務(一樓)及 復健治療服務(二樓)兩項,本研究係針對一樓「門診醫療服務流 程」進行研究。由於△△聯合診所之門診醫療服務不具設計及研發

本研究將針對 TFT-LCD 產業研發單位主管與研發人員進行 探討,並就主管於研發人員對職能重視程度作差異性分析。因此

由於醫療業導入 ISO 9000 品保系統的「資歷」相當資淺,僅有 三年多的年資 11 ,因此,對於 ISO 9000 品保系統應用於醫療業之相關 研究實在少之又少,本研究嘗試以通過

本研究採用的方法是將階層式與非階層式集群法結合。第一步先運用

本研究於 2017 年 2 月至屏東縣 10 所校園採集使用水源及經淨水處理

本研究是以景觀指數進行對 1993 年、2008 年與擴大土地使用三個時期之評 估,其評估結果做比較討論。而目前研究提供研究方法的應用-GIS 與 FRAGSTATS 之使用方法。從 1993 年至

本研究於 2017 年 4 月以市面上瓶裝水的品牌隨機抽取國內外各五種品 牌作為研究對象,並利用環檢所公告之採樣方法檢測,收集的樣本以兩種

在集群分析方法中,Stuart Lloyd 於 1957 年提出了 K-Means 分析法。它是利用劃分方 式的ㄧ種聚類算法。此種方式以隨機選取