應用MTS於非平衡資料分析之穩健性研究 - 以行動電話檢測流程為例
87
0
0
全文
(2) 國立交通大學 工業工程與管理學系. 碩士論文. 應用 MTS 於非平衡資料分析之穩健性研究 —以行動電話檢測流程為例 An Evaluation of the Robustness of MTS for Imbalanced Data —A Case Study of the Mobile Phone Test Process. 研 究 生:蕭宇翔 指導教授:蘇朝墩 教授 沙永傑 教授. 中華民國九十四年五月 i.
(3) 應用 MTS 於非平衡資料分析之穩健性研究 —以行動電話檢測流程為例 An Evaluation of the Robustness of MTS for Imbalanced Data —A Case Study of the Mobile Phone Test Process. 研 究 生:蕭宇翔. Student: Yu-Hsiang Hsiao. 指導教授:蘇朝墩 教授. Advisor: Prof. Chao-Ton Su. 沙永傑 教授. Prof. David Yung-Jye Sha. 國立交通大學 工業工程與管理學系 碩士論文. A Thesis Submitted to Department of Industrial Engineering and Management College of Management National Chiao Tung University in partial Fulfillment of the Requirements for the Degree of Master Science in Industrial Engineering May 2005 Hsinchu, Taiwana. 中華民國九十四年五月. ii.
(4) 應用 MTS 於非平衡資料分析之穩健性研究 —以行動電話檢測流程為例 研 究 生:蕭宇翔. 指導教授:蘇朝墩 教授 沙永傑 教授. 國立交通大學工業工程與管理學系碩士班. 摘要 分類為資料探勘的主要任務之一,在分類模型建構過程中亦時常融合特徵選 取,藉以提高分類效率。就二元分類問題而言,分析資料的類別數量比例通常是 影響分類法能否正確學習分類模型的因素之一。我們稱一組在類別數量上呈現差 距的資料為非平衡資料,此差距將可能導致分類模型學習過程發生偏差,並降低 未來在少量類別上的判別敏感度,而這樣的情形並不容許於現實的應用環境中。 MTS 為田口玄一博士針對多變量資料所提出的診斷與預測新技術,相異於其它 分類法,MTS 在分類模型的建構過程是透過量測尺度的建立,而非對分析資料 的學習,因此較不受資料分佈型態的影響。本研究以 MTS 及若干分類法對非平 衡資料進行分類縮減模型的建構與類別預測,結果發現,MTS 在處裡非平衡資 料的分類問題上確實有較穩健、出色的結果。此外,本研究亦根據柴比雪夫定理 提出機率閾值來作為 MTS 的分類依據,並且有不錯的表現。最後,以台灣某高 科技公司的行動電話 RF 檢測流程為研究對象,該流程所呈現之資料即為非平衡 型態,透過 MTS 分析,所得結果顯著地減少原有的測試屬性,並仍然保有高檢 測正確性。. 關鍵字 :資料探勘、分類、特徵選取、非平衡資料、馬氏-田口系統、MTS、 機率閾值、行動電話. iii.
(5) An Evaluation of the Robustness of MTS for Imbalanced Data — A Case Study of Mobile Phone Test Process Student: Yu-Hsiang Hsiao. Advisor: Prof. Chao-Ton Su Prof. David Yung-Jye Sha. Department of Industrial Engineering and Management National Chiao Tung University. Abstract Classification is one of the main tasks of data mining. To execute classification efficiently, feature selection is usually merged into establishing a classification model. In binary classification problems, the ratio of the number of examples belonging to two classes in training data set is an important factor that impacts the effective learning of the classification model. If a data set contains several examples from one class and few examples from the other, we call it imbalanced data. There will be bias in the classification model that is learned from imbalanced training data set and this will result in lower sensitivity of detecting the class which has few examples in training data set. MTS is a new diagnosis and forecasting technique for multivariate data. MTS establishes a classification model by constructing a continuous measurement scale rather than learning from training data set. Therefore, MTS is not influenced by data distribution. This study compared MTS with other classification techniques and found that MTS is an outperforming and robust technique for imbalanced data. In addition, this study proposed a probabilistic threshold according to Chebyshev’s theorem for MTS and probabilistic threshold derives good classification performance. Finally, MTS was employed to analyze the RF test process in mobile phone manufacture. The data coming from RF test process is typically imbalanced type. Implementation results showed that the test attributes have been significantly reduced and RF test process could also maintain high inspection accuracy.. Keyword: data mining, classification, feature selection, imbalanced data, MTS, Mahalanobis-Taguchi System, probabilistic threshold, mobile phone iv.
(6) 致 謝. 轉眼間,兩年的碩士班生涯就要結束了,一份喜悅與沈重摻雜的情緒不禁湧 上心頭。喜悅的是,隨著碩士論文的提交,代表了這兩年多來的努力將要劃上一 道完整且充實的休止符;沈重的是,結束了碩士的修業課程,代表著人生新一階 段的開始,我們必須更加懷著戰戰兢兢、如履薄冰的心情迎接未來的挑戰。 在此,感謝父母親一路辛苦栽培,並默默地為我豎立起最堅實的一道後盾, 讓我得以在父母親溫暖、舒適的臂膀中,無慮地全心投入學業。如今順利至碩士 班畢業,我想,這不但是對自己負責,而更是對父母親最有效的回報與安慰了! 此外,最感謝的人莫過於恩師:蘇朝墩教授,學生於這兩年中,無論在學業 或生活方面皆受蘇教授指導甚多,不僅從教授身上學得從事研究工作所應有的專 業知識與態度,並更深刻感受到其嚴謹與負責的處事作風,使學生在學業或人生 的道路上皆有所啟發並獲益良多。感激之情,溢於言表! 當然,忘不了實驗室裡的成員,許志華學長、許俊欽學長、王慧君學姊、陳 隆昇學長、楊健炘學長、林敬森學長、周家任學長及彭加景同學,感謝你們平時 在生活及課業上的照顧與提攜,甚至在畢業後仍然給予我相當大的協助,使我在 這兩年內順利修必課程並完成碩士論文,雖然平時與你們打打鬧鬧,但在此我要 由衷的對你們說聲謝謝,我會永記這份情誼! 最後,謝謝姿蓉不斷給予我精神上的鼓勵,以及弟弟宇惟、妹妹淳勻的貼心 關懷!我要將這份畢業的喜悅化為滿心的感謝,獻給周遭所有的人,感謝你們為 我所做的付出!. 宇翔 謹誌 民國九十四年五月 於 交通大學. v.
(7) 目. 錄. 中文摘要. …………………………………………………….................. iii. 英文摘要. …………………………………………………….................. iv. 誌謝. …………………………………………………….................. v. 目錄. …………………………………………………….................. vi. 表目錄. …………………………………………………….................. ix. 圖目錄. …………………………………………………….................. xi. 第一章. 緒論…………………………………………………………. 1. 1.1. 研究背景及動機…………………………………………….. 1. 1.2. 研究目的…………………………………………………….. 3. 1.3. 論文架構…………………………………………………….. 4. 第二章. 相關研究…………………………………………............... 5. 2.1. 資料庫中的知識發現……………………………………….. 5. 2.2. 資料探勘…………………………………………………….. 6. 2.2.1. 探勘任務…………………………………………………….. 7. 2.2.2. 探勘技術…………………………………………………….. 9. 資料探勘中的分類任務…………………………………….. 12. 2.3.1. 分類過程…………………………………………………….. 12. 2.3.2. 分類技術…………………………………………………….. 13. 2.3.3. 分類法評估………………………………………………….. 18. 第三章. 馬氏-田口系統…………….……………………………. 19. 3.1. MTS 之構成要素……………………………………………. 19. 多變量診斷系統…………………………………………….. 19. 2.3. 3.1.1. vi.
(8) 3.1.2. 馬氏距離…………………………………………………….. 20. 3.1.3. 田口之穩健工程…………………………………………….. 21. MTS 方法論…………………………………………………. 22. 3.2.1. 馬氏距離分類法…………………………………………….. 22. 3.2.2. MTS 閾值……………………………………………………. 24. 3.2.3. 特徵變數之篩選…………………………………………….. 26. 3.3. MTS 之執行步驟……………………………………………. 30. 3.4. MTS 之特點…………………………………………………. 33. 第四章. 馬氏-田口系統之穩健性評估…………………………. 35. 4.1. 威斯康辛乳癌……………………………………………….. 36. 4.1.1. MTS 分析結果………………………………………………. 36. 4.1.2. SDA 分析結果………………………………………………. 38. 4.1.3. DT 分析結果……………………………………………….... 38. 4.1.4. BPN 分析結果……………………………………………….. 39. 4.1.5. 結論………………………………………………………….. 40. 英文字母辨識……………………………………………….. 41. 4.2.1. MTS 分析結果………………………………………………. 42. 4.2.2. SDA 分析結果………………………………………………. 43. 4.2.3. DT 分析結果……………………………………………….... 44. 4.2.4. BPN 分析結果……………………………………………….. 45. 4.2.5. 結論………………………………………………………….. 46. 心臟病……………………………………………………….. 47. 4.3.1. MTS 分析結果………………………………………………. 48. 4.3.2. SDA 分析結果………………………………………………. 49. 4.3.3. DT 分析結果……………………………………………….... 50. 4.3.4. BPN 分析結果………………………………………………. 51. 4.3.5. 結論………………………………………………………….. 52. 評估結論…………………………………………………….. 53. 3.2. 4.2. 4.3. 4.4. vii.
(9) 第五章. 實例研究…………………………………………............... 55. 5.1. 案例描述…………………………………………………….. 55. 5.2. MTS 之執行…………………………………………………. 58. 5.3. 改善效益…………………………………………………….. 65. 5.4. 分類法比較………………………………………………….. 65. 5.4.1. MTS 分析結果………………………………………………. 66. 5.4.2. SDA 分析結果………………………………………………. 67. 5.4.3. DT 分析結果……………………………………………….... 68. 5.4.4. BPN 分析結果………………………………………………. 69. 5.4.5. 分類法比較結果…………………………………………….. 70. 第六章. 結論………………………………………………................ 72. 6.1. 研究結論與貢獻…………………………………………….. 72. 6.2. 未來研究建議……………………………………………….. 73. ……………………………………………………................. 74. 參考文獻. viii.
(10) 表 目 錄. 表 3.1. L12直交表配置……………………………………………………. 27. 表 4.1. 訓練及測試集之數量分佈(威斯康辛乳癌)…………………. 36. 表 4.2. MTS 特徵選取結果(威斯康辛乳癌)…………………………. 37. 表 4.3. 不同閾值下之 MTS 縮減模型分類結果(威斯康辛乳癌)…… 37. 表 4.4. MTS 縮減模型分類結果之比較(威斯康辛乳癌)…………… 37. 表 4.5. SDA 特徵選取結果(威斯康辛乳癌)………………………….. 38. 表 4.6. SDA 縮減模型分類結果之比較(威斯康辛乳癌)……………. 38. 表 4.7. DT 特徵選取結果(威斯康辛乳癌)…………………………… 39. 表 4.8. DT 縮減模型分類結果之比較(威斯康辛乳癌)……………… 39. 表 4.9. BPN 之最佳網路架構(威斯康辛乳癌)………………………. 39. 表 4.10. BPN 特徵選取結果(威斯康辛乳癌)………………………….. 40. 表 4.11. BPN 縮減模型分類結果之比較(威斯康辛乳癌)……………. 40. 表 4.12. 訓練及測試集之數量分佈(英文字母辨識)………………….. 42. 表 4.13. MTS 特徵選取結果(英文字母辨識)…………………………. 42. 表 4.14. 不同閾值下之 MTS 縮減模型分類結果(英文字母辨識)……. 43. 表 4.15. MTS 縮減模型分類結果之比較(英文字母辨識)……………. 43. 表 4.16. SDA 特徵選取結果(英文字母辨識)…………………………. 44. 表 4.17. SDA 縮減模型分類結果之比較(英文字母辨識)…………….. 44. 表 4.18. DT 特徵選取結果(英文字母辨識)…………………………… 45. 表 4.19. DT 縮減模型分類結果之比較(英文字母辨識)………………. 45. 表 4.20. BPN 之最佳網路架構(英文字母辨識)………………………. 45. 表 4.21. BPN 特徵選取結果(英文字母辨識)…………………………. 46. 表 4.22. BPN 縮減模型分類結果之比較(英文字母辨識)……………. 46. 表 4.23. 訓練及測試集之數量分佈(心臟病)………………………….. 48. 表 4.24. MTS 特徵選取結果(心臟病)…………………………………. 49. 表 4.25. 不同閾值下之 MTS 縮減模型分類結果(心臟病)…………… 49. 表 4.26. MTS 縮減模型分類結果之比較(心臟病)……………………. 49. ix.
(11) 表 4.27. SDA 特徵選取結果(心臟病)…………………………………. 50. 表 4.28. SDA 縮減模型分類結果之比較(心臟病)……………………. 50. 表 4.29. DT 特徵選取結果(心臟病)…………………………………… 50. 表 4.30. DT 縮減模型分類結果之比較(心臟病)……………………… 51. 表 4.31. BPN 之最佳網路架構(心臟病)……………………………….. 51. 表 4.32. BPN 特徵選取結果(心臟病)…………………………………. 52. 表 4.33. BPN 縮減模型分類結果之比較(心臟病)……………………. 52. 表 5.1. RF 功能檢測項目………………………………………………… 56. 表 5.2. RF 功能檢測屬性………………………………………………… 57. 表 5.3. 樣本資料(RF 功能檢測)……………………………………… 58. 表 5.4. 訓練集之正常樣本原始數據(RF 功能檢測)…………………. 58. 表 5.5. 訓練集之正常樣本標準化數據及馬氏距離(RF 功能檢測)… 59. 表 5.6. 訓練集之正常樣本相關反矩陣(RF 功能檢測)……………… 59. 表 5.7. 直交表配置與 SN 比(RF 功能檢測)…………………………. 61. 表 5.8. 特徵選取結果(RF 功能檢測)………………………………… 63. 表 5.9. 系統改善結果(RF 功能檢測)………………………………… 63. 表 5.10. 效果增量之結果比較(RF 功能檢測)………………………… 64. 表 5.11. 訓練及測試集之數量分佈(RF 功能檢測)……………………. 66. 表 5.12. MTS 特徵選取結果(RF 功能檢測)…………………………… 66. 表 5.13. 不同閾值下之 MTS 縮減模型分類結果(RF 功能檢測)…….. 67. 表 5.14. MTS 縮減模型分類結果之比較(RF 功能檢測)……………… 67. 表 5.15. SDA 特徵選取結果(RF 功能檢測)…………………………… 68. 表 5.16. SDA 縮減模型分類結果之比較(RF 功能檢測)……………… 68. 表 5.17. SDA 特徵選取結果(RF 功能檢測)…………………………… 68. 表 5.18. SDA 縮減模型分類結果之比較(RF 功能檢測)……………… 69. 表 5.19. BPN 之最佳網路架構(RF 功能檢測)………………………… 69. 表 5.20. BPN 特徵選取結果(RF 功能檢測)…………………………… 69. 表 5.21. BPN 縮減模型分類結果之比較(RF 功能檢測)……………… 70. x.
(12) 圖 目 錄. 圖 2.1. KDD 流程…………………………………………………………. 圖 2.2. 貝式網路 [7]……………………………………………………... 9. 圖 2.3. 分類任務流程圖………………………………………………….. 13. 圖 2.4. 決策樹 [12]………………………………………………………. 15. 圖 2.5. 多層前饋類神經網路…………………………………………….. 16. 圖 3.1. 多變量診斷系統 [2]……………………………………………... 19. 圖 3.2. 馬氏距離與歐氏距離 [2]………………………………………... 20. 圖 3.3. 修改後的多變量診斷系統……………………………………….. 21. 圖 3.4. 正常樣本與異常樣本之馬氏距離分配………………………….. 24. 圖 3.5. 機率閾值訂定步驟一…………………………………………….. 25. 圖 3.6. 機率閾值訂定步驟二…………………………………………….. 25. 圖 3.7. MTS 流程圖………………………………………………………. 32. 圖 4.1. 各分類法測試總準確率比較(威斯康辛乳癌)……………….. 41. 圖 4.2. 各分類法測試相對敏感度比較(威斯康辛乳癌)…………….. 41. 圖 4.3. 各分類法測試總準確率比較(英文字母辨識)……………….. 47. 圖 4.4. 各分類法測試相對敏感度比較(英文字母辨識)…………….. 47. 圖 4.5. 各分類法測試總準確率比較(心臟病)……………………….. 53. 圖 4.6. 各分類法測試相對敏感度比較(心臟病)…………………….. 53. 圖 5.1. 行動電話製造流程……………………………………………….. 56. 圖 5.2. 訓練樣本之馬氏距離分布圖(RF 功能檢測之完整模型)…… 60. 圖 5.3. 測試樣本之馬氏距離分配圖(RF 功能檢測之完整模型)…… 60. 圖 5.4. 屬性效果增量圖(RF 功能檢測)……………………………… 62. 圖 5.5. 訓練樣本之馬氏距離分布圖(RF 功能檢測之縮減模型)…… 63. 圖 5.6. 測試樣本之馬氏距離分布圖(RF 功能檢測之縮減模型)…… 64. 圖 5.7. 各分類法測試總準確率比較(RF 功能檢測)………………… 71. 圖 5.8. 各分類法測試相對敏感度比較(RF 功能檢測)……………… 71. xi. 6.
(13) 第一章 1.1. 緒論. 研究背景及動機. 拜科技進步之賜,一個現代化組織相較於過去大大的增加了對資料取得、蒐 集與整理的能力,然而,如何有效的從資料堆中獲取有用的知識,擺脫「空有大 量資料,卻資訊匱乏」的窘境,才是所當關心的課題。為此,多數的組織藉由資 料探勘(data mining)技術,來萃取出潛藏於雜亂資料中的各種有益資訊,並作 為決策上的支援。. 分類(classification)或類別預測為資料探勘領域的主要任務之一,用來萃 取描述多變量資料(multivariate data)的類別模型,以便能夠預測類別標記未知 的物件類別,有關這方面的實務相關應用相當多,例如:產品測試、聲音辨識、 疾病診斷、字體辨識、信用評比等。二元分類問題(binary classification problems) 是屬於分類問題中的一部分,其關注於二類別資料的分析。此外,在分類模型萃 取過程裡,通常融合了維度縮減(dimension reduction)技術,以相對具有關鍵 性影響及較原始資料少的特徵變數來建立分類模型,如此可減少資料收集成本、 提升分類的效率,這樣的過程在機器學習(machine learning)中稱之為特徵選取 (feature selection) 。相對於原始的完整模型(full model) ,經由特徵選取後所建 構者,稱為縮減模型(reduced model) 。目前,若干的統計、數學、機器學習(machine learning)及人工智慧(artificial intelligence)法皆可用於解決二元分類問題,並 達成特徵選取,常用的如:決策樹(decision tree, DT) 、類神經網路(artificial neural networks, ANN) 、逐步判別分析(stepwise discriminant analysis, SDA)等。然而, 決策樹演算法雖然在相對小的資料集分析上相當有效,但應用於現實世界中,往 往因為資料量或特徵變數的增大而增加了分析時的繁瑣;對類神經網路而言,由 於整個網路猶如「黑箱」作業,因此常因其解釋性差而受到批評;應用統計方法 1.
(14) 於現實資料時,往往因為資料型態不完全符合統計分析上所需的一般假設或要 求,因而必須對原始資料進行處理或轉換,也因此徒增資料分析上的複雜度。. 另外,分類方法,如:決策樹、類神經網路、逐步判別分析等,是在訓練樣 本(training samples)上「學習」出可區分類別的模型。然而,在二元分類裡的 訓練資料集中,屬於類別 1 和類別 2 的資料數量比例通常是影響這些分類方法是 否能有效學習的因素之一,如果訓練資料裡,屬於類別 1 的數量相當多,而類別 2 的數量相當少,則此種稱之為「非平衡(imbalance)」的資料型態將使學習過 程產生偏差,而減低未來在判斷類別 2 上的敏感度(sensitivity),因此導致分類 方法的可靠度降低 [8, 9]。基於這樣的理由,如果所要探勘的資料集在兩類別數 量間呈現懸殊的差異時,使用決策樹、類神經網路和逐步判別分析是不適當的。 但,值得注意的,在相當多的領域裡,由於其特性使然,使得所收集到的資料正 好呈現以上情形,例如:在醫學疾病診斷上,患有某病症的病患通常僅為健檢者 中的少數,其餘則皆為健康者;在量產產品的品質測試上,不良品也只佔所有成 品的極少部分,尤其在現今講求六標準差(Six Sigma)品質的高科技產業中更 顯如此。然而,正確診斷出這些少數的疾病患者、不良品,對一個類別預測系統 而言卻是較為緊要的,唯有透過正確的診斷,才能對疾病患者採取適當的醫療行 動;才能避免不良商品流入市場。因此,一個類別預測模型若因為不平衡的訓練 資料而降低對這些「關鍵少數」的預測敏感度,將會造成無法預期的損失。於是, 在每個方法皆宣稱自己的分類能力的同時,一個真正好的、能為使用者所信任的 方法,必然不因類別分布型態而左右其類別預測能力,因此,我們需要的是一套 穩健的方法,即在面對訓練資料的類別分布不平衡時,甚至是數量差距懸殊時, 仍然能建構出高總準確率及高敏感度的類別預測模型,而這樣的方法也更能符合 實務應用上對簡單、快速、不受限的期待,並獲得青睞。. 2.
(15) 馬氏-田口系統(Mahalanobis-Taguchi System, MTS)是近年來由田口玄一 (Genichi Taguchi)博士針對多變量資料所提出的診斷(diagnosis)與預測 (forecasting)新技術,此法包含數學、統計之概念及穩健工程(robust engineering) 的原理,結合了馬氏距離(Mhalanobis distance, MD) 、直交表(orthogonal arrays, OAs) 、SN 比(signal-to-noise ratio)[1, 2]。馬氏距離被用來建構多變量系統的測 量尺度(measurement scale) ,而直交表及 SN 比則被用於系統最佳化。雖然 MTS 同樣具有分類及特徵選取的能力,但其可更進一步的利用馬氏距離來衡量觀察樣 本相對於參照群體(reference group)的異常程度,而不僅限於一般的分類功能。 田口博士認為,MTS 並非基於機率上的推論方法,而是一種資料解析,因此沒 有任何的假設限制或分配理論 [1]。此外,在建模過程中,MTS 並非透過對整體 訓練資料的「學習」來萃取分類模型或規則,而是僅利用事先定義的正常(normal) 類別作為參照群體,並建立量測尺度的基準,新樣本則以距離基準點的遠近來判 斷其類別。因此,訓練資料的類別分布所呈現的型態,對於 MTS 建立分類模型 過程的影響是較小的,這將大幅的提升 MTS 在實務上的適用性。不論如何,MTS 在田口博士的鼓吹下,日漸受到重視,然而,其方法論與相關之應用仍有待進一 步的探討。. 1.2 研究目的. 本研究目的包含兩個層面。在方法論層面上,主要針對多變量資料的二元分 類問題,探討非平衡的訓練資料對 MTS 在類別預測上的影響,並和決策樹、類 神經網路、逐步判別分析比較之。藉由評估各方法所建立的縮減模型(reduced model)在分類預測上的準確率(accuracy)、敏感度(sensitivity)及特效性 (specificity)指標,來了解這些分類技術對於處理非平衡資料的能力,並期望 能突顯 MTS 的穩健性及在現今高科技環境中的適用性。此外,本研究提出以柴 比雪夫定理(Chebyshev’s theorem)為基礎的機率閾值(probabilistic threshold), 3.
(16) 作為 MTS 在類別判斷時的依據。. 在 MTS 應用層面上,以台灣某高科技公司的行動電話檢測製程為研究案 例,希望藉由 MTS 及工程上的背景知識,來改善行動電話檢測製程中,最為耗 時、繁雜的無線頻率功能檢測流程(radio frequency functional test process) 。本個 案研究期望能夠在保有良品與不良品的判別準確率下,縮減測試流程中冗餘的測 試項目,以提供一個更符合經濟效益的測試流程,藉此減少生產工時,提升生產 能量,也因此將更能適應手機市場上快速求新與求變的需求環境,並提升公司在 產業中的競爭力。. 1.3 論文架構. 本論文包含六章。第一章緒論,介紹本研究之背景、動機及目的。第二章對 資料探勘中的任務及技術等相關領域進行概述,並簡單介紹本研究所用到的分類 法。第三章介紹 MTS 的概念及方法,其中包含本研究所提出的機率閾值訂定步 驟。第四章以 UCI 資料庫(data bank)上的資料為例,探討訓練資料的不平衡對 MTS 及其他方法在建構類別預測模型上的影響,並比較之;同時亦驗證本研究 所提出的機率閾值是否有較好的判別能力。第五章收集台灣某高科技公司的行動 電話檢測數據,依 MTS 的架構進行分析,改善測試流程。第六章說明本研究的 結論與未來研究建議。. 4.
(17) 第二章. 相關研究. 2.1 資料庫中的知識發現. 由於資料儲存及管理技術的發展,大量資料的取得與儲存對現在的科學、商 業、工業或其他領域而言並非難事,然而,人們對於資料的處理及理解能力卻遠 落後於資料的收集速度。因此,豐富的資料將勢必引發對強而有力之資料分析的 需求。. 資料庫中的知識發現(knowledge discovery in database, KDD)是一個在資料 中探尋有效的、新穎的、潛藏有用的,並且最終可以被理解的模式之有價值的過 程 [10]。它是一門交叉性學科,涉及了資料庫(databases) 、機器學習(machine learning) 、模式識別(pattern recognition) 、統計學(statistics) 、人工智慧(artificial intelligence)、不確定性推論(reasoning with uncertainty)、專家系統(expert system) 、資料形象化(data visualization) 、機器發現(machine discovery) 、科學 發現(scientific discovery)、資訊檢索(information retrieval)及高效能運算 (high-performance computing)等各領域的技術 [11]。KDD 過程如圖 2.1 所示, 並簡述如下 [7]: 1.. 首先在事前必須針對此次任務的應用範疇、研究對象、相關背景知識,及 最後欲達成的目標進行通盤而細密的了解。. 2.. 資料清理:對各來源資料庫、資料文件填補遺失值、平滑雜亂資料、辨識 孤立點,並解決資料不一致的情形。. 3.. 資料整合:假設欲分析的資料出自多個來源及形式,則便涉及到整合多個 資料庫或資料文件於統一的資料儲存中。. 4.. 資料選取:從整合後的資料庫或資料倉儲中取得與任務相關 (task-relevant data) 的資料。 5.
(18) 5.. 資料轉換:將選取資料轉換或統一成適合探勘應用的形式,如:資料廣義 化(generalization) 、資料標準化(normalization) 、資料壓縮(compression) 。. 6.. 資料探勘:包含欲探勘的知識類型、探勘方法的選擇及執行。. 7.. 模型評估:衡量資料探勘後所發現的模型或知識是否能夠真正帶來貢獻。. 8.. 知識呈現:使用視覺化和知識表達技術,向使用者或決策者呈現探勘結 果。. 2.1 KDD 流程. KDD 自從 1989 年 8 月在美國底特律召開的第 11 屆人工智能聯合會議的議 題討論會裡首次被提出以來,由於它在資料處理、分析並挖掘知識上的顯著能 力,及在資訊管理、決策支援、錯誤偵測、健康照護、市場策略、財務預測、流 程控制等方面的廣泛應用,使得這些年來無論學術界或業界紛紛投以對 KDD 流 程的研究與新技術的開發,並推動此領域不斷發展。. 2.2 資料探勘. 資料探勘是 KDD 過程的核心,牽涉到從已觀察的資料來推斷隱藏在大量資 料背後的知識。從資料分析的角度而言,資料探勘可分為描述式(descriptive) 和預測式(predictive)。描述式資料探勘以簡潔概要的方式描述資料,並提供資 料的一般性質。預測式資料探勘則藉由分析資料,並建立一個或一組模型,來試 圖預測新資料集的行為。因此,基於我們所欲探尋的模型及應用上的需求,資料 6.
(19) 探勘任務主要可區分為:概念描述(concept description) 、分類與預測(classification and prediction)、叢集(clustering)、關聯(association)和演化分析(evolution analysis ); 而 執 行 這 些 任 務 的 探 勘 技 術 領 域 則 包 含 : 統 計 方 法 ( statistical approaches )、 機 器 學 習 法 ( machine learning approaches )、 資 料 庫 導 向 法 (database-oriented approaches)及其它若干方法 [7, 10, 11, 12, 13, 16]。. 2.2.1 探勘任務. 1.. 概念描述(concept description) 概念描述包含資料特徵化(characterization)與比較(comparison)。資料. 庫通常存放著大量的細節資料,然而,使用者通常希望以簡潔的描述形式來觀 察匯總的資料集,這種資料描述可以提供目標類別的大致面貌,例如:某年利 用信用卡消費 100000 元以上之客戶的特徵匯總描述,其特徵為年齡介於 30 至 40 歲、年收入 100 萬以上、高學歷、職銜為主管等。或者能將它與對比類 別相區別開來,例如:比較某年以信用卡消費 100000 元以上及 10000 元以下 之客戶的一般特徵。此外,使用者亦可方便、靈活地以不同細微度(granularity) 和不同的角度來描述資料集,例如:在高學歷屬性上,觀察具有碩士學位與博 士學位的客戶。. 2.. 分類與預測(classification and prediction) 分類是針對類別標籤作預測,為監督式學習(supervised learning)問題,. 即仰賴已知類別的訓練樣本來探索輸入屬性及輸出類別間的關係,以建構出類 別預測模型,並用來預測新未來樣本的類別,屬於示例式學習(learning by examples)。預測則是建立連續值函數模型,可被視為建構和使用模型來評估 給定樣本可能具有的屬性值或值域,例如,依公司、職位、服務年資等,來預 測某人的薪資收入。. 7.
(20) 3.. 叢集(clustering) 叢集是在類別未知的情況下,將實體或抽象物件的集合分組成由類似物件. 為一群的過程。不同於分類,類別標記並不會出現在訓練樣本中,因此,叢集 為非監督式學習(unsupervised learning)的一個範例,即不依賴欲先定義的類 別和已知類別的訓練樣本來建構預測模型,是屬於觀察式學習(learning by observations)。由叢集所生成的群體是一組資料物件的集合,這些物件與同一 群體中的物件彼此有高度的相似,而與其他群體中的物件相異。在許多應用 中,可將一個叢集群體中的資料物件視為一體。例如:以叢集來劃分市場上的 顧客群,叢集裡為需求特徵相似的顧客,可作為提供何種商品資訊的參考。. 4.. 關聯(association) 關聯是針對物件間的關係進行分析,這種物件間的關係稱為關聯規則。一. 個關聯規則透露物件間的存在關係,即在一資料庫中,一個物件集合的出現, 可能強烈關係到另一個物件集合的出現與否。例如:在 3C 產品銷售中,透過 關聯分析發現以下規則,20 %的消費者年齡在 20 至 29 歲、並且月收入介於 20000 至 30000,而在這樣的年齡及月收入組合下的消費者會購買 mp3 隨身聽 的可能性有 60 %。. 5.. 演化分析(evolution analysis) 演化分析描述行為隨時間變化的物件之規律或趨勢,並對其塑模。這類型. 的分析包括有趨勢分析(trend analysis)、時間序列分析(time-series analysis) 和週期分析(periodicity analysis)。例如:根據股票市場過去幾年的主要股票 資料,透過演化分析可以辨識整個股票市場和特定公司的股票演化規律,而這 種規律可以幫助預測股票價格的未來走向,並作為投資決策支援。. 8.
(21) 2.2.2 探勘技術. 1.. 統計方法(statistical approaches) 許多的統計方法被應用於資料探勘,包含貝氏網路(Bayesian network)、. 迴歸分析(regression analysis) 、相關分析(correlation analysis) 、叢集分析(cluster analysis)等。通常,統計方法利用訓練資料集來建構統計模型,並在假設空 間裡搜尋統計衡量指標上的最佳者。 貝氏網路可用來預測某條件下事件發生的機率,其由兩部分定義,第一部 分是有向圖(directed graph),其中的每個節點代表一個變數或狀態,每條弧 代表一個機率性的依賴,第二部分是每個屬性事件發生的條件機率或聯合條件 機率表,圖 2.2 顯示一個肺癌的貝式網路,及導致肺癌的條件機率表,網路中 的節點表示變數或狀態,有向弧則代表因果關係。迴歸分析利用過去所觀察的 資料來導出一個方程式,而此方程式可將物件的屬性集適配到一個輸出變數, 例如:線性迴歸(linear regression) 、判別分析(discriminant analysis) 。相關分 析是用來研究屬性或變數間的相互關係,例如:χ2相關性檢定。叢集分析則 是基於物件間的距離量測,來發現物件集裡的群體關係,例如:k-means、 k-medoids。. 圖 2.2 貝式網路 [7]. 9.
(22) 2.. 機器學習法(machine learning approaches) 在資料探勘中,最常見的機器學習法包括決策樹歸納法(decision tree. induction)、類神經網路(artificial neural networks)、歸納式學習(inductive concept learning)及概念式叢集(conceptual clustering)。 決策樹是一個分類樹,決策樹歸納法建構一個類似於流程圖的結構,其中 每個內部節點表達一個屬性上的測試,演算法會在每個節點選擇最佳分類的屬 性,並依其將資料劃分類別,每個分枝對應於測試的一個輸出值,每個外部節 點(樹葉)則表達一個類別,而整棵樹即表示分類上的規則。類神經網路是仿 生物神經網路的資訊處理系統,它由大量簡單的神經元(neuron),及介於神 經元間的訊號傳遞連結(connection)所構成,人工神經元是生物神經元的簡 單模擬,它從外界環境或其它人工神經元取得資訊,透過非常簡單的運算,再 輸出其結果到外界環境或者其它人工神經元,藉由類神經網路可建構輸入屬性 與輸出屬性間的關係。 歸納式學習是從一些資料進行分析,並歸納出具有一般性的概念,此法無 須先前的知識,端看所給的訓練資料是否足夠用來學習和歸納分析;簡言之, 是一種由學習主體對學習客體做歸納的學習方式,對某一個概念,由施教者提 供適當份量的訓練資料,並且告知受教者該資料的正確值,使受教者得到一系 列的「輸入-輸出」序對,此時受教者便得以建立或逐步修正自己對此觀念的 認知模型,藉由反覆進行這些步驟,使受教者的認知模型逐步趨近於正確。概 念叢集與傳統的叢集不同,它是一個兩步驟的過程,首先確定相似物件的分 群,接著為每群對象發現了特徵描述,也就是每群物件代表了一個概念或類別。. 3.. 資料庫導向法(database-oriented approaches) 不同於上述的兩項領域,資料庫導向法並不搜尋最佳模型,而是利用資料. 塑模或特定的啟發式方法(heuristics)來發現手中資料的特性,如:屬性導向 歸納法(attribute-oriented induction) 、重複掃描資料庫中頻繁項目集合(iterative 10.
(23) database scanning for frequent item sets)等。 屬性導向歸納法是資料庫查詢導向的(database query oriented) 、基於廣義 化的(generalization-based)線上資料分析處理技術,首先使用資料庫查詢收 集任務相關資料,然後通過考察資料中每個屬性之不同值的個數來進行廣義 化,使屬性值個數落在一定的範圍內,其中廣義化可透過屬性刪除或屬性廣義 化來達成。重複掃描資料庫法被用來搜尋交易資料庫中的頻繁項目集合,而項 目間的關聯規則就從這些頻繁項目集合裡推導出,如:常用於搜尋頻繁項目集 合的 Apriori 演算法。. 4.. 其他技術 其它技術如:基因演算法(genetic algorithms)、粗略集合(rough sets)、. 模糊集合(fuzzy sets) 、形象化(visualization)等,亦被應用於資料探勘。基 因演算法試圖結合自然演算的想法,是利用電腦模擬染色體的基因結合、突變 及自然選擇過程的最佳化技術。粗略集合理論可以用來近似地定義那些根據屬 性無法區分的類別。模糊集合利用隸屬函數(membership function)的表達來 取代以往對互斥事件的處理觀點。而形象化技術將資料轉化為點、線、面的形 象物件,例如資料散佈圖(scatter plot)、3D圖等,使得資料分析者可以快速 的發現資料的顯著特性。. 目前,這些資料探勘技術時常被整合、結合來解決複雜的問題,或提供另一 套解答方法,舉簡單例子:我們時常以圖、表等形象化技術來表現其他探勘技術 的匯總;而屬性導向歸納法則時常作為關聯規則探勘前的資料屬性處理。這樣的 做法不僅幫助探勘能力的提升,並更有助於未來的開發研究,因此愈來愈多的資 料探勘系統試著融合多樣化的探勘技術,來處理不同的資料、不同的探勘任務, 及不同的應用領域。. 11.
(24) 2.3 資料探勘中的分類任務. 分類是針對類別標籤作預測。仰賴已知類別的訓練樣本來探索輸入屬性及輸 出類別間的關係,以建構出類別預測模型,並用來預測未來樣本的類別。目前已 有數學、統計學、機器學習、專家系統和神經生物學方面的研究學者提出許多分 類方法,並在信用核證、醫療診斷、效能預測和選擇性行銷等方面有廣泛的應用。. 2.3.1 分類過程. 分類是一個兩步驟的過程,如圖 2.4。第一步驟,透過分析由屬性所描述的 樣本或物件建立一個模型,用來描述預定的資料類別或概念集。為了建立模型而 被分析的資料稱為訓練樣本(training samples) ,它是隨機地由任務相關資料中選 出。由於提供了每個訓練樣本類別標籤,因此此步驟也稱為監督式學習 (supervised learning) ,通常,經由訓練樣本學習出來的模型,是以分類規則、 決策樹或數學公式的形式表達。例如,給定一個顧客信用資訊的資料庫,分類規 則可被學習,並用來確認顧客的信譽是優良或普通,而這些規則可被用來為以後 的資料作分類,同時也能增進對資料庫內容更好的理解。. 第二步驟,我們使用步驟一所建構的模型來進行分類。由於學習模型往往會 對資料有過度適配(overfitting)的現象,因此若使用訓練樣本來導出分類法, 並評估正確性,可能會錯誤地導致太過樂觀的估計。此步驟中,測試樣本(test samples)將會被使用,這些樣本是隨機選取,並且與訓練樣本無關的。首先, 將評估模型的預測準確率(accuracy) ,即對於每個測試樣本,我們將已知的類別 標籤與該樣本透過學習模型所預測的類別作比較,而模型準確率是定義為被模型 正確分類的測試樣本百分比。如果準確率是可以被接受的,則此模型就可以被用 來對類別標籤未知的資料或物件進行分類。例如,透過分析現有顧客資料所學習. 12.
(25) 到的分類規則,在測試準確率可接受下,可以被利用來預測新的或未來顧客的信 譽。. 圖 2.3 分類任務流程圖. 2.3.2 分類技術. 至今,許多研究利用不同的演算方法及技術來處理多變量資料的分類問題, 而基於先前探勘技術的討論,在此介紹幾個常見的分類技術:統計方法中的逐步 判別分析、機器學習法中的決策樹歸納法,及類神經網路。. 1.. 判別分析(discriminant analysis) 判別分析為一個簡單的參數型統計方法,用在對多變量資料的分類。此法. 必須滿足三個統計上的假設:(1)群體必須滿足多元常態分配(multivariate normal distribution);(2)群體的共變數矩陣(covarianc matrices)相等; (3) 群體的平均值向量(mean vectors) 、共變數矩陣及先驗機率(prior probabilities) 已知。判別分析包含三程序 [14, 15]: (1) 確認最佳變數集:找出可以用來清楚分辨訓練樣本類別的最佳變數,而 這些變數稱為判定變數(discriminator variables)。 (2) 確認新座標軸:使用(1)中的判定變數,將訓練樣本的多個判定變數 值投影到一新的座標軸上,使得到一個新變數,再根據這些訓練樣本的 新變數,找出最能區分類別的座標軸。 (3) 分類:使用(2)所找出的座標軸發展分類規則,對新的樣本作分類。 13.
(26) 由以上三個程序可以了解,判別分析經由所有判定變數的線性組合來發展 一個新變數,而此線性組合必須能最大化新變數在組間與組內平方和上的比值 (between-group to within-group sum of squares ratio, SSb/SSw),這將使在不同 類別間具有最佳的判別。此線性組合稱為線性判別方程式(linear discriminant function),而經過判別方程式所計算的新變數值稱為判別得分(discriminant score),並構成判別空間(discriminant space) 。最後,決定判別空間中最能區 分類別的閾值,建立分類規則。 在此之前,我們假設判定變數的最佳集合是已知的,並且利用已知的判定 變數來建立判別方程式,然而,實際情形並非如此。逐步判別分析(stepwise discriminant analysis, SDA)將所有變數依據指定的篩選指標,利用過濾的手 法,個別逐步的從目前的判定變數集外導入較重要者,或從中剔除不必要者於 判別方程式中,直到沒有變數滿足指標閾值為止,藉此尋求分類能力最佳的變 數集合,作為最終的判定變數。. 2.. 決策樹(decision tree) 決策樹是一個類似於流程圖的樹狀結構,其中每個內部節點表示在某個屬. 性上的測試,最頂層的節點稱為根節點(root node),每個分枝則代表一個測 試結果,而每個最底層的節點稱為樹葉(leaf),代表類別或類別分布(class distributions)。一個由根到葉的路徑存放著對樣本的分類規則,圖 2.4 即為一 典型的決策樹,他表示了一部汽車的最高時速高低(high, medium, low)的分 類規則,內部節點以橢圓形來表示,而矩形則代表類別樹葉。決策樹中每個節 點上的屬性是使用基於熵理論(entropy theory)的信息增益(information gain) 度量來決定,這種度量稱作屬性選擇度量(attribute selection measure)或分裂 優良性度量(measure of the goodness of split)[7, 16, 19]。. 14.
(27) 圖 2.4 決策樹 [12]. 決策樹歸納法的基本演算步驟如下: (1) 決策樹從代表所有訓練樣本的單個節點開始。 (2) 如果節點中的樣本皆屬於同一類別,則該節點成為決策樹葉,並標記類 別。 (3) 如果節點中的樣本不屬於同一類別,演算法使用信息增益的度量作為資 訊,並選擇使信息增益最大的屬性,做為該節點的測試或決策屬性。 (4) 對測試屬性的每個已知值各建立一個分枝,並藉此來劃分樣本,使進入 下一層節點。 (5) 演算法使用同樣的過程,在每個分枝的樣本上,以剩餘的屬性,重複步 驟(1)到(4),遞迴地形成決策樹的伸展。 (6) 重複遞迴的步驟在以下條件下即停止,並形成樹葉: (a) 該節點的樣本皆屬於同一類別。 (b) 沒有剩餘的屬性可被用來進一步劃分樣本。通常,以該節點中的多 數類別為決策樹葉的標記,或者以該節點中的類別分布表示。 當決策樹建立時,由於資料中的雜亂,使得許多分枝是反應訓練樣本中的 異常資料。透過修剪(pruning),利用統計度量(statistical measures)減去不 可靠的分枝,可以處理這種對訓練樣本過度適配的現象。執行決策樹修剪,將 可獲得較快的分類,並提高決策樹的正確分類能力 [7]。另外,不出現在決策 15.
(28) 樹中的所有屬性皆假設是不相關的,因此決策樹歸納法亦可用在特徵選取。. 3.. 類神經網路(artificial neural network) 類神經網路是一組連接的輸入/輸出單元,其中每個連接都與一個權重相. 關聯,在學習訓練階段,透過調整類神經網路的權重,使得能夠正確預測輸入 樣本的類別來學習。多層前饋(multilayer feed-forward)類神經網路如圖 2.5 所示,由輸入層(input layer)輸入訓練樣本的每個屬性值,這些輸入單元的 加權值依次同時地提供給第一隱藏層(hidden layer)作為隱藏單元的輸入,再 透過一激發函數(activation function)的轉換後,產生隱藏單元的輸出值,該 隱藏層的加權輸出,做為下一隱藏層的輸入,由此下去,最後一個隱藏層的輸 出構成輸出層(output layer)的單元輸入,而輸出層的輸入值經過激發函數轉 換後,發布給定樣本的網路預測。隱藏層和輸出層的單元稱為神經元 (neuron),ㄧ個輸出單元可以用來表現兩個類別,如果多於兩個類別,則每 個類別分別使用一個輸出單元。如果權重都不送回前ㄧ輸出單元,則此類神經 網路是前饋的。網路的設計是一個試誤(try and error)的過程,對於最佳的隱 藏層單元數決定,並沒有明確的規則可供使用,而權重的初始值也可能會影響 分類結果的準確性,因此一但網路經過訓練,並且其分類準確率無法被接受 時,通常會選用不同的隱藏層單元數或不同的初始權重,來重複此訓練過程。. 圖 2.5 多層前饋類神經網路. 16.
(29) 倒傳遞神經網路(back-propagation neural network, BPN),在多層前饋神 經網路上學習,為目前最常使用於分類的類神經網路 [17, 18]。倒傳遞神經網 路透過疊代的處理一組訓練樣本,將每個樣本的預測與實際知道的類別標籤做 比較來進行學習。在訓練過程中,以 sigmoid 函數作為激發函數,並會透過不 斷修正其權重,使網路預測和實際類別間的誤差最小,而這種權重修改是「倒 向」進行的,也就是由輸出層到第一個隱藏層,因此稱為「倒傳遞」。一般而 言,權重最終將會收斂,而學習過程即停止。 倒傳遞神經網路之基本演算步驟如下: (1) 網路的權重首先會被初始化為很小的隨機變數。 (2) 由訓練樣本提供給網路的輸入層,向前以加權組合的 sigmoid 函數值逐 層傳播輸入,並在輸出層輸出預測結果。 (3) 向後傳播預測結果與實際類別的誤差,並由輸出層逐層向後計算、更新 權重。 (4) 重複(2)、(3)直到滿足停止條件。 (5) 停止條件如下: (a) 權重收斂,新舊權重差距小於某個指定的閾值。 (b) 類別預測的正確率達到某個指定的閾值。 (c) 超過預先定的疊代次數。 此外,倒傳遞神經網路的特徵選取可由以下步驟執行: (1) 在每個輸入單元,計算其所連接的每對「輸入-隱藏」權重和「隱藏-輸 出」權重之絕對值乘積,並相加之。 (2) 將每個輸入單元在(1)所求得的值以遞減方式排序。排序愈後面,表 示該輸入單元愈不重要。 (3) 由(2)可篩選出較重要的輸入單元。 (4) 以篩選的特徵變數重新訓練網路,並比較結果。. 17.
(30) 2.3.3 分類法評估. 一般來說,分類方法可以根據下列標準進行比較和評估 [7]: 1. 分類準確率(accuracy):為最常用的評估指標,這涉及到模型是否能正確預 測新的或先前未見資料的類別標籤之能力。 2. 速度(speed):這涉及到產生和使用模型的計算效率。 3. 穩健性(robustness) :涉及到給定雜亂(noise) 、不平衡(imbalance)或具有 遺失值資料時,模型是否能正確預測的能力 4. 可擴延性(scalability):對於給定大量資料,分類技術能否有效建構模型的 能力。 5. 可解釋性(interpretability) :關於所建構的模型是否可以提供使用者理解和洞 察的資訊。. 至今已有許多關於不同分類法的比較研究 [16, 18, 19],而且到目前為止仍 然是一個值得研究的課題。研究中尚未發現對於上述五項評估指標皆表現優異的 分類法,也因此在比較分類法時,必須視分類問題的使用目的及環境,來對分類 法在評估指標的表現能力上進行取捨。. 18.
(31) 第三章. 馬氏-田口系統. 3.1 MTS 之構成要素. 馬氏-田口系統(MTS)為針對多變量資料所發展的診斷及預測技術,它以考 量變數間相關性的馬氏距離作為多變量系統的量測尺度,並以穩健工程之原理, 執行系統最佳化的過程。. 3.1.1 多變量診斷系統. 一個典型的多變量診斷系統如圖 3.1 所示,圖中 X 1 、 X 2 … X k 代表 k 個特徵 變數,可提供資訊給決策者以制定決策;輸入信號( M )為系統狀態的真值, 通常信號因子與系統輸出間具有互動關係,例如:汽車方向盤的轉向角度為一信 號因子,它可以改變汽車的回轉半徑;雜音因子隨使用環境而異,是無法控制的 參數,並會影響系統而造成偏差。在多變量診斷系統中,決策者並無法獨立地觀 察每個特徵變數來制定正確的決策,因為變數間總潛在著未知的相關性,因此, 在建構系統時,決策者必須將特徵變數間所存在的關係結構納入考量。. 圖 3.1 多變量診斷系統 [2]. 19.
(32) 3.1.2 馬氏距離. 馬氏距離是在 1936 年由印度統計學家 P. C. Mahalanobis 所提出,為考慮特 徵變數關係結構的一種統計距離,它整合多變量系統中之不同變數資訊,使成為 一體的、綜合性的評價指標。馬氏距離對於參照群體(reference group)的特性 變數關係結構非常敏感,在典型的方法中,馬氏距離被用來量測一未知樣本點相 較於每個群體中心點的遠近程度,並將未知樣本點歸類為距離較近的群體。相較 於歐氏距離(Euclidean distance)而言,雖然皆是衡量未知樣本點與群體的距離, 但馬氏距離更將變數間的關係性納入考量。圖 3.2 比較馬氏距離和歐氏距離的差 別,假設參照群體的樣本點包含 X 1 和 X 2 兩個變數,橢圓虛線表示馬氏邊界,而 圓形虛線代表歐氏邊界, X 為參照群體的中心點,稱為基準點或參照點,A、B 為兩個樣本點,並且 A 點的表現較接近於參照群體的分布趨向。當以歐氏距離 來衡量 A、B 兩點的情況時,由圖中可明顯發現 B 點距離歐氏邊界較近,因此我 們會判定 B 較 A 相似於參照群體;但若改以馬氏距離來觀察,則 A 點比 B 點更 靠近馬氏邊界,即 A 點較相似於參照群體。由此可知,在多變量分析上,變數 間的相關性是不容忽視的,因此利用考量關係結構的馬氏距離作為衡量指標,將 會獲得較正確的結果。. 圖 3.2 馬氏距離與歐氏距離 [2]. 20.
(33) 在 MTS 中,馬氏距離被以適當的尺度作修改,並作為未知樣本點是否相似 於參照群體的量測尺度。參照群體裡所有樣本點的馬氏距離構成馬氏空間 (Mahalanobis space, MS) ,馬氏空間可說是包含參照群體裡所有變數的平均值、 變異數及關係結構的一個資料庫。圖 3.3 顯示一個修改後的多變量診斷系統。. 圖 3.3 修改後的多變量診斷系統. 3.1.3 田口之穩健工程. 田口玄一博士在 1950 年代提出的穩健工程概念,其目的在於提供具成本效 率的改善方法,以提升產業在全球化市場中的競爭力。田口所提的穩健工程是以 工程的角度事先了解品質問題,並利用社會損失成本作為衡量產品品質得依據。 田口專注於工程品質的改善,包含:缺陷(defects) 、故障(failures) 、噪音(noise) 、 震動(vibrations)、污染(pollution)等,可用距離理想狀態的偏差來衡量之。 改善工程品質的主要工具為直交表和 SN 比,其所強調的重點是在產品或製程設 計時就考慮品質問題,亦即如何降低品質績效的變異。直交表用在實驗設計的配 置,可以最小化所需的實驗次數,並且減少雜音因子所帶來的影響。SN 比則是 用來衡量系統的功能性,SN 比愈大者愈佳。田口的穩健工程依成本效益的概念, 應用直交表與 SN 比找出最佳的參數水準組合,這觀念和傳統的實驗設計完全依 循統計原理,強調模式的確立,有很大的不同。 21.
(34) 在 MTS 中,基於田口的穩健工程之觀點,馬氏距離可被視為一工程品質, 因為它可以用來衡量一個未知樣本距離參照群體(馬氏空間)的異常 (abnormality)程度。. 3.2 MTS 方法論. 在很多情況下,一系統的產品或品質是由許多不同的特徵(characteristics) 所表現出來,這些不同特徵間可能是彼此獨立或互有影響的。但,這些關係往往 不易釐清的,因此,整合系統中之不同特性資訊,使成為一綜合性的整體評價指 標,對系統分析而言是比較有幫助的。田口博士採用馬氏距離為多元特性資料的 評價指標,利用馬氏距離來判斷多元資料間是否為同質(homogeneous)或異質 (heterogeneous),並利用 MTS 進行特徵變數的篩選。. 3.2.1 馬氏距離分類法. MTS 的主要目的之一是導入一個以考量特徵變數之相互關係為基礎的尺度 (scale)來量測樣本的異常(abnormality)程度,並作為分類診斷上的依據。以 醫學診斷為例,其目標是基於這樣的尺度來量測出某人體是否患有疾病,及患病 的嚴重度。馬氏距離為考慮多元變數之共變數矩陣(covariance matrix)的一種 統計距離,被利用來建構 MTS 的量測尺度。在 MTS 中所用的馬氏距離是由馬 氏原先所定義的馬氏距離除以特徵變數的數量。假設一多變量樣本集有 k 個特徵 變數,包含 n 個樣本,其馬氏距離計算式如下: 1 T 2 MD j = D j = ( ) ⋅ Z ij ⋅ C −1 ⋅ Z ij k. i = 1... k , j = 1... n. 其中, Z ij = ( z1 j , z 2 j , ..., z kj ) ,表示 xij (i = 1... k ) 的標準化值之標準向量; z ij = ( xij − xi ) / si ;. 22. (1).
(35) xij 為第 j 個樣本的第 i 個特徵變數值;. xi 為第 i 個特徵變數的平均值; s i 為第 i 個特徵變數之標準差; T 為轉置向量; C −1 為相關反矩陣;. k 為特徵變數的各數。. 執行 MTS 的第一步,我們必須先定義出正常狀態(normal condition) ,並從 中選取作為參照的正常(normal)群體,來建構馬氏空間(Mahalanobis space, MS) 。在醫學診斷上,正常狀態即為健康者;在製造檢驗系統裡,正常狀態則為 高品質的產品。在正常群體裡,所有樣本的馬氏距離構成一馬氏空間,馬氏空間 可被視為一包含正常群體之所有特徵變數平均值、標準差及關係反矩陣的資料 庫。當特徵變數的數目很大時,馬氏空間中的馬氏距離之分配會近似於 F 分配 ,或是卡方分配(自由度為 k )。我們可以很容 (分子自由度 k 、分母自由度∞) 易證明,馬氏空間的變數向量(經標準化後)之平均值為 0,而馬氏距離的平均 趨近於 1,因此,馬氏空間又稱為基準空間(base space) 。. 當要判別一個未知樣本是否屬於正常狀態時,我們只需要利用馬氏空間中的 平均值、標準差對其特徵變數值進行標準化,並以關係反矩陣來計算馬氏距離, 即可獲得解答。我們稱一個非來自正常狀態的樣本為異常(abnormal)樣本,通 常其馬氏距離會變得頗大,而馬氏距離愈大,則代表該樣本與正常狀態間有愈顯 著的不同。圖 3.4 顯示正常群體及異常樣本的馬氏距離分配示意圖,圖中藉由分 類閾值(threshold)的決定,來作為分類、診斷和預測上的依據。當有一樣本針 對其 k 項特徵進行檢驗後,利用馬氏空間所計算的馬氏距離若大於閾值則判其為 異常,反之則為正常。. 23.
(36) 圖 3.4 正常樣本與異常樣本之馬氏距離分配. 3.2.2 MTS 閾值. 在 MTS 中,由於正常樣本與異常樣本之馬氏距離分布時常會發生重疊的現 象,因此,如何有效決定其分隔上的閾值,是一直以來仍未獲得圓滿解答的問題。 過去在 MTS 的使用上,通常以試誤(try and error)的方式在訓練樣本集中找到 可以最大化總準確率的馬氏距離做為分類閾值,然而這樣的方式不僅毫無效率, 並且容易產生對訓練資料的過度適配,因而分類能力無法在測試上重現,尤其在 重疊現象現顯著的發生時,其能力就更值得商榷。此外,對於分類診斷問題而言, 正確診斷出會影響績效的異常樣本並進行修正是較為重要的,因此在閾值的設定 上應當以儘可能保護異常樣本的正確辨識為考量。本研究為此提出機率閾值 (probabilistic threshold) ,即以柴比雪夫定理(Chebyshev’s theorem)為基礎,在 有效辨識異常樣本下,預估正常樣本的馬氏距離分佈行為,並作為訂定 MTS 閾 值的依據。 1. 柴比雪夫定理 設 X 為一隨機變數,其平均數為 µ X ,變異數為 σ X ,對任意正數 θ 而言, 2. 存在下列機率關係: P( X − µ X ≤ θ ⋅ σ X ) ≥ 1 −. 1. (2). θ2. 式(2)稱為柴比雪夫不等式,經過移項、變形後,下式仍然成立: 24.
(37) P( X ≤ µ X + θ ⋅ σ X ) ≥ 1 −. 1. (3). θ2. 2. 機率閾值訂定步驟 利用「訓練集」來訂定馬氏距離分類上的閾值,其步驟說明如下: ‧ 步驟一:將正常樣本之馬氏距離視為一隨機變數 X ,並以其平均值 md 估計. µ X ,標準差 smd 估計 σ X 。為了避免離群值的影響,平均值 md 及標準差 smd 以 雙邊截尾後的樣本計算之,由於馬氏空間的馬氏距離分佈較為集中,因此建 議雙尾各截 3 % 至 5 %即可。 ‧ 步驟二:對異常樣本的馬氏距離,除去左尾離群值,如圖 3.5。. 圖 3.5 機率閾值訂定步驟一. ‧ 步驟三:比較異常樣本截尾後之馬式距離(步驟二)與所有正常樣本之馬氏 距離,並計算正常樣本在非重疊部分所佔的樣本數量比率 h % 。例如一訓練 集中共有 15 個正常樣本,其馬氏距離分佈區間為 0.45 至 2.1,而異常樣本在 截尾後之馬氏距離最小值為 1.7,如圖 3.6,正常樣本在非重疊部分所佔的比 例為. 13 ,即 86.67%( h = 86.67)。 15. 圖 3.6 機率閾值訂定步驟二 25.
(38) ‧ 步驟四:根據式(3)之不等式,並令下式成立: P ( X ≤ µ X + θ ⋅ σ X ) = P ( X ≤ md + θ ⋅ s md ) ≥ 1 −. 1. θ2. = h% − λ %. (4). 其中, λ % ( h > λ > 0 )為一校正值,考慮使用者對該模型是否能正確辨識 異常樣本之信心水準,通常建議設為 5%。 ‧ 步驟五:根據式(4)求得 θ ,並計算隨機變數 X 之上界 ( md + θ ⋅ s md ),作 為 MTS 中的分類閾值( T )。. 3. 機率閾值計算式 MTS 中之分類閾值( T )計算公式如下:. T = md +. 100 ⋅ s md 100 + λ − h. (5). 其中, md 為馬氏空間中正常樣本之馬氏距離截尾平均; s md 為馬氏空間中正常樣本之馬氏距離截尾標準差;. λ 為校正值,建議設為 5; h 為在非重疊部分所佔的樣本數量百分比數,如圖 3.6 所示。. 3.2.3 特徵變數之篩選. MTS 的第二個目的為替多變量系統刪除不重要的特徵變數,以降低系統成 本或加速資料處理,而直交表及 SN 比在確認重要變數上是很有效的。. 1. 直交表之配置 在直交表裡,每項特徵變數或因子會被個別配置到不同的行,而每一列則為 變數或因子的不同水準之組合,代表一種實驗組合。利用直交表,我們可以研究 每個特徵變數對系統輸出的影響。今假設一多變量系統有 k 項特徵變數,並設定 每項特徵變數為 2 水準: 26.
(39) 水準 1 = 使用此項特徵變數; 水準 2 = 不使用此項特徵變數; 接著選用適合 k 項因子配置的直交表進行實驗。 在此假設系統中有 k = 10 項特徵變數( C1 , C 2 , K, C10 )待分析,因而我們選 用L12直交表,其實驗配置如表 3.1。其中,Run1 的各特性變數水準皆為 1(皆使 用) ,此時需利用所有的 k 項特徵變數建立馬氏空間;而Run2 實驗則僅使用水準 為 1 的特徵變數( C1 , C 2 , C 3 , C 4 , C5 )來製作馬氏空間,依此類推。 表 3.1 L12直交表配置. 2. SN 比之使用 在根據直交表的特性變數組合建構馬氏空間後,接下來必須使用 SN 比來選 取重要變數。在 MTS 中,多變量系統的輸入信號( M )即為異常樣本的嚴重水 準(severity level) ,例如:不良產品所帶來的損失金額。田口建議可使用兩種不 同的 SN 比:(1)望大特性 SN 比;(2)動態特性 SN 比。其使用方式及時機分 述如下: (1) 望大特性 SN 比: 當信號真值未知,即異常樣本的嚴重水準未知時,我們使用望大特性 SN 27.
(40) 比來決定重要的特性變數。首先,收集不屬於正常狀態的 d 個樣本( d 個異常 樣本),因為異常樣本之馬氏距離必須與正常樣本之馬氏距離有很清楚的劃 分,所以 d 個異常樣本以馬氏空間為參照的馬氏距離為越大越好,屬於望大特 性,其 SN 比計算氏如下:. ⎡1 ⎣d. η = −10 ⋅ log10 ⎢ ⋅ (. 1 1 1 ⎤ + +L+ )⎥ MD1 MD2 MDd ⎦. (6). (2) 動態特性 SN 比: 動態特性系統的輸出和輸入信號有著互動關係。在 MTS 中,動態特性 SN 比的計算有以下兩種情況: ‧ 情況 1:信號真值已知,即所有異常樣本的嚴重水準已知。 首先,收集不屬於正常狀態的 d 個異常樣本,並以 yi (i = 1K d ) 表示其 馬氏距離的平方根,作為系統的輸出,而 M 1 、 M 2 … M d 表示 d 個異常樣本 的信號真值。輸入信號和系統輸出關係如下: yi = βM i. i = 1... d. (7). 其中, yi = MDi ; M i 為第 i 個異常樣本的信號真值;. β 為斜率值(理想狀況下 β = 1 )。 情況 1 之動態特性 SN 比計算式如下: 1 ⋅ ( S β − VN ) η = 10 ⋅ log10 r VN. (8). 其中, ST = y1 + y 2 + L + y d ; 2. 2. 2. 1 S β = ⋅ ( M 1 y1 + M 2 y 2 + L + M d y d ) 2 ; r. r = M1 + M 2 + L + M d ; 2. 2. 2. 28.
數據
+7
相關文件
為促進勞動供需平衡、協助國民充分就業、充分運用人力資源,基於「就業服
為促進勞動供需平衡、協助國民充分就業、充分運用人力資源,基於「就業服
為促進勞動供需平衡、協助國民充分就業、充分運用人力資源,基於「就業服
為促進勞動供需平衡、協助國民充分就業、充分運用人力資源,基於「就業服
為促進勞動供需平衡、協助國民充分就業、充分運用人力資源,基於「就業服
為促進勞動供需平衡、協助國民充分就業、充分運用人力資源,基於「就業服
為促進勞動供需平衡、協助國民充分就業、充分運用人力資源,基於「就業服
為促進勞動供需平衡、協助國民充分就業、充分運用人力資源,基於「就業服