緒論 - 應用MTS於非平衡資料分析之穩健性研究

1.1 研究背景及動機

拜科技進步之賜，一個現代化組織相較於過去大大的增加了對資料取得、蒐集與整理的能力，然而，如何有效的從資料堆中獲取有用的知識，擺脫「空有大量資料，卻資訊匱乏」的窘境，才是所當關心的課題。為此，多數的組織藉由資料探勘（data mining）技術，來萃取出潛藏於雜亂資料中的各種有益資訊，並作為決策上的支援。

分類（classification）或類別預測為資料探勘領域的主要任務之一，用來萃取描述多變量資料（multivariate data）的類別模型，以便能夠預測類別標記未知的物件類別，有關這方面的實務相關應用相當多，例如：產品測試、聲音辨識、

疾病診斷、字體辨識、信用評比等。二元分類問題（binary classification problems）

是屬於分類問題中的一部分，其關注於二類別資料的分析。此外，在分類模型萃取過程裡，通常融合了維度縮減（dimension reduction）技術，以相對具有關鍵性影響及較原始資料少的特徵變數來建立分類模型，如此可減少資料收集成本、

提升分類的效率，這樣的過程在機器學習（machine learning）中稱之為特徵選取

（feature selection）。相對於原始的完整模型（full model），經由特徵選取後所建構者，稱為縮減模型（reduced model）。目前，若干的統計、數學、機器學習（machine learning）及人工智慧（artificial intelligence）法皆可用於解決二元分類問題，並達成特徵選取，常用的如：決策樹（decision tree, DT）、類神經網路（artificial neural networks, ANN）、逐步判別分析（stepwise discriminant analysis, SDA）等。然而，

決策樹演算法雖然在相對小的資料集分析上相當有效，但應用於現實世界中，往往因為資料量或特徵變數的增大而增加了分析時的繁瑣；對類神經網路而言，由於整個網路猶如「黑箱」作業，因此常因其解釋性差而受到批評；應用統計方法

於現實資料時，往往因為資料型態不完全符合統計分析上所需的一般假設或要求，因而必須對原始資料進行處理或轉換，也因此徒增資料分析上的複雜度。

另外，分類方法，如：決策樹、類神經網路、逐步判別分析等，是在訓練樣本（training samples）上「學習」出可區分類別的模型。然而，在二元分類裡的訓練資料集中，屬於類別 1 和類別 2 的資料數量比例通常是影響這些分類方法是否能有效學習的因素之一，如果訓練資料裡，屬於類別 1 的數量相當多，而類別 2 的數量相當少，則此種稱之為「非平衡（imbalance）」的資料型態將使學習過程產生偏差，而減低未來在判斷類別 2 上的敏感度（sensitivity），因此導致分類方法的可靠度降低 [8, 9]。基於這樣的理由，如果所要探勘的資料集在兩類別數量間呈現懸殊的差異時，使用決策樹、類神經網路和逐步判別分析是不適當的。

但，值得注意的，在相當多的領域裡，由於其特性使然，使得所收集到的資料正好呈現以上情形，例如：在醫學疾病診斷上，患有某病症的病患通常僅為健檢者中的少數，其餘則皆為健康者；在量產產品的品質測試上，不良品也只佔所有成品的極少部分，尤其在現今講求六標準差（Six Sigma）品質的高科技產業中更顯如此。然而，正確診斷出這些少數的疾病患者、不良品，對一個類別預測系統而言卻是較為緊要的，唯有透過正確的診斷，才能對疾病患者採取適當的醫療行動；才能避免不良商品流入市場。因此，一個類別預測模型若因為不平衡的訓練資料而降低對這些「關鍵少數」的預測敏感度，將會造成無法預期的損失。於是，

在每個方法皆宣稱自己的分類能力的同時，一個真正好的、能為使用者所信任的方法，必然不因類別分布型態而左右其類別預測能力，因此，我們需要的是一套穩健的方法，即在面對訓練資料的類別分布不平衡時，甚至是數量差距懸殊時，

仍然能建構出高總準確率及高敏感度的類別預測模型，而這樣的方法也更能符合實務應用上對簡單、快速、不受限的期待，並獲得青睞。

馬氏-田口系統（Mahalanobis-Taguchi System, MTS）是近年來由田口玄一

（Genichi Taguchi）博士針對多變量資料所提出的診斷（diagnosis）與預測

（forecasting）新技術，此法包含數學、統計之概念及穩健工程（robust engineering）

的原理，結合了馬氏距離（Mhalanobis distance, MD）、直交表（orthogonal arrays, OAs）、SN 比（signal-to-noise ratio）[1, 2]。馬氏距離被用來建構多變量系統的測量尺度（measurement scale），而直交表及 SN 比則被用於系統最佳化。雖然 MTS 同樣具有分類及特徵選取的能力，但其可更進一步的利用馬氏距離來衡量觀察樣本相對於參照群體（reference group）的異常程度，而不僅限於一般的分類功能。

田口博士認為，MTS 並非基於機率上的推論方法，而是一種資料解析，因此沒有任何的假設限制或分配理論 [1]。此外，在建模過程中，MTS 並非透過對整體訓練資料的「學習」來萃取分類模型或規則，而是僅利用事先定義的正常（normal）

類別作為參照群體，並建立量測尺度的基準，新樣本則以距離基準點的遠近來判斷其類別。因此，訓練資料的類別分布所呈現的型態，對於 MTS 建立分類模型過程的影響是較小的，這將大幅的提升 MTS 在實務上的適用性。不論如何，MTS 在田口博士的鼓吹下，日漸受到重視，然而，其方法論與相關之應用仍有待進一步的探討。

1.2 研究目的

本研究目的包含兩個層面。在方法論層面上，主要針對多變量資料的二元分類問題，探討非平衡的訓練資料對 MTS 在類別預測上的影響，並和決策樹、類神經網路、逐步判別分析比較之。藉由評估各方法所建立的縮減模型（reduced model）在分類預測上的準確率（accuracy）、敏感度（sensitivity）及特效性

（specificity）指標，來了解這些分類技術對於處理非平衡資料的能力，並期望能突顯 MTS 的穩健性及在現今高科技環境中的適用性。此外，本研究提出以柴比雪夫定理（Chebyshev’s theorem）為基礎的機率閾值（probabilistic threshold），

作為 MTS 在類別判斷時的依據。

在 MTS 應用層面上，以台灣某高科技公司的行動電話檢測製程為研究案例，希望藉由 MTS 及工程上的背景知識，來改善行動電話檢測製程中，最為耗時、繁雜的無線頻率功能檢測流程（radio frequency functional test process）。本個案研究期望能夠在保有良品與不良品的判別準確率下，縮減測試流程中冗餘的測試項目，以提供一個更符合經濟效益的測試流程，藉此減少生產工時，提升生產能量，也因此將更能適應手機市場上快速求新與求變的需求環境，並提升公司在產業中的競爭力。

1.3 論文架構

本論文包含六章。第一章緒論，介紹本研究之背景、動機及目的。第二章對資料探勘中的任務及技術等相關領域進行概述，並簡單介紹本研究所用到的分類法。第三章介紹 MTS 的概念及方法，其中包含本研究所提出的機率閾值訂定步驟。第四章以 UCI 資料庫（data bank）上的資料為例，探討訓練資料的不平衡對 MTS 及其他方法在建構類別預測模型上的影響，並比較之；同時亦驗證本研究所提出的機率閾值是否有較好的判別能力。第五章收集台灣某高科技公司的行動電話檢測數據，依 MTS 的架構進行分析，改善測試流程。第六章說明本研究的結論與未來研究建議。

在文檔中應用MTS於非平衡資料分析之穩健性研究 - 以行動電話檢測流程為例 (頁 13-17)