• 沒有找到結果。

1.1 研究背景及動機

拜科技進步之賜,一個現代化組織相較於過去大大的增加了對資料取得、蒐 集與整理的能力,然而,如何有效的從資料堆中獲取有用的知識,擺脫「空有大 量資料,卻資訊匱乏」的窘境,才是所當關心的課題。為此,多數的組織藉由資 料探勘(data mining)技術,來萃取出潛藏於雜亂資料中的各種有益資訊,並作 為決策上的支援。

分類(classification)或類別預測為資料探勘領域的主要任務之一,用來萃 取描述多變量資料(multivariate data)的類別模型,以便能夠預測類別標記未知 的物件類別,有關這方面的實務相關應用相當多,例如:產品測試、聲音辨識、

疾病診斷、字體辨識、信用評比等。二元分類問題(binary classification problems)

是屬於分類問題中的一部分,其關注於二類別資料的分析。此外,在分類模型萃 取過程裡,通常融合了維度縮減(dimension reduction)技術,以相對具有關鍵 性影響及較原始資料少的特徵變數來建立分類模型,如此可減少資料收集成本、

提升分類的效率,這樣的過程在機器學習(machine learning)中稱之為特徵選取

(feature selection)。相對於原始的完整模型(full model),經由特徵選取後所建 構者,稱為縮減模型(reduced model)。目前,若干的統計、數學、機器學習(machine learning)及人工智慧(artificial intelligence)法皆可用於解決二元分類問題,並 達成特徵選取,常用的如:決策樹(decision tree, DT)、類神經網路(artificial neural networks, ANN)、逐步判別分析(stepwise discriminant analysis, SDA)等。然而,

決策樹演算法雖然在相對小的資料集分析上相當有效,但應用於現實世界中,往 往因為資料量或特徵變數的增大而增加了分析時的繁瑣;對類神經網路而言,由 於整個網路猶如「黑箱」作業,因此常因其解釋性差而受到批評;應用統計方法

於現實資料時,往往因為資料型態不完全符合統計分析上所需的一般假設或要 求,因而必須對原始資料進行處理或轉換,也因此徒增資料分析上的複雜度。

另外,分類方法,如:決策樹、類神經網路、逐步判別分析等,是在訓練樣 本(training samples)上「學習」出可區分類別的模型。然而,在二元分類裡的 訓練資料集中,屬於類別 1 和類別 2 的資料數量比例通常是影響這些分類方法是 否能有效學習的因素之一,如果訓練資料裡,屬於類別 1 的數量相當多,而類別 2 的數量相當少,則此種稱之為「非平衡(imbalance)」的資料型態將使學習過 程產生偏差,而減低未來在判斷類別 2 上的敏感度(sensitivity),因此導致分類 方法的可靠度降低 [8, 9]。基於這樣的理由,如果所要探勘的資料集在兩類別數 量間呈現懸殊的差異時,使用決策樹、類神經網路和逐步判別分析是不適當的。

但,值得注意的,在相當多的領域裡,由於其特性使然,使得所收集到的資料正 好呈現以上情形,例如:在醫學疾病診斷上,患有某病症的病患通常僅為健檢者 中的少數,其餘則皆為健康者;在量產產品的品質測試上,不良品也只佔所有成 品的極少部分,尤其在現今講求六標準差(Six Sigma)品質的高科技產業中更 顯如此。然而,正確診斷出這些少數的疾病患者、不良品,對一個類別預測系統 而言卻是較為緊要的,唯有透過正確的診斷,才能對疾病患者採取適當的醫療行 動;才能避免不良商品流入市場。因此,一個類別預測模型若因為不平衡的訓練 資料而降低對這些「關鍵少數」的預測敏感度,將會造成無法預期的損失。於是,

在每個方法皆宣稱自己的分類能力的同時,一個真正好的、能為使用者所信任的 方法,必然不因類別分布型態而左右其類別預測能力,因此,我們需要的是一套 穩健的方法,即在面對訓練資料的類別分布不平衡時,甚至是數量差距懸殊時,

仍然能建構出高總準確率及高敏感度的類別預測模型,而這樣的方法也更能符合 實務應用上對簡單、快速、不受限的期待,並獲得青睞。

馬氏-田口系統(Mahalanobis-Taguchi System, MTS)是近年來由田口玄一

(Genichi Taguchi)博士針對多變量資料所提出的診斷(diagnosis)與預測

(forecasting)新技術,此法包含數學、統計之概念及穩健工程(robust engineering)

的原理,結合了馬氏距離(Mhalanobis distance, MD)、直交表(orthogonal arrays, OAs)、SN 比(signal-to-noise ratio)[1, 2]。馬氏距離被用來建構多變量系統的測 量尺度(measurement scale),而直交表及 SN 比則被用於系統最佳化。雖然 MTS 同樣具有分類及特徵選取的能力,但其可更進一步的利用馬氏距離來衡量觀察樣 本相對於參照群體(reference group)的異常程度,而不僅限於一般的分類功能。

田口博士認為,MTS 並非基於機率上的推論方法,而是一種資料解析,因此沒 有任何的假設限制或分配理論 [1]。此外,在建模過程中,MTS 並非透過對整體 訓練資料的「學習」來萃取分類模型或規則,而是僅利用事先定義的正常(normal)

類別作為參照群體,並建立量測尺度的基準,新樣本則以距離基準點的遠近來判 斷其類別。因此,訓練資料的類別分布所呈現的型態,對於 MTS 建立分類模型 過程的影響是較小的,這將大幅的提升 MTS 在實務上的適用性。不論如何,MTS 在田口博士的鼓吹下,日漸受到重視,然而,其方法論與相關之應用仍有待進一 步的探討。

1.2 研究目的

本研究目的包含兩個層面。在方法論層面上,主要針對多變量資料的二元分 類問題,探討非平衡的訓練資料對 MTS 在類別預測上的影響,並和決策樹、類 神經網路、逐步判別分析比較之。藉由評估各方法所建立的縮減模型(reduced model)在分類預測上的準確率(accuracy)、敏感度(sensitivity)及特效性

(specificity)指標,來了解這些分類技術對於處理非平衡資料的能力,並期望 能突顯 MTS 的穩健性及在現今高科技環境中的適用性。此外,本研究提出以柴 比雪夫定理(Chebyshev’s theorem)為基礎的機率閾值(probabilistic threshold),

作為 MTS 在類別判斷時的依據。

在 MTS 應用層面上,以台灣某高科技公司的行動電話檢測製程為研究案 例,希望藉由 MTS 及工程上的背景知識,來改善行動電話檢測製程中,最為耗 時、繁雜的無線頻率功能檢測流程(radio frequency functional test process)。本個 案研究期望能夠在保有良品與不良品的判別準確率下,縮減測試流程中冗餘的測 試項目,以提供一個更符合經濟效益的測試流程,藉此減少生產工時,提升生產 能量,也因此將更能適應手機市場上快速求新與求變的需求環境,並提升公司在 產業中的競爭力。

1.3 論文架構

本論文包含六章。第一章緒論,介紹本研究之背景、動機及目的。第二章對 資料探勘中的任務及技術等相關領域進行概述,並簡單介紹本研究所用到的分類 法。第三章介紹 MTS 的概念及方法,其中包含本研究所提出的機率閾值訂定步 驟。第四章以 UCI 資料庫(data bank)上的資料為例,探討訓練資料的不平衡對 MTS 及其他方法在建構類別預測模型上的影響,並比較之;同時亦驗證本研究 所提出的機率閾值是否有較好的判別能力。第五章收集台灣某高科技公司的行動 電話檢測數據,依 MTS 的架構進行分析,改善測試流程。第六章說明本研究的 結論與未來研究建議。

相關文件