第二章 文獻探討
2.1 小樣本文獻
在資料分析中,存在著一個不完整(incomplete)資料結構的學習問題,此種問題常 發生在資料蒐集過程中,因人員作業疏失或資料在蒐集過程中無法從提供者取得完整 資訊等因素,導致部分資料發生缺失的情況,此問題在資料探勘方法稱之為缺漏值 (missing value),而如何補足缺漏值有相當多的文獻進行探討,此與虛擬樣本產生法 生成樣本來填補資料間隙的概念在目的上相同的,但研究之出發點卻不大相同,乃因
資料探勘對於缺漏值的處理,大致上可分成三類,一是直接將缺漏值刪除;二是藉由 對具其他屬性有相同值之其他資料對該缺漏值之屬性求取其加權平均值;三是透過機 率的方法求取該缺失值的可能值。此三類做法,都是在資料數充足的前提下才能進行,
但是虛擬樣本產生法所研究的對象,為資料結構稀鬆的小樣本資料,小樣本資料稀少,
每一筆資料都有其重要性而無法將具缺漏值資料刪除,可供參考之具相似屬性值的資 料並不常見。
針對不完整資料結構的學習問題,除了資料探勘的補值方法外,自從模糊集合理 論(fuzzy set theory)於 1965 年由加州大學教授 Zadeh 所提出後,提供了另一條解決的 方法,其中 C. F. Huang (1997) 根據模糊理論推導出資訊擴散的準則,其將每一筆資 料點透過資訊擴散函數予以模糊化,以填補資料間距。當各筆資料均透過宇集合 U = [0, 1]所離散化後的區間,很像是機率值,如 0、0.1、0.2、0.3、…0.9、1,產生出各 別所對應的轉換值,再將此數值經轉換而用以填補原始資料的間隙。
C. F. Huang and Moraga (2004) 基於資訊擴散所提出的模糊常態分配而推導出生 成樣本的公式,並結合類神經網路發展出的擴散神經網路(diffusion neural network, DNN),方法是將各資料點視為一個小區間的模糊常態分配的中點,並對這些資料點 進行兩側對稱擴散,使得每一個樣本於設定之機率值後可以生出兩個虛擬的樣本值,
當小樣本資料加入此延伸樣本後,將可有效改善類神經網路對於小樣本資料的學習效 果。但是此方法所使用的發散係數是透過大量實驗所總結而來,但這些實驗無法確定 能夠包含所有總類的小樣本學習問題,雖然此方法有考慮到兩個變數間的相關性,其 相關係數必須大於 0.9 才能進行樣本的生成,但大多數的資料集的屬性之間很少有此 種高度相關性,因此限制住了此方法的使用。將延伸樣本的發生可能性視為額外資訊,
增加投入神經網路訓練的屬性個數,雖然實驗顯示預測準確度會提升,但會增加網路 架構的複雜度導致增加訓練的時間。除此之外,DNN 在新樣本的產生方式過於的簡 略,也可能會造成延展不足而無法有效填補資訊間隙。
Li et al. (2005) 提出資料模糊化(data-fuzzification, DF)方法,其概念相似於 DNN
將每個樣本點模糊化後取得各別資料點的模糊擴散範圍,然其對於資料點的模糊擴散 方式,如圖 2-1,則是先經由 Sugeno and Kang (1988)所提出的模糊模式,依照各屬性 把所有的資料進行模糊化,形成一個連續型資料而產生各屬性的可能資料區間,最後 再將此模糊之後的數據投入由 Jang (1993) 所提出的適應的類神經模糊推論系統 (Adaptive-Network-based Fuzzy Inference System, ANFIS)中,改善動態的製造排程的學 習準確性。
圖 2-1 (a) Sugeno 模糊模式;(b)適應性類神經網路架構圖
Li et al. (2006)提出整體模糊(mega-fuzzification)以及資料趨勢估計(data trend estimation, DTE)概念。所謂的整體模糊其實即為資料模糊(DF),在學習階段是採取跟 DNN 與 DF 相同的一筆資料進行模糊化的作法。如圖 2-2,藉由分析資料的散佈情形,
先 找 出 觀 測 資 料 中 的 最 小 值 (min) 以 及 最 大 值 (max) , 且 設 定 資 料 的 中 心 點 為 (min+max)/2,並將計數此觀測資料的位置相對於此中心點之左、右側的資料個數(NL、 NU),並且設定中點的高為 1、min 點的高為 1/NU、max 點的高為 1/NL後,繪製一個 模糊三角隸屬函數進行母體值域下界(a)以及上界(b)。藉由此種方式,確實能有效解 決設定母體值域的問題,針對製造系統的前期排程知識獲取的個案中,當訓練的樣本 數由 5 個增加到 100 個時,彈性製造系統的測試正確率將會從 78.23%提昇到 95.33%,
較 Li et al. (2005)的實驗結果更佳。此研究的主要成就在於提出 DTE,影響後續相關 對於母體值域的推估研究轉向整體資料的考量。
圖 2-2 資料趨勢估計圖
Li et al. (2007b) 利用 DTE 的方法來推估母體值域的概念,修改了 DNN 計算各 別資料點的公式,提出了一個名為整體趨勢擴散 (mega-trend-diffusion, MTD) 的技術,
其應用模糊理論的方法根據推估的母體值域下、上界以及資料中點,繪製一個模糊三 角隸屬函數用來推估母體分配,過往對於值域的推估轉為對整體資料考量。雖然 DTE 所推估之母體分配並非對稱,此方法在產生虛擬樣本的結果與 DNN 相同,將包含虛 擬樣本的所有資料相對三角模糊隸屬函數的值,視為額外屬性資訊,MTD 則是於隨 機產生虛擬值後計算該值的可能性(即隸屬函數值)。依 Li et al. (2007b)的研究,將產 生的虛擬樣本加入訓練集合後,確實可用來改善動態製造排程的學習精確度。整體趨 勢擴展技術在以模糊概念的小樣本演算法當中,可說是相當成熟且具有相當高預測準 確度的方法。然而此方法待解的問題,在缺乏如何決定擴展值域的適切性,過度的擴 散將導致所推論的母體分配相對於實際母體有著嚴重的誤差。
Li and Yeh (2008) 針對時間序列資料的學習,提出了一個名為 TPTM (trend and potency tracking method) 的方法,藉由其研究各別資料點的相對位置、以及各資料點 發生的時間先後順序,越晚發生的資料給予越高的權重,推演出所有觀測資料的值域 範圍,並利用模糊理論建構一個三角隸屬函數,最後藉由各資料點的隸屬函數值,稱 之為資料的趨勢潛力值(trend and potency, TP)。不同於 DNN 與 MTD 等虛擬樣本產生
1 NU
1
1 NL
a min (min max) / 2+ max b
法,TPTM 是將此些觀測值之 TP 值視為額外資訊的屬性,加入觀測資料中而使用以 訓練的樣本屬性增加,並沒有產生虛擬樣本。該研究的實驗結果顯示,該方法確實有 效改善倒傳遞類神經網路對於短期時間序列資料之預測準確度。然而此研究的問題,
在於資料長度越長時,所加入的權重值會越大,會導致值域範圍無限制的擴散而無法 收斂,因此限制了該方法僅能套用於極短期時間序列資料的學習。爾後 Li et al. (2009c) 則是利用 TPTM 提出一套名為適應性灰預測模式 (Adaptive Grey Model, AGM),AGM 藉由 TPTM 對於短期時間序列資料所學習的 TP 值,透過加權方式用以計算背景值參 數α 後,用以提升傳統灰預測模式對於時間序列資料的預測準確度。
Tsai and Li (2008a) 則針對具 X 與 Y 兩屬性之二維非線性小樣本資料,提出一 套求解方法。透過空間分割的方式將非線性資料分為數個近似線性的區域,再依各區 域的資料推導出多條迴歸線用來替代一個非線性模式。在給定隨機產生之 X 的情況 下,去推估此時 Y 所可能出現的 95%預測區間(prediction interval),進而產生具高相 關性的虛擬樣本,此研究可以增進倒傳遞類神經網路(BPNN)在對於少量樣本之非線 性模式的學習效能。Tsai and Li (2008a) 所提出的方法,其問題在於樣本資料已經不 足,所產生的迴歸線已不具可信賴性,藉由分割空間後,各區塊資料更加稀少,使用 更稀少之資料所建構的迴歸線更加不具信賴性,如何說服學者信服將會是一項挑戰。
而 Lin and Li (2010)基於 MTD 之概念,提出一個概念化的趨勢擴散技術 (generalized- trend-diffusion, GTD),透過資料點發生順序,進而推導出各資料點發生 當時之隸屬函數值,並將此值稱之為影子樣本(shadow sample),它用來表示資料發生 的趨勢,並進而提高類神經網路對於短期時間序列資料之學習能力。
MTD 是隨機產生虛擬值後藉由所建構的三角模糊隸屬函數計算該虛擬值的可能 性,然而 MTD 在產生虛擬值的過程中,是根據均等分配隨機產生,因此所產生之虛 擬值並無法符合其所推論的三角模糊隸屬函數,因此 Li et al. (2012b) 基於啟發式演 算法中物競天擇的概念提出了可能性評估機制(plausibility assessment mechanism, PAM),用來模擬當樣本值逐漸增加時,哪些樣本值能符合推論的母體分配(即三角模
糊隸屬函數),該方法除可使產生的虛擬值具備發生可能的合理性外,亦使得訓練資 料無須加入虛擬值的可能性做為額外資訊,不僅降低類神經網路架構的複雜度,亦減 少其學習時間。
自然世界中,母體不為常態的情況相當常見,為了使值域推估更合理,Li et al.
(2012a) 應用由 Tukey (1977) 所提出的盒鬚圖來改善 DNN 以及 MTD 對於值域的推 估方式,並應用於 TFT-LCD 製造廠在製程中所發生的相關問題。盒鬚圖是透過資料 第 1 四分位數(Q1)、第 3 四分位數(Q3)、中位數、及平均數來描述資料分佈情況,並 以四分位數間距(interquartile range, IQR),即 Q3 與 Q1 的差距作為基礎,分別由 Q1、
Q3 往左、右延伸 IQR 比例的範圍,用以偵測資料之離均值以及分配之偏度。研究實 驗結果顯示,M5’模式樹 (Y. Wang & Witten, 1997) 於加入虛擬樣本之後,除了可顯 著改善其預測準確度外,並可以有效提升知識擷取能力。
樣本產生法中最被廣泛使用且為人所知者,係由 Efron and Tibshirani (1993) 所 提出的拔靴法(bootstrap),該方法是由統計理論的推論基礎發展而來,做法是從原始 資料中以取出放回的方式隨機抽取樣本,不斷重複此抽取方式進而形成拔靴樣本集。
當拔靴樣本產出後,所有的預測建模方法皆可因此對於相同樣本進行兩次或多次重複 學習,進而穩固小樣本的學習。例如:Ivănescu et al. (2006) 應用拔靴法在於批次生
當拔靴樣本產出後,所有的預測建模方法皆可因此對於相同樣本進行兩次或多次重複 學習,進而穩固小樣本的學習。例如:Ivănescu et al. (2006) 應用拔靴法在於批次生