• 沒有找到結果。

利用貝氏分類與因子分析法於半導體製程錯誤 偵測與診斷

N/A
N/A
Protected

Academic year: 2022

Share "利用貝氏分類與因子分析法於半導體製程錯誤 偵測與診斷 "

Copied!
51
0
0

加載中.... (立即查看全文)

全文

(1)

利用貝氏分類與因子分析法於半導體製程錯誤 偵測與診斷

學生:黃偉碩 指導教授:張丁才

摘要

IC 產業又稱半導體產業,其隨著對功能要求日愈強大,線路及元 件 密 度 在 單 位 面 積 內 愈 趨 複 雜 , 相 對 地 , 其 製 程 亦 日 趨 精 密 複 雜 , 半 導 體 的 製 造 主 要 可 分 為 長 晶 過 程 、 晶 圓 製 造 過 程 、 封 裝 過 程 , 在 此 三 階 段 過 程 中 , 以 第 二 階 段 最 為 複 雜 , 晶 圓 製 造 其歩 驟 常 超 過 百 道 , 每 一 道 的 程 序都 必 須 要 詳 加 的 監 控 , 有 可 能 因 其 中 某 一 道 程 序 出 問 題 而 浪 費 昂 貴 的 原 料 , 蒙 受 損 失 , 增 加 製 造 的 成 本 , 因 此 各 晶 圓 廠 莫 不 汲 汲 營 營 於 製 程 的 控 制 , 期 望 利 用 各 種 控 制 的 方 法 以 達 到 使 生 產 變 異 最 小 , 以 確 保 穩 定 的 良 率 。

本 研 究 的 目 的 是 希 望利 用 資 料 探 勘 的 方 法 探 討 在 半 導 體 生 產 過 程 中 工 程 參 數 和 晶 圓 允 收 測 試(WAT)的 關 係 , 藉 由 其 中 各 項 參 數 所 表 現 出 的 機 率 值 來 判 別 有 問 題 的 製 程 , 並 且 找 出 與 錯 誤 製 程 有 關 的 其 它 製 程 , 提 供 工 程 師 進 一歩 對 製 程 間 交 互 作 用 所 引 起 的 問 題 予 以 排 除 。 本 研 究 期 望 可 達 成 一 、利 用 貝 氏 定 理 判 別 出 可 疑 製 程 , 提 高 解 決 問 題 的 效 率 。 二 、 藉 由 因 子 分 析 , 提 供 分 析 人 員 對 具 有 相 同 特 徵 的 參 數 判 斷 的 順 序 。

關 鍵 字 : 貝 氏 分 類 、 因 子 分 析 、 晶 圓 允 收 測 試

(2)

Apply Bayesian classification and factor analysis to process error predictions and diagnoses in

semi-conductor production

Student: Wei-Shuo Huang Advisor: Dr. Ding-Tsair Chang

Abstract

IC industry is also called as semiconductor industry. The more IC function is needed, the more complex elements and channels are embedded in unit-square. There are three main processes in semiconductor production, which are silicon crystal growth, wafer fabrication and package. And the second process is more complex than the others. The steps of wafer fabrication are more than hundreds. All wafer fabrication factory focus on manufacturing procedure control for avoiding one problematic step result in huge loss. They try a lot of methods to reduce production variance and to achieve good yield. The purpose of this paper is to use data mining method in semiconductor production to explore the relation of engineering data and wafer accept test. In this paper, we use two main methods, Bayesian classification and factor analysis, to achieve our purposes. By Bayesian classification, we can use the probability to judge the problematic process. Further, we can find the other processes with relation to the problematic one by factor analysis.

Keywords: Bayesian Classification, Factor Analysis, Semiconductor Production

(3)

誌 謝

本 篇 論 文 能 順 利 完 成 , 特 別 感 謝 指 導 教 授 張 丁 才 先 生 , 在 這 两 年 來 辛 勤 的 指 導 , 老 師 對 於 學 問 嚴 謹 細 心 的 態 度 , 使 我 從 中 獲 益 良 多 , 感 謝 陳 文 欽 、 翁 偉 泰 两 位 教 授 在 口 試 期 間 所 給 予 的 指 導 與 建 議 。

两 年 的 研 究 所 生 涯,一 方 面 要 兼 顧 學 業 與 工 作,辛 苦 更 不 在 話 下,

所 幸 有 張 老 師 的 幫 助、同 學 的 扶 持,才 能 一 路 走 下 去。師 長 愛 同 學 情 , 使 我 永 難 忘 懷 。

最 後 僅 以 本論 文 獻 給 我 的 父 母 親 、 舅 舅 、 舅 媽 及 我 的 妻 子 , 有 你 們 在 背 後 付 出 的 關 懷 和 禱 告 才 能 使 我 有 勇 氣 與 決 心 完 成 學 業 , 特 於 本 文 致 上 誠 摯 的 謝 意 。

黃 偉 碩 謹識於中華科管所 中 華 民 國 94 年 7 月 27 日

(4)

目 錄

摘 要... i

Abstract ... ii

誌 謝 ... iii

目 錄 ... iv

圖 目 錄... vi

表 目 錄... vii

第 一 章 緒論 ... 1

1.1 研究背景 ... 1

1.2 研究動機 ... 1

1.3 研究目的 ... 2

1.4 研究流程 ... 3

第 二 章 文獻探討 ... 4

2.1 資料、資訊及知識的關係 ... 4

2.2 知識發現 ... 5

2.3 資料探勘 ... 6

2.3.1 資料探勘歩驟 ... 7

2.4 貝氏分類法 ... 10

2.4.1 貝氏理論(Bayes Theorem)... 10

2.4.2 簡單貝氏分類 ... 10

2.4.3 貝氏網路 ...11

2.5 因子分析 ... 12

2.5.1 因子分析架構 ... 12

2.5.2 參數及適合度的評估 ... 14

2.6 半導體製程 ... 16

2.6.1 半導體製程與品質控制 ... 18

2.6.2 半導體製程資料特性與故障分析... 18

第 三 章 診斷系統的建構 ... 23

3.1 研究架構 ... 23

3.2 資料的蒐集與處理 ... 24

3.2.1 資料的準備 ... 24

(5)

3.2.2 資料的處理 ... 24

3.3 研究方法 ... 25

3.3.1 利用貝氏分類法建置系統雛形 ... 25

3.3.2 系統評估 ... 29

3.3.3 因子分析 ... 34

3.3.4 分析程序 ... 35

第 四 章 實證研究 ... 37

4.1 問題的定義 ... 37

4.2 資料的蒐集 ... 38

4.3 分析方法 ... 38

4.4 貝氏分類 ... 38

4.5 因子分析 ... 40

第 五 章 結論 ... 42

參 考 文 獻 ... 43

(6)

圖目錄

圖1.1 研究流程... 3

圖2.1 企業中資料階層... 4

圖2.2 資料探勘型態分類圖... 7

圖2.4 貝氏網路... 12

圖2.5 探索性及驗證性因子分析... 13

圖2.6 晶圓加工流程... 17

圖2.7 半導體製程控制與故障分析... 19

圖2.8 針測流程... 21

圖3.1 研究架構... 23

圖3.2 貝氏分類雛形架構... 25

圖3.3 機率分布圖... 29

圖3.4 同時投以二個干擾元素下機率分布圖... 32

圖3.5 在訓練資料減少情況下投以一個干擾元素下機率分布圖... 34

圖4.1 機率分布圖... 40

(7)

表目錄

表 2.1 KDD 歩驟... 5

表 3.1 各參數的診斷機率... 28

表 3.2 同時投以二個干擾元素下各參數的辨識機率... 31

表 3.3 在訓練資料減少情況下投以一個干擾元素下各參數的辨識機率... 33

表 3.4 成分矩陣... 35

表 4.1 各參數之診斷機率... 39

(8)

第一章 緒論

1.1 研究背景

資訊革命所帶來的影響,不但使人類生活更方便舒適,同時競爭也更加 的激烈。在資訊時代,往往講究的是速度,各類輔助的資訊產品如個人電腦、

網路產品、手機等產品便應運而生。由於市場的競爭,導致資訊產品的發展 在功能上朝向功能齊備,在產品外觀體積上卻要求愈來愈精緻。為了因應市 場的需求,產品核心的主要元件如IC,其體積也跟著日趨縮小,功能卻更加 強大。

所謂IC 其全名為積體電路(Integrated Circuit),是將特定電路所需之各種 電子元件及線路縮小,利用特殊的製程製作於大小僅數平方公分或更小面積 之晶片上的電子產品。IC 自 1958 年以來快速的演變,出現有所謂的「超大 型積體電路(Very Large Scale Integration ;VLSI)」,IC 的用途非常廣泛,舉凡 工業產品、消費性產品甚至國防工業都可見其蹤影。

IC 產業又稱半導體(Semiconductor)產業,隨著功能要求日愈強大,線路 及元件密度在單位面積內愈趨複雜,相對其製程亦日趨精密複雜。半導體的 製造主要可分長晶過程、晶圓製造(Fabrication)過程、封裝過程【1】,在此三 階段過程中以第二階段最為複雜,其歩驟常超過數百道,每一道程序都必須 要詳加的監控,有可能因其中某一道程序出問題而浪費昂貴的原料,蒙受損 失,增加製造的成本。因此,各晶圓廠莫不汲汲營營於製程的控制,期望利 用各種製程控制的手法以達到確保製程良率的穩定。

1.2 研究動機

半導體的產製過程中,晶圓從原料的投入到完成歩驟,都有完整的控制 及紀錄。一般半導體製程分析及控制方法,可分即時法及事後法【3】。即時 法是利用線上所蒐集得來的資料做隨時的監控,並採取適當的措施以維持製 程於某一品質,常用者有統計製程監控(SPC)。而事後法則是指對製造的結果 從事事後的分析,如晶圓圖分析、晶圓允收測試(WAT)等。

線上的即時監控資料及事後檢測數據,對半導體製程整體品質的提升及

(9)

穩定有相當大的助益。單就線上的工程資料做即時監控,對缺陷的反應有其 困難點,因為每一製程要達到初歩可測量成果可能必須經過幾道手續,基本 上每個量測值都存在有累積效應,另外就算所有量測值都在允許範圍內,其 結果也可能因某些歩驟的交互作用而受影響。

晶圓從投入到完成,其測量參數高達幾百項,一旦有缺陷出現,工程師 必須從大量繁雜的參數中找出相關的數據來加以分析,往往曠日費時。因此,

如何縮短故障原因的蒐尋,以利工程師做正確的判斷,實是當前重要之方向。

隨著資料庫及電腦硬體不斷的進歩,資料庫的維度及複雜度亦隨之變 大,因此半導體的工程資料能鉅細靡遗地保存在資料庫中。然而,面對大量 且複雜的資料,如何從中萃取所要的訊息或知識,是一項重要的課題。資料 探勘是利用各種的分析手法,對大量的資料尋找其特徵、關聯性或加以分辨,

提供有用的資訊以供相關單位作為決策的依據。利用資料探勘的方法對半導 體製程上即時及事後參數加以萃取、淨化,以達到縮短蒐尋時間,提升企業 整體的競爭力。

1.3 研究目的

產品製程之故障分析,由於涉及各種生產因素,例如人員的素質及經驗,

機器參數的設定等,都會影響製程,特別是必須經過多道手續的製程,其故 障的分析更加困難。因此,若能利用特定的分析方法以減少分析數據的維度 或找出其中的關係,都將有助於減少故障分析過程中摸索的階段,以利時間 上的縮短,節省人力的耗損,提高效率,並能建立標準的作業準則及減少以 往過於倚重個人經驗的情況。

本研究的目的希望利用資料探勘的方法,探討在半導體生產過程中,工 程參數和晶圓允收測試(WAT)的關係。利用工程參數會影響 WAT 的最後結果 之因果關係,藉由資料探勘技術來擷取出影響某一WAT 電性測試的參數有那 些,並進一歩追查其相關的製程及機械設備。本研究期望可達成以下幾點:

一、 縮短發覺可疑製程所需的時間,提高解決問題的效率。

二、利用資料探勘的方法建立一分析模式提供分析人員主要及次要可能發生 的原因,提供工程師另類的判斷方向。

(10)

1.4 研究流程

本研究首先確認問題的本身及解決的目標,然後蒐集相關的文獻並加以 探討,並整理知識發現和資料探勘的關係,以及利用和專家訪談中了解半導 體製程的相關性,以進一歩利用資料探勘中的方法發展一雛型模式,其相關 的研究流程如圖1.1 所示。

圖1.1 研究流程 研究動機與目的

文獻探討

資料蒐集 理論架構建立

實證研究

結果分析與討論

結論與建議

(11)

第二章 文獻探討

2.1 資料、資訊及知識的關係

資料是指對有處理過的文字、圖像、數字、符號等事件的客觀的紀錄,

本身不具有任何的相關性或意義,無法對決策提供任何有效的判斷及行為上 的依據。對訊息來說,資料為其最基本的元素。

資訊是指資料經過整理成為有用的訊息,透過文件、檔案及視訊系統,

提供或影響使用者的觀念與決策,而知識則是一種綜合有條理的經驗、價值、

文化的資訊【4】。從資料、資訊到知識是經過一連串的動做過程,形成對企 業體或組織有用的訊息,使組織藉此能採取更有效的措施以增加竸爭的能 力,避免無謂的浪費。就企業而言,資料層級,如圖 2.1 所示,就量來看愈 高愈少,但其對管理階層的人來說,其價值隨著資料層級愈高而愈有用。

圖2.1 企業中資料階層 資料來源:【4】

決策 結果解釋 (視覺化技術)

(資訊探索)資料探勘

資料探索

( OLAP、統計分析、查詢報表)

資料倉儲、資料超市

資料來源 (資料庫系統、檔案) 資料庫

管理者 資 料 分析者 企業主管

決策者

資料量 價值性

(12)

2.2 知識發現

在數位的時代,由於目前的硬體設備及資料庫的技術,提供我們有效率 而且便宜的貯存資料,因此無論在企業、科學、政府等機構隨時都有大量的 資料存取,但大量的原始資料對組織來說,其貢獻並不高,因為資料尚未形 成一種有用的知識以供組織做為參考或依循。

知識的發現(KDD)的過程,依據 Fayyad【11】所定義「為一非顯而易見 的過程,其包含定義有效的、新奇的、潛在價值和最後可理解的資料模式」。

由定義可知KDD 包含模式、結構、參數,所發現的模式必須有效且合理化,

有關KDD 歩驟陳述如表 2.1 所示。

表 2.1 KDD 歩驟

歩驟 歩驟概要

了解所要應用的領域,相關知 識,和使用者的目地

什麼是領域的瓶頸? 目標是什麼?這歩驟最後將產生 什麼結果?

建立一個目標資料集,選擇一資 料集或注重在有變異數的子集 上。

包含對同質資料的衡量,任何動態及在時間上改變的資 料,充足的樣本、自由度…等等。

資料的淨化及前置處理 包含empty 或 missing 資料的處理與補值的基本處理。

資料的簡化或轉換 依據作業的目標發現有用的特徵值來代表資料。

選擇資料探勘的任務 依據KDD 的目標來決定分類、迴歸、分群或誤差的偵 測

選擇資料探勘的方法 用來尋找模式或適合資料的模型,且探勘的方法必須適 合目標

資料探勘 包含尋找特殊的模式或一些表徴:分類、決策樹、迴歸、

分群…等等。

評估上述七項 依靠虛擬的技術來分析,決定萃取的知識的效果或達到

關於基本現象的結論

整合所發現的知識 確認和解決先前知識的潛在衝突。把知識併入實施系統 或簡單書寫記錄及向使用者報告

(13)

2.3 資料探勘

由上節可知知識發覺和資料探勘的關係,資料探勘是知識發覺中的一 環,其主要是在探討資料中未被發現的關係或模式。Paolo【12】認為「資料 探勘是一種在大量資料中選擇、探索、模式化的過程,主要用來發現一些剛 開始未知的規則或相關性,這些發現對資料庫的所有者是明顯和有用的結 果」。由定義可知,資料探勘主要是對大量的資料尋找相關的規則,以利我們 從中找出因果關係。資料探勘的型態主要可分為分類和分群二大類【15】,如 圖 2.2 所示,其中以分類型態的應用最為廣泛。所謂的分類是指對物件的屬 性加以分析,並指定到已事先定義好的類別中,而常用的分類方法則有類神 經、貝氏網路、決策樹等等。

就類神經網路來看,近年來由於資訊工業的快速發展,電腦演算速度愈 來愈快,各種類神經網路的理論亦快速發展中。類神經網路的優點是處理複 雜的事件能獲得不錯的結果,應用的範圍廣。然而,必須有大量的資料供其 訓練,以建立正確性,因此學習的速度比較慢。另外,有些類神經網路是屬 於無監督式的類神經網路,只能知其結果,無法知道演算的內容,易造成無 法得知該項類神經網路分辨結果的正確性。

決策樹是能清楚的表達分類的情況,不需要複雜的運算,但缺點就是對 所有相關的屬性,若其屬性中有缺失值,將導致無法進行全面性的考量。至 於貝氏網路,其優點為不受缺失值的影響,對所有相關的屬性都能表示,而 且分析速度快,但缺點是不易處理連續型的數值。

分群即是在不相同的性質的群體區隔出具有較為同屬性的群組,也就是 說依照相似程度的多寡來區分為不同的群集。分群和分類的不同處為分群所 區隔出的群集其共同的屬性或意義必須於事後加以分析闡釋,而分類則是事 先已定義好類別屬性。因此,對分群而言,了解其共同的因子特徵才是重要 且困難的工作。

關聯分析是資料探勘另一種常用的方法,關聯分析是指對資料中同時發 生的事件,找出一定的規則,並以此來表達搜尋的結果。例如:若發生A 則 B 也會同時發生。

(14)

圖 2.2 資料探勘型態分類圖

2.3.1 資料探勘歩驟

資料探勘是一系列的活動,從問題的定義到結果的分析評估,都有一些 固定的歩驟【11】,如圖 2.3,茲分述如下:

一、定義問題

找出問題並確認分析的方向是資料探勘的第一歩也是最重要的一 歩,因為若是沒有清楚的方向,很可能導致分析錯誤或沒有價值的結果,

所以在最初設定分析時必須對問題清楚的陳述及明確的分析目標。

二、對資料的選取、組織及處理

當決定分析的方向後,接下來就是定義資料來源。資料來源通常是 來自於組織內部的歷史資料,資料的選取要注意的是所選取的資料是不

資料探勘

確 認 發 現

預 測 分 群

迴 歸 分 類

類神經 貝氏網路 決策樹 Information

Theoretic Networks

關聯分析 適合度檢定

T 檢定 ANOVA

Clustering Summarization Linguistic

(15)

再修改的資料,而且由於資料庫易受到雜亂資料、異質資料及遺失值的 影響,對我們所要分析的方向會有所干擾。因此,必要時,要對所蒐集 的資料進行淨化、整合的預先處理工作,避免所要進行的分析受到過度 的誤導,喪失其正確性。

三、資料萃取、轉換

由於資料庫的資料是多維度的,在進行淨化及整合後,利用統計的 方法,將資料的維度縮小,以方便進一歩的分析活動。然而,為了方便 分析而對資料加以萃取,在萃取的過程雖可減輕分析時的繁雜,但必須 注意是否有其他的足以代表另一特徵值的數據被捨棄。

四、選取合適的分析方法

適合的分析方法,取決於所要研究的問題型態或者是所獲得的資料 型態。一般分析方法可分類為預測、分類、分群及關聯法等。而各類分 析方法中可應用的方法有很多,因此,必須了解各種方法的優缺點,以 選擇合適者。

五、資料分析及評估

資料分析就是將資料套入所選定的演算法中,以轉換出我們所要的 結果,最後我們將對所得的結果進行評估。在評估時可從幾個方面來進 行:

(一) 進行分析的時間

對不同資料量的分析時間的長短,可做為對演算法的評估,看看 所進行的推論是否適合複雜的計算,由此可進行對原有的推論或演算 法進行修正,以適合更複雜的資料量。

(二) 資料維度的減少

資料維度的數量,可由所要輸入的屬性和已被選取的資料屬性來 做比較,其比率的大小即是減少的程度。資料維度的縮減,主要是方 便資料運算時的速度,有些維度的資料有共同的特徵,利用維度的縮

(16)

減並不影響特徵值的表現。

(三) 網路節點的大小

由網路中的節點數目來看,可知所分析的模型或資料的複雜程 度,愈多的節點意謂著模型或資料愈複雜,其所含蓋的層面亦愈廣。

(四) 預測的精確性

在資料探勘中,所使用的方法常利用既有的歷史資料來做模型或 模式的訓練,而訓練的目的是使模型或模式取得參數或修正其參數,

進而達到正確的預測。一般的做法是把歷史資料分成兩部分,一部分 做為訓練用,一部分做為驗證用,我們可從驗證的資料中,檢驗所發 展的模型或模式的準確率如何,甚至可從中找出錯誤的原因為何。

圖2.3 資料探勘歩驟 定義問題

對資料的選取、組織及處理

資料萃取、轉換

選取合適的分析方法

資料分析及評估

(17)

2.4 貝氏分類法

貝氏分類法是屬於統計學上的分類方法,是在情況不確定的狀況下進行 預測類別成員關係的有效工具。貝氏分類法的核心理論主要是依據貝氏理論 (Bayes Theorem)而來,其主要是利用母體之各種可能的事前機率及各種實際 發生的機率來推測事後機率。使用貝氏分類法進行分析,其優點主要是能提 供快速且有效的反應,而有別於類神經必須有長的訓練期間。

2.4.1 貝氏理論(Bayes Theorem)

假設事件X 為在母體(S)空間的樣本,則任何一事件 Y 發生的狀況下事件 X 所發生的機率為何,其定理為:

( ) ( )

( )

( )

1

) /

( P Y

F Y P F Y P

F

P =

從以上定義可知事後機率為P(Y/F),事前機率為 P(X),P(Y/F)為概似機 率,貝氏定理其推論的方式主要是得知事前機率,然後利用取得的資訊做修 正,然後進行推論,其所產生的機率我們稱其為事後機率。

2.4.2 簡單貝氏分類

簡單貝氏分類又稱樸素分類,其主要是貝氏定理的推廣,簡單貝氏分類 假 設 每 個 資料 樣 本 具 有 n 個維度 X =

[

x1,x2,x3,...xn

]

, 其 代 表 n 個屬性

[

e1,e2,e3,...en

]

,而樣本的母體S 具有 m 個類別

[

S1,S2,S3,...Sm

]

。在此環境下,

若有一個未知的資料F 發生,則簡單貝氏分類法將利用各類別的事後機率,

以其中最高者判定F 是屬於那一類別 Si,其計算公式為:

( ) ( )

( )

)

( )

2

( X P

S P S X X P

S

P i = i i

因簡單貝氏分類法假設各個屬性為各自獨立,所以由公式(2)可推論如下:

(18)

( ) ( ) ( ) ( ) ( )

( )

( ) ( )

( )

( ( ) ) ( ) ( )

( )

( ) ( )

( ) ( )

( ) ( )

3

,..., ,

, ,...

, ,

,..., ,

,

.., ,...

, ,

...

,..., ,

,

3 1 , 2 1

1 3 1 2 1

3 2 1 1

3 2 1 2 1

3 2 1

∏ ∏

=

=

=

=

×

=

= ×

×

=

×

×

×

= ×

n

j i

j i n

n

j j i

n

j i

j i

i n

i n i n

j

i j

n

i i

n i

i n

i

S P

x S P x x

x x P

x P S

P

S P

x P S x P x

x x x P

S P

x x

x x P

S P S x P

x x

x x P

S P S x P S

x P S x x P

x x x S P

由於屬性各自獨立所以公式(3)中

( )

(

1, 2, 3,...,

)

1

1 =

=

n n

j j

x x

x x P

x P

,因此,可將公 式(3)改寫為【5】:

( ) ( ) ( )

( ) ( ) 4

,..., ,

,

1 3

2

1

=

=

n

j i

j i i

n

i

P S

x S S P

P x x

x x S P

2.4.3 貝氏網路

貝氏網路是以圖形的模式,來表達參數之間的因果關係及發生的機率。

貝氏網路是由一群節點及箭號所組成的,如圖2.4 所示,節點 A 為節點 B、C 的父節點,其它以此類推。每一個節點都有一個條件機率,代表其父節點對 此節點的影響。以圖2.4 來說,經由貝氏網路圖,藉由機率高低來判別,我 們可了解,當發生I 時其影響大部分來自於 E 或 F。貝氏網路是一好用的工 具,特別是在處理多維度參數間複雜的因果關係時,能使我們能一目了然其 間的相關。

(19)

圖2.4 貝氏網路

2.5 因子分析

因子分析主要是認為在一群多維的資料中,每個變數除了自身的特殊因 子外,尚有共同因子存在,而這些的因子是不能直接觀測到的。因子分析一 般而言,又可分為探索性因素分析及驗證性的因子分析,由圖 2.5(a)所示。

探索性因子分析即是在找尋可共同解釋一群變數的因子,從圖 2.5 可知,f1

f2可解釋變數 y1、y2、y3,而驗證性的因子分析主要是判別所假設的解釋 因子是否合理,如圖2.5(b)所示,f1可解釋變數y1、y2、y3,而f2只可解釋變 數y2、y3,因此f1f2並無法說成是y1、y2、y3,的共同因子。

2.5.1 因子分析架構

進一歩來說,我們可以將上述的變數(y)及因子(f)加以推展擴充,並以線 性的方式加以組合,其表達如下:

( )

m n mn m

m m m

n n

n n

f w f

w f w y

f w f

w f w y

f w f

w f w y

ε µ

ε µ

ε µ

+ +

+ +

=

+ +

+ +

+

=

+ +

+ +

+

=

L L M

L L

L L

2 2 1 1

1 2

2 22 1 21 1 2

1 1

2 12 1 11 1 1

5 A

B

F

D C

E

I H G

(20)

其中y1 , y2,…, ym為變數,f1, f2,…, fm 為共同因子且彼此互相獨立,wmn為 因子負荷,而

ε

1,

ε

2LL,

ε

m 為獨特因子且互相獨立,

µ

1,

µ

2,L,

µ

m為平均數。

圖2.5 探索性及驗證性因子分析

y1 y2 y3

f1 f2

探索性因子分析(a)

y1 y2 y3

f1 f2

驗證性因子分析(b)

(21)

2.5.2 參數及適合度的評估

要執行因子分析時必須要先對其參數做估計,而估計的方法很多但大多 以主成份法與主因素法為主,茲分述如下:

主成份分析法是以相關矩陣為工具,以找出特徵值及特徵向量。假設有 P 個變數 x1, x2,…., xp,主成份為y1, y2,…, yp,則相關係可寫成:

( )

=

=

=

=

=

=

p

i

i pi p

p

i

i i p

i

i i

x y

x y

x y

1 1

2 2

1 1 1

6

α α α

M

其中xi為變數,yj 為主成份因子,αji為係數。進一歩可利用矩陣表示為:

( )7

2 1

2 1

2 22

21

1 12

11 2 1

⎥⎥

⎥⎥

⎢⎢

⎢⎢

⎥⎥

⎥⎥

⎢⎢

⎢⎢

=

⎥⎥

⎥⎥

⎢⎢

⎢⎢

p pp p

p

p p

p x

x x

y y y

M L

M M M M

L L

M

α α

α

α α

α

α α

α

解聯立方程式可得:

( )

8 2

1 2

1

0 1 0

0 2

0 1

0 0

1 1

⎥⎥

⎥⎥

⎢⎢

⎢⎢

⎥⎥

⎥⎥

⎢⎢

⎢⎢

=

⎥⎥

⎥⎥

⎢⎢

⎢⎢

yp y y

fp f

f

p

M M

L M O M M

L L

θ θ

θ

其中θi 是第i 個主成份的變異數,f 為因素向量,由第(7)及第(8)式可得:

(22)

( )

p m pm p

p

m m

m m

f f

x

f f

x

f f

x

ε λ

λ

ε λ

λ

ε λ

λ

+ +

+

=

+ +

+

=

+ +

+

=

L M

L L

1 1

2 2

1 21 2

1 1

1 11 1

9

其中 λpm為因子負荷,fm為因子向量。當因子負荷夠大,則可以以其相 關的因子向量來代表原變數。

主因素法和主成份法相異的地方為在主成份法中之相關矩陣之對角線,

假設rii為主成份矩陣對角線上的元素,則rii=1。在主因素法中,則以

R

i2取代 rii

R

i2代表第 I 個參數對其它自變數的迴歸模式之判別係數,其它計算因子 負荷及因子向量的方法則和主成份法一致。當我們對一組資料利用因子分析 決定 K 個因子後,必須評估其適合性,評估的方法有殘差分析法、MSA 分 析法、偏相關分析法。

殘差分析法是利用在因子分析過程中所產生的因子負荷參數,其方法是 利用原有的因子負荷矩陣R 和利用因子再製矩陣 R*的差來評估其適合度。

( )

10

* '

+

=FF

ε

R

( )

11

R*

R R = −

F 為因子負荷矩陣,R -為殘差矩陣,當R- 小時,表示因子分析的模式情 況良好,相反的當R- 過大表示此模式並不適合。

MSA (Measure of Sampling Adequacy)又稱 KMO 指標,它是對每個變數 與整體變數經提出共同因子後變數間的偏相關和原變數之間相關比的指標,

依據實證經驗,當MSA<0.5 則可判斷不適合做因子分析。

在因子分析過程中,為了使特徵因子能更凸出而常做旋轉。實務上,通

(23)

常我們先利用某一種估計參數的方法,例如主成份法、主因素法等,找出解,

然後再做旋轉。其用意是使因子負荷不是很接近1,不然就是很接近 0,亦即 在因子負荷矩陣中,每一列元素中只有一個元素接近1 而其它元素則接近 0。

旋轉可分成直交旋轉與斜交,直交旋轉中因子間不相關,而斜交旋轉中 因子間有一定的相關。常用的直交旋轉有變異最大法、平方最大法及直交法。

2.6 半導體製程

半導體的製程主要分為三個主要部分:長晶過程、晶圓製造過程、封裝 過程等歩驟。一般所謂的前段製程即是指晶圓製造過程,而後段製程是指封 裝過程。晶圓製造的過程,是最複雜的,其所累積的工程資料是最多的,在 最後要進入封裝之前必須要經過檢驗的程序,即是晶圓允收測試(WAT)與針 測(CP)等程序,如圖 2.6 所示。

晶圓製造過程主要是將電子電路及其元件放置於矽晶圓上,接著晶圓經 過適當的清洗然後利用雷射刻號,接下來再將其置入加熱爐中加熱,利用爐 內的含氧環境以生成二氧化矽,接著利用化學氣相沈積的方式於剛長成的二 氧化矽上沈積一層氮化矽。然後將生成完的晶圓塗佈一層光阻於其上,再將 光罩上的電子電路圖案移至光阻上,再利用蝕刻的方法將未被遮蔽的氮化矽 給予去除,最後植入離子於未被腐蝕的部分,並除去光阻劑,此時在晶圓上 已建立了初步的元件及線路,接下來製作金屬線路,以使各元件能互通。一 般我們將晶圓製造過程大略分為四大模組,即是薄膜、黃光、蝕刻、擴散,

晶圓上每一層大多要經過這四大歩驟來完成,茲分別敘述如下【2】:

(24)

圖2.6 晶圓加工流程 一、薄膜區

薄膜區的機台都是用來進行氣體沈積及離子植入用,因機台內部必 須保持在真空的狀態下,又稱真空區。

二、黃光區

主要是在進行微影製程,以建立晶圓每一層的電子電路,由於感光 劑曝光必須利用黃光照明區內的工作,因此稱作黃光區。

三、蝕刻區

經黃光區光罩所建立的電子電路,利用化學藥劑將不必要的部分給 予去除,稱為蝕刻。

四、擴散區

此區製程皆於高溫中進行,其目的是利用高溫下對矽材所具備之較

晶片投入

氧化

擴散

鍍膜

護層沉積

光罩護膜

曝光

顯影

離子植入 蝕刻

光阻去除 WAT測試

針測

封裝 最終測試

(25)

高擴散能力,以製作半導體元件所需要之P 型與 N 型半導體區域。

晶圓的製造歩驟繁雜,如果其中有一道或數道手續出問題,可能使往後 的製程失效,浪費人力與物力,因此需對加工完後的晶圓馬上進行測試,而 相關的測試有晶圓允收測試(WAT)及晶圓針測(CP)。晶圓允收測試主要是藉 由電性的量測,以確保各晶圓中電路的參數位於允收的範圍內。而晶圓針測 則是對於晶圓上各晶片進行功能上的測試,藉著對各晶片進行各種的功能測 試來將晶片給予分類。

2.6.1 半導體製程與品質控制

對半導體而言,品質的穩定是非常的重要,不僅意味者製造者本身技術 的精進,更表示產品的利潤好壞,半導體的良率可分為三部份,分別為製程 良率(Process Yield)、晶片良率(Chip Yield)與封裝良率(Packing Yield)【3】。製 程良率是指在晶圓製造完成經電性參數測試後允收的比例,晶片良率是指晶 圓製造完成後經電性功能測試後允收的比例,而封裝良率則是晶圓完成封裝 後的最終測試後所能夠接受的比例,由上可知半導體製造完成必須經由三道 手續進行壞品的攔截,愈到後來才判出的產品對生產者來說,其損失成本愈 大。

半導體良率的損失原因,大致可歸納為製程不良、機台故障、環境不潔、

線路設計問題、製程間的交互影響等等。製程不良如晶圓表面的刮傷或絕緣 層厚度不足及表面產生針孔,而導致漏電之情形。製程中機台故障則如機台 存有微塵或所設定的參數偏移,常導致晶圓某製程出現問題。而線路設計不 良,則主要是沒有考慮製程的能力,而導致良率偏低。

由以上所產生的問題,除了環境因素可藉由對空氣中的微粒做控制,使 空氣的潔淨度達到一定的標準,藉以控制製程的良率,使其不受環境因素影 響外,其餘則可針對故障部分加以分析,以找出相關原因,並加以解決。

2.6.2 半導體製程資料特性與故障分析

半導體的製程非常複雜,往往需要經過數百道手續才能完成。不同產品 其製程所牽涉到的種種參數亦會有所不同,晶片從投入到產出的過程中累積 了大量的監控資料,這些工程資料可藉由線上即時控制的機制,例如統計製

(26)

程控制(SPC),來檢測加工結果是否符合規格所訂的範圍,並進一歩提供工程 師釐清製程和缺陷之間的關連性,而製程控制及故障分析和半導體製程的關 係如圖2.7 所示。

圖2.7 半導體製程控制與故障分析

半導體資料的類型大致可分為 WIP 類型、參數類型、Bin Map 類型、

Metrology 類型、Defect 類型、Non-Lot 類型【9】等等。茲分述如下:

一、WIP (Working In Process)類型

此類的資料為晶圓在製造過程中的基本資料,其中包含著有批號、

產品名稱、產品數量、所經過的站別、生產時過站的時間及日期、加工 機台的編號,藉由這些資料可提供工程師在發現有缺陷的產品時能追蹤 相關的製程。

二、晶圓圖(Bin Map)類型

此為晶圓經針測(CP)結果的圖形資料,其包含批號、產品名稱、晶 片位置、缺陷晶片的標示,Bin Map 主要提供一個分布的判別,判別缺陷 晶片分佈是否呈現隨機分佈,若是非隨機狀況則可判定某部分製程出現

投入

擴散 簿膜 曝光

蝕刻

WAT CP 產出

統計製程控制

事故偵測

WAT 分析

晶圓圖分析

缺陷分析

(27)

變異。

三、Metrology 類型

主要是針對某一批產品所收集的資料,包括產品的名稱、批號、產 品的量測參數名稱、產品量測參數值、產品規格界限。

四、缺陷(Defect)類型

主要是針對產品缺陷所收集的資料,資料包括批號、產品名稱、產 生缺陷的層名、每層缺陷的數目、密度等。

五、Non-Lot 類型

此為針對某一機台的狀況所收集的資料,機台的量測資料包括機台 名稱、機台的參數名稱、機台的參數值、機台量測時間、機台參數的界 限。

六、參數類型

此類資料為晶圓的電子特性及物理性的測試參數資料,包含有批 號、產品名稱、測試電性參數名稱、測試電性參數值、電性參數規格界 限。

故障分析主要分為晶圓允收測試(WAT)、晶圓圖分析及缺陷分析,如圖 2.7 所示,茲分別敘述如下;

一、WAT 參數分析

晶圓允收測試主要是藉由對晶圓做電性參數之量測,以確定晶圓中 各晶片的電性介於允許的範圍。WAT 參數分析是指利用電性參數和製程 之間的相關性,而WAT 是晶圓生產完成後篩選好壞晶圓的第一歩,利用 對缺陷產品的分析可追溯相關的製程,找出問題之所在。

二、針測(CP)與晶圓圖分析

晶圓圖及缺陷分析都是出自於晶片針測而產生的分析圖形,主要是

(28)

對晶圓上的晶片進行電性功能測試,其目的為在晶片進行封裝前能將有 缺陷的晶片篩選出來以避免後續製程成本的增加,形成浪費。

針測的歩驟如圖2.8 所示,大概可分為針測、修護及烘烤等三個主要 的部驟。晶圓經WAT 測試通過後,即進行第一歩驟的針測的動作,而針 測為測試每一晶片的電性與線路的連接是否在合格範圍內,若發現不良 品則以有色墨水做記號,以為識別之用。

接著第二個歩驟,為在不合格的晶片中又可分為可被修復及不可修 復兩類,利用雷射修補的方式可將被修復的晶片給予修補並進行第二次 的電性測試。

而第三個歩驟,則為當晶片通過電性測試後,進入烤爐烘烤。此時,

若仍有無法通過測試的晶片,則將進行事故分析診斷。

圖2.8 針測流程 Pass

NP 待測料件

雷射修補 針測

電性測試

烘 烤

事故診斷 產品入庫

Pass

NP

(29)

而藉由針測後所呈現的晶圓圖,則可呈現晶片合格及不合格的分佈 方式,可以判斷此製程是否處於常態分配及可判斷其良率的好壞。

三、缺陷分析

缺陷分析是分析經過針測後的結果及製程資料間的相關比較,利用 BIN 圖與各製程缺陷資料找出問題的原因,並進一歩解決製程上的問題。

相關資料探勘應用在半導體的研究上,有吳鴻志【9】利用關連法則 分析異常WAT 良率之機台組合,其最主要是利用未通過檢測的生產資料 使用關連法則找出共同的特性,將此特性提供給工程師,以其專業的知 識加以解釋,以提昇製程之良率。而林鼎浩【4】利用 K-W 檢定方法及 決策樹的方法診斷製程事故,將大量的資料萃取出相關的資訊以減少分 析的時間。李培瑞【8】則利用自我組織映射網路(SOM)及決策樹的方法 來解決問題,利用SOM 的方法將資料給予分群,利用決策樹進一歩在分 群的資料中找出特徵值以供工程師分析的依據。劉淑範【6】則以分群模 式對晶圓良率損失資料給予分群,找出特徵值,並從其中找出最佳分群 品質解。

而利用工程資料來建立分析的模式,則有林寅智【3】利用半導體的 工程資料建立一知識庫的模式,以提昇工程師分析資料的效率。而李偉 傑【2】利用迴歸分析的方法探討各種變數間的相關性,並建立一模式以 監控製程。

由以上相關文獻來看,有關半導體製程分析部分,大部分都是利用WAT 結果來進行分析,而所用的方法有決策樹、SOM、分群、關聯法則、迴歸分 析等。本研究則是利用貝氏分類法及因子分析來進行分析,希望透過貝氏方 法的優點,即在少量資料下能進行有效的判別,以提高工程人員分析的時效。

(30)

第三章 診斷系統的建構

3.1 研究架構

本研究主要是以資料探勘的方法為基礎,利用有系統的方式進行資料的 探索。研究架構以目標的分析及其定義為開始,經過資料的蒐集並做初歩的 處理,接著選定分析方法,利用分析方法來探討主題,最後對分析結果加以 評估,其流程如圖3.1 所示。

圖3.1 研究架構 目標的分析及定

資料的蒐集與處

分析方法

貝氏網路 因子分析

判別問題參數 找出共同因子

結果分析與評估

(31)

3.2 資料的蒐集與處理 3.2.1 資料的準備

在對研究的相關領域有所熟悉後,進一步就是如何取得與所要研究有關 的資料,一般我們所謂的資料,就時間性來看,可分即時資料與歷史資料。

而就所儲存的方式,由於科技的進歩,可分檔案、關連式資料庫、資料倉儲。

關連式資料庫中資料主要是建立在由各欄位所組成的記錄裡,藉由查詢語 言,將所需要的資料整合呈現出來。資料倉儲其儲存的資料量非常大,具有 主題導向、整合性、時變的及非易失性【15】。以半導體產業來說,工程資料 的取得與保存是很重要的,因為工程資料及相關的資訊,是公司決策的依據,

更是品質及產量的根本,半導體廠一般來說都有其自建的資料庫,用來收集 現場資料,提供工程師做分析用。

3.2.2 資料的處理

在資料探勘過程中有一重要的動作,是對所要處理的資料去除偏離值,

過多的偏離值會影響資料分析的真實性。另外,所分析的資料維度的大小,

則會影響分析的速度。一般在獲得資料後會進行一連串的篩選動作,以維持 資料的真實性及資料處理的速度。其相關的處理敘述如下:

一、資料形態的檢視:資料是屬連續或離散形態,其基本的數理特性及分佈 狀況如何。

二、資料維度的縮小及格式的轉換:資料的維度會影響整體運算的速度,縮 減維度有助於運算的流暢性,但必須注意的是所減少的維度是否隱藏著 重要的訊息。另外,資料格式在做分析時為了因應某一分析目的,必須 轉換成統一的單位,例如以金額、時間、比例等,做一比較基礎,如此 分析的結果才有正確性。

三、偏離值及缺值的檢視與處理:偏離值是指超過一般常態分配的接受範圍 的數值,通常會針對分析所要的目的來決定去除或保有。所謂的缺值的 處理是指空白值或遺漏值的處理,會產生缺值通常在於資料的記錄過程 中遺漏或資料在轉換過程中出現錯誤導致某些數值消失。處理缺值有時 視所獲得的資料量的多少,若獲得的資料量多且該缺漏的數值沒有特殊

(32)

性,一般多是刪除該筆記錄。相反的,如果所獲得的資料不多或該數值 有其特殊性則可考慮利用特殊方式來填補此缺值。

3.3 研究方法

3.3.1 利用貝氏分類法建置系統雛形

貝氏分類法具有反應快速的優點,有別於類神經必須要有長的訓練時間 及大量的訓練資料,利用貝氏分類法建置分析雛形,是希望快速的反應出半 導體製程中所出現的不良問題其所對應的製程或機台,並加以解決。

本研究所建立的貝氏分類雛形模式是將資料分為二群,一群為訓練資 料,另一群為測試資料。利用訓練資料計算正確的事前機率及概似機率,而 藉由測試資料可得事後機率,再判斷事後機率的大小,則可以得知問題參數,

如圖3.2 所示。

圖3.2 貝氏分類雛形架構

由系統雛形架構來看,我們可知構成貝氏定理的基本元件中含有事前機 率及概似機率。假設有 N 筆訓練資料,而每筆資料含有 m 個參數,即

訓練資料

概似機率 事前機率

測試資料

貝氏分類

結果分析

(33)

[

i i im

]

ij X X X

Y = 1 2 L ,i=1, 2…, N,表示有 N 個筆數,而 j=1, 2, …, m 表有 m 個參數,此即為 N×m 矩陣。當有一錯誤 F 發生時,要判別是由那一個參數 所引起的,其貝氏定理為:

( ) ( ) ( )

( ) ( )

12

F P

X F X F P X P

i j i j

i j =

其中Pi

( )

XjF 為當錯誤 F 發生時由第 i 筆資料第 j 個參數所造成的機率 值,Pi

( )

F 為錯誤發生時的機率,Pi

( )

Xj 為事前機率, Pi

( )

F Xj 為概似機率,

要建立第(12)式的各項機率的步驟為:

一、標準化各項參數

由各筆的訓練資料可得到其相關的期望值及標準差

( )

13 ,

2 , 1 1 ,

1X j m

E N N

i ij

j = = L

=

( )

[ ]

, 1,2, ,

( )

14

1 1

1

2 j m

E N X

N

i ij j

j − = L

= −

σ =

另外,在測試資料部分,為了避免不同的單位所造成的混淆,我們 將各參數予以標準化即

( )

15 ,

2 , 1

; , 2 ,

1 N j m

E i Z X

j j ij

ij − = L = L

=

σ

二、由訓練資料來建立概似機率與事前機率

概 似 機 率 為 Pi

(

F Xj

)

, 將 其 Xj 標 準 化 後 為 Pi

(

FZj

) ,

i=1,2…,N j=1,2,…,m

f(Zij)= Pi

(

FZj

)

,而Pi

(

F Xj

)

f(Zij) 存在有一線性關係

【5】,因此

(34)

( )

= i =1,2… ,N; j=1,2,… ,m

( )

16 k

X Z F

Pi j ij

其中k 為一常數。

事前機率則假設其發生的機會是相等的,所以事前機率為:

( )

1 j 1,2, ..,m

( )

17

=

=m X P j

將第(9)、(10)式代入貝氏定理公式得

( )

18 m

, 1,2, j N;

, 1,2 ) i

( = … = …

=mkP F F Z

X

Pi j ij

接著我們利用一例子藉由所推導的貝氏分類來加以說明系統雛型的應 用,取一個26×10 的資料矩陣,即有 26 筆資料,每一筆資料有 10 個參數,

並且我們已知參數五是造成錯誤的主要因素,今利用貝氏分類來診斷最有可 能發生錯誤的參數,其診斷結果可從表 3.1 得知,在參數五的欄位,其機率 都比其它參數所在的欄位高,只有在第二及第七筆所得的機率比其它參數低。

(35)

表3.1 各參數的診斷機率 參數

參數

參數

參數

參數

參數

參數

參數

參數

參數 1 0.007 0.058 0.066 0.061 0.255 0.084 0.084 0.161 0.058 0.167 2 * 0.001 0.045 0.085 0.076 0.253 0.079 0.078 0.258 0.062 0.194

3 0.010 0.045 0.074 0.071 0.249 0.075 0.075 0.068 0.061 0.063 4 0.005 0.047 0.054 0.059 0.247 0.071 0.073 0.156 0.054 0.127 5 0.001 0.043 0.058 0.069 0.253 0.065 0.083 0.064 0.047 0.048 6 0.011 0.041 0.086 0.074 0.263 0.087 0.088 0.203 0.060 0.185 7* 0.009 0.055 0.092 0.057 0.089 0.076 0.076 0.173 0.043 0.049

8 0.010 0.039 0.075 0.049 0.244 0.071 0.070 0.232 0.049 0.045 9 0.020 0.038 0.074 0.053 0.239 0.073 0.072 0.170 0.055 0.177 10 0.011 0.056 0.077 0.075 0.249 0.071 0.070 0.219 0.080 0.201 11 0.010 0.047 0.071 0.048 0.246 0.071 0.071 0.045 0.038 0.038 12 0.008 0.040 0.080 0.076 0.251 0.075 0.065 0.076 0.074 0.044 13 0.028 0.056 0.035 0.035 0.206 0.029 0.049 0.025 0.029 0.032 14 0.007 0.035 0.084 0.072 0.257 0.092 0.089 0.194 0.076 0.204 15 0.004 0.053 0.097 0.082 0.260 0.098 0.084 0.094 0.095 0.088 16 0.013 0.044 0.095 0.077 0.261 0.092 0.090 0.084 0.064 0.065 17 0.010 0.046 0.076 0.061 0.251 0.076 0.076 0.065 0.059 0.213 18 0.014 0.028 0.036 0.028 0.201 0.069 0.063 0.044 0.032 0.055 19 0.001 0.036 0.095 0.077 0.261 0.092 0.090 0.084 0.064 0.065 20 0.005 0.046 0.097 0.061 0.251 0.027 0.072 0.228 0.049 0.191 21 0.025 0.037 0.079 0.061 0.251 0.075 0.074 0.189 0.056 0.166 22 0.001 0.042 0.068 0.065 0.254 0.078 0.078 0.069 0.055 0.057 23 0.023 0.041 0.080 0.081 0.265 0.095 0.088 0.059 0.063 0.102 24 0.011 0.035 0.069 0.055 0.236 0.063 0.063 0.182 0.037 0.175 25 0.000 0.044 0.090 0.076 0.263 0.090 0.090 0.194 0.072 0.200 26 0.013 0.033 0.035 0.031 0.239 0.068 0.067 0.161 0.041 0.151 P(Xj/F) 0.010 0.043 0.074 0.063 0.242 0.075 0.076 0.134 0.057 0.119

就整體來講,各參數的診斷機率為

(36)

( )

j = 1

(

i=N1Pi

( )

Xj F

) ( )

19

F N X P

將表3.1 的各欄的機率代入式子(19)中,可得到各參數的診斷機率。由圖 3.3 可知各機率的分佈情形,其中以參數五的機率最大,因此我們發現貝氏分 類能有效的分辨出有問題的參數。

圖3.3 機率分布圖 3.3.2 系統評估

本研究所建立的模式,主要是希望能夠快速有效的反應相關問題,因此,

敏感度為整體重要之所在。而敏感度可做為系統的診斷率,比率愈大愈好,

其計算的公式如下:

( )

20 FN

TR S TR

= +

其中TR 為原本是正確值,而分類結果為正確值的筆數。而 FN 為原本是正確 值,但分類結果卻被否定為正確的筆數。

0.010

0.043

0.074

0.063

0.242

0.075 0.076

0.134

0.057

0.119

0.000 0.050 0.100 0.150 0.200 0.250 0.300

參數一 參數二 參數三 參數四 參數五 參數六 參數七 參數八 參數九 參數十

參數

(37)

就表 3.1 來說,代入式子(20),可得到其敏感度為 92.37%,其中 TR 為 除了第二及第七筆以外的資料,共24 筆。而 FN 為第二及第七筆資料,共 2 筆,因此可知就每筆資料來做診斷,其敏感度亦相當高。

為了了解系統的敏感度,我們以正確的資料做為訓練的資料,其目的是 建立系統的判斷標準,然後再投以若干的干擾元素,看此模式的辨識能力。

而評估的方式可分為:(一)對二個變數加以干擾,測試系統對此二變數的辨 識準確度,和(二)將訓練的資料減少後再做一次上述的實驗,以驗證訓練資 料的多寡是否對於模式判斷有所影響。所謂投以干擾元素就是對某些參數投 入標準差,使其有所變異,並利用此研究模式來找尋變異的參數。茲詳細說 明如下:

一、同時投入二個干擾元素

隨意選取參數五及參數八,對參數五及參數八加以干擾,干擾元素 為5σ 及 2σ,由表 3.2 可知參數五及參數八的辨識機率相對比其它參數的 辨識機率高。而以個別量測點來看,其敏感度可達到96.15%,但其中第 17 筆資料在對參數八的判別上則有所失誤。由圖 3.4 機率分佈圖可明顯 看出參數五及八在圖上的高低,顯示從整體上來看參數五及參數八依然 可明顯辨識出來,特別是對參數八的辨識結果代表模式能對小量的變動 有正確的反應。此外,同時對二個參數投入干擾元素,主要是針對在實 務上參數值的變動有時會互相有所影響,而導致有些參數被蒙蔽而無法 辨識。

(38)

表3.2 同時投以二個干擾元素下各參數的辨識機率 量測

參數 一

參數 二

參數 三

參數 四

參數 五

參數 六

參數 七

參數 八

參數 九

參數 十 1 0.006 0.051 0.058 0.054 0.223 0.073 0.073 0.264 0.051 0.146 2 0.001 0.039 0.075 0.066 0.222 0.069 0.068 0.349 0.055 0.170 3 0.009 0.039 0.064 0.062 0.218 0.066 0.065 0.183 0.053 0.055 4 0.004 0.041 0.047 0.052 0.216 0.063 0.064 0.261 0.047 0.112 5 0.001 0.038 0.051 0.060 0.222 0.057 0.072 0.180 0.041 0.042 6 0.010 0.036 0.076 0.065 0.230 0.076 0.077 0.302 0.052 0.162 7 0.008 0.048 0.080 0.050 0.078 0.067 0.067 0.275 0.037 0.043 8 0.009 0.034 0.065 0.043 0.214 0.062 0.062 0.327 0.043 0.039 9 0.018 0.033 0.064 0.047 0.210 0.064 0.063 0.272 0.048 0.155 10 0.010 0.049 0.067 0.066 0.218 0.063 0.062 0.315 0.070 0.176 11 0.009 0.041 0.062 0.042 0.215 0.062 0.062 0.163 0.033 0.033 12 0.007 0.035 0.070 0.066 0.220 0.066 0.057 0.190 0.064 0.039 13 0.024 0.049 0.031 0.031 0.181 0.026 0.043 0.146 0.026 0.028 14 0.006 0.031 0.074 0.063 0.226 0.081 0.078 0.294 0.066 0.179 15 0.004 0.047 0.085 0.072

0.228

0.086 0.074 0.206 0.083 0.077 16 0.012 0.039 0.083 0.067 0.229 0.080 0.079 0.197 0.056 0.057 17* 0.009 0.040 0.066 0.054

0.220

0.067 0.066

0.180

0.052 0.187

18 0.012 0.025 0.032 0.024 0.176 0.060 0.056 0.162 0.028 0.048 19 0.001 0.031 0.083 0.067 0.229 0.080 0.079 0.197 0.056 0.057 20 0.005 0.040 0.085 0.053 0.220 0.024 0.064 0.323 0.043 0.168 21 0.022 0.032 0.070 0.053 0.220 0.065 0.065 0.289 0.049 0.145 22 0.001 0.037 0.060 0.057 0.222 0.069 0.068 0.184 0.048 0.050 23 0.020 0.036 0.070 0.071 0.233 0.083 0.077 0.175 0.055 0.089 24 0.010 0.031 0.061 0.048 0.207 0.055 0.055 0.283 0.032 0.153 25 0.000 0.039 0.079 0.066 0.230 0.079 0.079 0.293 0.064 0.175 26 0.011 0.029 0.031 0.027 0.210 0.060 0.058 0.264 0.036 0.132 P(Xj/F) 0.009 0.040 0.068 0.057

0.221

0.068 0.069

0.251

0.052 0.109

(39)

圖 3.4 同時投以二個干擾元素下機率分布圖

二、減少訓練資料情況下的辨識能力

利用同樣的資料,減少訓練的資料並對參數五投入干擾元素 5σ,從 表 3.3 及圖 3.5 可知模式辨識依然能辨識出參數五來,就個別量測點來 看,其敏感度能達到92.3%。由以上的實驗來看,貝氏分類的模式可在有 限的資料或在少量的訓練資料的狀況下提供可靠的判斷資料給決策者使 用。

0.009

0.040

0.068

0.057

0.221

0.068 0.069

0.251

0.052

0.109

0.000 0.050 0.100 0.150 0.200 0.250 0.300

參數一 參數二 參數三 參數四 參數五 參數六 參數七 參數八 參數九 參數十

參數

(40)

表3.3 在訓練資料減少情況下投以一個干擾元素下各參數的辨識機率 量測

參數 一

參數 二

參數 三

參數 四

參數 五

參數 六

參數 七

參數 八

參數 九

參數 十 1 0.008 0.058 0.066 0.062

0.253

0.084 0.084 0.160 0.058 0.166 2* 0.000 0.046 0.086 0.076

0.251

0.079 0.078 0.256 0.063 0.193

3 0.011 0.045 0.074 0.071

0.247

0.075 0.075 0.068 0.061 0.063 4 0.004 0.047 0.055 0.060

0.245

0.072 0.073 0.156 0.054 0.127 5 0.000 0.044 0.058 0.069

0.251

0.065 0.083 0.064 0.048 0.049 6 0.010 0.041 0.087 0.074

0.261

0.087 0.088 0.202 0.060 0.184 7 0.010 0.055 0.089 0.055

0.089

0.074 0.074 0.172 0.041 0.047 8 0.009 0.040 0.075 0.050

0.242

0.071 0.071 0.231 0.050 0.045 9 0.019 0.039 0.074 0.054

0.237

0.073 0.072 0.169 0.055 0.176 10 0.012 0.057 0.077 0.075

0.247

0.072 0.071 0.217 0.080 0.200 11 0.009 0.048 0.071 0.049

0.244

0.071 0.071 0.045 0.039 0.039 12 0.010 0.041 0.080 0.076

0.250

0.075 0.065 0.077 0.074 0.045 13 0.029 0.057 0.036 0.036

0.205

0.030 0.050 0.026 0.030 0.032 14 0.008 0.036 0.084 0.072

0.256

0.092 0.089 0.193 0.076 0.203 15 0.005 0.054 0.097 0.082

0.258

0.098 0.084 0.094 0.095 0.088 16 0.014 0.045 0.095 0.077

0.259

0.092 0.090 0.084 0.065 0.065 17 0.011 0.047 0.076 0.062

0.250

0.077 0.076 0.065 0.060 0.212 18 0.015 0.029 0.037 0.029

0.200

0.069 0.064 0.045 0.032 0.056 19 0.003 0.037 0.095 0.077

0.259

0.092 0.090 0.084 0.065 0.065 20 0.006 0.046 0.097 0.061

0.249

0.028 0.073 0.226 0.049 0.190 21 0.024 0.038 0.080 0.061

0.249

0.075 0.074 0.188 0.057 0.165 22 0.003 0.043 0.069 0.066

0.252

0.079 0.078 0.069 0.056 0.057 23 0.021 0.041 0.080 0.081

0.264

0.095 0.088 0.060 0.063 0.102 24 0.010 0.036 0.070 0.056

0.234

0.063 0.063 0.181 0.038 0.174 25 0.001 0.045 0.090 0.076

0.261

0.090 0.090 0.192 0.073 0.199 26 0.011 0.033 0.036 0.032

0.237

0.069 0.067 0.160 0.041 0.150 P(Xj/F) 0.010 0.046 0.077 0.066

0.250

0.078 0.079 0.139 0.059 0.124

參考文獻

相關文件

If necessary, you might like to guide students to read over the notes and discuss the roles and language required of a chairperson or secretary to prepare them for the activity9.

For the data sets used in this thesis we find that F-score performs well when the number of features is large, and for small data the two methods using the gradient of the

We try to explore category and association rules of customer questions by applying customer analysis and the combination of data mining and rough set theory.. We use customer

Furthermore, in order to achieve the best utilization of the budget of individual department/institute, this study also performs data mining on the book borrowing data

Since Dolby AC-3(abbreviated as AC-3) is the main technology of the surrounding sound format, in this thesis, we proposes a data model for mining the relationship between

The main objective of this article is to investigate market concentration ratio and performance influencing factors analysis of Taiwan international tourism hotel industry.. We use

The main purpose of this paper is using Java language with object-oriented and cross platform characteristics and Macromedia Dreamweaver MX to establish a JSP web site with

The main purpose of this study is to explore the status quo of the food quality and service quality for the quantity foodservice of the high-tech industry in Taiwan;