國 立 交 通 大 學
統計學研究所
碩 士 論 文
用核密度估計建構階段 I 管制圖之研究
Constructing Phase I Control Charts
with Kernel Density Estimation
研 究 生 :盧美惠
用核密度估計建構階段 I 管制圖之研究
Constructing Phase I Control Charts
with Kernel Density Estimation
研 究 生:盧美惠 Student:Mei-Huei Lu
指導教授:洪志真 Advisor:Jyh-Jen Horng Shiau
國 立 交 通 大 學
統計學研究所
碩 士 論 文
A Thesis
Submitted to Institute of Statistics
College of Science
National Chiao Tung University
In Partial Fulfillment of the Requirements
For the Degree of
Master
In
Statistics
June 2007
Hsinchu, Taiwan, Republic of China
用核密度估計建構階段 I 管制圖之研究
研究生:盧美惠 指導教授:洪志真 博士
國立交通大學統計學研究所 碩士班
摘 要
大多數階段 II 監控表現的評估與比較,都是假設管制狀態下的
參數已知;但實際上,是由階段 I 蒐集的資料來估計參數再提供給階
段 II 使用。當階段 I 的資料不完全來自管制狀態下,可能會導致參數
估計得不準確,造成階段 II 無法正確判斷製程是否失控。所以,本
文的研究目的是針對階段 I 樣本中有部分樣本來自製程發生平均數偏
移的情況,提供一個新方法來估計管制狀態下的分配之平均數,稱之
為核密度估計法。從模擬結果可發現,使用核密度估計法所建構的管
Constructing Phase I Control Charts
with Kernel Density Estimation
Student:Mei-Huei Lu Advisor:Jyh-Jen Horng Shiau
Institute of Statistics
National Chiao Tung University
ABSTRACT
When evaluating and/or comparing control chart, usually it is
assumed that the in-control values of the parameters are known. In
practice, control limits in Phase II process monitoring are often
constructed using the parameter estimates obtained from Phase I analysis.
When the Phase I data are not all from the in-control state, the estimated
parameters is systematically biased. Consequently, the effectiveness of
the control chart constructed based on these estimates is doubtful in Phase
II process monitoring. The purpose of this paper is to propose a new
method to estimate the in-control process mean based on kernel density
estimator (KDE). Simulation studies show that the performance of the
control chart constructed with kernel density estimator is better than that
of conventional two methods, especially when the mean shift is large.
誌 謝
於交大的研究所生活即將告一段落,在這兩年日子中,我深刻的
體悟到做學問只靠自己苦讀,進步是有限的,必須不斷地和別人討論
才能精益求精。我要感謝這兩年來教導過我的老師、幫助過我的學長
姊、鼓勵我的同學們,因為有你們,我才能成長。
更感謝我的指導教授-洪志真博士的諄諄教誨,老師給我和育辰
很大的研究空間,常常鼓勵我們嘗試不同的方法來解決問題。老師認
真教學的態度以及對學生之耐心,讓即將實習的我獲得相當大的啟
發。另外要謝謝我的夥伴:育辰,與你討論的過程中總是特別歡樂,
相信你也會和我一樣贊同老師說的話:「收割結果變得不那麼重要
了,中間揮汗的過程才是令人值得細細品嚐」
。
再者,感謝所上陳鄰安老師、陳志榮老師及清華大學的曾勝滄老
師、黃榮臣老師在百忙之中抽空來幫我預口試或口試,並給予相當寶
貴的意見。也感謝家鈴學姊、泰賓學長對我的許多幫忙及照顧。
最後,給我最愛的家人及好朋友們,謝謝你們的體諒與支持,讓
我能全心全意朝目標邁進。
目 錄
中文摘要...i 英文摘要...ii 誌謝... iii 目錄...iv 附表目錄...vi 附圖目錄...vii 第一章 緒論...1 1.1 前言...1 1.2 研究動機與目的...2 1.3 研究架構...3 第二章 文獻探討...4 2.1 管制圖的基本判讀...4 2.2 X 管制圖的運用...4 2.3 製程偵測力的評估...6 2.4 使用估計的參數所產生之問題...8 2.5 子群數m和子群內樣本數n的選取...9 第三章 傳統方法與新方法之探討...11 3.1 混合樣本... 11 3.1.1 混合樣本之介紹... 11 3.1.2 X 混合樣本與 X 管制圖 ...12 3.2 傳統方法...13 3.2.1 直接估計法...13 3.2.2 重複篩選法...14 3.2.3 使用直接估計法與重複篩選法之缺失與討論...15 3.3 新方法...17 3.3.1 新方法之起源...17 3.3.2 核密度估計量之介紹...18 3.3.3 核密度估計法...19 3.3.4 使用核密度估計法之缺失...20 3.4 階段II平均連串長度的計算...21 第四章 數值比較與其他相關討論...24 4.1 階段I的比較 ...24 4.2 階段II的比較...25 4.3 將核密度估計法套用於其他分配...26 4.4 其他相關探討之帶寬的選擇...28 4.5 其他相關探討之L的建議 ...29第五章 結論及未來研究方向...33
參考文獻...34
附表...35
附 表 目 錄
表一:資料為混合樣本,用 ( ) 3 /E X ± σ n當管制上下限之α 和1− 的理論值β ...35 表二:資料為混合樣本,使用直接估計法估計參數,10000 個模擬μˆ0、σ 、α 和ˆ 1− 的平均值及標準差...36 β 表三:資料為混合樣本,使用重複篩選法估計參數,10000 個模擬μˆ0、σ 、α 和ˆ 1− 的平均值及標準差...38 β 表四:資料為混合樣本,使用核密度估計法估計參數,代入不同的帶寬H,10000 個模擬μˆ0的平均值及標準差...40 表五:資料為混合樣本,使用核密度估計法估計參數,10000 個模擬μˆ0、σ 、αˆ 和1− 的平均值及標準差...42 β 表六:階段I為 ( , ) (0, 0.05)δ p = 時的情況,階段II的ARL和SDRL之平均估計量 ...44 表七:階段I為 ( , ) (1, 0.2)δ p = 時的情況,階段II的ARL和SDRL之平均估計量..47 表八:階段I為 ( , ) (2, 0.1)δ p = 時的情況,階段II的ARL和SDRL之平均估計量 .50 表九:對σ 已知和未知的情況,分別建議的L逼近值 ...53 表十:樣本來自T分配,使用核密度估計法估計參數,10000 個模擬μˆ0的平均值 及標準差...54 表十一:樣本來自LOGISTIC分配,使用核密度估計法估計參數,10000 個模擬μˆ0 的平均值及標準差...56附 圖 目 錄
圖一:對三種不同的估計方法,10000 個模擬μˆ0平均值之折線圖...58 圖二:對三種不同的估計方法,10000 個模擬μˆ0標準差之折線圖...59 圖三:對三種不同的估計方法,10000 個模擬α 平均值之折線圖...60 圖四:對三種不同的估計方法,10000 個模擬α 標準差之折線圖...61 圖五:對三種不同的估計方法,10000 個模擬1− 平均值之折線圖...62 β 圖六:對三種不同的估計方法,10000 個模擬1− 標準差之折線圖...63 β 圖七:階段I為 ( , ) (0, 0.05)δ p = 時的情況,階段IIARL0和ARL1之折線圖...64圖八:階段I為 ( , ) (1, 0.2)δ p = 時的情況,階段IIARL0和ARL1之折線圖 ...65
第一章 緒論
1.1 前言
統計製程管制(Statistical Process Control;簡稱 SPC)乃指使用統
計方法降低變異以改善製程能力和達到製程穩定。管制圖(control
chart)為統計製程管制的工具之一,主要用途為:減少製程變異、觀
察和監控製程、估計產品或製程的參數。管制圖有很多種,如 Shewhart
管制圖、累積和管制圖(Cumulative Sum;CUSUM)、指數加權移動平
均管制圖(Exponentially Weighted Moving Average;EWMA)等。
在產品製程中,會有許多因素導致製程變異,類括為兩種主要原
因:機遇原因(chance causes)和可歸屬原因(assignable causes)。機遇原
因是由大自然或其他背景干擾等不可避免因素累積而成;可歸屬原因
主要由製程中不當操作、使用不良的原料、機器老舊或其他人為因素
所產生,通常只要找到原因後便可移除。當製程中只存在機遇原因,
則判定製程在管制狀態下(in control);相反的,製程在操作中若產生
可歸屬原因,則判定製程在失控狀態下(out of control)。
製程監控一般分成兩大階段:階段 I (phase I)和階段 II (phase
II)。階段 I 先蒐集資料,建立試驗的管制界限(trial control limits),經
由偵測和修正可歸屬原因,把不穩定的製程調整到穩定的狀態,然後
段 II 使用。在階段 II 中則強調製程的監控(process monitoring),以往
的研究都比較著重此階段的成效。
1.2 研究動機與目的
大多數階段 II 監控方法的表現之評估與比較,都是假設管制狀
態下的參數已知;但實際上,參數通常是未知的,必須由階段 I 所得
到的資料來估計。當階段 I 的資料不完全來自管制狀態下,可能會導
致參數估計得不準確,造成階段 II 無法正確判斷製程是否發生失控。
此時在階段 I 選取一個合適的方法來估計參數是很重要的。
製程發生變異時,可能會造成產品特性分配的改變,如平均數偏
移(mean shift)或變異數改變。假設階段 I 蒐集的樣本分為兩部分,有
一部分來自管制狀態下,平均數為
μ0、變異數為
2 0 σ之分配;另一部
分來自失控狀態下,平均數為
μ1、變異數為
2 1 σ之分配,有平均數偏
移或變異數改變的現象。此時因為樣本不完全來自管制狀態下,導致
混合樣本之分配會被來自失控狀態下的樣本所牽動,尤其平均數偏移
或變異數改變較大時更為嚴重,因此產生許多參數估計上的困難。在
本文中,針對階段 I 樣本中有部分樣本來自製程發生「平均數偏移」
度估計法套用於其他分配,並觀察其估計的成效。
1.3 研究架構
本文主要分為五個部分,首先在第一章先確立研究主題及動機。
在訂定研究目的之後,接下來第二章為相關文獻的探討,包括管制圖
的基本判讀、
X管制圖的使用、製程偵測力的評估、使用估計的參數
所產生之問題與子群數
m 和子群內樣本數 n 之選取的相關研究。在
第三章的第一部分,主要介紹
X混合樣本;第二部分介紹傳統兩種估
計參數的方法:直接估計法和重複篩選法,並探討其模擬步驟與估計
上的缺失;第三部分介紹新方法之起源、使用核密度估計法的模擬步
驟與估計上的缺失;第四部分則為階段 II 平均連串長度的計算。第
四章為數值比較與其他相關討論。在數值比較的部分,分為階段 I 和
階段 II 進行討論:階段 I 的比較準則為
μˆ0估計得好不好、假警報率和
偵測力的大小,階段 II 則是比較管制狀態下和失控狀態下平均連串
長度的表現。在其他相關討論的部分,包括將核密度估計法套用於其
他分配、帶寬的選擇與
L 的建議。第六章為本研究的結論,除了對傳
統方法和新方法做一總結,並於文末提出未來研究的方向。
第二章 文獻探討
2.1 管制圖的基本判讀
Walter Shewhart 在 1924 年提出 Shewhart 管制圖( Shewhart
1931),其概念為給定製程在管制狀態下產品特性的分配,再依照選
取的信賴水準計算出對應的管制上限(upper control limit;UCL)、中
心線(center line;CL)和管制下限(lower control limit;LCL),當樣本
落在管制界限(control limit)外時,我們判定製程失控,此時需要採取
調整和修正的措施來發現並消除可歸屬原因。
在 Montgomery (2005)一書提到:一般正常情況下,管制圖上的
樣本點是呈現隨機性散佈於管制界限內;若超出管制界限外,可能為
製程平均水準偏移或製程變異數改變,這時候可以著手找出造成此偏
移的因素來改善製程。但另一種情況是管制圖上的樣本點都落在管制
界限內,但呈現有順序性或非隨機性的情況,則應找出其原因並加以
處理。因此管制圖的目的是預防製程異常的發生,運用簡單的圖表方
式,讓操作者能方便以目視管理,使得管制圖被廣泛運用在各式生產
線上,作為製程管制的主要工具。
μ
、變異數
σ2均為已知,若有
n 個樣本
1, 2,..., n X X X,其樣本平均數為
1 2 ... n X X X X n + + + =,
我們知道
X也是服從常態分配,其平均數為
μ、變異數為
2 / σ n。給定
信賴水準
1−α,
X的管制界限和中心線為
/ 2 UCL Z n CL α σ μ μ = + =LCL Z / 2 n α σ μ = −
,
其中
Zα/ 2為標準常態分配下右尾機率為
α/ 2之臨界點(critical value)。
通常
μ、
σ都是未知的,所以先從階段 I 隨機抽取
{Xij,
i= K1, ,m,
1, , } j= K n的
m 組樣本,而每組樣本為包含 n 個觀察值的一合理子群
(rational subgroup)資料,再對
μ和
σ做估計,才能算出
X的管制界限
和中心線。
μ最常用的估計方法為總樣本平均數(grand sample mean):
1 1 m i i X X m = =
∑
,其中
1 1 n i ij j X X n = =∑
。
σ的估計方法有很多,最常用的有以下三種:
(1) 平均全距
σˆR(average range):
2 ˆ ( ) R R d n = σ,
其中
1 1 m i i R R m = =∑
,
Ri為第
i 組樣本的全距,而
d n2( )=E R( )為子群全距
R
之期望值,會隨著
n 不同而異,可參考 Montgomery (2005)附表六。
4 ˆ ( ) S S c n = σ
,
其中
1 1 m i i S S m = =∑
,
2 1 1 ( ) -1 n i ij i j S X X n = =∑
−,而
1/ 2 4 2 ( / 2) ( ) ( ) -1 (( -1) / 2) n c n n n Γ = Γ,
4( ) c n也可參考 Montgomery (2005)附表六。
(3) 綜合樣本標準差
ˆ p Sσ
(pooled sample standard deviation):
4 ˆ ( ( -1) 1) p p S S c m n = + σ
,
其中
1/ 2 1/ 2 2 2 1 1 1 1 1 ( - ) ( -1) m m n p i ij i i i j S S X X m = m n = = ⎧ ⎫ ⎧ ⎫ =⎨ ⎬ =⎨ ⎬ ⎩∑
⎭ ⎩∑∑
⎭。
Champ and Chou (2003)指出:
(ˆ ) (ˆ ) (ˆ )p S S R E σ =E σ =E σ =σ
,
ˆ ˆ ˆ ( ) ( ) ( ) p S S RVar σ ≤Var σ ≤Var σ
,所以本文選擇使用綜合樣本標準差
ˆp S σ
來估
計
σ。在此必須注意
ˆ p S σ內之
2 p S的算法是
2 2 2 , 1 1 1 1 1 ( - ) ( 1) m m n p correct i ij i i i j S S X X m = m n = = = = −∑
∑∑
,
而不是
2 2 , 1 1 1 ( ) ( 1) m n p incorrect ij i j S X X mn = = = − −∑∑
,
因為
2 , p correct S是分別計算每個子群內(within subgroup)的變異數,然後再
做平均;而
2 , p incorrect S是把全部樣本混合在一起計算而得的變異數,同時
包含子群內和子群間(between subgroup)的變異,因而導致高估
σ。
但樣本點落在管制界限外時,即拒絕製程在管制狀態下之假設,此為
型 I 錯誤;犯型 I 錯誤的機率,為假警報率(false alarm rate),一般記
為
α。相對的,若製程在失控狀態下,但樣本點卻落在管制界限內,
此為型 II 錯誤;犯型 II 錯誤的機率一般記為
β,而
1−β是檢定力
(power),為偵測出製程發生變異的機率。在管制圖之比較上,通常
會固定型 I 錯誤的機率,作為比較基準點,選取具最大檢定力之管制
圖。
有很多準則可以用來評估階段 II 的成效,其中平均連串長度
(Average Run Length;ARL)由於其具有方便解釋的特性最常被使用。
首先介紹連串長度(Run Length;RL),其可區分為管制狀態下的連串
長度和失控狀態下的連串長度兩種。管制狀態下的連串長度,記為
0 R,是指從開始監控製程到管制圖誤判而產生的第一個錯誤警訊時的
觀察樣本數;而失控狀態下的連串長度,記為
R1,是指當真實製程平
均值發生變動後,從開始監控製程到管制圖偵測到變異的第一個警訊
時的觀察樣本數。
R0服從參數為
α的幾何分配(geometric
distribution),而
R1服從參數為
1−β的幾何分配。
平均連串長度則為連串長度分配之期望值,一般將管制狀態下的
平均連串長度記為
ARL0,失控狀態下的平均連串長度記為
ARL1,因此
0 0 1 ( ) ARL E R α = =,
1 1 1 ( ) 1 ARL E R β = = −
。
根據以上敘述,希望
ARL0越大越好,減少誤判率;希望
ARL1越小越好,
加快偵測速度。可惜兩者無法兼得,所以常採「固定
ARL0,選取有最
小
ARL1者」作為選擇管制圖的準則。
如果每個樣本相互獨立且來自相同分配(independent and
identically distributed;i.i.d.),且參數已知、管制界限固定,在管制狀
態下每個樣本點落在管制界限外為一伯努利試驗(Bernoulli trial),其
機率為
p,而連串長度就是參數為 p 之幾何分配,幾何分配的平均數
也是管制狀態下的平均連串長度為
1/ p,標準差(SDRL)為
1−p p/。
假設某一產品特性服從常態分配,當製程在管制狀態下,參數已
知,一般會使用三倍標準差(
3σ)當作管制界限,則樣本點落在管制界
限外的機率為
1− Φ(3)+ Φ − =( 3) 0.0027,則連串長度為參數是
0.0027的幾
何分配,
ARL0 =1/ 0.0027 370.4,
SDRL0 = 1 0.0027 / 0.0027− 369.9。
2.4 使用估計的參數所產生之問題
使用估計的參數在管制圖上所帶來之影響的這類問題直到
時來討論會誤導的可能結果,例如作者用
ˆ p S σ當作
σ的估計量,發現不
管在管制狀態下或是失控狀態下,ARL 在用估計量時都會比參數已
知時大,且
ˆ p S σ的自由度越小時 ARL 越大。Quesenberry (1993)使用
σˆS、
Chen (1997)分別使用
σˆR、
σˆS、
ˆ p S σ當作
σ的估計量,兩篇論文同樣指
出 ARL 和 SDRL 都會比參數已知時大,尤其 SDRL 會大很多;而且
當子群內樣本數
n 固定,子群數 m 越小時,ARL 和 SDRL 會越大。
Chen (1997)這篇還提到:當子群數 m 固定,子群內樣本數 n 越小時,
ARL 和 SDRL 也會越大;一般較建議使用
ˆ p S σ,因為用
ˆ p S σ算出來的
ARL 和 SDRL 會比較接近
σ已知之情況,但就簡單性而言則建議用
ˆR σ;在偏移較小的失控狀態下用估計的參數比偏移較大時,對 ARL
和 SDRL 的影響更嚴重。
Jensen, Jones-Farmer, Champ, and Woodall (2006)指出階段 I 使用
估計的參數所產生之估計誤差會嚴重影響階段 II 管制圖的表現,與
參數已知時有所差別。
2.5 子群數 m 和子群內樣本數 n 的選取
使用 Shewhart 管制圖時,必須先蒐集足夠的樣本,以確保估計
準確,通常我們會使用合理子群。使用合理子群的觀念是希望資料蒐
集的方式會使得可歸屬原因發生的時間會介於兩組子群之間,而非某
一子群之內;如此,子群之間的差異大,而子群之內的差異小,管制
圖才能快速偵測到變異。而子群數
m 和子群內樣本數 n 要多大才是
〝足夠〞呢?當階段 I 的樣本全部來自管制狀態下,根據 Montgomery
(2005),通常都選定 m = 20 ~ 30 且 n = 3 ~ 5。
但 Quesenberry (1993)提到不同的看法,作者認為 m = 20 ~ 30 而
n = 4 或 5 這數目是不足以讓估計的參數和參數已知時所做的管制界
限接近,也就是低估獲得準確管制界限所需要的樣本數。作者指出當
階段 I 的樣本全部來自管制狀態下,在 n = 5 時,m 至少要 100,估計
的參數之管制界限才能夠近似參數已知時之管制界限。
Chen (1997)認為
μ和
σ必須估計的時候,在
n = 5,m 至少要 100;
n = 10,m 至少要 50,
X管制圖的表現才會接近參數已知之情況。
Jensen, Jones-Farmer, Champ, and Woodall (2006)也指出當子群數 m 越
大時,使用估計的參數在管制狀態下所得的平均連串長度,會收斂到
參數已知時所得的平均連串長度。
子群數
m 太小會估計不準,太大則不符合經濟效益,所以必須
第三章 傳統方法與新方法之探討
3.1 混合樣本
3.1.1 混合樣本之介紹
蒐集 m 個樣本:
Y Y1, 2,L,Ym,若之中有(m-k)個樣本來自管制狀態
下,平均數為
μ0、變異數為
2 σ、累積分配函數(cumulative distribution
function;c.d.f.)為
F y0( )之常態分配;有
k 個樣本來自失控狀態下,平
均數為
μ1、變異數為
2 σ、累積分配函數為
F y1( )之常態分配。
定義平均數偏移程度,
δ =(μ μ σ1− 0) /,代表平均數偏移了
δ倍的
標準差。在不失一般性下,可假設
μ0 =0、
σ =1。因為樣本只來自兩
個不同的常態分配,所以本文只觀察平均數變大的情況。令來自失控
狀態下的樣本比例為
p k m= /,管制狀態下的樣本比例為
1− =p (m k m− ) /。則樣本平均數
1 / m i i Y Y m = =∑
之期望值為
1 1 0 1 ... ... ( ) ( ) m k m k m Y Y Y Y E Y E m m k k m μ μ − − + + + + + + ⎛ ⎞ = ⎜ ⎟ ⎝ ⎠ − + == −(1 p)μ0+ pμ1。 ( ) E Y
可以有兩種表示方法:
0 1 0 0 ( ) ( ) E Y =μ + p μ μ− =μ + pδσ =μ1− −(1 p)(μ μ1− 0)=μ1− −(1 p)δσ。 Y之變異數為
1 ... 1 ... ( ) Y Ym k Ym k Ym Var Y Var m − − + + + + + + ⎛ ⎞ = ⎜ ⎟ ⎝ ⎠
2 2 2 m m m σ σ = = 。
3.1.2
X混合樣本與
X管制圖
蒐集
m 組獨立樣本,每組樣本為包含 n 個觀察值之一合理子群,
其樣本平均數
1 / n i i X X n = =∑
。在
m 個
X中,有(m-k)個
X來自管制狀態
下,平均數為
μ0、變異數為
2 / n σ之常態分配;有
k 個
X來自失控狀態
下,平均數為
μ1、變異數為
2 / n σ之常態分配。令
Y =X。若我們如一
般情形用
X當作中心線,因
E(X)=E( )Y = −(1 p)μ0+pμ1,則中心線其實
是
E Y( )。假設管制中心線到上下限的距離為
L 倍的子群平均
X之標準
差,且每個
X之變異數均為
2 / n σ,則
X管制圖之管制界限為
(
E Y( ) L n σ −,
E Y( ) L n σ +)。
此管制圖之假警報率為
0 0 0 0 0 0 0 0 0 0 0 0 0 0 ( | ) ( | ) / / ( | ) ( | ) / / / ( / ( | ) ( | ) / ( / ) ) P X E Y L F P X E Y L F n n X p L n X p L n P F P F n n n n X X P n p L F P n p L F n n σ σ α μ μ δσ σ μ μ μ δσ σ μ σ σ σ σ μ δ μ δ σ σ = > + + < − − + + − − + − − = > + < − − = > + + < − = − Φ1 ( n pδ +L)+ Φ( n pδ −L),
其中
Φ為標準常態分配之累積分配函數。而檢定力為
1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 ( | ) ( | ) (1 ) (1 ) / ( | ) ( | ) / / / / ( (1 ) | ) ( (1 ) | ) ( ) ( / ) / P X Y L F P X Y L F n n p L X p L n X n P F P F n n n n E E X X P n p L F P n p L F n n σ σ β σ μ δσ μ μ μ δσ σ μ μ σ σ σ σ μ δ μ δ σ σ − = > + + < − − − − − − − − + − − = > + < − − = > − − + + < − − −
= − Φ −1 ( n(1−p)δ +L)+ Φ −( n(1−p)δ−L)
。
給定 L = 3、n = 5、
δ= 0(0.5)3、p = (0.01, 0.05, 0.1, 0.15, 0.2),
表一為不同
δ, p值組合下,
α與
1−β的理論值。此種計算方法就是在
階段 I 蒐集樣本,誤以為樣本全部來自管制狀態下,所以用全部的樣
本計算
X和
ˆ p S σ來分別估計
μ0和
σ,不做任何篩選或刪除樣本的動
作,稱之為直接估計法。但在階段 I 最常用來估計參數的方法本文稱
之為重複篩選法,這兩種傳統估計方法會於下一節中詳細介紹。
3.2 傳統方法
3.2.1 直接估計法
直接估計法的實際模擬步驟如下:
步驟一. 給定子群數
m、子群內樣本數 n、平均數偏移程度
δ和失控狀
態下的樣本比例
p。生成
m× −(1 p)×n個樣本,其來自管制狀
態下,平均數為
μ0、變異數為
2 σ之常態分配;
m p n× ×個樣本,
其來自失控狀態下,平均數為
μ1、變異數為
2 σ之常態分配。
步驟二. 使用總樣本平均數
X估計
μ0及綜合樣本標準差
σˆSp估計
σ。
步驟三. 計算
X混合樣本之管制界限(
ˆ / p S X L− σ n,
ˆ / p S X L+ σ n)。
步驟四. 計算管制狀態下的樣本中
X會落在管制界限外之個數,記為
a;計算失控狀態下的樣本中
X會落在管制界限外之個數,記
為
b。當資料全部來自管制狀態下,則
α =a m/,
1− =β NA。
當資料有(1-p)的比例來自管制狀態下,而 p 比例來自失控狀
態下,則計算
α =a m/[ (1−p)],
1− =β b m p/( × )。
步驟五. 重複步驟一到步驟四共
N 次,然後求此 N 個
μˆ0、
σˆ、
α和
1−β的平均值及標準差。
給定
μ0 =0、
σ =1、
L = 3、m = 100、n = 5、
δ= 0(0.5)3、p = (0.01,
0.05, 0.1, 0.15, 0.2),表二為不同
δ, p值組合下各模擬
N = 10000 次所
得之 10000 個
μˆ0、
σˆ、
α 、1−β的平均值及標準差。
3.2.2 重複篩選法
Montgomery (2005)指出,當最初的樣本被用來建構
X管制圖時,
我們會先得到試驗的管制界限,以決定這些樣本是否為在管制狀態下
得到的資料。為了檢定在管制狀態下的假設,我們在
X管制圖繪出每
組樣本的值來分析它的表現:假如每一個樣本點都落在管制界限內且
沒有順序性或非隨機性的圖形出現,我們說此製程在管制狀態下;若
計算新的試驗管制界限,這過程將一直被重複,直到所有點都在試驗
管制界限內,此時則認定篩選過後的樣本點均為製程在管制狀態下所
得的資料,可以用來建構管制圖,給階段 II 進行監控動作。
實務上,一般會藉此重複篩選法,來處理階段 I 混合樣本的情況,
希望將失控狀態下的樣本全部刪除後,只剩管制狀態下的樣本來估計
參數。實際模擬步驟如下:
步驟一. 同 3.2.1 小節的步驟一,生成樣本。
步驟二. 同 3.2.1 小節的步驟二,估計參數。
步驟三. 同 3.2.1 小節的步驟三,計算管制界限。
步驟四. 當有
X落在管制界限外,我們刪除對應這些
X的子群,使用
剩下來的樣本當作新資料。
步驟五. 重複步驟二到四,直到沒有
X落在管制界限外為止。
步驟六. 同 3.2.1 小節的步驟四,計算假警報率
α、檢定力
1−β。
步驟七. 同 3.2.1 小節的步驟五,重複步驟一到步驟六共 N 次。
給定
μ0 =0、
σ =1、
L = 3、m = 100、n = 5、
δ= 0(0.5)3、p = (0.01,
0.05, 0.1, 0.15, 0.2),表三為不同
δ, p值組合下各模擬
N = 10000 次所
得之 10000 個
μˆ0、
σˆ、
α 、1−β的平均值及標準差。
3.2.3 使用直接估計法與重複篩選法之缺失與討論
在階段 I 中,如果管制狀態下的參數未知,必須使用估計的參數
時,兩者差距必定越小越好。當資料為混合樣本,我們希望估計的參
數
μˆ0、
σˆ和管制狀態下的參數
μ0、
σ很接近。
首先觀察表二,使用直接估計法,
μˆ0平均值會隨
δ和
p增加而變
大(除了
δ =0之外),這裡的
μˆ0其實是估計混合樣本的樣本平均數之期
望值
E X( ),所以拿來估計
μ0是很不恰當的。再觀察表三,使用重複
篩選法,仍有些
μˆ0平均值和
μ0很不接近,雖然有經過篩選的動作,但
有可能在篩選的過程中把來自管制狀態下的樣本給刪除,或無法把來
自失控狀態下的樣本全部刪除,因此影響到
μˆ0的準確性。
再觀察表一中
α和
1−β之理論值和表二、表三中傳統兩種方法之
α和
1−β平均值歸類出以下結果:
(1)當 p 不變,
δ變大,則
α
變大,1-
β
變大。
(2)當
δ ( 0)≠不變,
p 變大,則
α
變大,1-
β
變小。
我們可以由下面圖形解釋其原因:(1) p 不變,
δ變大,管制界限
往右移,但受到管制狀態下的樣本之牽制,移動速度不及失控狀態下
的常態分配往右移的速度,所以
α
變大,1-
β
變大;(2)
δ不變,
p 變
大,管制界限往右移,但失控狀態下的樣本固定不動,只向上增長,
所以
α
變大,1-
β
變小。
(1) p 不變,
δ變大:
(2)
δ不變,
p 變大:
3.3 新方法
3.3.1 新方法之起源
在不同
δ, p值組合下,當使用直接估計法,
μˆ0平均數表現最差的
情況在
( , )δ p =(3, 0.2);而當使用重複篩選法,
μˆ0平均數表現最差的情
況在
( , )δ p =(1, 0.2)。所以我們先觀察這兩種組合的情況:(1)、給定八
十個
X來自管制狀態下的常態分配
N(0,1/ 5),二十個
X來自失控狀態
下的常態分配
N(3,1/ 5);(2)、給定八十個
X來自管制狀態下的常態分
配
N(0,1/ 5),二十個
X來自失控狀態下的常態分配
N(1,1/ 5)。使用核密
度估計量(Kernel Density Estimator;KDE)來估計這一百個
X組成的混
合樣本之機率密度函數(probability density function;p.d.f.),其圖形如
下:
由上圖發現密度函數最高點對應的
X值,很接近管制狀態下的常
態分配之平均數
μ0 =0,因此觸發「使用核密度估計量來估計
X混合
樣本之密度函數,並用對應最大密度函數值的
X值,來估計管制狀態
下之平均數
μ0」此想法。
3.3.2 核密度估計量之介紹
直方圖(histogram)和次數多邊形(frequency polygon) 簡單易作、
容易解釋,且不需要高階繪圖軟體,是最常被使用的密度函數估計
量,但有兩個嚴重的缺點:(1)、圖形不夠平滑(smooth);(2)、對密度
0 ( ) ( ) ( ) ( ) lim 2 h d F x h F x h f x F x dx → h + − − = =
,
其中
F x( )為累積分配函數。用經驗累積分配函數(empirical cumulative
distribution function)取代
F x( ):
#{ ( , ]} ˆ ( ) 2 i x x h x h f x nh ∈ − + =,
其中
{ , ...,x1 xn}代表
n 個隨機樣本。上式可改寫成核密度估計量的形式:
1 1 ˆ ( ) ( ) n i i x x f x K nh = h − =∑
,
其中
h 為帶寬(bandwidth);當
− < ≤1 u 1,
K u( ) 1/ 2=,否則為 0。
帶寬的選擇會影響估計量的表現,帶寬大,圖形變異(variance)
小,但偏誤(bias)大;帶寬小,圖形變異大,但偏誤小。變異和偏誤
間互為消長是無法避免的。
K u( )
為核函數(kernel function),常用的核函數有:
(1)、Uniform 密度函數:當
− < ≤1 u 1,
K u( )=0.5,否則為 0,
(2)、Quadratic 密度函數:當
− < ≤1 u 1,
K u( )=0.75(1−u2),否則為 0,
(3)、Gaussian 密度函數:
1/ 2 2 ( ) (2 ) exp( / 2) K u = π − −u。
由核密度估計量的形式可知,
f xˆ ( )的之連續性、可微性,跟
K u( )一致。本文提出的新方法,是選用 Gaussian 密度函數當作核函數。
3.3.3 核密度估計法
本文的方法是使用核密度估計量來估計密度函數,沒有假設任何
參數,為一無母數方法。實際模擬步驟如下:
步驟一. 同 3.2.1 小節的步驟一,生成樣本。
步驟二. 使用核密度估計量來估計
X混合樣本之密度函數。
步驟三. 用對應最大密度函數值的
X值來估計
μ0,用綜合樣本標準差
ˆ p S σ來估計
σ。
步驟四. 同 3.2.1 小節的步驟三,計算管制界限。
步驟五. 同 3.2.1 小節的步驟四,計算假警報率
α、檢定力
1−β。
步驟六. 同 3.2.1 小節的步驟五,重複步驟一到步驟五共 N 次。
給定
μ0 =0、
σ =1、
L = 3、m = 100、n = 5、
δ= 0(0.5)3、p = (0.01,
0.05, 0.1, 0.15, 0.2)、h =0.1(0.2)0.7,表四為不同
δ, ,p h值組合下各模擬
N = 10000 次所得之 10000 個
μˆ0的平均值及標準差。
觀察表四,我們發現帶寬越大,
μˆ0標準差越小,但
μˆ0平均值越不
靠近
μ0;帶寬越小,
μˆ0標準差越大,但
μˆ0平均值越靠近
μ0。當
h = 0.5,
0 ˆ μ平均值幾乎都小於 0.1,且
μˆ0標準差和傳統兩種方法的
μˆ0標準差差
不多,所以本文中核密度估計法的帶寬
h 選定為 0.5。表五列出 h = 0.5
時,不同
δ, p值組合下各模擬
N = 10000 次,
μˆ0、
α、
1−β的平均值
及標準差。
3.3.4 使用核密度估計法之缺失
分)和來自失控狀態下的樣本之密度函數(右虛線部分)經過堆疊後產
生混合樣本之密度函數(實線部分),其最大密度函數值對應的
X值會
偏離
μ0 =0,尤其失控狀態下的樣本比例
p 越大時,偏離的程度越嚴
重;當平均數偏移程度
δ夠大,如下方右圖中
( , )δ p =(2, 0.2)的情況,
最大密度函數值的位置不會由管制狀態下和失控狀態下之密度函數
堆疊產生,所以
μˆ0仍然很接近
μ0。
3.4 階段 II 平均連串長度的計算
從階段 I 得到固定的
μˆ0和
σˆ,在階段 II 建立
X的管制界限
0 ˆ Lˆ / n μ ± σ。當階段 II 的樣本來自管制狀態下:
2 2 0 0 ~ ( , ) ~ ( , ) X N X N n σ μ σ ⇒ μ,
則被判定在失控狀態下之假警報率為
0 0 0 0 0 0 0 0 ˆ ˆ ˆ ˆ ( ) ( ) ˆ / ˆ / ( ) ( ) / / / / P X L P X L n n X L n X L n P P n n n n σ σ α μ μ μ μ σ μ μ μ σ μ σ σ σ σ = > + + < − − + − − − − = > + <0 0 0 0 ˆ / ˆ / 1- ( ) ( ) / / L n L n n n μ σ μ μ σ μ σ σ + − − − = Φ + Φ
,
故可得
0 1 ARL α =,
0 0 0 1 1 1 ( 1) ( 1) SDRL α ARL ARL α α α − = = − = −。
當階段 II 的樣本來自失控狀態下,且偏移
δ%倍的標準差:
2 2 0 0 ~ ( , ) ~ ( , ) X N X N n σ μ δσ σ+ % ⇒ μ δσ+ %,
則被判定在失控狀態下之檢定力為
0 0 0 0 0 0 0 0 ˆ ˆ ˆ ˆ 1 ( ) ( ) ˆ / ˆ / ( ) ( ) / / / / P X L P X L n n X L n X L n P P n n n n σ σ β μ μ μ δσ μ σ μ δσ μ δσ μ σ μ δσ σ σ σ σ − = > + + < − − − + − − − − − − − = % > % + % < % 0 0 0 0 ˆ / ˆ / 1- ( ) ( ) / / L n L n n n μ σ μ δσ μ σ μ δσ σ σ + − − − − − = Φ % + Φ %,
故可得
1 1 1 ARL β = −,
1 1 1 1 1 ( 1) ( 1) 1 1 1 SDRL β ARL ARL β β β = = − = − − − −。
給定
μ0 =0、
σ =1、
L = 3、n = 5、
δ= 0(0.5)3、p = (0.05, 0.1, 0.15,
0.2)、m = (20, 40, 100, 300, 500, 1000),從階段 I 每得到一組固定的
μˆ0和
σˆ,就計算
δ%=0(0.5)3.0 的 ARL 和 SDRL。
對每個
m和
δ%的組合,上排左邊表示 ARL 的平均估計量,記為
ARL
,由 10000 個 ARL 的平均得來;上排右邊括號中是
ARL的標準
差;下排表示 SDRL 的平均估計量,記為
SDRL,由 10000 個 SDRL
的平均得來。表格中最下面一排為參數已知時 ARL 和 SDRL 的理論
第四章 數值比較與其他相關討論
4.1 階段 I 的比較
在階段 I 估計方法的比較有兩個準則:(1)
μ0和
σ估得好不好、(2)
α和
1−β的大小。由於本文三種估計方法都是使用
ˆ p S σ估計
σ,所以省
略
σˆ比較的部分。
將表二、表三、表五中,使用三種不同的估計方法,10000 個模
擬
μˆ0平均值、
μˆ0標準差、
α平均值、
α標準差、
1−β平均值、
1−β標
準差之折線圖,分別繪於圖一至圖六。圖中黑色實線表示使用直接估
計法,藍色實線表示使用重複篩選法,紅色實線表示使用核密度估計
法。
觀察圖一,我們發現在平均數偏移程度較小時(
δ =0.5, 1, 1.5),p
越大的時候,三種方法之
μˆ0平均值越不接近
μ0,但使用核密度估計法
之
μˆ0平均值還是比傳統兩種方法來得接近。當樣本全部來自管制狀態
下或平均數偏移程度較大時(
δ =2, 2.5, 3),使用核密度估計法之
μˆ0平均
值很接近
μ0。再觀察圖二,我們發現三種方法之
μˆ0標準差相差於 0.05
之內,大致看來,使用核密度估計法之
μˆ0標準差略大,使用直接估計
和傳統兩種方法差不多。當平均數偏移程度較大時(
δ =1.5, 2, 2.5, 3),p
越大的時候,使用核密度估計法之
α平均值和標準差比傳統兩種方法
來得小。
觀察圖五,我們發現使用核密度估計法之
1−β平均值幾乎比傳統
兩種方法來得大。觀察圖六,我們發現三種方法之
1−β標準差相差於
0.05 之內,大致看來,在平均數偏移程度較小時(
δ =0.5, 1),使用核密
度估計法之
1−β標準差略大;在平均數偏移程度較大時(
δ =2, 2.5, 3),
使用核密度估計法之
1−β標準差略小。
4.2 階段 II 的比較
階段 II 的比較準則為管制狀態下和失控狀態下平均連串長度的
表現。當
ARL0越大,表示誤判率越低;而
ARL1越小,表示偵測力越好。
因為使用不同估計的參數會得到不同的 ARL 值,所以我們計算期望
ARL(亦即
ARL),並觀察期望 ARL 是否和參數已知時之 ARL 值是否
接近。
將表六、表七、表八中,階段 I 為
( , )δ p =(0, 0.05)、
(1, 0.2)、
(2, 0.1)時的情況,使用三種不同的估計方法,階段 II 為
δ%=0 時的
ARL0和
δ%=0.5、2 時的
ARL1之折線圖,分別繪於圖七至圖八。圖中黑色實線
表示使用直接估計法,藍色實線表示使用重複篩選法,紅色實線表示
使用核密度估計法,深綠色虛線表示參數已知的情況。
觀察圖七,當階段 I 為
( , )δ p =(0, 0.05)時的情況,因為階段 I 樣本
全部來自管制狀態下
,
m 越大的時候,
μˆ0估計得越準確,所以三種估
計方法之
ARL都很接近參數已知時之 ARL 值。在階段 II 為
δ%=0 時的
情況,使用核密度估計法之
ARL0比傳統兩種方法更接近參數已知時之
0 ARL,而其他情形二者表現差不多。
觀察圖八,當階段 I 為
( , )δ p =(1, 0.2)時的情況,因為
μˆ0估計得不
準確,不管
m 是多少,三種方法之
ARL都和參數已知時之 ARL 值差
很遠。而且
ARL0比參數已知時之
ARL0小很多、
ARL1比參數已知時之
1 ARL
大很多。這代表當階段 II 樣本來自管制狀態下,誤判率增加;
而當階段 II 樣本來自失控狀態下,偵測力變差。不過,比較之下,
使用核密度估計法之
ARL還是比傳統兩種方法接近參數已知時之
ARL 值。
觀察圖九,當階段 I 為
( , )δ p =(2, 0.1)時的情況,使用直接估計法,
因為
μˆ0估計得不準確,不管
m 是多少,ARL
都很不接近參數已知時之
ARL 值;m 越大的時候,使用重複篩選法和核密度估計法之
ARL都越
接近參數已知時之 ARL 值,不過,比較起來,使用核密度估計法之
ARL還是比重複篩選法之
ARL接近。
配,於是我們將核密度估計法套用於 t 分配和 logistic 分配,其特性
為管制狀態下之分配會在平均值附近呈現高峰。實際模擬與估計步驟
如下:
步驟一、同 3.2.1 小節的步驟一,生成樣本,將樣本來自常態分配
改成來自 t 分配或 logistic 分配。
步驟二、使用核密度估計量來估計
X混合樣本之密度函數。
步驟三、用對應最大密度函數值的
X值來估計
μ0。
步驟四、同 3.2.1 小節的步驟五,重複步驟一到步驟三共 N 次。
給定
μ0 =0、
m = 100、n = 5、
δ= 0(0.5)3、p = ( 0.05, 0.1, 0.15,
0.2)、h =0.5、t 分配之自由度
ν= (5, 10, 20, 30),表十為不同
δ, ,p ν值
組合下各模擬
N = 10000 次所得之 10000 個
μˆ0的平均值及標準差。t
分配(自由度為
ν)的變異數為
ν ν/( −2),所以對應不同的自由度
ν,t
分配之標準差為:
ν5 10
20
30
σ1.290994 1.118034 1.054093 1.035098
給定
μ0 =0、
m = 100、n = 5、
δ= 0(0.5)3、p = ( 0.05, 0.1, 0.15,
0.2)、h =0.5、logistic 分配之尺度參數(scale parameter)
β= (0.01, 0.1, 0.5,
1),表十一為不同
δ, ,p β值組合下各模擬
N = 10000 次所得之 10000
個
μˆ0的平均值及標準差。logistic 分配(尺度參數為
β)的變異數為
2 2
/ 3
β
0.01 0.1 0.5 1
σ0.018138 0.181380 0.906900 1.813799
觀察表十、表十一,發現當
σ越小,如 logistic 分配之尺度參數
為 0.01 的情況,因為分配圖形越集中,不容易發生堆疊的現象,所
以
μˆ0平均值越接近
μ0、
μˆ0標準差越小。但當
σ越大,如 t 分配之自由
度為 5 及 logistic 分配之尺度參數為 1 的情況,在平均數偏移程度較
小時(
δ =0.5, 1),p 越大的時候,
μˆ0平均值越不接近
μ0、μˆ0標準差越大。
4.4 其他相關探討之帶寬的選擇
在階段 I 中,並不知道樣本來自管制狀態下和失控狀態下的常態
分配之參數分別是多少,雖然帶寬
h= 0.5 可以用於
N(0, 1)偏移到
N(3, 1)的情形,卻不適用於
N(0, 9)偏移到
N(9, 9)的情形,儘管平均數偏移程
度
δ一樣等於三。
先前提到帶寬
h 選擇上,無法避免變異和偏誤之間的一消一長,
通常這時候會使用平方誤差(squared error;SE)的期望值,均方誤差
(mean squared error;MSE)來評定一個估計量的優劣,
2 ˆ [ ( ) ( )] SE= f x − f x
,
2 ˆ [ ( ) ( )] MSE E f x= − f x(mean integrated squared error;MISE),
2 ˆ [ ( ) ( )] ISE ∞ f x f x dx −∞ =∫
−,
2 ˆ [ ( ) ( )] MISE E ∞ f x f x dx −∞ =∫
−。
而漸近積分均方誤差(Asymptotic mean integrated squared error;
AMISE)較容易計算,讓漸近積分均方誤差達到最小的
h0為本文提供
的另一種
h 之選擇。
Simonoff (1996)指出,用 m 個樣本做密度函數 f 之核密度函數估
計,
1/ 5 1/ 5 0 4 ( ) [ ] ( ) K R K h m R f σ − = ′′,
其中,
2 ( ) ( ) R K =∫
K u du,
2 2 ( ) K u K u du σ =∫
。因欲估計之密度函數
f是未
知的,最直接的做法是代入一個特定分配,如 Gaussian;當核函數也
使用 Gaussian 密度函數時,
1/ 5 0 1.059 h = σ′m−,
其中
σ′為
m 個樣本的標準差。
4.5 其他相關探討之 L 的建議
2.3 節提到,在階段 I 中,通常會固定型 I 錯誤的機率,作為比
較基準點,然後選取具有最大檢定力之管制圖。當製程在管制狀態
下,設定
L = 3 時,犯型 I 錯誤的機率之理論值為 0.0027;當樣本全
部來自管制狀態下,使用核密度估計法估計參數,
μˆ0和
σˆ為隨機變
數,則管制界限
(μˆ0−Lσˆ/ n,μˆ0+Lσˆ/ n)為隨機區間,若希望
X落在管
制界限外的機率期望值是 0.0027,可以調整 L 以達到此目的。
換句話說,我們想找到一個 L,使得
X落在
(μˆ0−Lσˆ/ n,μˆ0+Lσˆ/ n)管制界限內的機率期望值為 0.9973。先假設
σ已知的情況:
0 0 0 ˆ 0 0 0 0 0 0 0 ˆ ˆ 0 0 ˆ ˆ ˆ / ˆ / / [ ( )] [ ( / / ˆ ˆ )] [ ( )] E P L X L n n L X L E P E P n L Z n n n n L n n μ μ μ μ μ μ σ μ μ μ σ μ σ σ σ σ μ σ μ − ≤ ≤ + − − − + − = ≤ ≤ = − ≤ ≤ +0 ˆ [ ( ˆ0 ) ( ˆ0 )] Eμ nμ L nμ L = Φ + − Φ −
,
在不失一般性下,可假設
μ0 =0,σ =1,上述式子中,
Z 代表標準常態
隨機變數。令
g(μˆ0)= Φ( nμˆ0+L)− Φ( nμˆ0−L),當模擬次數
r 夠大時,
0 ˆ [ (ˆ0)] E gμ μ可用
r 個
g( ˆ )μ0值之平均值來逼近,給定重複次數
r =
100,000,m = (30, 50, 100, 300, 500, 1000),我們對兩種不同 h 的選擇
方法(h = 0.5 和
1/ 5 0 1.059 h = σ′m−),分別提供
L 的逼近值,見表九(a)。
管制界限也會跟著偏移,
α增加的比例一定比
α減少的比例多,所以
α一定會變大;另外,當
m 越小,估計得越不準確,
μˆ0偏移得越多,
α會變更大,此時就需要較大的
L 讓
α維持不變。
此外,我們可利用變數變換來證明
E[ (Φ nμˆ0+L) -Φ( nμˆ0-L)]和
n
無關,如下:
令
y= nμˆ0,則
0 ˆ 1 1 ( ) ( ) Y f y f y n μ n =。
所以,
0 0 0 ˆ 0 0 ˆ 0 0 0 0 ˆ ˆ ˆ ˆ ˆ ˆ ˆ [ ( ) - ( - )] [ ( ) - ( - )] ( ) 1 1 [ ( ) - ( - )] ( ) [ ( ) - ( - )] Y( ) E n L n L n L n L f d y L y L f y dy n n y L y L f y dy μ μ μ μ μ μ μ μ μ Φ + Φ = Φ + Φ = Φ + Φ = Φ + Φ∫
∫
∫
=EY[ (Φ +y L) -Φ( - )]y L。
因
μˆ0乃由
m 個
X之值經由密度函數估計求得,而這些
X之標準差為
/ n σ,因此
Y 可以說是由 m 個標準差為
σ之隨機變數得來,因此與
n 無關。故
X落在管制界限內之期望機率和
n 無關。當
σ未知的情況:
0 0 0 ˆ , 0 0 0 0 0 0 0 ˆ , 0 0 0 ˆ 0 ˆ , ˆ ˆ ˆ ˆ ˆ ˆ/ ˆ ˆ ˆ ˆ [ ( )] [ ( )] ( ( [ ( )] ˆ ˆ / ˆ/ ˆ/ ˆ/ ˆ ) ˆ ) E P L X n n L n n L X L E P n n E P n L T L n n μ μ σ σ σ μ μ μ μ σ μ μ μ σ μ σ σ σ σ σ σ μ μ σ μ μ − ≤ ≤ + − − − + − = ≤ ≤ − ≤ ≤ − + − = 0 0 0 0 ˆ , ˆ 0 ˆ ) ˆ ) ( ( [ ( ) ( )] ˆ ˆ n n Eμ σ L L σ μ μ σ μ μ = Φ% − + −Φ% − −,
在不失ㄧ般性下,可假設
μ0 =0,上述式子中,
T 為自由度為(n-1)的 t
分配,
Φ%為自由度為(n-1)的 t 分配之累積分配函數。因為 t 分配和 n
有關,所以
L 和 n 也有關,因此我們只列出 m = 100,n = 2(1)19
,
第五章 結論及未來研究方向
針對階段 I 樣本皆來自常態分配,部分樣本來自製程發生平均數
偏移的情況,我們提出核密度估計法來估計管制狀態下的常態分配之
平均數
μ0,並發現當平均數偏移程度
δ較大時,估計表現尤佳。
事實上,核密度估計法並不受限於來自常態分配之樣本;而且,
失控狀態下的樣本不一定要和管制狀態下的樣本一樣來自同一分
配。另外,核密度估計法也可用於製程同時發生平均數偏移或變異數
改變之情況,只要混合樣本的分布情形在管制狀態下之分配平均值附
近呈現高峰皆適用。
我們曾經嘗試將核密度估計法套用於估計變異數的時候,但因為
樣本變異數服從 Gamma 分配,其密度函數最高點不會對應到平均
數,所以估計效果很差。未來可以繼續研究新的估計方法,希望其對
樣本不只來自兩個不同的分配之情況皆適用。
參 考 文 獻
1. Champ, C. W. and Chou, S. P. (2003). “Comparison of Standard and
Individual Limits Phase I Shewhart
X, R, and S Charts”. Quality
and Reliability Engineering International 19, pp. 161-170.
2. Chen, G. (1997). “The Mean and Standard Deviation of the Run
Length Distribution of
XCharts When Control Limits Are
Estimated”. Statistica Sinica 7, pp. 789-798.
3. Ghosh, B. K., Reynolds, M. R., and Hui, Y. V. (1981). “Shewhart
X-Charts with Estimated Process Variance”. Communications in
Statistics- Theory and Methods 18, pp. 1797-1822.
4. Jensen, W. A., Jones-Farmer, L. A., Champ, C. W., and Woodall, W.
H. (2006). “Effects of Parameter Estimation on Control Chart
Properties: A Literature Review”. Journal of Quality Technology 38,
pp. 349-364.
5. Montgomery, D. C. (2005). Introduction to Statistical Quality
Control, 5th ed. John Wiley, New York.
6. Quesenberry, C. P. (1993). “The Effect of Sample Size on Estimated
Limits for
Xand
XControl Charts”. Journal of Quality Technology 25,
pp. 237-247.
7. Shewhart, W. A. (1931). Economic Control of Quality of
Manufactured Product. D. Van Nostrand, New York.
8. Simonoff, J. S. (1996). Smoothing Methods in Statistics.
Springer-Verlag, New York.
表一:資料為混合樣本,用
E X( ) 3 /± σ n當管制上下限之
α和
1−β的理論值
α理論值
δ p 0 0.5 1 1.5 2 2.5 3 0.01 0.0027 0.0027 0.0027 0.0027 0.0027 0.0027 0.0028 0.05 0.0027 0.0027 0.0029 0.0031 0.0034 0.0038 0.0043 0.1 0.0027 0.0029 0.0034 0.0043 0.0056 0.0075 0.0100 0.15 0.0027 0.0031 0.0043 0.0065 0.0100 0.0154 0.0231 0.2 0.0027 0.0034 0.0056 0.0100 0.0177 0.0299 0.0486 1−β理論值
δ p 0 0.5 1 1.5 2 2.5 3 0.01 0.0027 0.0292 0.2158 0.6257 0.9233 0.9944 0.9999 0.05 0.0027 0.0263 0.1906 0.5739 0.8941 0.9896 0.9996 0.1 0.0027 0.0231 0.1617 0.5075 0.8473 0.9789 0.9988 0.15 0.0027 0.0202 0.1358 0.4408 0.7885 0.9601 0.9966 0.2 0.0027 0.0177 0.1129 0.3757 0.7183 0.9295 0.9910表二:資料為混合樣本,使用直接估計法估計參數,10000 個模擬
μˆ0、
σˆ、
α和
1−β的平均值及標準差
0 ˆ μ平均值(
μˆ0標準差):
δ p 0 0.5 1 1.5 2 2.5 3 0.01 0.0001( 0.0448 ) 0.0052 ( 0.0443 ) 0.0103 ( 0.0450 ) 0.0154 ( 0.0448 ) 0.0201 ( 0.0448 ) 0.0247 ( 0.0444 ) 0.0293 ( 0.0452 ) 0.05 -0.0004( 0.0443 ) 0.0243 ( 0.0447 ) 0.0499 ( 0.0449 ) 0.0752 ( 0.0446 ) 0.1002 ( 0.0449 ) 0.1250 ( 0.0452 ) 0.1505 ( 0.0451 ) 0.1 0.0000( 0.0444 ) 0.0498 ( 0.0446 ) 0.0997 ( 0.0443 ) 0.1499 ( 0.0446 ) 0.1990 ( 0.0445 ) 0.2494 ( 0.0446 ) 0.2999 ( 0.0452 ) 0.15 0.0006( 0.0448 ) 0.0749 ( 0.0448 ) 0.1498 ( 0.0446 ) 0.2248 ( 0.0444 ) 0.2995 ( 0.0442 ) 0.3746 ( 0.0447 ) 0.4499 ( 0.0447 ) 0.2 0.0001( 0.0446 ) 0.0995 ( 0.0445 ) 0.1997 ( 0.0446 ) 0.3004 ( 0.0443 ) 0.3998 ( 0.0450 ) 0.5005 ( 0.0449 ) 0.6001 ( 0.0449 ) ˆ σ平均值(
σˆ標準差):
δ p 0 0.5 1 1.5 2 2.5 3 0.01 0.9993 ( 0.0351 ) 1.0002 ( 0.0355 ) 0.9997 ( 0.0357 ) 1.0005 ( 0.0356 ) 0.9999 ( 0.0350 ) 1.0003 ( 0.0353 ) 1.0001 ( 0.0359 ) 0.05 0.9994 ( 0.0355 ) 0.9997 ( 0.0355 ) 1.0001 ( 0.0353 ) 0.9997 ( 0.0353 ) 0.9999 ( 0.0352 ) 1.0000 ( 0.0350 ) 0.9989 ( 0.0353 ) 0.1 0.9998 ( 0.0356 ) 1.0000 ( 0.0357 ) 0.9991 ( 0.0350 ) 0.9997 ( 0.0354 ) 1.0000 ( 0.0357 ) 0.9997 ( 0.0356 ) 1.0002 ( 0.0357 ) 0.15 1.0003 ( 0.0351 ) 0.9995 ( 0.0350 ) 0.9998 ( 0.0354 ) 1.0002 ( 0.0352 ) 1.0000 ( 0.0353 ) 0.9993 ( 0.0350 ) 0.9999 ( 0.0354 )α
平均值(
α標準差):
δ p 0 0.5 1 1.5 2 2.5 3 0.01 0.0028 ( 0.0054 ) 0.0028 ( 0.0054 ) 0.0027 ( 0.0053 ) 0.0027 ( 0.0053 ) 0.0027 ( 0.0053 ) 0.0028 ( 0.0054 ) 0.0027 ( 0.0052 ) 0.05 0.0027 ( 0.0053 ) 0.0028 ( 0.0055 ) 0.0029 ( 0.0057 ) 0.0031 ( 0.0058 ) 0.0034 ( 0.0060 ) 0.0038 ( 0.0064 ) 0.0043 ( 0.0068 ) 0.1 0.0028 ( 0.0053 ) 0.0029 ( 0.0058 ) 0.0034 ( 0.0062 ) 0.0044 ( 0.0070 ) 0.0057 ( 0.0080 ) 0.0074 ( 0.0091 ) 0.0100 ( 0.0107 ) 0.15 0.0027 ( 0.0053 ) 0.0031 ( 0.0061 ) 0.0043 ( 0.0071 ) 0.0065 ( 0.0087 ) 0.0101 ( 0.0109 ) 0.0157 ( 0.0135 ) 0.0234 ( 0.0165 ) 0.2 0.0027 ( 0.0053 ) 0.0033 ( 0.0064 ) 0.0056 ( 0.0085 ) 0.0101 ( 0.0113 ) 0.0177 ( 0.0151 ) 0.0302 ( 0.0191 ) 0.0489 ( 0.0245 ) 1−β平均值(
1−β標準差):
δ p 0 0.5 1 1.5 2 2.5 3 0.01 NA ( NA ) 0.0291 ( 0.1681 ) 0.2121 ( 0.4088 ) 0.6256 ( 0.4840 ) 0.9198 ( 0.2716 ) 0.9935 ( 0.0804 ) 0.9999 ( 0.0100 ) 0.05 NA ( NA ) 0.0279 ( 0.0738 ) 0.1925 ( 0.1776 ) 0.5764 ( 0.2220 ) 0.8936 ( 0.1396 ) 0.9893 ( 0.0456 ) 0.9997 ( 0.0080 ) 0.1 NA ( NA ) 0.0237 ( 0.0479 ) 0.1643 ( 0.1184 ) 0.5104 ( 0.1590 ) 0.8504 ( 0.1127 ) 0.9804 ( 0.0439 ) 0.9985 ( 0.0121 ) 0.15 NA ( NA ) 0.0198 ( 0.0357 ) 0.1360 ( 0.0894 ) 0.4392 ( 0.1288 ) 0.7890 ( 0.1051 ) 0.9598 ( 0.0504 ) 0.9965 ( 0.0152 ) 0.2 NA ( NA ) 0.0174 ( 0.0292 ) 0.1136 ( 0.0714 ) 0.3771 ( 0.1086 ) 0.7177 ( 0.1024 ) 0.9304 ( 0.0574 ) 0.9912 ( 0.0210 )表三:資料為混合樣本,使用重複篩選法估計參數,10000 個模擬
μˆ0、
σˆ、
α和
1−β的平均值及標準差
0 ˆ μ平均值(
μˆ0標準差):
δ p 0 0.5 1 1.5 2 2.5 3 0.01 -0.0006( 0.0454 ) 0.0045 ( 0.0449 ) 0.0071 ( 0.0457 ) 0.0039 ( 0.0456 ) 0.0018 ( 0.0455 ) 0.0004 ( 0.0464 ) 0.0004 ( 0.0461 ) 0.05 -0.0006( 0.0452 ) 0.0241 ( 0.0460 ) 0.0355 ( 0.0478 ) 0.0238 ( 0.0503 ) 0.0068 ( 0.0482 ) 0.0030 ( 0.0476 ) 0.0026 ( 0.0470 ) 0.1 0.0000( 0.0453 ) 0.0482 ( 0.0460 ) 0.0749 ( 0.0496 ) 0.0511 ( 0.0567 ) 0.0149 ( 0.0513 ) 0.0081 ( 0.0485 ) 0.0103 ( 0.0487 ) 0.15 -0.0004( 0.0450 ) 0.0726 ( 0.0462 ) 0.1186 ( 0.0520 ) 0.0873 ( 0.0636 ) 0.0285 ( 0.0559 ) 0.0170 ( 0.0510 ) 0.0243 ( 0.0505 ) 0.2 -0.0001( 0.0459 ) 0.0974 ( 0.0463 ) 0.1654 ( 0.0528 ) 0.1340 ( 0.0731 ) 0.0464 ( 0.0619 ) 0.0326 ( 0.0539 ) 0.0464 ( 0.0542 ) ˆ σ平均值(
σˆ標準差):
δ p 0 0.5 1 1.5 2 2.5 3 0.01 0.9997 ( 0.0356 ) 1.0007 ( 0.0354 ) 0.9996 ( 0.0360 ) 1.0004 ( 0.0358 ) 0.9998 ( 0.0356 ) 0.9999 ( 0.0353 ) 0.9998 ( 0.0355 ) 0.05 1.0002 ( 0.0353 ) 1.0003 ( 0.0358 ) 0.9996 ( 0.0359 ) 0.9996 ( 0.0365 ) 0.9998 ( 0.0367 ) 0.9997 ( 0.0363 ) 0.9999 ( 0.0365 ) 0.1 0.9994 ( 0.0353 ) 0.9997 ( 0.0360 ) 1.0000 ( 0.0358 ) 1.0007 ( 0.0368 ) 1.0009 ( 0.0373 ) 1.0001 ( 0.0369 ) 1.0002 ( 0.0380 ) 0.15 0.9997 ( 0.0357 ) 1.0003 ( 0.0357 ) 1.0007 ( 0.0355 ) 1.0003 ( 0.0377 ) 1.0001 ( 0.0383 ) 1.0002 ( 0.0384 ) 0.9997 ( 0.0393 )α