第一章 緒論
1.1 研究動機
積體電路晶片在現今生活中佔有舉足輕重的地位,且儼然成 為電腦科技的基礎,同時也刺激了相關科技產業的發展,故積體 電路的製程亦成為目前最備受矚目的焦點。
自 1958 年,第一個積體電路晶片的出現,製程技術不斷的改 進,直至今日,半導體產業已然成為科技產業的代名詞,由於半 導體的製程需要高度專業化之工具以便處理各種程序,而這些工 具皆精密、複雜,且又十分昂貴,使用人員必須受過特殊訓練以 操作及維護這些工具,並能適當的解決問題。正因如此,半導體 製造廠商無不致力於維持一天二十四小時、每週七天、不間斷的 生產,如何減少停機時間以提升生產力及增加產量,從而改進獲 利,是非常重要的課題。本研究將以類神經網路之模式為基礎,
建立一套模擬系統,以期可以模擬多站點所得之製程與產品之參 數,減少實驗所造成的生產機台之停頓時間,影響生產力與產量,
亦可排除工作人員的經驗不足,需利用反覆而多次的實驗來決定 最佳的製程參數。以硼磷矽玻璃(BPSG)平坦化製程為例,BPSG
(CVD)"BPSG Annel(APCVD)"BPSG(CMP)為例。
1.2 研究目的
利用類神經網路所建構的模式中,以實際生產線及時收集所 得的產品與製程參數資料模擬學習與印證。半導體的製程複雜,
某站點所得之產品參數將會影響數站之後製程參數之設定與產品 參數的結果。本研究將以 BPSG 此段製程為範例,因考量此段製 程為後段金屬化製程之準備製程,若無良好之控制,將嚴重造成 產品良率之下降。製程站點共有 3 站,各站點之製程參數皆會產 品產生變異,且採實驗設計方法調整將花費大量的時間與實驗用 晶片(test wafer),利用類神經網路模擬,找出最佳之製程參數,
將可大幅降低實驗所花費之時間與經費。
本研究之研究目的如下:
一、利用類神經網路模擬之模式,並應用於半導體製程,以便於 無經驗之工程人員學習,避免浪費過多實驗時間於尋找最佳 製程配方(recipe),並幫助有經驗之工程人員減少實驗之次 數。
二、利用此一模式監控任單一站點產品參數變異時,可即時針對 此批次產品進行管制或重工(rework)。
三、利用類神經網路監控與預測連續製程站點,而非單一站點之 監控。
1.3 研究流程
圖 1.1 研究流程 研究動機與目的
文獻探討
類神經網路相關
文獻 半導體製程相關文獻
蒐集製程與產 品參數
建立類神經網 路模型
類神經網路模 型模擬
導入實際參數
模型績效評估
結論與展望 修正
1.4 論文架構
本論文研究內容共分為七章,茲簡要說明如下:
第一章 緒論
闡述本論文之研究動機、目的與研究流程。
第二章 文獻探討
回顧過去國內外學者對半導體製程及類神經網路相關議 題之研究,並建立本研究之理論基礎。
第三章 問題描述
描述本研究所探討之製程問題與範圍,並概述平坦化製 程之過程。
第四章 類神經網路
介紹類神經網路之基本概念、特性及其構成要素,並針 對本研究所採用之倒傳遞類神經網路的運作模式加以描 述。
第五章 網路建構
以實際半導體製程所需監控之重要製程與產品參數作為 依據,建構包含三組類神經網路之監控預測模型,並分 析與求得最佳化之網路模式。
第六章 網路結果與效益分析
根據所蒐集之實際製程參數, 利用類神經網路建構模 式,並以 SPSS 統計方法分析其結果與實際產品參數之 可接受度。
第七章 結論與建議
綜合本研究之研究結果提出討論,並提出相關企業及後 續研究者之建議。
第二章 文獻探討
本章將針對類神經網路、半導體等相關製程,以及利用類神 經網路應用於半導體製程等相關文獻,進行回顧及彙整相關之研 究。
目前電腦在運算能力及記憶容量的進步,已經可以超越人類 所可以處理資料的極限,但要如何使一般電腦具有像人類一樣的 歸納分析、聯想能力、辨識能力等等,於是科學家們開始分析神 經解剖學、神經生理學及神經心理學等,經由瞭解神經之運作模 式、找出神經之功能與作用,然後建立數學模式來模仿人類神經 系統結構及運作方式之科學,稱之為類神經網路。
類神經網路之概論由 James【18】提出,到了 1940 年代,
McCulloch and Pitts【21】、 Hebb【13】等學者才開始應用類神經 網路來處理一些簡單的問題。之後,雖然 Rosenblatt【25】、Widrow and Hoff【 29】等人提出了一些理論與模式,使得類神經網路開 始有了發展,但到了 1969 年,Minsky and Papert【22】指出,那 時的類神經網路連如 XOR 等最簡單的問題都不能處理,於是類 神經網路的發展陷入黑暗期。直到 1982 年,在 Hopfield【14】、
Kohonen【19】等學者的研究下,有了突破性的發展,加上電腦 軟硬體之快速進步,使得類神經網路開始受到重視。有關類神經 網路發展模式如表 2.1。
表 2.1 類神經網路發展模式 分
類
項目 模式
主要 研發者
研發
年代 主要應用 主要特點 感知機 F. Rosenblatt 1957 •打字字母識別 • 無 法 解 XOR 問
題
• 模式最簡單
•發展最早 倒 傳 遞
網路
P. Werbos D. Parker D. Rumelhart
1974 1985
•樣本識別
•分類問題
•函數合成
•適應控制
•雜訊過濾
•資料壓縮
•專家系統
•可解 XOR 問題
•應用最普遍
•成功案例最多
•學習經度高精
•學習速度慢
•回想速度快
•理論簡明 反 傳 遞
網路
R. Hecht-Nielsen 1986 •樣本識別
•分類問題
•函數合成
•資料壓縮
• 結合監督與無監 督學習
• 理論簡明
•學習速度快
• 學習精度較低 機 率 神
經網路
D. F. Specht 1988 •樣本識別
•分類問題
•學習速度快
•回想速度慢
•理論簡明 監
督
學 習 向 量 量 化 網路
T. Kohonen 1988 •樣本識別
•分類問題
•學習速度快
•回想速度快
•理論簡明 自 組 織
映射圖
T. Kohonen 1980 •聚類問題
•拓撲映射
• 學習速度快
• 具 有 臨 近 區 域 觀 無 念
監 督
自 適 應 共 振 理 論
G. A. Carpenter S. Grossberg
1976 1986
•樣本識別
•聚類問題
•網路具穩定性
•網路具可塑性
•學習速度快
•模式非常複雜
•具警戒值觀念
表 2.1 類神經網路發展模式(續)
分 類
項目 模式
主要 研發者
研發
年代 主要應用 主要特點 霍 普 菲
爾網路
J. Hopfield 1982 •自聯想記憶問 題
•雜訊過濾
•學習速度快
•回想速度慢
•理論簡明 聯
想 雙 向 聯 想 記 憶 網路
B. Kosko 1985 •異聯想記憶問 題
•雜訊過濾
•學習速度快
•回想速度慢
•理論簡明 霍 普 菲
爾 坦 克 網路
J. Hopfield D. Tank
1985 •組合最適化問 題
•易陷局部最小值 最
適
化 退 火 神 經網路
D. E. Ven den Bout T. K. Miller
1988 •組合最適化問 題
•較不易陷局部最小 值
資料來源:葉怡成【7】
曾慶安【 6】以類神經網路為基礎發展一辨認製程異常之程 序。所考慮之製程異常類型有:
一、製程平均值變化(向上或向下移動);
二、變異數變化;
三、製程平均值和變異數同時變化之情形。
類神經網路之成效是以蒙地卡羅模擬法產生數據來評估,並 與其它管制法比較 。評估比較指標為平均連串長度和正確辨認 率。其提出之異常類型辨認系統較傳統之管制圖及已發表過之類 神經網路辨認系統,除了有更快的偵測速度及較高之正確辨認率 外,更提昇了系統整體的穩定性及即時、連線的可行性。
吳聰宏【1】使用類神經網路中的倒傳遞網路模式,發展一偵
測製程平均值跳動之管制法。以平均連串長度做為評估類神經網 路成效之基準。由模擬之結果來看,其發展之管制法,對於微量 至中量的製程平均值跳動之偵測,較 Shewhart-CUSUM 管制法為 優。
Butler 和 Momoh【10】在對配線系統上的對電弧光線作檢測 時,由統計實驗設計中得到一些特徵資料做為類神經網路之訓練 資料,使其較一般經驗所得之資料更具有穩健性(Robust)。以倒 傳遞模式做為學習,應用交叉辯證技術(Cross Validation)於學 習與測試樣本作為學習使用,使誤差值更小及更一般化,其結果 顯示類神經網路是值得發展成電弧光線異常診斷用。
Mirsepassi A.【23】等人應用類神經網路於污水處理作業,
污水淨化需要使用到化學藥劑,因此要依照水質狀況來決定添加 劑量的多寡,利用類神經網路的預測能力,可以有效預測明礬與 其他藥劑的用量,降低污水處理的成本,其平均誤差約 4.09%,
效果非常良好。
卓高平【3】以國內一家相紙製造加工廠之空調系統溫濕度控 制異常診斷與處理為例進行研究,採用類神經網路之多層倒傳遞 模式進行學習訓練,計有十個輸入特徵訊號,以五個輸出運算元 做為異常診斷與處理。先以田口技術(Taguchi Techniques)設計 方法分析及找尋較佳之各學習參數值,作為啟始佳解,接著以其 較 顯 著 之 學 習 參 數 做 為 反 應 曲 面 法 ( Response Surface Methodology: RSM)之設計參數,經實驗設計分析而後得最佳之
各學習參數值,使類神經網路之輸出誤差為最小,空調溫濕度異 常診斷與處理效果為最好。
李銘鈞【2】利用類神經網路之技術發展一個新的管制法,用 來偵測製程變異性之變化。提出一個數據轉換程序,使類神經網 路可適用於不同樣本大小及不同共變異數矩陣之製程數據。此管 制法可以比傳統管制法更快偵測到異常,此顯示類神經網路具有 較佳之偵測能力。
劉晨貴【8】基於類神經網路的原理,發展適合於線上的統計 製程管制程序,並蒐集製程資料以判斷製程是否有差異模型的產 生。本研究利用倒傳遞網路偵測製程平均值及標準差是否在管制 的狀態。探討的差異模型則包含了平均值及標準差的趨勢變化及 瞬間跳動,由模擬的方式,探討及評估類神經網路偵測差異模型 之效率。
Shun-Ren【 27】等人應用統計製程管制、類神經網路與專家 系統的整合型架構於電子組裝製程,利用統計製程管制分析出管 制界限外和管制界限內的數據,再將這兩類數據經由類神經網路 訓練,便可得到數據型態的輸出,這些輸出值在經由專家系統來 判斷並提供建議及方法,如此便可建立一個印刷電路板組裝製程 控制之即時決策支援系統。
侯呈龍【4】指出較佳的網路架構是以模擬的誤差較小的為依 據,在選擇網路架構時,可能遭遇到下列問題:
一、網路架構和學習速率及慣性因子通常是相依的。
二、每個學習批次輸入組數之多寡會影響網路架構大小之選擇。
三、迭代次數也會影響模擬結果。
四、資料的分佈範圍對模擬結果會有影響。
為解決以上問題,必須先做一些限制。測試用的學習速率、
慣性因子值之範圍從 0~1 之間,以間距為 0.1 的等間距變化作全 面搜尋,每學習批次的數據組數為 5 組,架構大小以 4-2-4、4-3-4、
4-5-4、 4-7-4 四種進行探討迭代次數,並以能確保收斂的 15000 次為學習次數。
張淑玲【5】的研究是數個輸入參數影響一個輸出參數值的預 測評估型案例,在其研究中指出隱藏層數目一層時有較佳的收斂 結果,若隱藏層數目大於兩層,將使得網路過於複雜,導致網路 學習時容易掉入誤差函數之局部最小值,而無法收斂,若沒有隱 藏層則無法反映輸出與輸入變數間的關係 ,因而產生較大的誤 差;當隱藏層處理單元數目越多,其收斂速度越慢,但可求得較 小的誤差值,但若處理單元過多,使得網路過於複雜,導致更多 局部極小值產生,以致於收斂結果不佳或無法收斂,當隱藏層處 理單元數過少,則不足以表現實際上變數間的複雜關係,致使網 路學習能力降低,因此產生較大的誤差值。
第三章 問題描述
3.1 半導體
自 1980 年代起,已需要用二個以上的金屬層來連接在積體電 路晶片上數量激增的電晶體,而最大的挑戰之一就是金屬間之介 電質層的平坦化。在一個粗糙的表面上用微影技術製程要使微小 圖形能達到高的解析度是很困難的,這是因為光學系統受到景深
(Depth of Focus)條件限制的緣故。一個粗糙的介電質表面也會 引起金屬化的問題,因為此時金屬 PVD 的製程通常會有較差的側 壁階梯覆蓋。側壁上的金屬線愈薄,則電流密度也就愈高,也就 更容易造成電遷移(Electromigration)。
所謂的多層金屬內連線(如圖 3.1),乃是將電路一層一層疊 起來,而不是電路發生短路現象,電路層間以隔離層加以隔絕,
此用以隔離金屬層的介電材料,通常以沈積的方式加以處理,稱 之為內介電層(Ibter-Metal Dielectrics),而各電路層之間則以插 塞(Plug)來進行連結。
圖 3.1 積體電路的多層內連線切面結構 介電層
插塞 金屬層
MOS 電晶體層
有 幾 種 介 電 質 平 坦 化 的 方 法 已 經 被 採 用, 像 是 加 熱 流 動
(Thermal Flow)、濺射回蝕刻(Sputtering Etchback)、光阻回蝕 刻(Photoresist Etchback)以及自旋塗佈氧化矽(SOG)回蝕刻。
介電質的 CMP 製程是在 1980 年代中期由 IBM 所發展以作為介電 質平坦化的應用,事實上在半導體工業中許多人仍然較喜歡使用 CMP 這個縮寫來代表化學機械平坦化。
3.1.1 BPSG( CVD)
硼磷矽玻璃,BPSG,就是於 PSG 內再加入少量硼(Boron)
的一種同時含硼與磷的二氧化矽。它可以在(式 1)的反應裡,
加入定量的 B2H6後,藉著(式 2)的反應,在 SiO2內形成 B2O3, 然後與(式 1)裡所產生的 P2O5,一起構成所謂的 BPSG。這是 一種 APCVD 式的沈積方式,溫度大約在 400~500℃左右。BPSG 內的硼含量,則可以藉由 B2H6反應氣體的流量來加以控制。至於 液態含矽有機化合物-TEOS,也可以用來作為 BPSG 的反應氣 體 。甚至也可以使用所謂的 TEB( Tri-Ethyl-Borate) 與 TMPO
(Tri-Methyl-Phosphate)等含硼及含磷的有機化合物(也就是室 溫常態下呈液態 ), 來作為 BPSG 的製程氣體, 以取代劇毒的 B2H6PH3。這種以 TEOS/O3、TEB、及 TMPO 等所進行的 APCVD BPSG 沈積反應,其化學式則如(式 3、式 4)及(式 5)所列。
為 了 使 反 應 能 夠 在 較 低 的 溫 度 下 進 行 , 通 常 可 以 通 入 臭 氧
(Ozone),使(式 3、式 4)式的反應溫度低於 500℃。而 BPSG
的硼含量通常控制在 1~5 重量%之間,磷則在 3~6 重量%之間。
使得 BPSG 進行熱流所需的玻態轉變溫度,可以低於 950℃,甚 至可以在 850℃的溫度下進行。
SiH4(g)+4PH3(g)+ 6O2(g)→SiO2(s)+2P2O5(g)+ 8H2(g)..(式 1)
B2H6(g)+
2
3O2(g)→B2O3(s)+ 3H2(g)...(式 2)
PO(OCH3)3(g)→
2
1P2O5(s)+
2
3CH3OCH3(g)...(式 3)
B(OC2H5)3(g) →
2
1 B2O3(s)+
2
3C2H5OC2H5(g)...(式 4)
Si(OC2H5)4(g)→SiO2(s)+4C2H4(g)+ 2H2O(g) ...(式 5)
TEB、TMPO 及 TEOS 等三種有機化合物都有一個共同的特 點,在室溫常態下為液態。因此在使用時,必須對盛有這些液態 化合物的容器加熱,以增加其飽和蒸氣壓。另一種作法是對這些 液態化合物的容器,通入定量的載氣(Carrier Gas),利用所輸入 的載氣,使容器內的液態化合物在氣相裡的分壓(Partial Pressure)
上升,而達成提升這些液態反應物流量的目的,以利於 BPSG 反 應的進行。圖 3.2 的配置又稱為發泡式(Bubbler)。至於這些反應 氣體的流量,則可以藉由對容器的加入溫度,或載器的輸入流量 來加以控制。常用的載氣則為氮氣。
圖 3.2 發泡式液態化合物供應器
同樣的,BPSG 的沈積,也可以使用 PECVD 法或以 APCVD 法,以 TEOS,O3/O2,TMP 及 TMB 等為反應氣體來進行製作。
其操作溫度約在 400℃到 500℃之間,壓力約在室壓到 10~400 Torr 左右。
BPSG 因為含有硼及磷,所以即使以 APCVD 的方式進行沈 積,其薄膜所存在的機械應力也將較 SiO2來得低。再加上使 BPSG 進行熱流(Flow)所需要的溫度較低,BPSG 已廣泛的應用在尚 未 進 行 金 屬 製 程 前 的 表 面 平 坦 化 介 電 材 料 ( Planarization Dielectrics)上。一般而言,每增加 1 重量%的硼,將可調降 BPSG 熱流所需的溫度約 40℃;而每增加 1 重量%的磷,則可獲得降低 20℃的成果。
3.1.2 回 火 ( BPSG Annealing)
回火(Annealing)是冶金材料製程裡,非常常見的一種製程 技術。主要目的在於消除材料裡(尤其是金屬材料),因缺陷所累
積的內應力。所使用的方法是將被回火材料置於適當的高溫下一 段時間,利用熱能,使材料內的原子有能力進行晶格位置的重排,
以降低材料內的缺陷密度(Defect Density)。主要的缺陷來源有 晶粒界面(Grain Boundary),差排( Dislocation),及各種的點缺 陷(Point Defcets)等。當材料裡的缺陷密度降低到某一個程度之 後,新的且無缺陷的晶粒(Grain),將取代原有的晶粒,並在原 有的地點持續擴大,這個現象稱為晶粒成長(Grain Growth)。
半導體材料是一種電子元件的應用,因此只要材料或是薄膜 所承受的應力不會導致晶片的彎曲或是薄膜的剝離(Peeling),
一般基本上並不是十分注意它的強弱。但是,因為材料的缺陷或 是結構會影響其本身的電性,因此,回火在半導體製程上的應用,
主要的著眼點,是在恢復或是改善材料的電子性質。
當電晶體在晶圓表面完成後,金屬沈積前的介電質層(PMD)
是第一個在晶圓表面沈積的介電質層。對 PMD 的要求是低介電 質常數、能阻擋可移動離子、無空洞間隙填充,以及表面平坦化。
PMD 製程與加熱回流的溫度限制是由元件的熱積存來決定。
PMD 通常是一個磷摻雜的矽玻璃(磷矽玻璃,PSG)或是有 磷與硼摻雜的氧化矽(硼磷矽玻璃,BPSG)。為了避免磷與硼擴 散進入活化區(源極/汲極),在 PSG 或是 BPSG 沈積之前,需要 先 沈 積 一 個 阻 擋 層 。 USG ( 約 1000~2000Å ) 與 氮 化 物 ( 約 100~300Å )都可以用來當作阻擋層。
用磷來摻雜氧化矽有兩個重要的理由:可以捕捉可移動的鈉
離子(Na+)以及減少矽玻璃的加熱回流溫度。 當未摻雜的矽玻 璃(USG)加熱到攝氏 1500 度以上時,它會軟化並開始流動。因 為矽的熔點是攝氏約 1400 度,因此在 USG 開始加熱回流之前晶 圓就會熔化。從玻璃工業的經驗可以知道磷摻雜的矽玻璃 PSG 可 以在相當的低溫下流動。剛剛沈積的矽玻璃表面是粗糙的,充滿 了許多小山和小谷,它們會在微影技術製程中(由於景深)造成 解析度的問題,並為下一個金屬沈積製程帶來嚴重的階梯覆蓋問 題。在高溫時玻璃會變軟及變得黏稠。由於受到表面張力產生影 響,進而會使得玻璃具有較平滑的表面,紅色箭頭所指部分,表 示原本因氣相沈積所形成的空洞,在經過熱回流滑動後,原本的 空洞已經消失之狀況。如圖 3.3 所示:
沉積時 再流動圓滑之後
圖 3.3 BPSG 流動圓滑後之剖面圖
若磷濃度太高(高於 7wt%),則 PSG 表面就會成為高吸水 性的表面(易於吸收及保留水氣)。P2O5會與濕氣(H2O)反應而 在 PSG 表面上形成磷酸(H3PO4),而磷酸會蝕刻鋁並導致鋁的腐 蝕。在微影技術製程中,它也會在接觸窗孔的光阻遮蔽層形成步 驟中引起光阻的附著問題,因為光阻無法好好地黏附在高吸水性 的表面上。
當元件尺寸縮小時,熱積存的限制需要降低再流動圓滑的溫 度。硼與磷被用來摻雜矽玻璃可更進一步減低再流動圓滑溫度,
且可減少其中的磷摻雜數量。BPSG 可以在攝氏 850 度流動。4×4 的敘述是指重量百分比為 4 的硼與重量百分比為 4 的磷。BPSG 廣泛地使用在圖形尺寸從 2 到 0.25 微米的積體電路晶片中。如果 在 BPSG 中的硼濃度太高,B2O3可能會與濕氣(H2O)產生反應 並且在 BPSG 表面上形成硼酸(H3BO3)晶體,而這會導致類似 於粒子污染的元件缺陷。BPSG 摻雜物濃度的上限大約是 5×5。
當圖形尺寸繼續縮小時,加熱再流動圓滑無法再滿足深次微 米微影技術的平坦化要求,而且也可能不會再有更多的熱積存空 間可供加熱再流動圓滑使用。化學機械研磨(CMP)製程就開始 以 PMD 平坦化來取代再流動圓滑。因為不再需要再流動圓滑,
薄膜中就不再需要硼,所以 PSG 將會再次使用於 PMD 的應用上。
3.1.3 化 學 機 械 研 磨 ( Chemical-Mechanical Polishing)
化 學 機 械 研 磨 法 ( Chemical-Mechanical Polishing), 簡 稱
CMP , 是 現 在 唯 一 能 提 供 VLSI, 甚 至 ULSI( Ultra-Large Semiconductor Integration ) 製 程 , 全 面 性 平 坦 化 ( Global Planarization)的一種新技術。
化學機械研磨(CMP)是一個移除製程,它是藉著結合化學 反應和機械研磨來剝除沈積的薄膜,因此使得表面更平滑和更平 坦。它也被用來移除在其表面上的大量介電質薄膜以在矽基片上 形成淺溝槽絕緣(STI),以及從晶圓表面移除大量的金屬薄膜以 在介電質薄膜中形成金屬連線的栓塞或是金屬線。
當晶圓從單晶矽晶棒被鋸切下來後,便有許多的製程步驟被 利用來準備平坦的、光亮的以及無缺陷的晶圓表面以滿足積體電 路的製程所需。除了晶圓邊緣磨圓、粗磨以及蝕刻外,通常還有 一種化學機械研磨(CMP)製程會被用在晶圓生產的最後一道步 驟,它可以使晶圓平坦化,並且可以從表面完全消除因晶圓鋸切 步驟所引起的表面缺陷。然而,對已建有數百萬個微電子元件的 晶圓而言 ,建議採用 CMP 製程在晶圓上進行金屬層間介電質
(IMD)平坦化的最初反應是極震撼的。
傳統上,直接與晶圓的表面接觸是嚴格禁止的。理由是顯而 易見的:任何的直接接觸都會產生缺陷與粒子,這樣不但會降低 積體電路晶片的良率,同時也會導致積體電路工廠的收益降低。
在 CMP 的情況中,晶圓的表面不僅是被向下托住而且也被強力 壓在一個旋轉的研磨襯墊上,同時整個過程是在鹼性或是酸性的 研磨漿中完成的,這些研磨漿中包含了大量的二氧化矽或是氧化
鋁的顆粒。令人懷疑而訝異的是,CMP 製程能依照它所設計要做 的方式把晶圓表面平坦化,同時也能夠減少缺陷的密度並改進積 體電路晶片的良率。
這項平坦化技術的原理,可以說是所有平坦化製程當中最容 易被瞭解的一種。它就是利用類似磨刀這種機械式研磨的原理配 合適當的化學助劑(Reagent),將晶片表面高低起伏不一的輪廓,
一併加以磨平的平坦化技術 。一旦各種製程的參數控制得宜 , CMP 可以提供被研磨表面高達 94%以上的平坦度。
圖 3.4 顯示一個用來進行 CMP 平坦化製程的設備檢圖。它基 本上是由一個用來進行晶片研磨的研磨台(Polishing Table),及 一個用來抓住被研磨晶片的握柄(Holder)所組成的。其中握柄 將 抓 住 晶 片 的 背 面, 然 後 把 晶 片 的 正 面 壓 在 舖 有 一 層 研 磨 墊
(Polishing Pad)的研磨台上,以便進行所謂的化學機械研磨。
當 CMP 在進行時,研磨台與握柄均將順著一定的方向旋轉。而 且在研磨時,用來幫助 CMP 進行的化學助劑,將沿著一條輸送 管,持續不停的供應到圖 3.4 的研磨台上。而所謂的 CMP,就利 用化學助劑所提供的化學反應,及晶片在研磨台上所承受的機械 研磨,把晶片上凸出的沈積層,一步一步地加以除去的一種平坦 化技術。
圖 3.4 化學機械研磨機台示意圖
有關 CMP 的製程與原理,可以分別從「化學」及「機械」
來加以說明。
在 CMP 的製程上,通常以研漿(Slurry)來稱呼所使用的化 學助劑。CMP 所使用的研漿,主要是由呈膠體狀(Colloidal)的 矽土(Silica),或呈分散狀(Dispersed)的鋁土( Alumina),和 鹼性的 KOH 或 NH4OH 等溶液所混合而成的。這些硬度極高的研 磨顆粒,在研漿內的大小分佈(Size Distribution),約在 0.1~2.0μ m 之間。基本上就是利用研漿內的這些研磨性( Abrasive)極高的 微粒,來進行晶片的表面研磨。然而,不同材料的 CMP,所使用 的研漿成分將會有所不同。例如,在金屬鎢的 CMP 回蝕當中,
研漿的組成將包括一些氧化劑(Oxidant)及有機溶劑(Organic Agents)等,可以幫助 CMP 製程的進行。一般而言,在 CMP 所 進行的化學移除(Chemical Removal)過程當中,將涉及到極複 雜的化學反應機構,及各種動力學(Kinetics)上的問題。
在機械性的移除過程中,晶片上的被研除材料,是藉由研磨
Down force
磨漿 (slurry)
研磨墊(pad)
研磨機平台(platen)
晶圓載具(carrier)
台上的研磨墊,與研漿裡的研磨微粒(如矽土)所形成的結構,
來加以研磨而去除的。以晶片上的 SiO2介電層的 CMP 為例,所 使 用 的 研 磨 墊 材 料 , 是 一 種 填 充 有 聚 胺 酯 的 聚 酯 材 料
( Polyurethana Filled Polyester ), 本 身 具 備 一 定 的 延 展 性
(Elasticity),以便對不同幾何外觀(Geometer)的晶片表面進行 機械性的研磨。當 CMP 的製程在進行時,抓著晶片的握柄,將 對晶片施加一定的壓力,以便使研磨墊與研漿所形成的結構,在 研磨台和握柄的旋轉與移動的帶動下,對晶片上的薄膜進行均勻 性的研除動作。很顯然的,當握柄將晶片壓在研磨台上的壓力增 加之後,CMP 的研除速度(Polishing Rate)將增加,但這些將造 成平坦度較差的問題。一般相信,當晶片的受壓壓力較低,且研 磨台的迴轉速度較快時,CMP 能提供較佳的平坦度。
影響 CMP 平坦化技術的主要製程參數,除了以上所提到的 研漿成分、晶片施壓大小、及研磨的轉速以外,還有研磨墊的材 質、研漿內的研磨顆粒的大小分佈(Particle Size Distribution)、
研漿的供料速率、溫度、pH 值控制、及被研磨材質的種類等等。
雖然這些參數都對 CMP 的製程有決定性的影響,但是基本上,
不同的被研磨材料,其最主要的操作參數便有所不同 。以 SiO2
的 CMP 為例,據一些研究報告顯示,以晶片的施壓、迴轉速度、
及研磨墊之種類的影響較大,但在鎢或矽的 CMP 當中,pH 值的 控制,將對化學機械研磨的結果產生顯著的差異。
儘管 CMP 本身的控制已相當的複雜,但是在實際的應用上,
這項技術還受限於一些製程整合上的問題。這些問題裡,比較明 顯的有:
一 、 缺 乏 有 效 的 CMP 終 點 偵 測 系 統 ( End-Point Detection System),大多以厚度的預先量測後,設定終點值。
二、研磨污染物(Contaminant)的控制等。現在的 CMP 製程終 點,主要都是依賴一些稱為阻絕層(Stop Layer)的沈積薄膜,
如 Si3N4或多晶矽,來執行這項任務。至於 CMP 製程之後(Post CMP ) 晶 片 表 面 的 清 洗 工 作 , 則 大 多 仰 仗 於 刷 洗 ( Brush Cleaning),噴洗(Spray Cleaning)及超音波清洗(Ultrasonic Cleaning)等方式,以便將 CMP 之後,殘餘在晶片上的研漿 徹底去除。
整體來說,現在 CMP 平坦化製程的發展,集中在如何增進 被研磨層的研磨後平坦性(Planarity)、研磨速率、研磨的材質選 擇性(Selectivity)、及終點偵測等。根據一些研究成果顯示,CMP 這項技術,是少數能夠提供晶片進行多重內連線製程時,所需要 之平坦度的科技。尤其是在製程線寬低於 0.5μm 以下之後,更 顯得舉足輕重。圖 3.5 為平坦化製程的連續示圖:
圖 3.5 平坦化製程的連續示圖:(a)當完成沉積作用之晶片表面;
(b)經過部分平滑後之介電層外觀;(c)已具備局部平坦度之介電 層;(d)具備全面性平坦度之介電層
第四章 類神經網路
4.1 類神經網路
所謂類神經網路(Artificial Neural Network),主要係利用簡 單的人工神經元及連接鍵來達到模仿人類神經系統的功能。它使 用大量簡單的人工神經元(或稱為運算元、神經元)來模仿生物 神經網路的能力,先從外界環境或者其它運算元取得資訊,經過 運算後,輸出其結果到外界環境或者其它人工神經元。
類神經網路的組織構造就如同生物的腦神經一般,具備有學 習外界輸入的腦神經特性。構成類神經網路的基本元素為神經元
(Neuron)及各神經元之間的連接權數,一些具有相同作用的神 經元集合而成層(Layer),層與層之間則有連接鍵相互連接,以 做為網路傳遞訊號或資訊的路徑,這些具不同作用的層集合就構 成了網路(Network),類神經網路的組織構造如圖 4.1:
…
…
…
運 算 元 連接權數 訊 號
輸入訊號 輸出訊號
輸出層:表示輸出變數
隱藏層:輸入運算元交 互影響
輸入層:表示輸入變數
圖 4.1 類神經網路之基本架構
4.1.1 類 神 經 網 路 的 基 本 架 構
雖然類神經網路的結構與運作方式,會因為網路種類的差異 而有所不同,但其基本架構大致仍可分為「運算元」、「層」、「網 路」三大部分,將就這三部分做進一步說明:
一、運算元(Processing Element,PE)
運 算 元 為 類 神 經 網 路 組 成 的 基 本 單 位 也 稱 為 神 經 元
(Neuron)。運算元的結構如同生物神經元的神經核(Soma)一 般,為處理輸入、輸出訊號之所在,有關運算元運作方式如圖 4.2:
輸入訊號
連接權數
閥值
運算元加權值 轉換函數
輸出訊號
運算元 X1
X2
−1
Xn
Xn
θj zj f yj w1,j
w2,j
j
wn−1, j
wn,
●
●
●
圖 4.2 運算元之基本運作方式
當運算元在運作時,會先考慮目前與過去的狀態,將輸入該運 算元的訊號加以處理轉換,然後把訊號送出成為其他運算元的輸 入。
二、層(Layer)
若干個具相同作用的運算元集合成層,每一層包含若干個處 理單元,輸入層處理單元用以輸入外在環境的訊息,輸出層處理 單元用以輸出訊息給外在環境。此外,一個層狀類神經網路經常 包含若干個隱藏層(Hidden Layer),隱藏層的存在提供類神經網 路表現處理單元間的交互作用與問題內在結構的能力。通常每一 層處理單元均有連結權數與相鄰層的處理單元連接。
層本身有三種作用,分別是正規化輸出、競爭化輸出和競爭 化學習。一般而言,監督式學習網路、無監督式學習網路均有明 顯的層作用,聯想式學習網路、最適化應用網路則無明顯的層作 用。層的三種作用分述如下:
(一)正規化輸出
正規化輸出的目的在於將同一層中的處理單元之原始輸出值 所組成的向量加以正規化,成為單位長度向量之後,再做為層的 輸出,如圖 4.3:
正規化輸出
原始輸出
圖 4.3 正規化輸出
(二)競爭化輸出
競爭化輸出的目的在於將同一層中的處理單元的原始輸出值 所組成的向量中,選擇一個或若干個最強值的處理單元,並令其 值為 1,其餘為 0 後,再做為層的輸出。這些輸出值為 1 的處理 單元稱為優勝單元(Winner),如圖 4.4:
競爭化輸出
原始輸出
●
0 1 0 0 0 0 0 0
圖 4.4 競爭化輸出
(三)競爭化學習
競爭化學習的目的在於將同一層中的處理單元的原始輸出值
所組成的向量中,選擇一個或若干個最強值的處理單元(優勝單 元),網路將只調整與優勝單元相連的下層網路連結,如圖 4.5:
0 0 0
● 1 0
輸出
調整連結強度
圖 4.5 競爭化學習
三、網路(Network)
將若干個具不同作用的層集合而成網路,其中各層當中的神經 元之間以不同網路模式所設計的連接權數相連結,一般的類神經 網路模式將學習到的之事儲存於連接權數上。類神經網路的總體 運作模式有兩種,分別介紹如下:
(一)學習過程(Learning)
在類神經網路學習過程中,如果其運算後所得到之網路實際 值與正確值之間發生偏差時,便需要根據網路的學習演算法,從 範例中學習調整網路連結加權值,以減低實際值與正確值之間的 誤差,學習演算法可分成三類:
1. 監督式學習演算法:監督式學習的作用在於降低網路輸出單 元「目標輸出值」與「推論輸出值」之差距。
2. 無監督式學習演算法:每一輸出單元代表一個聚類,因此網 路學習是為了降低網路優勝單元的「連結加權值」所構成的 向量與「輸入向量」間的距離,以達到每一個輸出單元的連 結加權值向量,就是代表一群訓練範例樣本在樣本空間中的 聚類典範的目的。
3. 聯想式學習演算法:聯想式學習網路的處理單元狀態變數所 組成的向量是用來表示一個式樣(Pattern),網路學習只在使 從初始狀態變數向量(初始式樣)經聯想迭代所得的最終狀 態變數向量(最終式樣),與網路所記憶的式樣之一相同或近 似。
(二)回想過程(Recalling)
類神經網路學習過程結束之後,網路依照回想演算法,以輸 入資料決定網路輸出資料的過程,稱做「回想過程」。類神經網路 在學習程序之後,會將學得的知識記憶於網路的連結權數上,而 輸入資料透過網路的連結權數可以快速的取得已學習的知識,並 計算出網路輸出資料。
4.2 倒傳遞 類神經網路
目前倒傳遞網路是類神經網路中最具有代表性,而且應用範 圍最廣泛的模式。其全名是「倒傳遞法則之多層前向式全連結神 經 網 路 」( Multi-Layer Feed -Forward Fully-Connection Neural Network with Back Propagation Rule)。
4.2.1 倒 傳 遞 網 路 之 架 構
倒傳遞類神經網路屬於階層式全連接型網路,即網路中的每 一層只接受前一層的輸出為輸入。
一、運算元之處理過程:
在隱藏層和輸出層之運算元將來自其他運算元獲得輸入訊號 後,利用集成函數和轉換函數來決定運算元之輸出。對於網路中 隱藏層和輸出層之運算元,其加權後之輸入值為:
=
∑
−i
l i l ij l
j w x
z[ ] [] [ 1] ...(式 6)
其中,x[il−1]:為在第(l−1)層中第i個運算元之輸出值。
] [l
wij :為連接在第(l−1)層之第i個運算元和第l 層中第
j個運算元之權數值。
加權後之輸入值將經過轉換函數以獲得一輸出值,如果採用 雙彎曲線函數,則在第l層中第 j個運算元之輸出值為:
[]
1 ) 1 ( [ ]
] [
l
zj
l j l
j
e z
f
x = = + − … … … (式 7)
倒傳遞網路經由一組訓練樣本之反覆學習,以獲得一組適當 之連結權數,在學習前,網路中之運算元間之連結權數,通常是 設為非常小的亂數值,太大的權數容易導致單元飽和(Saturation)
的現象,而使網路誤差偏高;較小的起始權數值則可以使網路比 較容易收斂。在學習過程中,連結權數是根據網路實際輸出值和 期望輸出值間之誤差來調整,首先,我們要決定輸出層運算元需 要調整之誤差項。對於在輸出層之各運算元,需調整之誤差項可 由下式獲得:
δ[pjL] = (dpj −x[pjL])x[pjL](1−x[pjL])… … … … (式 8)
其中,dpj:輸入向量 P 時,輸出層第j個運算元之正確輸出 值。
] [ L
xpj :網路之實際輸出值。
輸出層之誤差是以倒傳遞之方式,傳回網路中之各層,以便 調整運算元之連結權數。對於隱藏層中之各運算元,誤差項定義 為:
= −
∑
+ +k
l jk l pk l
pj l
pj l
pj] x[] x[] [ 1]w[ 1]
[ (1 ) δ
δ … … … ..(式 9)
對於輸出層和隱藏層之各運算元,其連結權數是以下列公 式,以迭代之方式來調整:
∆w[jkl](t)=ηδ[pjl]x[pil−1] +α∆wij[l](t −1)… .(式 10)
其中,t:迭代次數之代號。
η:為一常數,稱為學習速率(Learning Rate)。
α:動量(Momentum)。
在調整權數公式中, 加入動量係數可使權數之改變較為平 緩。為了利於網路之收斂,我們亦可在學習過程中,將學習速率η
慢慢遞減。學習過程通常以一次一個訓練範例的方式進行,直到 學習完所有的訓練範例,稱為一個學習循環,一個網路可以將訓 練範例反覆學習數次的學習循環,直到網路達到收斂。
一、輸入層(Input Layer):
輸入層主要是接受外部傳來之資料即表示網路的輸入變數,
由於不執行任何運算,因此運算元通常採用線性轉換函數,其運 算元數目依問題而定, 類神經網路可以接受任意大小之數值輸 入,但為避免因為各運算元輸入值之值域不一致,而造成運算元 對網路的貢獻有所不同。因此,通常先利用線性轉換函數將各運 算元之輸入轉換到相同的值域範圍。
二、隱藏層(Hidden Layer):
隱藏層之作用在於表示輸入運算元間的交互影響,其運算元 通常採用非線性轉換函數。隱藏層數和隱藏層運算元之個數並無 一定標準方法可以決定,通常是以問題的複雜度來做決定。一般 而言,大多的問題僅需一層隱藏層便已經足夠,複雜問題則取二
層隱藏層。
運算元個數會直接影響網路的複雜度 。隱藏層的運算元愈 多,網路收斂將會愈慢,雖然比較容易降低訓練誤差,但也可能 發生過度記憶的現象,亦即不必要的特徵也被記憶下來,對於降 低測試範例之誤差幾乎沒有助益。
三、輸出層(Output Layer):
倒傳遞網路的學習方式屬於監督式學習,學習法則一般使用 通 用 差 距 法 則 。 通 用 差 距 法 則 利 用 最 陡 坡 降 法 ( the Gradient Steepest Descent Method)來調整權數,使得誤差的平方和最小。
網路學習時分為兩個方向運作,資料的傳遞為順向(Forward);
而網路計算出實際輸出與期望輸出比較所得之誤差後,則以倒傳 遞方式回饋至網路中加以修正網路權數。
4.2.2 倒 傳 遞 網 路 學 習 過 程
在倒傳遞類神經網路的學習過程中, 必須要有一組訓練樣 本,且其中每一筆資料都必須包含其輸入訊號和正確的輸出值,
以做為訓練網路的依據。在網路開始學習之前,網路會先隨意設 定一組非常小的亂數值做為其初始之連接權數。倒傳遞網路以向 前傳導(Feed-Forward)方式,由輸入層取得輸入訊號後,經由 連接鍵加權及轉換函數的運算後,輸出其訊號做為下一層之輸入 訊號。
如此繼續運作,最後從輸出層輸出系統的輸出結果,再與正
確的結果相互比較。各運算元利用誤差函數計算其誤差,再以倒 傳遞的方式,將誤差向後分配給各個與其連接之連接鍵。倒傳遞 學習演算法就是利用這個偏差值做為其調整權數之依據,以便降 低其系統輸出值與正確值間的誤差。倒傳遞學習演算法反覆進行 上述這些過程,以向前傳導方式獲得輸出結果,再以倒傳遞方式 調整權數,藉由此種學習過程可獲得一組最適當的連接權數,使 其系統所產生的誤差為最小。圖 4.6 則為動態學習及動態預測的 流程圖,圖 4.7 為倒傳遞網路運作的流程圖。
Yes No 是否收斂或
達到迭代數 更新加權值及偏權
值
計算加權值修正量 計算偏權值修正量
計算差量值
•輸出層差量值
•隱藏層差量值 計算輸出向量
•隱藏層輸出向量
•輸出層輸出向量 輸入目標輸出向量
及輸入向量 以亂數設定加權值
偏權之起始值 設定網路
參數值
讀入已學好的加權 值及偏權值
輸入一個測試範例 的輸入向量
計算輸出向量
•隱藏層輸出向量
•輸出層輸出向量
計算誤差
學習過程 動態預測過程
圖 4.6 動態學習及動態預測流程圖
輸 入 訊 號
輸入層
加權結果
轉換函數
隱藏層
加權結果
轉換函數
輸出層
加權結果
轉換函數
訊 號 訊 號
誤差函數
訊 號
達到誤差收 斂值或學習
次數
調 整 權 數
調 整 權 數
否
完成類神經網路學習過 程
是
向前傳遞部分 倒傳遞部分
圖 4.7 倒傳遞網路運作流程圖
4.2.3 倒 傳 遞 學 習 過 程 之 終 止 條 件
倒傳遞網路是依訓練樣本來調整網路之連結加權值,必須考 慮訓練之終止條件。依 Hush 和 Horne【 16】的建議,網路之終止 可區分為四種方式:
一、梯度法(Gradient):
倒傳遞網路的學習是最大斜率方向改變,當梯度不變時,表 示斜率不變,此時權數不會再改變,就可以停止學習。
二、誤差均方根識別法(R.M.S):
當網路之均方根誤差值小於某個特定之收斂值時,表示該網
路達到某一收斂程度,而獲得一組適當的連結強度。
三、學習次數
指網路完成學習過程的學習次數,可以當作網路結束學習過 程的條件之一。
四、交互驗證法(Cross-Validation):
將數據區分為訓練及測試數據,一面訓練一面測試,如訓練 與測試誤差接近,就可以停止學習。若訓練好而測試不好,表示
「過度學習」。若訓練不好而測試好,表示「學習不足」。
4.2.4 倒 傳 遞 網 路 之 參 數 設 定
倒傳遞網路是目前最具代表性,也是應用最成功的類神經網 路之一。然而,在應用倒傳遞網路去解決問題時,通常所面臨的 困擾就是網路參數之設定。在過去數年中有不少學者陸續發表他 們的研究成果,並提出許多應用倒傳遞網路時參數設定之通則。
Hush 和 Horne【16】彙總了以往學者所提出之參數設定通則。以 下將概略說明這些參數的設定通則:
一、起始權數:
在倒傳遞網路演算法中,一般是指定一組隨機值做為網路權 數的起始值,這些權數可使用不同的機率分配形式(最常用的是 均勻分配及常態分配),而數值的範圍不宜過大。過大的權數容易 導致網路神經元在接近飽和點上運作 ,而使得網路誤差偏高 。 Hush【 17】等人之研究顯示,較小的初始權數可獲得較佳之學習
結果。
為獲得較佳之收斂結果,一般可嘗試多組起始權數值。若收 斂結果相差不多,則取其收斂結果最佳的那組權數,若收斂結果 相差很大,表示尚未找到最佳的起始權數,此時應再嘗試其他不 同的起始權數。
網路中之所有連結權數通常是來自同一機率分配之隨機亂 數。但若為達到特定之目的,亦可採用分層設定的方式,甚至可 採用不同運算元分別設定之方式。
二、學習速率:
如果學習速率設定過大或過小,對於網路收斂效果均會造成 不利影響。學習速率較大者,雖然能夠較快逼近目標函數值,但 卻也容易造成網路較難收斂。倒傳遞網路的學習速率可以每一層 都一樣,也可以針對不同層指定不同的學習速率,甚至是針對每 一層不同的運算元指定個別的學習速率。決定學習速率的基本原 則有:
(一)學習速率應與運算元輸入值的大小成反比。
(二)學習速率應依照學習次數的增多而逐漸降低,一般而言,
此種作法可獲得較佳之學習結果。
三、網路終止條件:
網路學習的另一個問題是終止條件的設定。終止條件會直接 影響到網路的收斂結果,梯度法容易受局部最小值影響,均方根 識別法很難對均方根的大小加以定義,設定學習次數又無法確定
在該學習次數下有良好的效果,因此這三種方法都使得網路的學 習品質對於參數的選擇十分敏感。如果參數選擇不好,容易造成 網路學習太早停止而使得誤差偏大。交互驗證法算是比較客觀的 方式,可惜的是使用交互驗證法因為必須將樣本分為兩群,所需 的訓練樣本較多。在樣本數不多或是樣本取得不易的狀況下確有 其困難的之處。另外由於要交互計算網路對於組樣本的誤差,所 需的時間較其他方法長,這是交互驗證法較為不便之處。
四、網路大小:
倒傳遞網路之輸入和輸出運算元的數目通常是依問題之特性 而定。但對於隱藏層層數和其運算元之數目,則需以試誤法進行 實 驗 、累積經驗後方能得知較合適之隱藏層層數及其運算元數 目。對於愈複雜的問題,倒傳遞網路應有愈多的隱藏層數目。在 實際應用的例子中,至多兩層隱藏層已足夠應付大多數的問題。
理論上,倒傳遞網路在隱藏層運算元數目很大時,可用來處 理任何非線性映射的問題,但是過多的運算元數目卻又使得網路 收斂所需的時間成倍數增長,甚至使網路不容易收斂。網路太小,
則對問題的學習狀況不好;網路太大,則容易造成網路的過度學 習,因此適當的選擇網路的大小對於網路之學習成效有相當大的 影響。
網路大小通常都是依據一些經驗及試誤法來決定。在決定網 路之結構時, 剛開始可將網路的隱藏層運算元 設在較少的個數 上,然後逐步酌量增加隱藏層運算元數直到網路的效果呈現遞減
的 現 象。 另一個方式是事先將網路的隱藏層運算元個數設得很 大,而後逐一去除對於輸出值貢獻很小或是沒有貢獻的運算元。
五、訓練樣本數:
Huang 和 Huang【 15】的研究說明倒傳遞隱藏層運算元的個 數與訓練樣本的個數有密切的關係。事實上,倒傳遞網路訓練樣 本的數目應比隱藏層運算元的個數大很多,否則網路容易產生記 憶化(Memorization)的現象,而缺少一般性。訓練樣本數量依 取得的方式,可概分成兩類:
(一)訓練樣本取得困難:當訓練樣本是來自於工作現場,而取 得一個數據是困難且耗時的,如此訓練樣本可能無法獲得太多,
要獲得一個好的學習結果,只能從網路的結構來改善。
(二)訓練樣本取得容易:當訓練樣本是來自模擬方式,或是從 現場取得樣本是非常容易時,此時訓練樣本的數量就不受限制,
我們可嘗試使用多一些的訓練樣本,來使網路的學習結果獲得改 善。
一般來說,訓練樣本愈多,網路之一般性愈好,但訓練樣本 亦 不 可 無 限 制 的 增 加 , 有 關 訓 練 樣 本 數 的 設 定 , Vapnik 和 Chervonekis 【 28 】 提 到 一 個 衡 量 訓 練 樣 本 數 量 的 參 考 標 準 Vapnik-Chervonenkis Dimension(VCdim),其定義如下:
N n VC Nw
( )
eNnlog 2
2 dim
2 1 ≤ ≤
… … … … .(式 11)
其中,N1:隱藏層運算元個數。
n:輸入層運算元個數。
Nw:網路權數總數。
Nn:網路運算元總數。
[ ]
:取小於等於引數之最大正整數的函數;亦即高斯 函數。在上述公式中,其下限值只能適用於一層隱藏層之網路,而 其上限值則不受限制,可適用於有多層隱藏層之網路。Hush 和 Horne【 16】建議訓練樣本數量最好設定在 VCdim 的 10 倍左右 。
第五章 網路建構
5.1 類神經網路之建立步驟
以類神經網路來建構即時品質異常判斷時,有關工作內容順 序為:
一、學習樣本及測試樣本之收集與編輯。
二、各個最佳學習參數值之找尋與設定。
三、使用數學演算模式,執行類神經網路。
類神經網路建構時需先收集一些包含異常狀況與正常狀況 因素的歷史資料,其中包含輸入部分的製程因子與輸出部分的品 質特性,以做為學習樣本使用,學習樣本的選擇是很重要的,它 牽涉到整個網路之學習過程與記憶能力,而類神經網路是依據學 習樣本之輸入資料與輸出結果,做為調整權數的依據。
在前一章節提及,半導體之製程並非單純考量單一站點之製 程參數與產品參數 ,故建構一製程流程與類神經網路結合之模 型。各站點之輸入值(Input)與輸出值(Output)的數目,由工 程人員決定,會影響之產品參數為何,以及期望可獲得之產品參 數(Output)為何作為設定的依據,而其中 Input 的部分,皆是 Run-in-Run 蒐集的實際參數,而 Output 皆為模擬數據。如圖 5.1。
圖 5.1 製程流程與類神經網路串連之概念圖
首先 NN1 為起始之製程站點,輸入製程參數 Input,經過 NN1 之後,可得到模擬產品參數(Output)之結果。而 NN2 製程參數,
分別考慮兩部分,一為自身站點所必須之製程參數;二為前站部 分 Output(會影響此站製程變異之參數),透過 NN1 所得之模擬 產品參數。
以此方式可接連建構 NN3、NN4… … 等各站點之類神經網路 模型,就如同輸入值(Input)與輸出值(Output)之數目一樣,
所需串連類神經網路之數目可隨使用者之需求而有所增減。
5.2 網路模式
本研究所採用的學習樣本資料,是來自生產線上即時數據收 集與歷史製程資料記錄,學習樣本資料取生產線之製程與產品參
Input1 Input1 Input1
NN1 Input2
Input2 Output1
Output1 Output1
NN2 Input3 Intput3 Output2
NN3 Output3
不理想 不理想
不理想
Output2
Output3
數共 2500 組,隨機取 300 組輸入,以建構類神經網路模型中訓練 學習。第一組類神經網路(NN1)模型中,輸入層為 CVD-BPSG 製程參數,分別為 He、O2、TEOS、TEB 及 TEPO,所得到的輸 出層為厚度(Thk)、反射率(RI)、硼之濃度( B%)、磷之濃度
(P%)及均勻度(U%)。
第二組類神經網路( NN2)模型中( BPSG-Annel),輸入層 為 H2及 O2(實際製程參數),再加入第一組類神經網路模型中所 產生的 2 項模擬 Output 參數(U%、Thk)作為此組之輸入層,
所得到的輸出層為 Thk 及 U%。
第三組類神經網路(NN3)模型中,輸入層為 PH(實際製程 參數),所產生之 1 項模擬 Output 參數(Thk)作為此組之輸出 層。,有關類神經網路於平坦化製程品質判斷之輸入、輸出訊號 關係,如圖 5.2 所示。至於其各個輸入、輸出訊號所代表之含意、
特性與質域範圍,將在後面說明。
圖 5.2 平坦化製程與類神經網路流程圖
5.2.1 BPSG CVD
此站點為沉積「平坦化介電材料」(Planarization Dielectrics)
之基礎,所監控的製程參數為 TEB、TMPO、TEOS、O3及 He。
為主要形成之製程參數,故成為第一組類神經網路(NN1)之輸 入值(Input)。所得到之產品參數(Output)為主要監控之影響產 品變異之參數,分別為 P%、B%、RI、U%及 Thk,其中 P%及 B%
的摻雜比率將會影響下個站點 BPSG Anneal 的熱流動(Thermal Flow)程度。
5.2.2 BPSG Anneal Input1 He
Input1 O3 Input1 TEOS Input1 TEPO Input1 TEB
NN1 Input2 H2 Input2 O2 Output1 Thk
Output1 RI Output1 U%
NN2 Input3 PH
Output1 P%
Output1 B%
Output2 Thk Output2 U%
NN3
Output3 Thk
不理想 不理想
不理想
此站主要利用回火(Annealing)之製程技術,利用熱能,使 材料內的原子進行晶格位置的重新組合, 降低材料內的缺陷密 度,減少缺陷所累積的內應力。並利用 BPSG 具玻璃熱熔之特性,
在高溫下(約 700~900℃),玻璃變軟,受到表面張力的影響,進 而使得表面較為平滑。此站點為第二組類神經網路(NN2),輸入 值為 H2、O2、Thk、 U%,其中 Thk 及 U%為 NN1 之輸出值,因 Thk、U%將影響此製程之產品參數,但加入一併考慮,所得到之 output 為 Thk 及 U%。
5.2.3 BPSG CMP
化學機械研磨是結合化學反應及物理機械研磨,用以去除沉 積 薄 膜 與 平 坦 化 製 程 的 技 術 , 此 站 點 成 為 第 三 組 類 神 經 網 路
(NN3),其輸入值為 PH、Thk、U%,其中 Thk 及 U%為 NN2 之 輸出值,因 Thk 及 U%的影響,將作為終點的依據,故一併加入 考慮參數,所得 Output 為 Thk。
第六章 分析結果與效益評估
本研究以 Matlab 6.5 軟體來建構平坦化製程網路模型。類神 經網路本身的參數設定對其結果有相當的影響,總共有四項參數 設定,以固定其他三項參數之設定值,變動其中一項參數設定的 方法,以尋找較佳的參數組合。
6.1 尋找 NN1 最佳參數組合的隱藏層數目 6.1.1 尋 找 NN1 的 隱 藏 層 數 目
隱藏層運算元數目過多或過少皆無法適當表現出輸入參數與 輸出參數間之關係,當隱藏層運算元數目為 8 個時,訓練誤差達 到最小,且測試誤差亦最小,故選擇隱藏層運算元數目為 8 個。
如表 6.1:
表 6.1 決定 NN1 最佳隱藏層神經元數目
lr hiddens epoch mse
0.1 1 5000 0.3012
0.1 2 5000 0.0562
0.1 3 5000 0.0040
0.1 4 5000 0.0013
0.1 5 5000 0.0012
0.1 6 5000 0.0011
0.1 7 5000 0.0010
0.1 8 5000 0.0009
0.1 9 5000 0.0017
6.1.2 尋 找 最 佳 的 NN1 學 習 速 率
當學習速率固定時,過大的學習速率會造成震盪過大而不易 收斂;過小的學習速率則容易陷入局部最佳解,所以由表 6.2 可 看出當學習速率為 0.6 時,將可達到最佳收斂效果,故學習速率 採 0.6。
表 6.2 決定 NN1 最佳之學習速率
lr hiddens epoch mse
0.1 8 5000 0.0009
0.2 8 5000 0.001
0.3 8 5000 0.0007
0.4 8 5000 0.0006
0.5 8 5000 0.0005
0.6 8 5000 0.0003
0.7 8 5000 0.0004
0.8 8 5000 0.001
0.9 8 5000 0.0016
6.1.3 尋 找 最 佳 的 NN1 學 習 次 數
學習次數不足會造成網路無法記憶所有的狀況而效果不佳;
學習次數過多則會造成記憶現象,雖然訓練誤差很小,但是測試 誤差會偏大,因此適當的學習次數有助於提升網路學習效果,如 表 6.3 學習次數在 8000 次為最佳的。
表 6.3 決定 NN1 最佳之學習次數
lr hiddens epoch mse
0.6 8 5000 0.0003
0.6 8 6000 0.0005
0.6 8 7000 0.0004
0.6 8 8000 0.0002
0.6 8 9000 0.0004
0.6 8 10000 0.0006
6.1.4 NN1 的 最 佳 參 數 組 合 結 果
綜合上述的實驗,可得知 NN1 的最佳參數組合如表 6.4:
表 6.4 NN1 最佳參數組合
lr hiddens epoch
0.6 8 8000
6.2 尋找 NN2 最佳參數組合的隱藏層數目 6.2.1 尋 找 NN2 的 隱 藏 層 數 目
如同 NN1 的方式,NN2 的的最佳參數組合也從決定隱藏層 神經元數目開始,從表 6.5 中可以得知當數目為 5 時,為最佳的 隱藏層神經元數目。
表 6.5 決定 NN2 最佳隱藏層神經元數目
lr hiddens epoch mse
0.1 1 5000 0.2
0.1 2 5000 0.003
0.1 3 5000 0.0019
0.1 4 5000 0.0015
0.1 5 5000 0.0014
0.1 6 5000 0.0028
0.1 7 5000 0.0019
0.1 8 5000 0.002
0.1 9 5000 0.0022
6.2.2 尋 找 最 佳 的 NN2 學 習 速 率
決定最佳的隱藏層神經元數目後,再尋找最佳之學習速率,
由表 6.6 可以得知最佳的學習速率為 0.6。
表 6.6 決定 NN2 最佳之學習速率
lr hiddens epoch mse
0.1 5 5000 0.0014
0.2 5 5000 0.0013
0.3 5 5000 0.0011
0.4 5 5000 0.0011
0.5 5 5000 0.0010
0.6 5 5000 0.0008
0.7 5 5000 0.0011
0.8 5 5000 0.0013
0.9 5 5000 0.0026
6.2.3 尋 找 最 佳 的 NN2 學 習 次 數
最後再決定最佳之學習次數,由表 6.7 可得知 NN2 的最佳學
習次數為 5000。
表 6.7 決定 NN2 最佳之學習次數
lr hiddens epoch mse
0.6 5 5000 0.0008
0.6 5 6000 0.0010
0.6 5 7000 0.0009
0.6 5 8000 0.0009
0.6 5 9000 0.0009
0.6 5 10000 0.0009
6.2.4 NN2 的 最 佳 參 數 組 合 結 果
綜合上述的實驗,可得知 NN2 的最佳參數組合如表 6.8:
表 6.8 NN2 最佳參數組合
lr hiddens epoch
0.6 5 5000
6.3 尋找 NN3 最佳參數組合的隱藏層數目 6.3.1 尋 找 NN3 的 隱 藏 層 數 目
如同 NN2 的方式,NN3 的的最佳參數組合也從決定隱藏層 神經元數目開始,從表 6.9 中可以得知當數目為 5 時,為最佳的 隱藏層神經元數目。
表 6.9 決定 NN3 最佳隱藏層神經元數目
lr hiddens epoch mse
0.1 1 5000 0.0056
0.1 2 5000 0.0052
0.1 3 5000 0.0051
0.1 4 5000 0.0022
0.1 5 5000 0.0017
0.1 6 5000 0.0021
0.1 7 5000 0.0021
0.1 8 5000 0.0031
0.1 9 5000 0.0035
6.3.2 尋 找 最 佳 的 NN3 學 習 速 率
決定最佳的隱藏層神經元數目後,再尋找最佳之學習速率,
由表 6.10 可以得知最佳的學習速率為 0.6。
表 6.10 決定 NN3 最佳之學習速率
lr hiddens epoch mse
0.1 5 5000 0.0017
0.2 5 5000 0.0017
0.3 5 5000 0.0016
0.4 5 5000 0.0016
0.5 5 5000 0.0016
0.6 5 5000 0.0015
0.7 5 5000 0.0019
0.8 5 5000 0.0019
0.9 5 5000 0.0019
6.3.3 尋 找 最 佳 的 NN3 學 習 次 數
最後決定最佳之學習次數,由表 6.11 可發現 6000、 7000 及