• 沒有找到結果。

以模擬進行排序佳化的方法研究及其於生產排程之應用(2/3)

N/A
N/A
Protected

Academic year: 2021

Share "以模擬進行排序佳化的方法研究及其於生產排程之應用(2/3)"

Copied!
8
0
0

加載中.... (立即查看全文)

全文

(1)

行政院國家科學委員會專題研究計畫 期中進度報告

以模擬進行排序佳化的方法研究及其於生產排程之應用

(2/3)

計畫類別: 個別型計畫

計畫編號: NSC92-2212-E-002-060-

執行期間: 92 年 08 月 01 日至 93 年 07 月 31 日

執行單位: 國立臺灣大學電機工程學系暨研究所

計畫主持人: 張時中

計畫參與人員: 吳欣曄、趙圻軒、謝旻旻、林宗慶、林偉誠、陳俊宏教授、謝

博偉博士

報告類型: 精簡報告

處理方式: 本計畫可公開查詢

中 華 民 國 93 年 6 月 28 日

(2)

以模擬進行排序佳化的方法研究及其於生產排程之應用(2/3)

Simulation-based Ordinal Optimization Methods with Applications to

Production Scheduling(2/3)

計 畫 編 號:NSC 92-2212-E-002-060

主 持 人:張時中教授

計畫參與人員:吳欣曄、趙圻軒、謝旻旻、林宗慶、林偉誠

陳俊宏教授、謝博偉博士

執行期限:92 年 8 月 1 日至 93 年 7 月 31 日

執行單位:國立台灣大學電機工程學系

一、中文摘要 本報告總結第二年在本計畫的支持下的研 究進展,包含三項工作:(1) 結合排序佳化模擬與 策略疊代求解派工問題馬可夫決策模型的快速演 算法研發; (2)研究增強式學習應用在派工問題 的馬可夫決策模型求解的可能性,著重在有設置 時間之單一機台派工問題,及可調速率之生產機 台問題; (3)透過文獻回顧推估全球運籌資訊服務 體系加入資訊服務網路可能帶來的潛在效益與成 本降低,進而評估全球運籌資訊服務對電子業整 體市場之潛在效益。 Abstract

The second year of research includes three tasks (1) development of fast simulation for solving the Markov decision process formulation of dispatching problem by combining ordinal optimization and policy iteration, (2) investigation of applicability of re-enforcement learning to Markov decision process formulation of dispatching problems, and (3) niche assessment by literature survey of logistic information application service provider for electronics industry. 關鍵詞:派工、馬可夫決策過程、增強式學習、時 變、全球運籌資訊服務體系、資訊服務網路 二、緣由與目的 在現今的工廠中,由於具有多樣化的產品、 複雜的製程、客戶導向且高度複雜性與高成本, 和機台會當機與定時的維修等特性,所以如何決 定將產品有效的派工(Dispatching)給機台,來達 到準時交貨,富有彈性地製造不同產品,生產速 度快,且降低製造成本仍然是一個具有相當挑戰 性的研究課題。另外,環境的不確定性也造成了 不必要的花費與過長的製造時間。所以如何有效 的排程派工來使得此產業提升競爭優勢便顯得非 常重要。本研究將分別討論派工與機台配置的問 題,在工廠中如何有效的派工與配置機台一直是 個重要的課題。派工是根據現場的狀況,產生某 一工作站的前面等候產品的加工順序,而機台配 置在決定如何將機台產能配置給製程站,以達成 準時交貨、節省生產週期和降低庫存。 在實際的工廠中,以往的派工決策是靠著工 程師的經驗與協調來達成。因此,當工程師無法 憑著經驗來作出決定時,這時候往往就會有不夠 有效率的法則產生。因此結合學習與模擬的方 法,可以模擬實際狀況,在藉由學習機制學出對 應的好決定,可以用來預測當時狀況需要作的決 策。 我 們 考 慮 有 設 置 時 間 之 單 一 機 台 派 工 問 題,及可調速率之生產機台問題。我們研究採用 增強式學習(Reinforcement Learning)來處理這 兩類問題的可能性與效能。增強式學習是一種可 以隨著環境不同而持續學習的方法,藉由定義合 理 的 回 饋 (Reward) , 估 計 價 值 函 數 (Value Function)來找到最適合的決策。1.)現今的派工 知識多是依賴經驗法則,增強式學習正是學習經 驗的方法。2.)現場環境多變,且是隨時間改變, 必須持續不斷學習改進派工法則。3.)增強式學習 有別於一般學習法,是以嘗試錯誤法來持續改 進。4.)增強式學習為一種有理解力與自動化的目 標 導 向 式 學 習 , 以 及 決 策 與 學 習 的 計 算 式 (Computational)的方法。5.)增強式學習結合模 擬與學習的能力。 另一方面,策略疊代演算法是一種解決馬可 夫決策過程(Markov decision process, MDPs)來求 得最佳派工策略的方法。本體上該演算法包括了兩 個部分。第一部份是策略評估(policy evaluation): 根據當時的策略來評估出一數值。第二部分是策略

(3)

改善(policy improvement) 。此二步驟不斷的重複 一直到某些終止需求達到為止。 當 MDP 的階段 成本(stagewise cost)很複雜,必須以模擬來評估 時 , 就 使 用 以 模 擬 為 基 礎 的 策 略 疊 代 法 則 (simulation-based policy iteration, SBPI)。當問題的 維度很大的時候,進行模擬的次數就會變的相當的 龐大,需要快速演算法才有實用的可能。 除排程派工外,建立全球運籌資訊服務體系, 為企業全球運籌管理電子化的核心工程。建立運籌 資訊服務體系的主要優點,除了在於滿足企業對於 運籌資訊的即時性與對運籌流程透明度掌握的要 求,以提升企業在運籌鏈的管理績效,並增加客戶 的滿意度之外,從網路經濟相關研究的觀點來看, 亦能藉由運籌資訊應用服務業者所提供的資訊仲 介功能,大幅減少企業與其交易夥伴之間繁複的文 件及資料交換之處理與連結次數,進而降低整理運 籌體系的成本。換言之,經由資訊仲介的功能,得 以使企業與其交易夥伴在文件及資料交換上,從以 往多對多的連結方式,轉而成為多對一的連結方式 (參見圖八),以此縮短資訊交換的流程與時間,並 且可減少可觀的資料重覆輸入成本,與其衍生的資 料輸入錯誤,造成交貨延遲或產生交易糾紛等問 題。 然而欲成功地建立全球運籌資訊服務體系,使 其能永續經營,除了軟硬體技術、資訊基礎建設、 和政府行政上配合之外,仍有許多問題尚待克服。 其中最關鍵的問題,是網路經濟理論曾明確指出的 典型「chickens and eggs」困境 (Shapiro and Varian, 1998)。因為網路的潛在參與者對於加入 網路的意願高低,決定在加入該網路後可獲得之價 值;而網路之價值本身,又取決於加入網路者的多 寡。也就是說,一個網路的加入者多寡和網路價值 呈互為因果之關係。 因此本研究之目的,即是透過文獻回顧推估 加入此資訊服務網路可能帶來的潛在效益與成本 降低,進而評估全球運籌資訊服務整體市場之潛在 效益 (market potentials),降低參與者疑慮,並能夠 共同享有加入此資訊服務平台後所獲得之網路外 部性效益,以達成提升企業運籌管理能力,而增加 國際競爭力。 三、結果與討論 I. 應用增強式學習設計派工法則 我們討論有設置時間的單一機台派工問題。我 們 的 目 標 (objective) 是 使 得 產 品 的 等 候 時 間 最 小。之後我們設計了一個實驗,為兩個產品有設置 時間的問題。做不同產品的時候必須花費設置時間 (Setup Time)來轉換製程,如在半導體廠做不同產 品時,更換光阻液需要花費時間清洗,此時會花費 時間與金錢。然而每個產品的價值又不一樣,價值 較高的產品所佔的等候權重較高,所以如果我們希 望使產品的平均權重等待時間小,達到單站最大產 能,就必須減少轉換製程的次數,使得設置時間盡 量不會影響到產品的等候時間。 我們為派工問題建立一個連續時間的馬可夫決 策過程(Continuous Time Markov Decision Process) 模 型 , 利 用 法 則 疊 代 法 (Policy Iteration) 與 Sarsa[RsA98] 的增強式學習法求解,並比較得出的 結果與最佳解。結果顯示出隨著學習次數增加,學 出來的結果越接近最佳解(見圖二)。這意味著增強 式學習可以用來解決這類問題。而與最佳價值函數 的誤差也隨著學習次數增加而減少(見圖三)。 由於實際派工問題中,訂單的多寡影響到產品 的到達率,而訂單的多寡並不是一種簡單的波松 (Poisson)機率分佈而已,它往往受到一些外在的因 素影響,比如景氣的好壞,產業的發展性等等。所 以產品到達率通常是一種非平穩 (Non-Stationary) 的分佈,亦即會隨著時間變化而改變其機率特性, 於是這種機率分佈變得很難預測,也無法使用法則 疊代法來求得最佳法則。由於增強式學習具有持續 不斷學習的能力,所以我們將增強式學習應用在時 變的派工問題上,並與一個隨機的派工法則來做討 論與比較,結果顯示,即使是在時變的環境中,增 強式學習也能使平均等待時間趨向穩定(見圖四), 並且讓總切換次數減少(見圖五),使得總產出增加 (見圖六)。 其次,我們研究單一機台產能配置的問題,我 們所看的是有當機可能及可以調整平均生產速率 的機台,生產速率的控制策略代表產能的配置。當 機台在正常運作下且機台前的等待工作總數超過 生產速率切換值 k 時,機台以低的速率運作,反 之,則採用高速率。我們模擬工廠機台的產能分配 的問題。當等候區的產品達到某一程度的數目後, 則將速度調高或調低,以達成我們所要的需求。因 此我們可以藉由定義不同的回饋,由增強式學習得 到在不同回饋下,所得出 k 值的控制策略(見表 一)。我們利用已經學習出來的最佳 k 值,在改變 到達率的情況下,嘗試是否能學出隨環境變化的 k 值,結果顯示:增強式學習在已有最佳法則後,隨 著環境變遷學習的能力增加了(見表二)。這代表 著,如有適當的已知法則,將使得增強式學習能夠 快速學到最佳解。對於實際生產線的派工學習,則 有待進一步的評估。 II: 結合排序佳化模擬與策略疊代求解派工馬可夫 決策模型[6]

(4)

我 們 創 新 的 結 合 排 序 佳 化 (ordinal optimization, OO)以及策略疊代(policy iteration)的 概念,發展了一個快速求解派工問題馬可夫決策模 型的演算法 (OOBPI)如圖七。該演算法包含兩個 部分:第一部份是 OO 的部分。我們利用排序佳化 的優點,在每一次的疊代中,對於每一個狀態的決 策選擇來進行排名以及作信心機率(APCS)的計 算。當所排名最佳決策的 APCS 值比預設的信心程 度來的高時,就選擇該決策為最佳決策。第二個部 分是策略疊代。我們將原本的策略跟改善後的策略 加以比對,當兩個策略完全一模一樣的時候,我們 停止所有的模擬,然後宣稱最後的那個策略為最佳 策略。初步模擬結果顯示這個方法較傳統模擬為基 礎的策略疊代法的計算效能可快百倍。OOBPI 法 實際的計算效能如何則有待我們更進一步的分析 驗證。 III. 評估全球運籌資訊服務對電子業整體市場之 潛在效益 在回顧舊有文獻的過程中,我們發現了許多 性質類似的資訊服務網路成功先例,這些服務網路 透過提昇使用者的管理績效,使使用者成本降低等 方式來增加其滿意度,進而達到成功營運的目的。 在這些成功的例子中,我們舉出較著名的案例詳 述,並提出其中值得參考之處,包括如何令使用者 及其合作夥伴能共同協調一致地加入資訊服務的 網路平台,提高並共享此資訊服務所帶來的網路經 濟效益等等。同時也將之與一些失敗的案例比較, 提出其中的不同點,用以了解決定這些資訊服務成 功與否的關鍵因素。 成功案例--Traxon 空運: Traxon 所建構的網路系統是以提供下列服務為目 標: (1) 使參與運籌體系的企業激能夠以電子資訊的 方式,藉由幾乎零時差的網路來傳遞訊息。 (2) 簡化以使資訊的傳遞更有效率。 (3) 使用產業標準規格來簡化資訊。 (4) 加速資訊流在各企業之間的流動效率。 成功因素 對於 Traxon 的成功因素,主要的關鍵因素應 可歸納為以下兩項: (1) Traxon 的系統在各地都有據點,這是它的優 勢之一。主要創立的四家航空業者分別在香 港,日本,法國以及德國,此外在韓國等地也 有業者參與合作。因此對於各地的市場情況都 十分了解,使得一開始的使用者群就散佈在世 界各地,造成接下來國際化很大的優勢。 (2) 。在 Traxon 的例子中,Traxon 以小心謹慎限 制服務提供的項目來解決先前提到「chickens and eggs」困境的問題,由於目標的客戶群, 也就是空運業者,往往擔心利用了像網路這樣 透明化的機制,會使得原本他們用以營利的技 術受到侵害,陷入無法繼續經營的危機。為了 使使用者減低這樣的疑慮而樂於參與這項體 系,Traxon 小心合理的限制所提供的服務範 圍,提供使用者認為便捷卻不遭受威脅的服 務,支持整個原有的運籌鍊,而不試圖去改變 運籌鍊的架構。因此在 Traxon 初期便有許多 使用者願意加入,而突破了這個困境。 失敗案例-- Reuters(路透社): 失敗的原因探討 空運業者與其客戶之間的主要互動可以分成 兩項:運輸的空間與運輸的服務。但 Reuters 的創 始者表示這兩項服務是可以分開被探討的,在 Reuters 的原始概念中,價格才是主要被探討的因 素,可以與服務完全分開,因此在它提供的資訊 裡,僅僅只包含價格,而不對服務的品質激以描 述,因此它的架構類似以下: (1) 僅僅提供價格的資訊而沒有任何產品或服務 的訊息 (2) 將空運的市場看作日用品的市場,服務提供者 之間的競爭以價格完全取代服務品質 (3) 空運業者只被認為是運送空間的提供者 由於 Reuters 這樣的態度使得空運業者及航空業 者不願意加入這項系統。除此外,由於 Reuters 的原始創辦單位都是一些資訊媒體提供者,與 Traxon 不同,其創辦者是空運業者,亦即運籌鍊 中的一環,且 Reuters 的創辦業者以提供訊息為主 要的服務項目,將整個運籌鍊中的資訊流完整的透 明化,造成目標客戶擔心自己的業務內容過分被公 開而造成營運的威脅,因而拒絕參與這項體系。 由表一看來,Traxon 所包含的資訊流內容僅涵蓋 諮詢流程的 5,7,10 及 15(參見圖九),而 Reuters 則涵蓋了全部的範圍,使的市場透明化的程度增加 而令空運業者卻步,造成失敗的主因。 在文獻中,也有許多事關於使用者對 3PL 產業的調 查報告,藉由觀察國外所作的調查,可以發現 3PL 產業已經是未來的趨勢,企業對於這項資訊服務的 依賴性也日益增長,最重要的是,在調查之中,對 於這項產業的評價普遍都是一片好評(參見表三, 表四)。 III. Publications .

1.

H.-Y. Wu, S.-C. Chang, “Design of Job and

Machine Dispatching Policy by Reinforcement Learning” Master Thesis, Dept. of Electrical Engineering, National Taiwan University July 2004.

2.

[HCC03] B.-W. Hsieh, S.-C. Chang, C.-H. Chen,

“Efficient Selection of Scheduling Rule Combination by Combining Design of

(5)

Experiment and Ordinal Optimization-based Simulation,” Proceedings of ICRA2003, Taipei, Sept., 2003; best automation paper award. 四、參考文獻

[1] Richard S. Sutton and Andrew G. Barto, “Reinforcement Learning: An Introduction”,

Cambridge, Mass. : MIT Press, c1998.

[2] Chen I.C.,” Stochastic Production Flow Control:

Single Station Case” NTUEE Master thesis 2000. [3] Y.Z. Chang”A Learning Agent for Supervisors of

Semiconductor Tool Dispatching,” NTUEE Master Thesis June 2002.

[4] E. Chirstiaane, “A Comparison of Electronic Infrastructures in the Air Cargo Industry in the Netherlands and Hong Kong SAR,” Journal of Global Information Management

[5] J. Damsgaard, “Global Logistics System Asia Co .,Ltd , ” Journal of Information Technology (1999) 14 , 303-314 .

[6] [HCC01] B.-W. Hsieh, C.-H. Chen, S.-C. Chang, “Scheduling Semiconductor Wafer Fabrication by Using Ordinal Optimization-based Simulation,”

IEEE Trans. on Robotics and Automation, Vol. 17,

Issue: 5 , Oct. 2001, pp. 599 -608.

[7] B.-W. Hsieh, S.-C. Chang, C.-H. Chen, “Efficient Selection of Scheduling Rule Combination by Combining Design of Experiment and Ordinal Optimization-based Simulation,” Proceedings of

ICRA2003, Taipei, Sept., 2003.

Agent Environment

r

t+1

s

t+1 Reward

r

t State

s

t Action at 圖一:增強式學習示意圖 0 10 20 30 40 50 60 70 80 90 100 0 10 20 30 40 50 60 70 80 90 100 learning step(x10000) opt im a l ac ti o n (% ) Optimal action 圖二:最佳決策與學習次數圖 0 10 20 30 40 50 60 70 80 90 100 0 50 100 150 200 250 300 350 learning step(x10000) RM S e rro r

RMS error with optimal value function

圖三:學習與最佳價值函數的誤差 1 2 3 4 5 6 7 8 9 10 x 105 1 1.5 2 2.5 3 3.5 4 learning step A v e ra g e w e ig h t w a it in g t ime case a-2 Random RL 圖四:增強式學習與隨機法則之平均等候時間比較

(6)

0 50000 100000 150000 Step Switch Number Random 733 733 5562 63138 1E+0 RL 664 672 3999 30630 66470 10k 50k 100k 500k 1000 圖五:增強式學習與隨機法則設置次數比較 0 100000 200000 300000 400000 500000 Step Throughput Random 3553 18317 35589 170127338501 RL 4345 23729 45734 220802437910 10k 50k 100k 500k 1000k

圖六:增強學習式與隨機法則產量比較 sta r t G ue ss a initia l polic y( π0)

S im ula tion( n0 in initia l)

N

A P C S (i) > P *

` E stim a te O ptim a l c ost-to-go of e a c h sta te O r dina l c om pa rison A dd τ ( )E(J ( )i) M in k i U u π ~ ∈

S e le c t top-1 c ontrol of e a c h sta te a s πk +1

πk +1= πk Y Y E nd N 圖七: OOBPI 流程圖

(7)

交易過程: 多對一的連結方式

F Foorrwwaarrddeerr##11 S Shhiippppeerr##11 S Shhiippppeerr##22 S Shhiippppeerr##33 F Foorrwwaarrddeerr##22 F Foorrwwaarrddeerr##33 F Foorrwwaarrddeerr##NN

....

..

...

.

S Shhiippppeerr##MM 多對一架構下的整體連結次數 = M + N L LII--AASSPP

交易過程: 多對多的連結方式

F Foorrwwaarrddeerr##11 S Shhiippppeerr##11 S Shhiippppeerr##22 S Shhiippppeerr##33 F Foorrwwaarrddeerr##22 F Foorrwwaarrddeerr##33 F Foorrwwaarrddeerr##NN

..

...

.

...

S Shhiippppeerr##MM 多對一架構下的整體連結次數 = M x N 圖八:Shipper 與 Forwarder 在不同資料連結架構下之連結次數比較 圖九.傳統空運運籌鍊的資訊流 K* 2 2 2 3 3 3 3 4 4 4

λ

1.0 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 表一:最佳轉換點與到達率的關係 9 . 0 1→ = λ Learning step RMS 1778 12.58 666 30.14 6756 34.052

(8)

1903 22.75 2809 19.44 922 33.33 1142 35.65 1514 37.31 951 40.08 1484 21.12 6194 4.17 表二:改變到達率在已有最佳法則下學習效果 Traxon Reuters 創辦者 & 所有人 四家主要航空業者 外部成員:新聞業者 創辦者的主要目的 促進空運市場更加有效率與合 作 收集費用等消息 目標客戶 空運與航空業者 空運與航空業者 運籌鍊動態 保留現有的運籌鍊 預期消去空運的中介者 市場動態 保留市場的隱密性 使市場透明化 初期市場佔有率 四家主要航空業者 無 主要服務 定位與確認 價位比較 結果 獨占市場的地位 計劃終止 表三:Traxon 與 Reuters 的主要不同比較

Issue Very Negative

(%) Negative (%) No Impact (%) Positive (%) Very Positive (%) Employee morale 3 30 44 18 5 Logistics costs 14 11 65 10 Customer satisfaction 2 11 23 59 5 Systems development/support 2 13 47 35 3

Logistics service levels 7 21 67 5

表四:使用 3PL 服務對企業的各項影響

Financial Category Average Financial Improvement

(%)

2000 1999

Sales/revenue improvement 7

4

Logistics expense reduction 12 10

Working capital improvement 4 8

Capital asset reduction/avoidance 20

18 表五:使用 3PL 服務造成的經濟影響,2000

參考文獻

相關文件

由於 DEMATEL 可以讓我們很有效的找出各準則構面之因果關係,因此國內外 有許多學者皆運用了 DEMATEL

我們分別以兩種不同作法來進行模擬,再將模擬結果分別以圖 3.11 與圖 3.12 來 表示,其中,圖 3.11 之模擬結果是按照 IEEE 802.11a 中正交分頻多工符碼(OFDM symbol)的安排,以

針對 WPAN 802.15.3 系統之適應性柵狀碼調變/解調,我們以此 DSP/FPGA 硬體實現與模擬測試平台進行效能模擬、以及硬體電路設計、實現與測試,其測 試平台如圖 5.1、圖

在商學與管理學的領域中,電子化普遍應用於兩大範疇:一 是電子商務(E-Commerce),另一個為企業電子化(E-Business)。根 據資策會之 EC

智慧型手機或平板電腦的普及,造就許多業者不得不緊跟科技迅速 發展的腳步。以銀行業為例, 2014 年 4G 問世後,行動支付、電子商務 等相關活動益發白熱化。根據國際市場的研究機構

歷史文獻回顧法又稱史學方法、史學研究法、歷史法或歷史研究法。歷史文獻回顧 法的英文名稱除了 Historical Method 之外,亦有 Historical Research、Historical Study

本研究是以景觀指數進行對 1993 年、2008 年與擴大土地使用三個時期之評 估,其評估結果做比較討論。而目前研究提供研究方法的應用-GIS 與 FRAGSTATS 之使用方法。從 1993 年至

本研究以河川生態工法為案例探討對象,應用自行開發設計之網