基於強化學習之高速公路路肩流量管制策略
全文
(2) 摘要 為解決在公速公路上的交通壅塞情況,透過行車速度、通行車流量以 及紅綠燈等都是現行的方式以控制交通。在壅塞情形發生時,透過外力的 介入,來想辦法控制整體狀況,不要讓交通壅塞更加惡化。所幸在現代車 聯網愈趨開發穩定的情況,透過(Vehicle to Vehicle, V2V)或是(Vehicle to Infrastructure, V2I)等方式,能夠更快速的將交通舒緩策略傳遞給所有在此 範圍運行中的車輛,並讓他們及時地做出反應來幫助整體交通的舒緩。 在本篇研究中提出基於強化學習的路肩通行車流量管制策略 (Reinforcement Learning Approach for Adaptive Road Shoulder Traffic Control, ARSTC)。不同於傳統固定路肩開放時間的方式,本研究提出適用且合乎現 行 高 公 局 法 規 之 下 的 路 肩 管制 策略,藉由結合強化學習(Reinforcement Learning)的技術,使其能夠對應不同車流的情況,推薦不同的管制策略。 透過在模擬環境的實驗結果 (Simulation of Urban Mobility, SUMO),ARSTC 能夠依照整體的車流變化來判斷是否開放路肩通行,讓路肩通行的車流量 能夠控制在安全的範圍內,且能夠最小化與原本無管制車流的壅塞時間差 異,來達到最安全且有效率的路肩通行環境。. 關鍵字: 交通堵塞、流量管制(Traffic Control)、強化學習(Reinforcement Learning)、路肩通行、SUMO i.
(3) Abstract To reduce traffic congestion on the highway, variable speed limit, flow control, and traffic light are used in the current traffic control system. Through those approaches, the traffic can maintain in an acceptable condition when congestion occurred. With the development of the vehicular networks, i.e., Vehicle-to-Vehicle (V2V) and Vehicle-to-Infrastructure (V2I) techniques, drivers are able to receive updated traffic information which allows them to change their route plan immediately. In this research, we proposed a Reinforcement Learning Approach for Adaptive Road Shoulder Traffic Control (ARSTC) to dynamically change the opening and closing time of hard shoulder. Using the reinforcement learning approach, the proposed ARSTC technique, is able to adjust to different traffic situations and make a suitable decision which is different from the traditional static scheduling approach for the hard shoulder. The proposed technique is simulated in the Simulation of Urban Mobility (SUMO). The performance results showed that ARSTC can reduce traffic congestion time by adaptively control the hard shoulders’ opening time and the traffic flow within the safety range follow by the policy of the Freeway Bureau. Our proposed technique (ARSTC) is able to provide a safer and more efficient driving condition while using the hard shoulder to ease traffic congestion. Keywords: Congestion, Traffic Control, Reinforcement Learning, Road Shoulder, SUMO ii.
(4) 目錄 附圖目錄 ······························································ v 表目錄 ······························································· vi 參數公式表 ·························································· vii 第一章. 緒論 ·························································· 1. 第一節 研究背景 ....................................................................................................................... 1 第二節 研究動機 ....................................................................................................................... 2 第三節 問題描述 ....................................................................................................................... 3. 第二章. 相關文獻探討··················································· 4. 第一節 交通法規與交通堵塞之舒緩方法 ............................................................................... 4. 2.1.1 2.1.2. 現行高速公路相關法規與辦法 ......................................................... 4 現行交通堵塞之舒緩方式 ................................................................. 5. 第二節 強化學習背景 ............................................................................................................... 7. 2.2.1 2.2.2 2.2.3 2.2.4 2.2.5. 強化學習常用名詞解釋 ..................................................................... 8 馬可夫決策過程 ............................................................................... 10 蒙地卡羅演算法 ............................................................................... 12 時間差分演算法 ............................................................................... 13 Q 學習 (Q Learning) .......................................................................... 14. 第三節 基於強化學習的交通管制策略 ................................................................................. 15. 第三章. 研究方法 ····················································· 16. 第一節 資料收集與處理 ......................................................................................................... 16 第二節 強化學習應用於路肩車流控制 ................................................................................. 18. 3.2.1 3.2.2. Q Learning ......................................................................................... 19 應用於 Q Learning 的馬可夫決策過程 ........................................... 20. 3.2.3 3.2.4 3.2.5. 𝛆 − 貪婪法 (𝛆 − 𝒈𝒓𝒆𝒆𝒅𝒚) ............................................................... 22 獎勵 (Reward) 計算 .......................................................................... 25 學習率 (Learning rate, 𝜶) ................................................................. 26. 第三節 於模擬環境以強化學習訓練路肩開放策略 .............................................................. 26. 第四章. 3.3.1 實驗環境設定 ................................................................................... 26 3.3.2 實驗流程 ........................................................................................... 28 3.3.3 Q Learning 結合路況資料 ................................................................ 32 實驗結果分析·················································· 34. 第一節 實驗設定 ..................................................................................................................... 34 第二節 門檻值比較 ................................................................................................................. 35 iii.
(5) 第三節 訓練結果評估 ............................................................................................................. 39 第四節 應用於實際狀況結果比較 ......................................................................................... 43. 第五章. 結論與未來展望 ················································ 47. 參考文獻 ····························································· 48. iv.
(6) 附圖目錄 圖 1.. 強化學習組織架構流程示意圖。.......................................................................................... 8. 圖 2.. 簡易馬可夫決策過程示意圖 ............................................................................................... 10. 圖 3.. 國道一號竹北路段地圖:圖中從左至右為南向。 ............................................................ 17. 圖 4.. 1 月 23 日國道一號南下竹北至新竹路段車流量及車速關係圖。 ................................... 18. 圖 5.. 1 月 23 日國道一號南下竹北至新竹路段路肩使用圖。 ................................................... 18. 圖 6.. 狀態間轉移關係圖 ............................................................................................................... 21. 圖 7.. 於 SUMO 中的車輛種類示意圖 .......................................................................................... 27. 圖 8.. 從 OSM 中將國道一號南下 86-91 km 路段資料於 SUMO 中呈現示意圖........................ 27. 圖 9.. 整體系統流程圖 ................................................................................................................... 28. 圖 10.. ARSTC 流程圖 ..................................................................................................................... 29. 圖 11.. Q Learning 整體實驗與驗證流程架構................................................................................. 33. 圖 12.. 實驗地區規劃示意圖 ........................................................................................................... 34. 圖 13.. 不同常數 C 比較結果 ........................................................................................................... 36. 圖 14.. 不同𝐶𝑠與𝐶𝑓比較結果 .......................................................................................................... 38. 圖 15.. Continuous Model : Action Evolution .................................................................................. 40. 圖 16.. Continuous Model : Reward Evolution ................................................................................. 40. 圖 17.. Individual Model : Action Evolution ..................................................................................... 41. 圖 18.. Individual Model : Reward Evolution ................................................................................... 41. 圖 19.. 不同天數 Model 應用於實際情況資料缺少量 .................................................................... 42. 圖 20.. 不同 Model 模擬 20 次結果。 ............................................................................................. 44. 圖 21.. 不同 Model 平均延遲出發時間縮短比率。 ....................................................................... 45. 圖 22.. 不同 Model 減少路肩車流量比率。 ................................................................................... 46. v.
(7) 表目錄 表1. 高公局高速公路公開資料格式 ........................................................................................... 16. 表2. 價值函數表(Q-Table) ............................................................................................................ 20. 表3. 狀態關聯表 (Next State Table) ............................................................................................. 21. 表4. Training Dataset .................................................................................................................... 30. 表5. 驗證資料日期表 ................................................................................................................... 36. 表6. 不同 𝐶𝑠 與 𝐶𝑓 設置方式 ....................................................................................................... 38. vi.
(8) 參數公式表 參數名稱. 描述. 𝑆𝑡. State at time t (vehicles). 𝐴𝑡. Action at time t (vehicles). 𝑅𝑡. Reward at time t. 𝐵𝐴 ′(𝑠, 𝑎). Probability of choose state s and action a. 𝐵𝑆 (𝑠, 𝑠’). Probability of choose state s and next state s’. 𝐶(𝑠, 𝑎). Number of time selected for state s and action a. 𝐻(𝑠, 𝑠′). Number of time happened for satae s and next state s’. temp. System temperature. 𝛼. Learning rate, Constant variable. 𝛾. Discount rate, Constant variable. 𝜀𝑖. ε at training generation i. 𝐷𝑖𝑛𝑖𝑡. Each vehicle’s scheduled depart time (seconds). 𝐷𝑟𝑒𝑎𝑙. Each vehicle’s real depart time (seconds). 𝐷𝑒𝑝𝑎𝑟𝑡𝑑𝑒𝑙𝑎𝑦. Average depart delay for all vehicles (seconds). 𝑓𝑜𝑢𝑡𝑡. Number of vehicles exit by ramp at time t. 𝐶𝑠. Constant variable of speed (km/h). 𝐶𝑓. Constant variable of flow (vehicles). 𝐶. Constant cariable. 𝑇𝑆𝑡. Traffic speed at time t (km/h). 𝑇𝐹𝑡. Traffic flow at time t (vehicels). 𝑅(𝑇𝑆𝑡 ). Ratio of speed at time t. 𝑅(𝑇𝐹𝑡 ). Ratio of flow at time t. h. Threshold. vii.
(9) 第一章 緒論 第一節. 研究背景. 一直以來國人的旅遊習慣都是全家大小一同開車出遊,往往一到連假 就會有大量車流出現在各地區,造成各地交通狀況與平常差異甚大,並且 不太好去預料捉摸真正的情況,政府為了因應這樣的現象也做了一套全國 的即時高速公路車況系統 [1],讓國人在出發前或是路上能夠更加快速的查 詢現在的交通狀況來依此判斷後續行程走向。 近幾年來政府及名間共同開發出許多物聯網的相關產業合作,學術界 也一直在研究著許多物聯網相關的議題,民生公共物聯網 [2] 就是代表著所 有市民一同參與研究,一起分析現在社會發生的事情。從政府的公開資料 中,可以挖掘出非常大量且有用的資料,而這些資料都是與生活非常息息 相關的,例如:各地區水質、空氣及交通等的即時資料。稍做處理一下就 可以衍伸出非常大量的應用,像最近遇上新型冠狀病毒,政府及各界開發 出了許多即時的口罩存量與發放地圖就是一個非常好的例子。 隨 著 現 在 電 信 網 路 的 普 及 及 愈 趨 發 達 , 從 以 前 的 第 三 世 代 ( 3𝑟𝑑 Generation, 3G) 到現在的第四世代 (4𝑡ℎ - Generation, 4G),物連網產業的進步 可說是非常快速,平均每一個世代十年的發展,到現在即將要邁入的第五 世代 (5𝑡ℎ - Generation, 5G),物聯網的應用已經幾乎是擴展到所有的的全部 生活中。使得智慧車輛的發展越來越接近日常的生活中,這也就意味著在 未來國人的旅遊習慣也會跟著慢慢改變,從自駕車到乘坐智慧車輛到各處 旅行。. 1.
(10) 第二節. 研究動機. 對於假日大量車流湧入高速公路的情形,政府有提出了許多的配套措 施,包含:匝道儀控、高乘載管制、部分區段定時開放路肩行駛或是夜間 免收過路費等等方法,這些措施對於舒緩車流都有用,也都希望都能夠將 車流分散,不要全集中於某些熱門時段,但還是有小部分缺點能夠再改善 得更完整,例如若匝道儀控沒有適當的放行車輛至高速公路行駛,很有可 能會造成車流回堵至市區路段。可以從交通部高速公路局所公開的資料中 很明顯的看出來,儘管已經實施這些應對措施,車流還是沒有明顯的被劃 分開來,且在有些時候車速甚至會低到比平常時間車速的一半以下,證明 了依照現行的措施,雖然可以舒緩一部分的交通堵塞情況,但因為目前是 制式化的週期性調整,所以對於遇到特殊情況時,會無法真正有效的做即 時性交通舒緩處理,且高速公路上的車流車速變化很快,若沒有建立安全 的用路環境,會讓用路人發生危險的機率提高,所以建立一套兼具安全有 舒緩的系統是非常必要的。 現今的網路發展已經愈發平穩且快速,物聯網的應用在台灣已經廣布 於各地中,從交通部所公開的資料中,可以很明顯地了解到即時的交通資 訊。現在高速公路局在高速公路各路段都有裝設電子看板,能夠將現在各 路段的車況及調度資訊即時的傳播給該路段的用路人。而現在也有越來越 多智慧車輛販售於市面上,在未來車聯網 (Vehicular Network) 被廣泛應用的 時代,能夠透過車輛對設施 (Vehicle-to-Infrastructure, V2I) 以及車輛對車輛 (Vehicle-to-Vehicle, V2V) 快速的傳遞訊息給該地段的車輛。利用上述的資 料以及特點,就可以透過後端程式的運算,快速的找出最適合的行車路線 或是交通規劃措施,並透過電子看板即時發布給用路人,以達到快速的舒. 2.
(11) 緩車流與維持一定的車速,而在未來車聯網普及後同樣能夠依此特點來快 速的傳播訊息。. 第三節. 問題描述. 現行的上下匝道的管制策略有下閘道前的路肩行駛,以及設紅綠燈排 隊上匝道等方式,雖然開放路肩來消化車流量看似能夠非常效率,但現行 制度只規定了其行車速度最高為每小時 60 公里的車速以及在下匝道前 500 公尺所有車輛不能在路肩變換車道,但卻忽略了流量的管制與開放時間的 調整,前者會造成若欲下匝道的車流量與現階段行駛於路肩的車流量落差 太大時,會因為主線道與路肩的車速有落差而增加了變換車道時發生事故 的機率;後者會因為開放時間太固定,反而會產生不需要開啟時開放行駛, 真正需要開啟時卻無法行駛,在不需要開啟時開放通行很可能會造成前述 提到的車流量落差問題,而需要開啟時不開放行駛又會讓車流無法被有效 的消化。雖然開放路肩的本意就是為了讓該路段可以放行更多的車流湧入 該路段以期望能舒緩交通壅塞問題,雖然短時間是可以融入更多的車流, 但是長時來看會發現其中所包含的安全問題相當嚴重,全線堵塞的情況若 是有事故發生,勢必會影響到道路救援的難度,所以路肩開放雖然是好事, 但必須在安全的範圍內開放才是最有效益且安全的方式。 此研究提出基於強化學習之高速公路路肩車流量管制策略 (Reinforcement Learning Approach for Adaptive Road Shoulder Traffic Control, ARSTC)。以強化學習 (Reinforcement Learning, RL) 為基礎,ARSTC 旨在於 在安全的情況下有效率的開放路肩行駛以舒緩整體車流,ARSTC 會考慮該 路段的車流量、行車速率、道路使用比率等等,選擇一個最佳的路肩開放 車輛數量與時間。我們期望能夠透過此策略能夠運用在各個交通容易堵塞 的地段,來安全且快速的舒緩車流。 3.
(12) 第二章 相關文獻探討 此章節將簡述在高速公路上的交通舒緩分流相關文獻探討,包括強化 學習的理論基礎以及將強化學習應用於交通舒緩策略。第一節首先介紹目 前已有人提出的紓解策略;第二節會接著介紹強化學習的基本背景知識; 第三節會介紹將強化學習應用在舒緩交通的相關文獻。. 第一節. 交通法規與交通堵塞之舒緩方法. 對於交通堵塞的舒緩方式,在現行的國家法規以及可學研究中都有提 出非常多樣性的作法,其中包含的紅綠燈的秒數控制、道路的速限、車輛 行駛的道路調整、乘客數量管制或是流量的管控等等,並且使用不同的數 據分析及操控方法來舒緩整體車流。 2.1.1. 現行高速公路相關法規與辦法. 交通部高速公路局對於國道壅塞情況的定義為主線道平均車速低於60 公里,且持續兩小時以上路段,及視為壅塞情況發生。目前台灣對於舒緩 壅塞路段的方法為使用匝道儀控控制上下匝道之車流量、高乘載管制以及 開放路肩通行 現行的高速公路及快速公路交通管制規則中[30],提到能夠額外使用於 交通紓緩的道路分別為高乘載車道以及路肩車道,其中高乘載主要用於特 定車種或是乘載一定人數以上之車輛行駛車道,也是目前主要用於舒緩國 道五號車流的主要方式,而路肩車道主要用於道路救援、災害救援等,比 較偏向歸類於救援道路,但會依照高速公路車流情形來開放給一般用路人 行駛。 4.
(13) 在高公局頒布的「國道主線實施開放路肩規定」[29]中,明確的指出路 肩的開放條件為每周平日當路段至少發生兩次,且每次持續兩小時以上, 主線道平均車速低於60公里之重現性壅塞;每月假日當路段至少發生兩次, 且每次持續兩小時以上,主線道平均車速低於60公里之重現性壅塞,且透 過匝道儀控等其他交通控制手段均無法獲得有效改善時,即可將當路段的 路肩在一定時間內開放通行。 2.1.2. 現行交通堵塞之舒緩方式. 過去對於高速公路上的交通舒緩研究有分成:上下匝道之流量管制、 特定區間放行流量管制、特定區間速限管制 在研究 [3]-[8][5] 中都有提到在匝道前後是最容易造成交通堵塞或回堵 的地點,如果這部分的車流超過它可消化的流量時,就會形成交通堵塞並 回堵至後面的路段,造成整體路段消化車流的時間增加。 傳統交通舒緩的研究主要都是以道路速限控制著手,其中又分為兩種 方法,分別是:線上優化方法 (The Online Optimization Approach)[9]-[11] 以 及反饋控制方式 (The Feedback Control Approach)[10]-[14],。 線上優化方法主要是通過一些最佳化演算法來控制目標區域內的車速 或是車流量等等。[9][11]都有提到,匝道的車流量控制與高速公路的車速 控制這兩項問題可以被視為一最佳化問題,透過多次的迭代計算,可以漸 漸得出最佳的舒緩方案。雖然單就理論上來說,透過不斷的最佳化計算是 可以最佳化道路上的車速或車流控制,但是就高速公路上的車流與車速變 化來說,其變化有時候會非常巨大,透過一固定的模型不一定能夠準確的 預估與判斷接下來所會發生的情況,而且最佳化演算法往往需要非常大量 的運算,對於大規模的網絡架構可能會達不到非常好的效益。. 5.
(14) 在基於反饋控制的方式中,主要會利用一控制器來自依據現在各地區 回傳的資料透過計算來自動調整車速的限制或是車流量的多寡等,讓整體 的車流及車速能夠保持在一平穩的狀態,但其最基本就需定義一定數量範 圍的資料量,太少可能會陷入部分最佳解,太多可能又會造成回傳延遲或 計算量太大等問題。所以在[12]中提出了一種透過局部資訊來控制的反饋 策略,主要用於延緩資料延遲的時間。而在[13]中透過不一樣數量的地區 資料,也證明了不一樣的資料數量所影響到的結果會差很多。反饋控制的 策略主要是依賴及時的資料作運算,所以能夠依照目前的情形來做決策, 而且不需要做訓練模型,能夠降低系統所需要的計算時間,跟線上的優化 方式相比,能夠比較貼近真實情況,也可以比較穩定的做出反應決策。不 過反饋控制還是有一些限制,因為是靠著即時性的資料作運算,不會考慮 到過去經驗或是例外處理,所以當今天出現一些例外事故時,很容易受到 影響而做出錯誤的決策。 從[6]-[14] 可以發現不管是以什麼樣的演算法或是方式,很多都是以整 體的車速限制下去解決處理交通堵塞的問題,從這些研究的成果中也可以 看到在模擬環境中是真的能夠舒緩部分的交通堵塞,代表著我們確實能夠 透過演算法的加入來讓整體的交通堵塞情況得到改善。. 6.
(15) 第二節. 強化學習背景. 強化學習 (Reinforcement Learning, RL) [7][9][8] 不同於非監督式學習 (Unsupervised Learning)探 索 資 料 其 本 身 之 組 成 架 構 或 是 監 督 式 學 習 (Supervised Learning) 目的在於找出輸入與輸出之間的關係,強化學習適合 用來推算出長期的最佳策略,其可以透過過程中每一次的資料來做判斷與 修正,雖然在當下可能不是最好的方式,但對於整體而言會幫助達到更好 的結果,正是因為有能夠隨著每次變動而變更反應的機制,用於交通規劃 這種即時且有關聯性的資料會有不錯的效益。此小節會先介紹強化學習的 專有名詞,再介紹強化學習的相關方法。. 7.
(16) 2.2.1. 強化學習常用名詞解釋. 強 化 學 習 當 中 有 幾 個 主 要 的 名 詞 , 分 別 為 : 代 理 人(Agent)、 環 境 (Environment)、狀態(State)、動作(Action)以及獎勵(Reward),以下會依照 順序個別介紹:. 圖1. 強化學習組織架構流程示意圖。. ⚫ 代理人(Agent): 在強化學習中扮演做決策的角色,會依照環境中各個時間點的狀態, 來決定要執行的動作。 ⚫ 環境(Environment): 代理人所在的環境,也可以說是欲解決的事件情境,例如5個小時 內的高速公路車流、一個迷宮地圖等,代理人可以對於環境一無所 知 (Model-free Reinforcement Learning),也可以對於環境有一定的 了解 (Model-based Reinforcement Learning),環境主要會依據代理人 的決策,來給予獎勵及狀態更新的訊息。 8.
(17) ⚫ 狀態 (State 𝑠𝑡 at time t): 狀態為一會隨時間而變化的變數,代表著在該時間當下,環境中的 變量。以車輛為例:狀態可以是該車輛的行駛方向、車速、油量等 等,主要是依據系統來決定狀態的定義為何。 ⚫ 動作 (Action 𝑎𝑡 at time t): 動作也是一會隨時間便變化的變數,主要是代表著代理人在該時間 點所做出的決策。同樣以車輛為例:動作可以是是否要轉彎、向左 向右轉,加減速等等。 ⚫ 獎勵 (Reward 𝑟𝑡 at time t): 獎勵會根據時間、動作還有狀態來計算出來,代表在該時間點進行 的動作與狀態的回饋,強化學習中最重要的就是希望可以得出一穩 定並可以極大化獲得獎勵的決策模型。 圖1表示了基本的強化學習組織架構與其流程,從其中可以了解到整體 的 架 構 是 依 代 理 人 (Agent) 為 主 體 , 系 統 透 過 不 斷 的 嘗 試 與 環 境 (Environment) 互動,慢慢得出穩定決策系統。在任意一時間點 t 時,代理 人會了解現在的狀態 𝑠𝑡 ,並且依照此狀態來決定執行一動作 𝑎𝑡 ,環境接受 到動作 𝑎𝑡 後會在下一時刻 t + 1 給予新的狀態 𝑠𝑡+1 與獎勵 𝑟𝑡+1 ,而最終的 目的就是在於訓練出一個能夠最大化獎勵總和的決策模型。. 9.
(18) 2.2.2. 馬可夫決策過程. 馬可夫決策過程(Markov Decision Processes, MDP) [17][19] 主要提供了 一框架,主要用於在結果為部分隨機且部分受到決策者控制的情況下的一 決策模型。馬可夫決策過程很常被拿來應用於需要透過動態規劃或是強化 學習解決的優化問題。馬可夫決策過程與強化學習許多相似之處,兩者都 有狀態(State, S)、動作 (Action, A) 以及獎勵 (Reward, R)。. 圖2. 簡易馬可夫決策過程示意圖. 馬可夫決策過程中,會有許多的狀態,狀態彼此之間可能都會有一些 關聯性,圖2 展示了一簡單的馬可夫決策過程的例子,其中可將狀態定義 為 𝑆 = [Brovo, Charlie, Delta, Echo, Golf] ,而這其中的動作即狀態的轉移可 以被定義為 𝐴 = [Brovo → Charlie, Brovo → Delta ⋯ ],一開始在時間點 t 時 可能在任意其中一個狀態 𝑠𝑡 ,而做了某個動作 𝑎𝑡 之後,就會從該狀態 𝑠𝑡 移動至另一狀態 𝑠𝑡+1 ,其中的移動機率為 𝑃𝑠𝑡𝑠𝑡+1 ,等移動過後就會得到一 獎勵 𝑟𝑡+1 。. 10.
(19) 在馬可夫決策過程中,其狀態的移動機率都假設為每個狀態只與前一 狀態有相互關係:. 𝑃(𝑠, 𝑠 ′ ) = 𝑃𝑟 (𝑠𝑡+1 = 𝑠 ′ | 𝑠𝑡 = 𝑠, 𝑎𝑡 = 𝑎). (1). 當中 s, s′ ∈ 𝑆, 𝑎𝑡 ∈ 𝐴 ,並透過選取的動作,可以在每個狀態執行動作後取 得獎勵定義為:. 𝑟(𝑠, 𝑎) = 𝐸 [𝑟𝑡+1 |𝑠𝑡 = 𝑠, 𝑎𝑡 = 𝑎]. (2). 再來定義一個最終獎勵總和參數 𝐺𝑡 表示從時間點 𝑡 開始到結束的獎勵總和: ∞. 𝐺𝑡 = ∑. 𝑟𝑖. (3). 𝑖=𝑡+1. 因為獎勵會等到動作完成後才會得到,所以數學式 (2)(3) 中以延遲一個 時間點當作獎勵得到的時間點,因此時間會從 𝑡 + 1 開始。 馬可夫決策過程的主要目標就是為了要找出系統中最佳的動作執行策 略,以獲得最好的最終獎勵。所以會將每個狀態做分數評比,透過這些分 數的判斷,來找出最佳的狀態規劃。而用來評比的函數稱為「最有價值函 數」(Value-function, 𝑣):. 𝑣(𝑠) = 𝐸[𝑟𝑡+1 + 𝛾𝑝(s, s′)𝑣(𝑠′)|𝑠𝑡 = 𝑠, 𝑠𝑡+1 = 𝑠 ′ , 𝑎𝑡 = 𝑎]. (4). 其中γ 為折扣率(Discount),介於0~1之間,代表著受過去經驗所影響的 比例。為了能夠讓每個狀態之間的移動機率比較明確,可以定義一個移動. 11.
(20) 機率矩陣 T 來存放所有的機率變數,如此一來根據貝爾曼方程式 (BellmanEquation) [7] 就可以在每次做完決策取得獎勵之後更新狀態的價值函數:. 𝑣(𝑠) = 𝑟 + 𝛾𝑇𝑣(𝑠′). (5). 取得每個狀態的價值函數之後,可以變成規劃問題,透過動態規劃 (Dynamic Programming)與價值函數的結合,來找出系統中的最佳決策並最 大化獲得的獎勵。 假設今天無法直接取得上述的移動機率矩陣時,則只好透過不斷的嘗 試與觀測來慢慢取得,此問題被稱之為「可部分觀測的馬可夫決策過程」 (Partial Obserable Markov Decision Processes, POMDP)[18]。 由 於 無 法 觀 測 到所有狀態之間的關聯,貝爾曼方程式就無法求出正確的價值函數,只能 經過不斷的嘗試,並記錄其中各個狀態之間的移動順序,來估算整體的移 動機率,最後才能來估計價值函數。 而上述的計算方式可以分為兩種,一種為一次完整模擬為基礎計算, 第二種為以單一時間點做計算,前者會使用蒙地卡羅演算法 (Monte-Carlo) [20],後者通常使用時間差分演算法 (Temporal-Difference) [21],接下來會 分別簡單介紹。 2.2.3. 蒙地卡羅演算法. 蒙地卡羅演算法主要都是以一次完整的模擬為基礎下去更新每個狀態 的價值函數,而其中又細分了兩種計算方式,分別是「初次探訪評估」 (First-visit evaluation)跟「每次探訪評估」(Every-visit evaluation),兩者間主 要差在計算的次數,後者會依照探訪次數再額外給予一變數計算整體的價 值函數。 12.
(21) 雖然蒙地卡羅能夠計算出每一狀態的價值函數,但是其必須在每一次 的模擬結束後才能夠更新所有的價值函數,其更新公式為:. 𝑣(𝑠) = 𝑣(𝑠) + 𝛼(𝐺𝑡 − 𝑣 (𝑠)). (6). 其中 𝛼 為學習率 (Learning rate) ,介於 0~1 之間,代表每次更新的效率。 在這樣的情況下,蒙地卡羅演算法能夠計算出整體系統的最佳解,但若某 一問題需要耗時非常久才能夠模擬完成,或是其沒有明確指示模擬終止點, 就會造成蒙地卡羅的更新效率很差,另一方面則是因為需要完整模擬結束 才更新價值函數,很容易忽略掉狀態之間的關聯性,而時間差分演算法較 能夠解決這方面的問題。 2.2.4. 時間差分演算法. 時間差分演算法與蒙地卡羅演算法最主要的差別就是更新的頻率,時 間差分法可以在每次的動作結束後,在獎勵取得後就馬上更新價值函數, 不需要將所有的獎勵做完計算後在更新,其可以單靠前後時間點的狀態 (𝑠𝑡 , 𝑠𝑡+1) 來做狀態價值函數的更新,其更新公式為: 𝑣(𝑠) = 𝑣(𝑠) + 𝛼(𝑟 + 𝛾𝑣(𝑠′) − 𝑣(𝑠)). (7). 其透過每次取得獎勵 𝑟 後立即更新價值函數,如此一來就能夠更加得 了解狀態間轉移的關係,但其因為是每次取得後更新,所以整體下來不一 定會得到如蒙地卡羅的最佳解,但因為有些系統沒有那麼在意最佳解,只 需要能夠快速的產出相對好的解,這時候時間差分演算法就很能給予幫助。. 13.
(22) 除了狀態價值函數之外,動作價值函數(Action-value function)也很常被 提出來使用,其可以定義為價值函數𝑄(s, a): 𝑄(𝑠, 𝑎) = 𝐸 [𝑟𝑡 | 𝑠𝑡 = 𝑠, 𝑎𝑡 = 𝑎]. (8). 透過狀態價值函數與動作價值的結合,能夠判斷狀態之間決策動作的 好跟壞,也可以了解到在每個狀態點的動作決策對於整體系統的反應好壞。 而在強化學習中,提出了使用時間差分演算法的一種學習方式稱為 Q 學習(Q Learning) [7][21][22]。 2.2.5. Q 學習 (Q Learning). 在 Q Learning 中主要定義了動作價值函數 (Q-Value, 𝑄(s, a)),並將其定 義為:. 𝑄:S × A → R. (9). 透過每一狀態 𝑠 與執行的動作 𝑎 執行後過後所得到的 𝑟 透過公式來對 Q-Value 做更新,其更新公式為: 𝑄(𝑠, 𝑎) = 𝑄(𝑠, 𝑎) + 𝛼(𝑟 + 𝛾 max 𝑄(𝑠 ′ , 𝑎) − 𝑄(𝑠, 𝑎)) 𝑎. (10). 左項中的𝑄(𝑠, 𝑎 )為更新後的價值函數,右項的為原始價值函數,α為學 習率(Learning rate),為介於0 ~ 1之間的數值,代表該次動作針對原本函數 的影響效果,γ為衰減值,為介於0 ~ 1之間的數值,代表目前與未來的影響 效果,max 𝑄(𝑠 ′ , 𝑎)則代表未來具有最高價值的可能價值函數。 𝑎. 在 Q Learning 當中,透過不斷的迭代訓練最終將整體決策系統變成一能 夠平穩做決策的系統。 14.
(23) 第三節. 基於強化學習的交通管制策略. 基於強化學習的交通管制策略中[23]-[25]可以了解到,這些應用的基礎 都是建設在線上優化以及反饋控制之上,同時結合兩種方法的特點,將反 饋控制的應用當成計算方式並加入到線上優化的模型中,如此一來就可以 透過歷史資料的迭代訓練,來整合出一穩定的控制系統,並且可以去除掉 原先線上優化需要經過大量運算的預估時間,也可以減少反饋控制遇到特 殊情況會產生偏差的問題,透過預先訓練好的模型再加入即時的資料反饋, 就可以讓整體系統隨著時間做更動,讓系統保持在一穩定的平衡中。 而強化學習基本上也就是線上優化以及反饋控制的結合方法,透過每 個時間點的狀態以及該狀態可執行的動作,建立一套狀態跟動作的價值函 數,並透過多次迭代的訓練,讓價值函數變成一套完整且穩定的動作決策 對照表,並且透過即時資料的反饋,讓整體的模型隨著時間的推移更新, 讓系統可以隨時針對不同的變化做出最好的動作決策。. 15.
(24) 第三章 研究方法 本章節將會敘述此研究所提出的 ARSTC 方法與架構:第一節介紹資料 的收集、種類以及做初步處理及分析;第二節會介紹如何將處理過後的資 料加入強化學習中運算以及相關的參數與公式設定;第三節介紹如何設定 模擬環境與如何將測試資料投入模擬環境中。. 第一節. 資料收集與處理. 交通部高速公路局交通資料庫 [28] 有公開每天的全國高速公路流量及 車速資料供民眾下載,其資料為每5分鐘上傳並儲存在高公局的公開資料庫 中,內容包含各個國道之各路段公里數、方向、道路狀況,還有該檢測站 的前五分鐘各車道 車流量 (Volume)、平均車速 (Speed)、車道占用比率 (Lane Occupancy)等資訊 (表1)。 Vdid. Lane Speed (km/h) Laneoccupy. Volume (vehs). nfbVD-N1-S-88.060-M-LOOP. 1. 98. 18. 144. nfbVD-N1-S-88.060-M-LOOP. 2. 92. 19. 140. nfbVD-N1-S-88.060-M-LOOP. 3. 88. 13. 87. nfbVD-N1-S-88.060-M-LOOP. 4. 105. 2. 26. nfbVD-N1-S-90.000-M-LOOP. 1. 93. 15. 94. 表1 高公局高速公路公開資料格式. 16.
(25) 從這些資料當中,可以標籤出全台各地區國道常發生壅塞的路段,也 可以快速的檢驗現行的路肩開發策略是否有效,在本研究中取 2020 年 1 月 23 日春節連假第一天的國道一號南下竹北至新竹路段 (86 – 91 km) (圖3) 進 行初步的研究分析,透過 (圖4) 可以明顯的看出車流量對於車速的影響非常 巨大,而該路段在當天的路肩開放時間為上午 6 點起至晚間 7 點止,在圖 中也可以發現到,雖然路肩開放很長一段時間,但還是一樣會發生壅塞的 情況,而且雖然在上午 6 點時就已經開放路肩通行,但整體路肩的使用量 (圖5)在上午 10 點前都沒有太多使用,而是等到了真正開始有壅塞情形開始 時才大量的車流湧入路肩行駛,且從資料中可以發現現行路肩的開放並未 對交通舒緩有很大的幫助,是直到傍晚左右壅塞的情況才改善很多,且車 流量也慢慢下降,但是路肩依然開放行駛直到晚間 7 點才關閉通行。. 圖3. 國道一號竹北路段地圖:圖中從左至右為南向。. 17.
(26) 圖4. 1月23日國道一號南下竹北至新竹路段車流量及車速關係圖。. 圖5. 1月23日國道一號南下竹北至新竹路段路肩使用圖。. 第二節. 強化學習應用於路肩車流控制. 從第一節中所取得的資料中,可以取得該路段每條線道五分鐘內的平 均車速、總車流量、車道的佔用比率以及欲下匝道的車流量,在此研究中, 主要會從總車流量、車速與欲下匝道的車流量著手,透過這三項數據以及 18.
(27) 模擬出來的結果來計算該狀態時的獎勵。之後再使用強化學習中的 Q 學習 (Q Learning) 作為更新價值函數的方法,並以 Q-value 𝑄 (𝑆, 𝐴) 代表狀態與動 作的價值函數。此小節會依序介紹 Q Learning 的基本函數更新方法、參數 設定以及每次動作完的獎勵的計算方式。 3.2.1 Q Learning 如同上一張所提到的 Learning 是以時間差分法為基底的一強化學習方 法,並定義出價值函數(Q-value, 𝑄(𝑆, 𝐴)),在此實驗中的狀態(State, 𝑆) 為各 個時間點 t 於該路段的總車流量,動作(Action, 𝐴) 為該時間點 t 開放至路肩 行駛的車輛數定義如下,會以這些車輛數作為動作主要原因是因為上一節 中提及的竹北路段含路肩共有四線道,而所有線道每五分鐘的總車輛數約 為 500 左右,故取每線道平均後的數值作為上限。. 𝐴 = [60,70,80,90,100,110,120,130]. (11). 在起始階段,先定義好價值函數表 (Q-Table) 表2,於表中設置好每個狀 態及對應動作的價值函數𝑄(𝑠, 𝑎)並將每個𝑄(𝑠, 𝑎)初始化為0,並在每一次的 動作執行後,透過取得到的獎勵(Reward, R)來進行𝑄(𝑠, 𝑎)的更新,並將更 新公式(10)化簡變成:. 𝑄 (𝑠, 𝑎) = (1 − α)𝑄(𝑠, 𝑎) + 𝛼(𝑟 + 𝛾 max 𝑄 (𝑠′, 𝑎)) 𝑎. (12). 因為max 𝑄(𝑠′, 𝑎 )只會考慮到未來一個狀態的影響,所以可以透過馬可 𝑎. 夫決策過程來有效率的找出下一時間點的價值函數 𝑄(𝑠′, 𝑎),會在下一小節 介紹。. 19.
(28) Q-Table Action. Number of Vehicles Allows to Road Shoulder. State. Number. 0. of. ⋮. Vehicle. 300. 60. 70. 1.4350. 1.3758. ⋮. 1.3725. 80. 90. 100. 110. 120. 130. ⋯. 0.9971. 1.1642. ⋮. ⋱. ⋮. ⋮. 0.9734. ⋯. 1.5142. 1.4356. ⋮ 600. 表2 價值函數表(Q-Table). 3.2.2 應用於 Q Learning 的馬可夫決策過程 因為 Q Learning 是基於時間差分法的強化學習,可以被歸類為可部分觀 測的馬可夫決策過程,如此一來,在一開始的學習階段都要不斷的紀錄每 個狀態之間的關聯性,透過訓練之後就可以了解每個狀態間的轉移關係 (圖 6),再定義一個下一狀態關聯表 (Next State table) 表3用來記錄狀態間的關 聯,透過這個關聯表,經過幾次的模擬之後就可以快速的知道在目前狀態 下,未來有可能會發生的狀態有哪些。. 20.
(29) 400. 413. 421. 375. 350. 圖6. 狀態間轉移關係圖 Next State Table State s’. Number of Vehicles. State s. 0 Number. ⋮. of. 300. Vehicles. ⋮ 600. 50. 35. 30. ⋯. ⋯. ⋯. ⋯. ⋯. 350. 331. 325. ⋯. ⋯. ⋯. ⋯. ⋯. ⋯. ⋯. ⋯. ⋯. 表3 狀態關聯表 (Next State Table). 為了讓狀態的選取更合乎真實環境所發生的情況,會對於每個狀態被 選取的機率依照其發生次數加入一個權重值,ARSTC 透過波茲曼分布 (Boltzmann Distribution)[26]來分配其被選取的機率,其公式如下:. 𝐵𝑆 (𝑠, 𝑚) =. 𝐸𝑥𝑝(𝐶(𝑠, 𝑚)⁄𝑡𝑒𝑚𝑝) , ∑𝑏∈𝑆 ′ 𝐸𝑥𝑝(𝐶(𝑠, 𝑛)⁄𝑡𝑒𝑚𝑝). 21. 𝑚, 𝑛 ∈ 𝑠 ′. (13).
(30) 其中 𝐵𝑆 (𝑠, 𝑚) 代表每一個狀態被選取的機率,𝐶 (𝑠, 𝑚), 𝐶(𝑠, 𝑛)代表該狀 態發生過的次數,𝑡𝑒𝑚𝑝 為一系統溫度,會隨著選擇次數越多而變越低,在 本實驗中將 𝑡𝑒𝑚𝑝的起始值設為1000,並定義其變化公式為:. 𝑡𝑒𝑚𝑝 = 1000 − 𝐶 (𝑠, 𝑚). (14). 經過波茲曼分布的機率選取後,就可以透過產生出的下一時間點狀態 s′來查找其在價值函數表中具有最高價值的 𝑄(𝑠′, 𝑎)來作為 max 𝑄(𝑠′, 𝑎)。 𝑎. 3.2.3 𝛆 − 貪婪法 (𝛆 − 𝒈𝒓𝒆𝒆𝒅𝒚) 在 Q Learning 中選取動作的方式有兩種,第一種是隨機選取一個動作, 第二種為選取價值函數 Q(S, A)最高的動作,其兩種方式各有好壞,前者可 以確保在一定迭代後每一個動作都可以被執行評估過一次,但其壞處就是 在於因為是全隨機的,所以無法做出穩定的決策;而後者的好處為可以確 保決策一定是當前最好的選擇,但其壞處在於因為可以選取的動作比較固 定,所以很容易會陷入區域最佳解。 為了讓系統可以保有一定的嘗試,又同時希望產出的動作可以趨於穩 定,ε − 𝐺𝑟𝑒𝑒𝑑𝑦 [27] 很常被強化學習當作選取動作的工具,其透過定義一 機率常數ε來作為判斷要隨機選取還是透過價值函數選取該次動作,在過去 研究中 [24] [25] 都將其定義為 0.2,完整的流程如演算法1. 22.
(31) 演算法1.. ε − 𝐺𝑟𝑒𝑒𝑑𝑦 動作選取流程。. 可以將選取動作的方式定義為:. 𝑎𝑡 = {. 𝐵𝐴 ( 𝑠, 𝑎), 𝑚𝑎𝑥 𝑄(𝑠, 𝑎) ,. 𝑝<𝜀 𝑝≥𝜀. (15). 其中 𝐵𝐴 (𝑠, 𝑎) 為透過波茲曼分布選取動作 𝑎𝑡 , p 為隨機產生 0 ~ 1 的數 值。如此一來就可以同時保有隨機嘗試與穩定做決策的功能,但其中還是 可能會因為無法評估完所有動作,而導致區域最佳解的問題,所以在本研 究中首先將每一迭代的 𝜀 𝑖 更新:. 23.
(32) 𝐸𝑝𝑜𝑐ℎ − 𝐸𝑖 2𝐸𝑝𝑜𝑐ℎ. 𝜀𝑖 = 𝜀 +. (16). 𝜀 定義為 0.2,但會隨著迭代越來越多次做變動成 𝜀𝑖 ,𝐸𝑝𝑜𝑐ℎ為預計迭代總 次數,𝐸𝑖 為目前的迭代次數,透過這樣的設定,系統在一開始的時候會比 較高機率的隨機選取動作,到了訓練後期就會越趨平穩但還是保有隨機選 取的機制。 而在隨機選取動作的階段,一樣加入了波茲曼分布來計算每個動作被 選取的機率,其定義為:. 𝐵𝑆 (𝑠, 𝑥) = (. 𝐸𝑥𝑝(𝐶 (𝑠, 𝑥)⁄𝑡𝑒𝑚𝑝) −1 ) , ∑𝑦 𝐸𝑥𝑝(𝐶 (𝑠, 𝑦)⁄𝑡𝑒𝑚𝑝). 𝑥, 𝑦 ∈ 𝑎. (17). 其中 𝐵𝑆 (𝑠, 𝑥) 代表當前狀態下的機率倒數,𝐶 (𝑠, 𝑥), 𝐶(𝑠, 𝑦) 為該動作被選取 的次數,𝑡𝑒𝑚𝑝 為一變數,其變化方式與 公式 (14) 一樣,再透過所有機率 倒數的加總後求出一狀態動作選取機率 𝐵𝑆 ′(𝑠, 𝑥):. 𝐵𝑠 (𝑠, 𝑥) −1 𝐵𝑆 ′(𝑠, 𝑥) = ( ) , ∑𝑦 𝐵𝑠 (𝑠, 𝑦). 𝑥, 𝑦 ∈ 𝑎. (18). 這麼做主要為了要讓選取次數較少的動作有更高的機率可以被選取到。. 24.
(33) 3.2.4 獎勵 (Reward) 計算 在本研究中,最主要改善的問題就是路肩的流量問題以及減少塞車的 時間,所以將這兩項目標當作獎勵的計算方式,先定義出每個時間點 𝑡 的 獎勵 (Reward at 𝑡, 𝑟𝑡 ) 為:. 𝑟𝑡 = 𝑙𝑜𝑔10 (𝐷𝑒𝑝𝑎𝑟𝑡𝑑𝑒𝑙𝑎𝑦)−1 + 𝑟𝑎𝑡𝑒. (19). 其中 𝑟𝑡 代表在狀態 𝑠𝑡 時執行動作 𝑎𝑡 所得到的獎勵,𝐷𝑒𝑝𝑎𝑟𝑡𝑑𝑒𝑙𝑎𝑦 定義為 平均每輛車 i 出發的延遲時間 (𝑠𝑒𝑐𝑜𝑛𝑑𝑠) 表示為:. 𝐷𝑒𝑝𝑎𝑟𝑡𝑑𝑒𝑙𝑎𝑦 = 𝐴𝑉𝐺(𝐷𝑟𝑒𝑎𝑙 − 𝐷𝑖𝑛𝑖𝑡 )𝑖. (20). 起始先給予每輛車出發的時間 𝐷𝑖𝑛𝑖𝑡 ,透過模擬的結果能夠取得每輛車的真 正出發時間 𝐷𝑟𝑒𝑎𝑙 ,將每輛車𝐷𝑖 的延遲出發時間記為 (𝐷𝑟𝑒𝑎𝑙 − 𝐷𝑖𝑛𝑖𝑡 )𝑖 並計算 出平均的延遲出發時間 𝐷𝑒𝑝𝑎𝑟𝑡𝑑𝑒𝑙𝑎𝑦,在模擬環境中會讓每輛車在最安全 的情況下出發,所以延遲出發時間可被視為整體的塞車時間,當延遲出發 時間越長代表整體塞車的情況越嚴重。詳細的模擬環境會在下一節說明, 𝑟𝑎𝑡𝑒 為欲下匝道車流量與行駛路肩車流量的比率表示為:. 𝑟𝑎𝑡𝑒 = 𝑓𝑜𝑢𝑡𝑡 /𝑎𝑡. 25. (21).
(34) 𝑓𝑜𝑢𝑡𝑡 代表在時間點 t 要下匝道的車量,𝑎𝑡 為時間點 t 所執行的動作,透過 這兩數值的加總,來計算每個時間點的獎勵值。 3.2.5 學習率 (Learning rate, 𝜶) 在本研究中,將學習率 (𝛼)定義為:. 1 𝛼=( )𝛽 𝐶(𝑠, 𝑎). (22). 目的在於讓 Q-value 的更新效益隨著該動作被選取的次數而減少,𝐶(𝑠, 𝑎) 為狀態 s 跟動作 a 被選取的次數,𝛽 為一常數定義為 0.7、0.8 與 0.9,當 𝛽 越大,學習效率就會越低。. 第三節. 於模擬環境以強化學習訓練路肩開放策略. 本節會依照模擬環境的設定、實驗整體流程分別介紹。 3.3.1 實驗環境設定 在此研究中,我們使用 Simulation of Urban Mobility (SUMO) [31] 的車 輛模擬程式來進行實驗的結果模擬,首先將第一節中所取得到的各路段車 流量以及上下匝道的車流量,在 SUMO 中分別以普通轎車、Custom1 以及 Custom2 等形式呈現 (圖7),且將 Custom1 跟 Custom2 的所有參數設定與普 通轎車相同,其中再以普通轎車代表一般行駛之車輛、Custom1 代表欲下 匝道之車輛、 Custom2 代表不下匝道但行駛路肩之車輛。並且從開放街圖. 26.
(35) (Open Street Map, OSM) [32] 中擷取出實驗所需要的路段 (圖8) ,並將最外 側車道標示為路肩車道,以達到最為貼近現實中的模擬環境。. 圖7. 於 SUMO 中的車輛種類示意圖. 圖8. 從 OSM 中將國道一號南下 86-91 km 路段資料於 SUMO 中呈現示意圖. 27.
(36) 3.3.2 實驗流程 首先介紹整體的實驗運行流程,,架構如圖9,在整體系統中會一直與 高公局取得每個時間點的交通資訊,通過 ARSTC 並做出決策之後,就會再 次取得下一時間點的資料,依此循環。而本研究提出的 ARSTC 架構如圖9 , 其中主要分為兩個部分,第一部份為判斷路肩啟用時機,第二部分為透過 Q Learning 訓練好的 Model 對當前交通做決策,透過 ARSTC 做出的決策, 高工局就可以依此來進行交通管控。. 圖9. 整體系統流程圖. 28.
(37) 圖10.. ARSTC 流程圖. 在第二部份中的 Model 生成主要是透過過去的交通歷史資料來訓練, 從第一節所獲得的路況資料可以得出一結論,平均的塞車時間大概為4小時 左右,所以在本研究中,取8個連假的第一天(春節連假第一天、端午連假 第一天、中秋連假第一天、連假第一天、清明連假第一天以及雙十連假第 一天)其中四個小時,每五分鐘一筆的路況資料作為訓練資料 表4. 29.
(38) 日期. 開始時間. 結束時間. 2018/02/15. 06:30. 10:30. 2018/06/16. 06:50. 10:50. 2018/09/22. 05:50. 09:50. 2019/02/28. 06:15. 10:15. 2019/04/04. 05:25. 09:25. 2019/06/07. 05:50. 09:50. 2019/09/13. 05:40. 09:40. 2019/10/10. 05:30. 09:30. 表4 Training Dataset. 這四小時的資料取法是依照一塞車門檻作為指標,並取達標後的四小 時資料。這項指標在整體系統中也扮演著決定路肩流量管制時機的角色, 其流程如演算法2. 30.
(39) 演算法2.. 啟動路肩與流量控制流程. 其中會先定義三個常數 𝐶𝑠 為速度常數, 𝐶𝑓 為車流量常數, 𝐶 為一常數, 在定義門檻值 ℎ 用來記錄交通資訊並判斷是否開啟路肩與流量管制,𝑇𝑆𝑡 為當前時間點 t 的行車速度,𝑇𝐹𝑡 為當前時間點 t 的車流量,而因為單從當 下的行車速度與車流量無法看出是否即將發生壅塞情形,所以定義出 𝑅(𝑇𝑆𝑡 )為行車速度的比率:. 𝑅 (𝑇𝑆𝑡 ) =. 31. 𝑇𝑆𝑡 𝐶𝑠. (23).
(40) 與 𝑅(𝑇𝐹𝑡 ) 為車流量比率: 𝑅 (𝑇𝐹𝑡 ) =. 𝑇𝐹𝑡 𝐶𝑓. (24). 透過比率的方式計算,就能夠找出真正塞車的時間點,並且也能預估塞 車的時間點,在本研究中為了能夠提前開啟路肩並進行流量管制,所以 定義門檻公式設為:. 𝑅 (𝑇𝑆𝑡 ) − 𝐶 > 𝑅(𝑇𝐹𝑡 ). (25). 如果單純只將門檻值設為 𝑅 (𝑇𝑆𝑡 ) 與 𝑅(𝑇𝐹𝑡 ) 的差異比較,會造成已經發生 壅塞事件時才開啟路肩與流量控制,這樣並無法有效的解決壅塞問題,所 以透過加入一常數 𝐶 來做擁塞事件的預先評估,就可以在壅塞發生前先啟 動控制路肩車流量,而因為從正常狀況便成壅塞狀況的時間很短暫,若將 門檻值設太高,會造成太晚開啟路肩與流量控管,又為了防止例外事件, 將門檻值 ℎ ≥ 3 (連續15分鐘)的交通資訊設為最終開啟控制之門檻。 3.3.3 Q Learning 結合路況資料 從前一小節取得的 8 天 4 小時的路況資料,可以統整出一系列的狀態序 列,總共 8 天每天 4 小時,每小時 12 筆資料共 384 筆資料,所以一共會有 384 個狀態,在透過這些資料結合 Q Learning 來訓練出穩定的決策模型,最 後使用 2020/01/23 春節連假第一天的資料來做驗證,證明結合 Q Learning 的路肩車流量控制是否會比原先沒有任何控制的情形好,其整體的流程架 構如圖11。. 32.
(41) 圖11.. Q Learning 整體實驗與驗證流程架構. 在本研究中建立了兩種 Model,分別是 Continuous Model 跟 Individual Model,前者是將所有的訓練資料統一做訓練,好處是可以在第一次迭代 後就了解狀態之間彼此的關係,但每次迭代的時間就會比較久,不過這也 代表此 Model 訓練出來後比較可以穩定的做出決策;後者是將訓練資料依 照時間依序做訓練,所以每個迭代所需的時間比較短,且可以產生出 8 個 Model 來做使用,但其缺點在於會偏向每一天個別的資料做出不同的反應, 所以訓練出來的 Model 不一定可以使用於所有的情況中。 本研究提出了兩種 Model 訓練方式,會依照平均的延遲出發時間與總 減少的車流量比率來做 Model 的表現評估。. 33.
(42) 第四章 實驗結果分析 第一節. 實驗設定. ARSTC 的全程實驗都在伺服器端進行,伺服器的硬體使用 AMD R7 3700X 處理器,32GB 記憶體以及 NVIDIA RTX 2070 8G 的顯示卡,在透過 SUMO 的模擬環境模擬每一個 State 來取得結果,實驗中每一個 State 平均 的運算及模擬時間總和大約為 0.25 秒,本研究中分為好幾個驗證過程,分 別為不同門檻值的比較、訓練結果評斷、不同學習率的結果比較以及不同 迭代次數 (Epoch) 的結果比較。 為了讓整體的模擬更合乎於現實高公局法規,在將 OSM 的地圖輸入進 SUMO 之後,首先將路段定義為無路肩區域 (86 – 88 km)、路肩可變換車道 區(88 – 90 km)、路肩不可變換車道區 (90 – 91 km) 以及下匝道區 (91 km) (圖 12),並且將路肩的最高速度設為 60 km/h. 圖12.. 實驗地區規劃示意圖. 34.
(43) 第二節. 門檻值比較. 對於不同門檻值得設定,會讓整體系統判斷是否啟動流量控制的時 間受到不同的影響,本小節會針對不同的常數 𝐶、車速比率 𝑅(𝑇𝑆𝑡 ) 以 及流量比率 𝑅 (𝑇𝐹𝑡 ) 來進行驗證。 在本實驗中取五天的交通資料來進行門檻值的效果驗證,詳細日期 如表5,透過這五天的資料來驗證不同常數 𝐶 啟動流量控管的時間點是 否適當,圖13針對 𝐶 設定為 0.03、0.04 跟 0.05時每天的啟動時間比較。 可以看的出來,當 𝐶 設為 0.03 時有時候會太晚啟動流量控制,而 0.04 跟 0.05 之間的差別不大,但 0.05 有 一天啟動的時機比 0.04 還早一些, 所以在本研究中取一個相對穩定的 0.04 作為門檻值。. 35.
(44) 日期. 連假與天數. 2020/01/23. 春節連假第一天. 2020/01/24. 春節連假第二天. 2020/01/25. 春節連假第三天. 2020/04/02. 清明連假第一天. 2020/04/03. 清明連假第二天 表5 驗證資料日期表. 圖13.. 不同常數 C 比較結果. 36.
(45) 再來比較不同的 𝑅 (𝑇𝑆𝑡 )與 𝑅(𝑇𝐹𝑡 )的啟動結果,𝐶都定義為0.04,一樣 為五天的資料做比較,這裡主要要找出最好的 𝐶𝑠 與 𝐶𝑓 設置數值,在本 研究中進行了一組靜態 (Fixed Parameter, FP) 與三組動態資料作為 𝐶𝑠 與 𝐶𝑓 的設定值,其設定方式如表6,其中三組動態資料分別為 Day:依照 去年連假同一天的最高車速是最高車流量,例如:2019/02/02;Date:依 照去年同一日期的最高車速與最高車流量,例如:2019/01/23;Yesterday: 依照前一天的最高車速與車流量,例如:2020/01/22。而其結果如圖14所 示,透過結果可以發現到若是使用去年同一日期的資料當作門檻值,其 所帶來的結果不盡理想,而若是使用前一天的資料,其結果雖然比前者 好,但還是無法在最適合的時間點啟動路肩流量控制,而其餘三者的表 現都不錯,因為連假中每天的車流模式大致上會雷同,所以可以看出來 以同一天的資料當作門檻的結果很不錯,至於靜態資料的設置都相當符 合啟動路肩流量控制的時機點,所以在本研究中,為了縮短整體計算時 間,直接將 FP 當作 𝐶𝑠 與 𝐶𝑓 。. 37.
(46) 方法. 𝐶𝑠 (𝑘𝑚/ℎ). 𝐶𝑓 (vehs). FP. 110. 550. highest speed. highest flow. highest speed. highest flow. highest speed. highest flow. Same day Same date Yesterday. 表6 不同 𝐶𝑠 與 𝐶𝑓 設置方式. 圖14.. 不同𝐶𝑠 與𝐶𝑓 比較結果. 38.
(47) 第三節. 訓練結果評估. 本小節會針對前面所提出的兩種 Model,Continuous Model 及 Individual Model 來進行實驗分析。 為了能夠更加的貼近於真實環境下有可能發生的情況,所以本研究中 會透過不同的出發時間來進行模擬,但這樣做會因為一些可能發生的事件 影響導致模擬的結果會有起伏,在本研究中不會針對這些資料進行過濾, 主要是因為這些情況還是有可能會在真實環境中發生,所以保留這些例子 反而能讓整體系統更貼近於真實。 Continuous Model 將資料聚集在一起才做訓練的好處為可以在一開始時 就了解完每個狀態之間的關係,並且透過幾次迭代後就有機會找出好的決 策過程,但其壞處也在於此,由於整體的狀態太多,所以在訓練其中很容 易就被上述的數值干擾,這樣一來雖然一樣可以取得平衡,但是隨著迭代 次數的增加,會比較容易受到干擾,而造成系統每隔一段時間就會找到一 個新的平衡,但其實透過圖15的資料呈現可以發現,在受到干擾之前,系 統都可做出相對穩定的決策 (大約在迭代次數 75 ~ 210 之間) ,而之後隨著 一些狀態的關係,讓整體的決策數量往上成長,並緩慢的成長,但若扣除 掉這些可能的干擾因素,還是可是看出系統相對來說算是非常穩定的做決 策。而透過圖16的獎勵演進圖也可以發現不管 𝛽 設為多少,都能夠隨著迭 代次數慢慢取得更高的獎勵,而且也能穩定在一定範圍內,透過這兩張實 驗結果可以看出 𝛽 的數值主要會影響在動作決策上,對於獎勵的影響並沒 有很大,所以在後續 Individual Model 中直接取 0.7 作為 𝛽 。. 39.
(48) 圖15.. Continuous Model : Action Evolution. 圖16.. Continuous Model : Reward Evolution. 而 Individual Model 中,將資料分開訓練的好處即可將上述說的干擾率 降低,不會輕易受到多個干擾造成整體決策備受干擾,所以可以得出相對 穩定的決策模型,而且也可以針對每天的車流行為來做針對性的校正,但 是因為其每次都只有48個狀態做訓練,所以每一天不需要訓練到 500 次, 訓練 100 次後就可以換一天繼續訓練。也因為每天的狀態較少,所以在訓 練的前期時,會比較難去模擬所有可能發生的情況,但是到了訓練後期就 可以讓整體系統變得更加穩定其訓練結果的動作決策演進如圖17,透過途 中可以看到確實會依照不同訓練天產生出每一天的各自的訓練情形。而獎. 40.
(49) 勵演進如圖18,可以看出雖然起始階段整體的獎勵值幅度很大,但訓練幾 天後就可以產生一穩定的決策模型,而每一天的訓練獎勵有落差也是因為 每一天的車流行為不一樣所導致,但還是可以看的出來整體系統對於每天 的訓練都可以取得穩定的獎勵。 而因為不同訓練天數都能夠產生一個 Model,圖19顯示了若使用較少天數的 Model 會造成許多狀態沒有被訓練過 的情形,如此一來對於應用到實際環境時基本上部會有作用,而是在7或是 8天的訓練資料天數才會降低到能接受的範圍內,所以後續的驗證中,會單 純就訓練7天與8天的 Model 進行比較。. 圖17.. Individual Model : Action Evolution. 圖18.. Individual Model : Reward Evolution. 41.
(50) 圖19.. 不同天數 Model 應用於實際情況資料缺少量. 綜合以上的評估,可以了解雖然這兩種方式都各有優缺點,但是同樣 都可以產生出一穩定的決策模型,所以可以透過這兩種模型分別作驗證評 估,看對於不同的訓練模式是否可以比原先沒有控制的效果來的好。. 42.
(51) 第四節. 應用於實際狀況結果比較. 在此節主要會針對訓練好的不同 Model 進行模擬實際狀況結果的比較。 其中會依照與無開放路肩以及無管控路肩流量的資料進行比較,而在模擬 環境中,會以前面章節所提到的表現評估方式分別為:出發延遲時間與減 少總放行車流量進行比較。 在本研究中,針對不同的 Model 進行了 20 次的模擬測試,其延遲出發 時間結果如圖20 所示,依序先是 Continuous Model 的各種不同 Epoch 與 𝛽 設置,最後兩組則是 Individual Model 分別以 7 天跟 8 天訓練出來的 Model, 透過結果可以直接地看出如果沒有開啟路肩舒緩車流,整體的延遲出發時 間會非常長,而且整體的交通情況會很不穩定,而開啟路肩可以直接的減 緩延遲出發時間,透過圖中資訊也可以看出本研究所有的實驗 Model 都可 以降低延遲出發時間,且都維持在一定的範圍中,代表透過預先訓練好的 Model 確實可以在變化很大的交通中,還可以很平穩的做決策,證明了確 實可以透過 Q Learning 的技術訓練一套 Model 並且依此來控管交通狀況。. 43.
(52) 圖20.. 不同 Model 模擬20次結果。. 了解訓練好的 Model 都能夠確實做決策後,就可以比較整體與原先無管 控路肩車流時的交通紓緩情形與減少車輛比率,圖21為各 Model 的模擬延 遲出發時間減少比率,一樣從左邊開始依序是 Continuous Model 中各種不 同的 Epoch 與 𝛽 設定,而最後兩筆為 Individual Model 中分別以 7 天跟 8 天 訓練出來的 Model,首先在延遲出發時間減少比率中可以發現所有的 Continuous Model 都可以有效率的減少整體的延遲出發時間,也就是說能夠 確實的透過訓練好的 Model 來舒緩整體的交通壅塞狀況;而 Individual Model 在這裡的表現就不是很好,基本上與原先的延遲出發時間沒有差別, 代表當把所有的資料分開訓練時,系統給予的反饋比較不適合讓整體交通 環境在壅塞情況發生時能夠有效的紓緩車流。. 44.
(53) Continuous Model. Individual Model. -0.45. 圖21.. 0.31. 不同 Model 平均延遲出發時間縮短比率。. 圖22為各 Model 的路肩車流量縮短比率,依序一樣是 Continuous Model 中不同 Epoch 與 𝛽 的設定,最後兩個為 Individual Model 分別以7天與8天的 訓練結果,透過實驗結果可以發現到在 Continuous Model 中,當 Epoch 為 100、 𝛽 設為 0.7 的時候減少了很多的車流量,也可以結合上一張圖得出一 個結果依照這樣的設定,能夠在減緩很多車流量的同時,一起舒緩整體的 壅塞情況;而雖然 Individual Model 在延遲出發時間的表現不好,但是透過 結果可以發現它減少了非常多的車流量,而這邊也可以解釋成,因為是透 過每天的資料堆疊訓練出來的結果,所以會因為不同天的重新訓練而產生 出不一樣的結果,也讓訓練好的 Model 會因為每天不同的情況產生不同的 結果。. 45.
(54) Continuous Model. 圖22.. Individual Model. 不同 Model 減少路肩車流量比率。. 從上述的驗證過程來看,不管是 Continuous Model 或是 Individual Model, 都可以對於交通的改善有所幫助,在 Continuous Model 中整體來說當 𝛽 = 0.7 的時候效果還是最好的,雖然當迭代次數越高反而結果比較差,都還是 都有比原先的無控制路肩車流量來的好很多,都能夠同時減少延遲出發時 間跟行駛車流量;而 Individual Model 雖然無法降低延遲時間,但其降低了 非常多的車流量比率,甚至會降低比 Continuous Model 更多的比率。透過 此小節的結果來看,不管使用哪一個 Model 或是 𝛽 設定為多少,本研究提 出的 ARSTC 不但可以使用比無控制路肩車流量還要少的車流量,更可以降 低整體的出發延遲時間,讓整體高速公路的行車環境能夠安全且更有效率 的舒緩壅塞情況。. 46.
(55) 第五章 結論與未來展望 本研究所提出的基於強化學習之高速公路路肩流量管制策略 (Reinforcement Learning Approach for Adaptive Road Shoulder Traffic Control, ARSTC) 可以藉由交通部高速公路局所提供的即時路況資訊,透過程式化 加入強化學習的方式,來做出決策允許現在開放多少車輛至路肩繼續行駛。 ARSTC 可以有效的降低整體的路肩行駛車流量 (減少16.16%),更可以降低 整體的出發延遲時間 (減少6.74%),這也意味著能夠降低整體壅塞的時間, 而且因為降低路肩車流量的關係,ASRTC 可以讓行駛在路肩的車流更順暢 的下匝道,針對欲下匝道的車輛給予行駛路肩的優先權,而其他車輛則繼 續行駛於其原本行駛的線道,如此一來不但可以減少高速公 路上變換車道 的機會,也可以降低欲下匝道與不下匝道車輛發生事故的機率,讓整體的 高速公路車流運行起來能夠更加順暢且安全。 不過 ARSTC 主要是針對能行駛路肩的一般車輛進行控管,在高速公路 上還有其他不同種類的車種,例如:大客車、聯結車或是大型貨車等車輛, 其對於高速公路的安全性還是有一定的風險,雖然目前 ARSTC 只有管控一 般車輛,但在未來還是可以加入更多車輛種類,將每種車輛進行種類的權 重計算,或是可以針對駕駛人平時的用路習慣增加權重值等等,透過更多 的參數加入其中,讓整體的系統能夠更加的符合真實環境的需求。而 ARSTC 不單只可以用來管控路肩的車流量,透過不一樣的動作設定,也可 以運用在其他道路上面,像是高乘載車道,雖然現行的高乘載車道只開放 給公路客運行駛,但或許可以透過一些參數的調整,讓這些車道能夠開放 更多空間供不同駕駛人使用。不管是透過流量的管控或是速度的限制,都 可以經由不斷的訓練演進來符合更多樣的條件,而如何將這些條件結合在 一起產生一套真正完整的道路控管系統也是未來車連網普及後的熱門研究 方向。 47.
(56) 參考文獻 [1] 交通部高速公路局, 高速公路1968, 中華民國: 交通部高速公路局, 2020. [online]. Available: https://1968.freeway.gov.tw/, [Accessed: Jan 30, 2020] [2] 科 技 部, 民 生 公 共 物 聯 網, 中 華 民 國: 科 技 部, 2020. [online]. Available: https://ci.taiwan.gov.tw/, [Accessed: Jan 30, 2020] [3] M. J. Cassidy and J. Rudjanakanoknad, “Increasing the capacity of an isolated merge by metering its on-ramp,” Transportation Research Part B: Methodological, VOL. 39, NO. 10, pp. 896–913, 2005. [4] K. Chung, J. Rudjanakanoknad, and M. J. Cassidy, “Relation between traffic density and capacity drop at three freeway bottlenecks,” Transportation Research Part B: Methodological, VOL. 41, NO. 1, pp. 82–95, 2007. [5] L. Zhang and D. Levinson, “Ramp metering and freeway bottleneck capacity,” Transportation Research Part A: Policy Practice, VOL. 44, NO. 4, pp. 218–235, 2011. [6] Zhibin Li, Pan Liu, Chengcheng Xu, Hui Duan, and Wei Wang, “Reinforcement LearningBased Variable Speed Limit Control Strategy to Reduce Traffic Congestion at Freeway Recurrent Bottlenecks”, IEEE Transactions on Intelligent Transportation on Systems, VOL. 18, NO. 11, NOVEMBER 2017 [7] Richard S. Sutton and Andrew G. Barto, “Reinforcement Learning: An Introduction,” VOL. 2, in Progress, Cambridge: MIT Press, 2014 [8] Leslie Park Kaelbling, Micheal L. Littman, and Andrew W. Moore, “Reinforcement Learning: A Survey,” Journal of Artificial Intelligence Research 4, pp. 237-285, 1996 [9] H. Liu, L. Zhang, D. Sun, and D. Wang, “Optimize the settings of variable speed limit system to improve the performance of freeway traffic,” IEEE Tranactions on Intelligent Transporation on System, VOL. 16, NO. 6, pp. 3249–3257, DECEMBER 2015. [10] Andreas Hegyi, Bart De Schutter, and J. Hellendoorn, “Optimal Coordination of Variable Speed Limits to Suppress Shock Waves,” IEEE Tranactions on Intelligent Transporation on System, VOL. 6, NO. 1, pp. 102-112, MARCH 2005 [11] Rodrigo C. Carlson, Ioannis Papamichail, and Markos Papageorgiou, “Optimal mainstream traffic flow control of large-scale motorway networks,” Transportation Research Part C: Rmerging Technologies, VOL. 18, NO. 2, pp. 193-212, 2010. 48.
(57) [12] R. C. Carlson, I. Papamichail, and M. PaPageorgious, “Local Feedback-Based Mainstream Traffic Flow Control on Motorways Using Variable Speed Limits,” IEEE Transaction on Intelligent Transportation System, VOL. 12, NO. 4, pp. 1261-1276, DECEMBER 2011. [13] G. Iordanidou, C. Roncoli, I. papamichail, and M. PaPageorgious, “Feedback-Based Mainstream Traffic Flow Control for Multiple Bottlenecks on Motorways,” IEEE Transaction on Intelligent Transportation System, VOL. 16, NO. 2, pp. 610-621, APRIL 2015. [14] Y. Zhang and P.A. Ioannou, “Combined Variable Speed Limit and Lane Change Control for Highway Traffic,” IEEE Transaction on Intelligent Transportation System, VOL. 18, NO. 7, pp. 1812-1823, JULY 2017. [15] Zhou, Weiyi. "A Q-Learning Based Integrated Variable Speed Limit and Hard Shoulder Running Control to Reduce Travel Time at Freeway Bottleneck." PhD diss., 2019. [16] R. S. Sutton and A. G. Barto, Reinforcement Learning: An Introduction. Cambridge, MA, USA: MIT Press, 1998. [17] Altman, Eitan, “Constrained Markov Decision Processes,” VOL. 7, CRC Press, 1999. [18] Spaan, Matthijs TJ. “Partially observable Markov Decision Processes,” Reinforcement Learning, Springer Berlin, Heidelberg, pp. 387-414, 2012. [19] Sutton, Richard S., Doina Precup, and Satinder P. Singh, “MDPs and semi-MDPs: A framework for temporal abstraction in reinforcement learning. ” Artifficial Intelligence, 112. 1-2, 181-211, 1999. [20] Jaakola, Tommi, Satinder P. Singh, and Micheal I. Jordan. “Reinforcement Learning algorithm for partially observable Markov decidion Problems,” Advance in neural information processing system. 1995. [21] Teasuro, Gerald. “Temporal difference learning and TD-Gammon,” Communication of the ACM 38.3, pp. 58-68, 1995. [22] Watkins, C.J.C.H. “Learning from Delayed Rewards,” Cambridge University, Ph.D. thesis, 1989. [23] Wang, Chong, Jian Zhang, Linghui Xu, Linchao Li, and Bin Ran. "A new solution for freeway congestion: Cooperative speed limit control using distributed reinforcement learning." IEEE Access 7 (2019): 41947-41957. [24] B. Abdulhai, R. Pringle, and G. J. Karakoulas, “Reinforcement learning for true adaptive traffic signal control,” Journal of Tranportation Engineering, VOL. 29, NO. 3, pp. 278– 285, 2003.. 49.
(58) [25] Kasra Rezaee, Baher Abdulhai, and Hossam Abdelgawad, “Application of reinforcement learning with continuous state space to ramp metering in real-world conditions,” IEEE Conference on Intelligent Transportation Systems, September, 2012 [26] Landau, Lev Davdvoich, and Lifshitz, Evgeny Mikhailovich, “Statistical Physics. Course of Theoretical Physics Edition 3., ” Oxford: Pergamon Press, ISBN 0-7506-3372-7, 1980. [27] Tokic, Michel, “Adaptive ε-greedy exploration in reinforcement learning based on value difference,” Annual Conference on Artificial Intellegence, pp. 203-210, Springer, Berlin, Heidelberg, 2010. [28] 交通部高速公路局交通資料庫, VD 五分鐘動態資訊(V 1.1), 中華民國: 交通部高速公 路局,2020. [dataset]. Available: https://tisvcloud.freeway.gov.tw/history/vd/. [Accessed: Jan 30, 2020] [29] 交通部高速公路局, 國道主線實施開放路肩作業規定, 中華民國: 交通部高速公路局, 2020. [online]. Available: https://www.freeway.gov.tw/Upload/DownloadFiles/%E5%9C%8B%E9%81%93%E4% B8%BB%E7%B7%9A%E5%AF%A6%E6%96%BD%E9%96%8B%E6%94%BE%E8% B7%AF%E8%82%A9%E4%BD%9C%E6%A5%AD%E8%A6%8F%E5%AE%9A_005 361.pdf. [Accessed: May 20, 2020] [30] 交通部高速公路局, 高速公路及快速公路交通管制規則, 中華民國: 全國法規資料庫, 2020. [online]. Available: https://law.moj.gov.tw/LawClass/LawAll.aspx?pcode=K0040019. [Accessed: May 20, 2020] [31] German Aerospace Center (DLR), “Simulation of Urban Mobility, ” sumo.dlr.de, 2020. [online]. Available: https://sumo.dlr.de/docs/index.html. [Accessed: Jan 30, 2020] [32] OpenStreetMap Foundation (OSMF), “OpenStreetMap, ” openstreetmap.org, 2020. [online].Available: https://www.openstreetmap.org. [Accessed: Jan 30 2020]. 50.
(59)
Outline
相關文件
In this paper, we extended the entropy-like proximal algo- rithm proposed by Eggermont [12] for convex programming subject to nonnegative constraints and proposed a class of
In this paper, we have shown that how to construct complementarity functions for the circular cone complementarity problem, and have proposed four classes of merit func- tions for
Rebecca Oxford (1990) 將語言學習策略分為兩大類:直接性 學習策略 (directed language learning strategies) 及間接性學 習策略 (in-directed
Therefore, in this research, we propose an influent learning model to improve learning efficiency of learners in virtual classroom.. In this model, teacher prepares
This thesis applied Q-learning algorithm of reinforcement learning to improve a simple intra-day trading system of Taiwan stock index future. We simulate the performance
In this thesis, we have proposed a new and simple feedforward sampling time offset (STO) estimation scheme for an OFDM-based IEEE 802.11a WLAN that uses an interpolator to recover
So, we develop a tool of collaborative learning in this research, utilize the structure of server / client, and combine the functions of text and voice communication via
For Experimental Group 1 and Control Group 1, the learning environment was adaptive based on each student’s learning ability, and difficulty level of a new subject unit was