基於強化學習之高速公路路肩流量管制策略

全文

(1)國立臺灣師範大學理學院資訊工程學系碩士論文 Department of Computer Science and Information Engineering College of Science. National Taiwan Normal University Master's Thesis. 基於強化學習之高速公路路肩流量管制策略 Reinforcement Learning Approach for Adaptive Road Shoulder Traffic Control. 研究生：鄭東濬. 撰. 指導教授：賀耀華博士. 中華民國 109 年 8 月.

(2) 摘要為解決在公速公路上的交通壅塞情況，透過行車速度、通行車流量以及紅綠燈等都是現行的方式以控制交通。在壅塞情形發生時，透過外力的介入，來想辦法控制整體狀況，不要讓交通壅塞更加惡化。所幸在現代車聯網愈趨開發穩定的情況，透過(Vehicle to Vehicle, V2V)或是(Vehicle to Infrastructure, V2I)等方式，能夠更快速的將交通舒緩策略傳遞給所有在此範圍運行中的車輛，並讓他們及時地做出反應來幫助整體交通的舒緩。在本篇研究中提出基於強化學習的路肩通行車流量管制策略 (Reinforcement Learning Approach for Adaptive Road Shoulder Traffic Control, ARSTC)。不同於傳統固定路肩開放時間的方式，本研究提出適用且合乎現行高公局法規之下的路肩管制策略，藉由結合強化學習(Reinforcement Learning)的技術，使其能夠對應不同車流的情況，推薦不同的管制策略。透過在模擬環境的實驗結果 (Simulation of Urban Mobility, SUMO)，ARSTC 能夠依照整體的車流變化來判斷是否開放路肩通行，讓路肩通行的車流量能夠控制在安全的範圍內，且能夠最小化與原本無管制車流的壅塞時間差異，來達到最安全且有效率的路肩通行環境。. 關鍵字: 交通堵塞、流量管制(Traffic Control)、強化學習(Reinforcement Learning)、路肩通行、SUMO i.

(3) Abstract To reduce traffic congestion on the highway, variable speed limit, flow control, and traffic light are used in the current traffic control system. Through those approaches, the traffic can maintain in an acceptable condition when congestion occurred. With the development of the vehicular networks, i.e., Vehicle-to-Vehicle (V2V) and Vehicle-to-Infrastructure (V2I) techniques, drivers are able to receive updated traffic information which allows them to change their route plan immediately. In this research, we proposed a Reinforcement Learning Approach for Adaptive Road Shoulder Traffic Control (ARSTC) to dynamically change the opening and closing time of hard shoulder. Using the reinforcement learning approach, the proposed ARSTC technique, is able to adjust to different traffic situations and make a suitable decision which is different from the traditional static scheduling approach for the hard shoulder. The proposed technique is simulated in the Simulation of Urban Mobility (SUMO). The performance results showed that ARSTC can reduce traffic congestion time by adaptively control the hard shoulders’ opening time and the traffic flow within the safety range follow by the policy of the Freeway Bureau. Our proposed technique (ARSTC) is able to provide a safer and more efficient driving condition while using the hard shoulder to ease traffic congestion. Keywords: Congestion, Traffic Control, Reinforcement Learning, Road Shoulder, SUMO ii.

(4) 目錄附圖目錄 ······························································ v 表目錄 ······························································· vi 參數公式表 ·························································· vii 第一章. 緒論 ·························································· 1. 第一節研究背景 ....................................................................................................................... 1 第二節研究動機 ....................................................................................................................... 2 第三節問題描述 ....................................................................................................................... 3. 第二章. 相關文獻探討··················································· 4. 第一節交通法規與交通堵塞之舒緩方法 ............................................................................... 4. 2.1.1 2.1.2. 現行高速公路相關法規與辦法 ......................................................... 4 現行交通堵塞之舒緩方式 ................................................................. 5. 第二節強化學習背景 ............................................................................................................... 7. 2.2.1 2.2.2 2.2.3 2.2.4 2.2.5. 強化學習常用名詞解釋 ..................................................................... 8 馬可夫決策過程 ............................................................................... 10 蒙地卡羅演算法 ............................................................................... 12 時間差分演算法 ............................................................................... 13 Q 學習 (Q Learning) .......................................................................... 14. 第三節基於強化學習的交通管制策略 ................................................................................. 15. 第三章. 研究方法 ····················································· 16. 第一節資料收集與處理 ......................................................................................................... 16 第二節強化學習應用於路肩車流控制 ................................................................................. 18. 3.2.1 3.2.2. Q Learning ......................................................................................... 19 應用於 Q Learning 的馬可夫決策過程 ........................................... 20. 3.2.3 3.2.4 3.2.5. 𝛆 − 貪婪法 (𝛆 − 𝒈𝒓𝒆𝒆𝒅𝒚) ............................................................... 22 獎勵 (Reward) 計算 .......................................................................... 25 學習率 (Learning rate, 𝜶) ................................................................. 26. 第三節於模擬環境以強化學習訓練路肩開放策略 .............................................................. 26. 第四章. 3.3.1 實驗環境設定 ................................................................................... 26 3.3.2 實驗流程 ........................................................................................... 28 3.3.3 Q Learning 結合路況資料 ................................................................ 32 實驗結果分析·················································· 34. 第一節實驗設定 ..................................................................................................................... 34 第二節門檻值比較 ................................................................................................................. 35 iii.

(5) 第三節訓練結果評估 ............................................................................................................. 39 第四節應用於實際狀況結果比較 ......................................................................................... 43. 第五章. 結論與未來展望 ················································ 47. 參考文獻 ····························································· 48. iv.

(6) 附圖目錄圖 1.. 強化學習組織架構流程示意圖。.......................................................................................... 8. 圖 2.. 簡易馬可夫決策過程示意圖 ............................................................................................... 10. 圖 3.. 國道一號竹北路段地圖：圖中從左至右為南向。 ............................................................ 17. 圖 4.. 1 月 23 日國道一號南下竹北至新竹路段車流量及車速關係圖。 ................................... 18. 圖 5.. 1 月 23 日國道一號南下竹北至新竹路段路肩使用圖。 ................................................... 18. 圖 6.. 狀態間轉移關係圖 ............................................................................................................... 21. 圖 7.. 於 SUMO 中的車輛種類示意圖 .......................................................................................... 27. 圖 8.. 從 OSM 中將國道一號南下 86-91 km 路段資料於 SUMO 中呈現示意圖........................ 27. 圖 9.. 整體系統流程圖 ................................................................................................................... 28. 圖 10.. ARSTC 流程圖 ..................................................................................................................... 29. 圖 11.. Q Learning 整體實驗與驗證流程架構................................................................................. 33. 圖 12.. 實驗地區規劃示意圖 ........................................................................................................... 34. 圖 13.. 不同常數 C 比較結果 ........................................................................................................... 36. 圖 14.. 不同𝐶𝑠與𝐶𝑓比較結果 .......................................................................................................... 38. 圖 15.. Continuous Model : Action Evolution .................................................................................. 40. 圖 16.. Continuous Model : Reward Evolution ................................................................................. 40. 圖 17.. Individual Model : Action Evolution ..................................................................................... 41. 圖 18.. Individual Model : Reward Evolution ................................................................................... 41. 圖 19.. 不同天數 Model 應用於實際情況資料缺少量 .................................................................... 42. 圖 20.. 不同 Model 模擬 20 次結果。 ............................................................................................. 44. 圖 21.. 不同 Model 平均延遲出發時間縮短比率。 ....................................................................... 45. 圖 22.. 不同 Model 減少路肩車流量比率。 ................................................................................... 46. v.

(7) 表目錄表1. 高公局高速公路公開資料格式 ........................................................................................... 16. 表2. 價值函數表(Q-Table) ............................................................................................................ 20. 表3. 狀態關聯表 (Next State Table) ............................................................................................. 21. 表4. Training Dataset .................................................................................................................... 30. 表5. 驗證資料日期表 ................................................................................................................... 36. 表6. 不同 𝐶𝑠 與 𝐶𝑓 設置方式 ....................................................................................................... 38. vi.

(8) 參數公式表參數名稱. 描述. 𝑆𝑡. State at time t (vehicles). 𝐴𝑡. Action at time t (vehicles). 𝑅𝑡. Reward at time t. 𝐵𝐴 ′(𝑠, 𝑎). Probability of choose state s and action a. 𝐵𝑆 (𝑠, 𝑠’). Probability of choose state s and next state s’. 𝐶(𝑠, 𝑎). Number of time selected for state s and action a. 𝐻(𝑠, 𝑠′). Number of time happened for satae s and next state s’. temp. System temperature. 𝛼. Learning rate, Constant variable. 𝛾. Discount rate, Constant variable. 𝜀𝑖. ε at training generation i. 𝐷𝑖𝑛𝑖𝑡. Each vehicle’s scheduled depart time (seconds). 𝐷𝑟𝑒𝑎𝑙. Each vehicle’s real depart time (seconds). 𝐷𝑒𝑝𝑎𝑟𝑡𝑑𝑒𝑙𝑎𝑦. Average depart delay for all vehicles (seconds). 𝑓𝑜𝑢𝑡𝑡. Number of vehicles exit by ramp at time t. 𝐶𝑠. Constant variable of speed (km/h). 𝐶𝑓. Constant variable of flow (vehicles). 𝐶. Constant cariable. 𝑇𝑆𝑡. Traffic speed at time t (km/h). 𝑇𝐹𝑡. Traffic flow at time t (vehicels). 𝑅(𝑇𝑆𝑡 ). Ratio of speed at time t. 𝑅(𝑇𝐹𝑡 ). Ratio of flow at time t. h. Threshold. vii.

(9) 第一章緒論第一節. 研究背景. 一直以來國人的旅遊習慣都是全家大小一同開車出遊，往往一到連假就會有大量車流出現在各地區，造成各地交通狀況與平常差異甚大，並且不太好去預料捉摸真正的情況，政府為了因應這樣的現象也做了一套全國的即時高速公路車況系統 [1]，讓國人在出發前或是路上能夠更加快速的查詢現在的交通狀況來依此判斷後續行程走向。近幾年來政府及名間共同開發出許多物聯網的相關產業合作，學術界也一直在研究著許多物聯網相關的議題，民生公共物聯網 [2] 就是代表著所有市民一同參與研究，一起分析現在社會發生的事情。從政府的公開資料中，可以挖掘出非常大量且有用的資料，而這些資料都是與生活非常息息相關的，例如：各地區水質、空氣及交通等的即時資料。稍做處理一下就可以衍伸出非常大量的應用，像最近遇上新型冠狀病毒，政府及各界開發出了許多即時的口罩存量與發放地圖就是一個非常好的例子。隨著現在電信網路的普及及愈趨發達，從以前的第三世代 ( 3𝑟𝑑 Generation, 3G) 到現在的第四世代 (4𝑡ℎ - Generation, 4G)，物連網產業的進步可說是非常快速，平均每一個世代十年的發展，到現在即將要邁入的第五世代 (5𝑡ℎ - Generation, 5G)，物聯網的應用已經幾乎是擴展到所有的的全部生活中。使得智慧車輛的發展越來越接近日常的生活中，這也就意味著在未來國人的旅遊習慣也會跟著慢慢改變，從自駕車到乘坐智慧車輛到各處旅行。. 1.

(10) 第二節. 研究動機. 對於假日大量車流湧入高速公路的情形，政府有提出了許多的配套措施，包含：匝道儀控、高乘載管制、部分區段定時開放路肩行駛或是夜間免收過路費等等方法，這些措施對於舒緩車流都有用，也都希望都能夠將車流分散，不要全集中於某些熱門時段，但還是有小部分缺點能夠再改善得更完整，例如若匝道儀控沒有適當的放行車輛至高速公路行駛，很有可能會造成車流回堵至市區路段。可以從交通部高速公路局所公開的資料中很明顯的看出來，儘管已經實施這些應對措施，車流還是沒有明顯的被劃分開來，且在有些時候車速甚至會低到比平常時間車速的一半以下，證明了依照現行的措施，雖然可以舒緩一部分的交通堵塞情況，但因為目前是制式化的週期性調整，所以對於遇到特殊情況時，會無法真正有效的做即時性交通舒緩處理，且高速公路上的車流車速變化很快，若沒有建立安全的用路環境，會讓用路人發生危險的機率提高，所以建立一套兼具安全有舒緩的系統是非常必要的。現今的網路發展已經愈發平穩且快速，物聯網的應用在台灣已經廣布於各地中，從交通部所公開的資料中，可以很明顯地了解到即時的交通資訊。現在高速公路局在高速公路各路段都有裝設電子看板，能夠將現在各路段的車況及調度資訊即時的傳播給該路段的用路人。而現在也有越來越多智慧車輛販售於市面上，在未來車聯網 (Vehicular Network) 被廣泛應用的時代，能夠透過車輛對設施 (Vehicle-to-Infrastructure, V2I) 以及車輛對車輛 (Vehicle-to-Vehicle, V2V) 快速的傳遞訊息給該地段的車輛。利用上述的資料以及特點，就可以透過後端程式的運算，快速的找出最適合的行車路線或是交通規劃措施，並透過電子看板即時發布給用路人，以達到快速的舒. 2.

(11) 緩車流與維持一定的車速，而在未來車聯網普及後同樣能夠依此特點來快速的傳播訊息。. 第三節. 問題描述. 現行的上下匝道的管制策略有下閘道前的路肩行駛，以及設紅綠燈排隊上匝道等方式，雖然開放路肩來消化車流量看似能夠非常效率，但現行制度只規定了其行車速度最高為每小時 60 公里的車速以及在下匝道前 500 公尺所有車輛不能在路肩變換車道，但卻忽略了流量的管制與開放時間的調整，前者會造成若欲下匝道的車流量與現階段行駛於路肩的車流量落差太大時，會因為主線道與路肩的車速有落差而增加了變換車道時發生事故的機率；後者會因為開放時間太固定，反而會產生不需要開啟時開放行駛，真正需要開啟時卻無法行駛，在不需要開啟時開放通行很可能會造成前述提到的車流量落差問題，而需要開啟時不開放行駛又會讓車流無法被有效的消化。雖然開放路肩的本意就是為了讓該路段可以放行更多的車流湧入該路段以期望能舒緩交通壅塞問題，雖然短時間是可以融入更多的車流，但是長時來看會發現其中所包含的安全問題相當嚴重，全線堵塞的情況若是有事故發生，勢必會影響到道路救援的難度，所以路肩開放雖然是好事，但必須在安全的範圍內開放才是最有效益且安全的方式。此研究提出基於強化學習之高速公路路肩車流量管制策略 (Reinforcement Learning Approach for Adaptive Road Shoulder Traffic Control, ARSTC)。以強化學習 (Reinforcement Learning, RL) 為基礎，ARSTC 旨在於在安全的情況下有效率的開放路肩行駛以舒緩整體車流，ARSTC 會考慮該路段的車流量、行車速率、道路使用比率等等，選擇一個最佳的路肩開放車輛數量與時間。我們期望能夠透過此策略能夠運用在各個交通容易堵塞的地段，來安全且快速的舒緩車流。 3.

(12) 第二章相關文獻探討此章節將簡述在高速公路上的交通舒緩分流相關文獻探討，包括強化學習的理論基礎以及將強化學習應用於交通舒緩策略。第一節首先介紹目前已有人提出的紓解策略；第二節會接著介紹強化學習的基本背景知識；第三節會介紹將強化學習應用在舒緩交通的相關文獻。. 第一節. 交通法規與交通堵塞之舒緩方法. 對於交通堵塞的舒緩方式，在現行的國家法規以及可學研究中都有提出非常多樣性的作法，其中包含的紅綠燈的秒數控制、道路的速限、車輛行駛的道路調整、乘客數量管制或是流量的管控等等，並且使用不同的數據分析及操控方法來舒緩整體車流。 2.1.1. 現行高速公路相關法規與辦法. 交通部高速公路局對於國道壅塞情況的定義為主線道平均車速低於60 公里，且持續兩小時以上路段，及視為壅塞情況發生。目前台灣對於舒緩壅塞路段的方法為使用匝道儀控控制上下匝道之車流量、高乘載管制以及開放路肩通行現行的高速公路及快速公路交通管制規則中[30]，提到能夠額外使用於交通紓緩的道路分別為高乘載車道以及路肩車道，其中高乘載主要用於特定車種或是乘載一定人數以上之車輛行駛車道，也是目前主要用於舒緩國道五號車流的主要方式，而路肩車道主要用於道路救援、災害救援等，比較偏向歸類於救援道路，但會依照高速公路車流情形來開放給一般用路人行駛。 4.

(13) 在高公局頒布的「國道主線實施開放路肩規定」[29]中，明確的指出路肩的開放條件為每周平日當路段至少發生兩次，且每次持續兩小時以上，主線道平均車速低於60公里之重現性壅塞；每月假日當路段至少發生兩次，且每次持續兩小時以上，主線道平均車速低於60公里之重現性壅塞，且透過匝道儀控等其他交通控制手段均無法獲得有效改善時，即可將當路段的路肩在一定時間內開放通行。 2.1.2. 現行交通堵塞之舒緩方式. 過去對於高速公路上的交通舒緩研究有分成：上下匝道之流量管制、特定區間放行流量管制、特定區間速限管制在研究 [3]-[8][5] 中都有提到在匝道前後是最容易造成交通堵塞或回堵的地點，如果這部分的車流超過它可消化的流量時，就會形成交通堵塞並回堵至後面的路段，造成整體路段消化車流的時間增加。傳統交通舒緩的研究主要都是以道路速限控制著手，其中又分為兩種方法，分別是：線上優化方法 (The Online Optimization Approach)[9]-[11] 以及反饋控制方式 (The Feedback Control Approach)[10]-[14]，。線上優化方法主要是通過一些最佳化演算法來控制目標區域內的車速或是車流量等等。[9][11]都有提到，匝道的車流量控制與高速公路的車速控制這兩項問題可以被視為一最佳化問題，透過多次的迭代計算，可以漸漸得出最佳的舒緩方案。雖然單就理論上來說，透過不斷的最佳化計算是可以最佳化道路上的車速或車流控制，但是就高速公路上的車流與車速變化來說，其變化有時候會非常巨大，透過一固定的模型不一定能夠準確的預估與判斷接下來所會發生的情況，而且最佳化演算法往往需要非常大量的運算，對於大規模的網絡架構可能會達不到非常好的效益。. 5.

(14) 在基於反饋控制的方式中，主要會利用一控制器來自依據現在各地區回傳的資料透過計算來自動調整車速的限制或是車流量的多寡等，讓整體的車流及車速能夠保持在一平穩的狀態，但其最基本就需定義一定數量範圍的資料量，太少可能會陷入部分最佳解，太多可能又會造成回傳延遲或計算量太大等問題。所以在[12]中提出了一種透過局部資訊來控制的反饋策略，主要用於延緩資料延遲的時間。而在[13]中透過不一樣數量的地區資料，也證明了不一樣的資料數量所影響到的結果會差很多。反饋控制的策略主要是依賴及時的資料作運算，所以能夠依照目前的情形來做決策，而且不需要做訓練模型，能夠降低系統所需要的計算時間，跟線上的優化方式相比，能夠比較貼近真實情況，也可以比較穩定的做出反應決策。不過反饋控制還是有一些限制，因為是靠著即時性的資料作運算，不會考慮到過去經驗或是例外處理，所以當今天出現一些例外事故時，很容易受到影響而做出錯誤的決策。從[6]-[14] 可以發現不管是以什麼樣的演算法或是方式，很多都是以整體的車速限制下去解決處理交通堵塞的問題，從這些研究的成果中也可以看到在模擬環境中是真的能夠舒緩部分的交通堵塞，代表著我們確實能夠透過演算法的加入來讓整體的交通堵塞情況得到改善。. 6.

(15) 第二節. 強化學習背景. 強化學習 (Reinforcement Learning, RL) [7][9][8] 不同於非監督式學習 (Unsupervised Learning)探索資料其本身之組成架構或是監督式學習 (Supervised Learning) 目的在於找出輸入與輸出之間的關係，強化學習適合用來推算出長期的最佳策略，其可以透過過程中每一次的資料來做判斷與修正，雖然在當下可能不是最好的方式，但對於整體而言會幫助達到更好的結果，正是因為有能夠隨著每次變動而變更反應的機制，用於交通規劃這種即時且有關聯性的資料會有不錯的效益。此小節會先介紹強化學習的專有名詞，再介紹強化學習的相關方法。. 7.

(16) 2.2.1. 強化學習常用名詞解釋. 強化學習當中有幾個主要的名詞，分別為：代理人(Agent)、環境 (Environment)、狀態(State)、動作(Action)以及獎勵(Reward)，以下會依照順序個別介紹：. 圖1. 強化學習組織架構流程示意圖。. ⚫ 代理人(Agent)：在強化學習中扮演做決策的角色，會依照環境中各個時間點的狀態，來決定要執行的動作。 ⚫ 環境(Environment)：代理人所在的環境，也可以說是欲解決的事件情境，例如5個小時內的高速公路車流、一個迷宮地圖等，代理人可以對於環境一無所知 (Model-free Reinforcement Learning)，也可以對於環境有一定的了解 (Model-based Reinforcement Learning)，環境主要會依據代理人的決策，來給予獎勵及狀態更新的訊息。 8.

(17) ⚫ 狀態 (State 𝑠𝑡 at time t)：狀態為一會隨時間而變化的變數，代表著在該時間當下，環境中的變量。以車輛為例：狀態可以是該車輛的行駛方向、車速、油量等等，主要是依據系統來決定狀態的定義為何。 ⚫ 動作 (Action 𝑎𝑡 at time t)：動作也是一會隨時間便變化的變數，主要是代表著代理人在該時間點所做出的決策。同樣以車輛為例：動作可以是是否要轉彎、向左向右轉，加減速等等。 ⚫ 獎勵 (Reward 𝑟𝑡 at time t)：獎勵會根據時間、動作還有狀態來計算出來，代表在該時間點進行的動作與狀態的回饋，強化學習中最重要的就是希望可以得出一穩定並可以極大化獲得獎勵的決策模型。圖1表示了基本的強化學習組織架構與其流程，從其中可以了解到整體的架構是依代理人 (Agent) 為主體，系統透過不斷的嘗試與環境 (Environment) 互動，慢慢得出穩定決策系統。在任意一時間點 t 時，代理人會了解現在的狀態 𝑠𝑡 ，並且依照此狀態來決定執行一動作 𝑎𝑡 ，環境接受到動作 𝑎𝑡 後會在下一時刻 t + 1 給予新的狀態 𝑠𝑡+1 與獎勵 𝑟𝑡+1 ，而最終的目的就是在於訓練出一個能夠最大化獎勵總和的決策模型。. 9.

(18) 2.2.2. 馬可夫決策過程. 馬可夫決策過程(Markov Decision Processes, MDP) [17][19] 主要提供了一框架，主要用於在結果為部分隨機且部分受到決策者控制的情況下的一決策模型。馬可夫決策過程很常被拿來應用於需要透過動態規劃或是強化學習解決的優化問題。馬可夫決策過程與強化學習許多相似之處，兩者都有狀態(State, S)、動作 (Action, A) 以及獎勵 (Reward, R)。. 圖2. 簡易馬可夫決策過程示意圖. 馬可夫決策過程中，會有許多的狀態，狀態彼此之間可能都會有一些關聯性，圖2 展示了一簡單的馬可夫決策過程的例子，其中可將狀態定義為 𝑆 = [Brovo, Charlie, Delta, Echo, Golf] ，而這其中的動作即狀態的轉移可以被定義為 𝐴 = [Brovo → Charlie, Brovo → Delta ⋯ ]，一開始在時間點 t 時可能在任意其中一個狀態 𝑠𝑡 ，而做了某個動作 𝑎𝑡 之後，就會從該狀態 𝑠𝑡 移動至另一狀態 𝑠𝑡+1 ，其中的移動機率為 𝑃𝑠𝑡𝑠𝑡+1 ，等移動過後就會得到一獎勵 𝑟𝑡+1 。. 10.

(19) 在馬可夫決策過程中，其狀態的移動機率都假設為每個狀態只與前一狀態有相互關係：. 𝑃(𝑠, 𝑠 ′ ) = 𝑃𝑟 (𝑠𝑡+1 = 𝑠 ′ | 𝑠𝑡 = 𝑠, 𝑎𝑡 = 𝑎). (1). 當中 s, s′ ∈ 𝑆, 𝑎𝑡 ∈ 𝐴 ，並透過選取的動作，可以在每個狀態執行動作後取得獎勵定義為：. 𝑟(𝑠, 𝑎) = 𝐸 [𝑟𝑡+1 |𝑠𝑡 = 𝑠, 𝑎𝑡 = 𝑎]. (2). 再來定義一個最終獎勵總和參數 𝐺𝑡 表示從時間點 𝑡 開始到結束的獎勵總和： ∞. 𝐺𝑡 = ∑. 𝑟𝑖. (3). 𝑖=𝑡+1. 因為獎勵會等到動作完成後才會得到，所以數學式 (2)(3) 中以延遲一個時間點當作獎勵得到的時間點，因此時間會從 𝑡 + 1 開始。馬可夫決策過程的主要目標就是為了要找出系統中最佳的動作執行策略，以獲得最好的最終獎勵。所以會將每個狀態做分數評比，透過這些分數的判斷，來找出最佳的狀態規劃。而用來評比的函數稱為「最有價值函數」(Value-function, 𝑣)：. 𝑣(𝑠) = 𝐸[𝑟𝑡+1 + 𝛾𝑝(s, s′)𝑣(𝑠′)|𝑠𝑡 = 𝑠, 𝑠𝑡+1 = 𝑠 ′ , 𝑎𝑡 = 𝑎]. (4). 其中γ 為折扣率(Discount)，介於0~1之間，代表著受過去經驗所影響的比例。為了能夠讓每個狀態之間的移動機率比較明確，可以定義一個移動. 11.

(20) 機率矩陣 T 來存放所有的機率變數，如此一來根據貝爾曼方程式 (BellmanEquation) [7] 就可以在每次做完決策取得獎勵之後更新狀態的價值函數：. 𝑣(𝑠) = 𝑟 + 𝛾𝑇𝑣(𝑠′). (5). 取得每個狀態的價值函數之後，可以變成規劃問題，透過動態規劃 (Dynamic Programming)與價值函數的結合，來找出系統中的最佳決策並最大化獲得的獎勵。假設今天無法直接取得上述的移動機率矩陣時，則只好透過不斷的嘗試與觀測來慢慢取得，此問題被稱之為「可部分觀測的馬可夫決策過程」 (Partial Obserable Markov Decision Processes, POMDP)[18]。由於無法觀測到所有狀態之間的關聯，貝爾曼方程式就無法求出正確的價值函數，只能經過不斷的嘗試，並記錄其中各個狀態之間的移動順序，來估算整體的移動機率，最後才能來估計價值函數。而上述的計算方式可以分為兩種，一種為一次完整模擬為基礎計算，第二種為以單一時間點做計算，前者會使用蒙地卡羅演算法 (Monte-Carlo) [20]，後者通常使用時間差分演算法 (Temporal-Difference) [21]，接下來會分別簡單介紹。 2.2.3. 蒙地卡羅演算法. 蒙地卡羅演算法主要都是以一次完整的模擬為基礎下去更新每個狀態的價值函數，而其中又細分了兩種計算方式，分別是「初次探訪評估」 (First-visit evaluation)跟「每次探訪評估」(Every-visit evaluation)，兩者間主要差在計算的次數，後者會依照探訪次數再額外給予一變數計算整體的價值函數。 12.

(21) 雖然蒙地卡羅能夠計算出每一狀態的價值函數，但是其必須在每一次的模擬結束後才能夠更新所有的價值函數，其更新公式為：. 𝑣(𝑠) = 𝑣(𝑠) + 𝛼(𝐺𝑡 − 𝑣 (𝑠)). (6). 其中 𝛼 為學習率 (Learning rate) ，介於 0~1 之間，代表每次更新的效率。在這樣的情況下，蒙地卡羅演算法能夠計算出整體系統的最佳解，但若某一問題需要耗時非常久才能夠模擬完成，或是其沒有明確指示模擬終止點，就會造成蒙地卡羅的更新效率很差，另一方面則是因為需要完整模擬結束才更新價值函數，很容易忽略掉狀態之間的關聯性，而時間差分演算法較能夠解決這方面的問題。 2.2.4. 時間差分演算法. 時間差分演算法與蒙地卡羅演算法最主要的差別就是更新的頻率，時間差分法可以在每次的動作結束後，在獎勵取得後就馬上更新價值函數，不需要將所有的獎勵做完計算後在更新，其可以單靠前後時間點的狀態 (𝑠𝑡 , 𝑠𝑡+1) 來做狀態價值函數的更新，其更新公式為： 𝑣(𝑠) = 𝑣(𝑠) + 𝛼(𝑟 + 𝛾𝑣(𝑠′) − 𝑣(𝑠)). (7). 其透過每次取得獎勵 𝑟 後立即更新價值函數，如此一來就能夠更加得了解狀態間轉移的關係，但其因為是每次取得後更新，所以整體下來不一定會得到如蒙地卡羅的最佳解，但因為有些系統沒有那麼在意最佳解，只需要能夠快速的產出相對好的解，這時候時間差分演算法就很能給予幫助。. 13.

(22) 除了狀態價值函數之外，動作價值函數(Action-value function)也很常被提出來使用，其可以定義為價值函數𝑄(s, a)： 𝑄(𝑠, 𝑎) = 𝐸 [𝑟𝑡 | 𝑠𝑡 = 𝑠, 𝑎𝑡 = 𝑎]. (8). 透過狀態價值函數與動作價值的結合，能夠判斷狀態之間決策動作的好跟壞，也可以了解到在每個狀態點的動作決策對於整體系統的反應好壞。而在強化學習中，提出了使用時間差分演算法的一種學習方式稱為 Q 學習(Q Learning) [7][21][22]。 2.2.5. Q 學習 (Q Learning). 在 Q Learning 中主要定義了動作價值函數 (Q-Value, 𝑄(s, a))，並將其定義為：. 𝑄：S × A → R. (9). 透過每一狀態 𝑠 與執行的動作 𝑎 執行後過後所得到的 𝑟 透過公式來對 Q-Value 做更新，其更新公式為： 𝑄(𝑠, 𝑎) = 𝑄(𝑠, 𝑎) + 𝛼(𝑟 + 𝛾 max 𝑄(𝑠 ′ , 𝑎) − 𝑄(𝑠, 𝑎)) 𝑎. (10). 左項中的𝑄(𝑠, 𝑎 )為更新後的價值函數，右項的為原始價值函數，α為學習率(Learning rate)，為介於0 ~ 1之間的數值，代表該次動作針對原本函數的影響效果，γ為衰減值，為介於0 ~ 1之間的數值，代表目前與未來的影響效果，max 𝑄(𝑠 ′ , 𝑎)則代表未來具有最高價值的可能價值函數。 𝑎. 在 Q Learning 當中，透過不斷的迭代訓練最終將整體決策系統變成一能夠平穩做決策的系統。 14.

(23) 第三節. 基於強化學習的交通管制策略. 基於強化學習的交通管制策略中[23]-[25]可以了解到，這些應用的基礎都是建設在線上優化以及反饋控制之上，同時結合兩種方法的特點，將反饋控制的應用當成計算方式並加入到線上優化的模型中，如此一來就可以透過歷史資料的迭代訓練，來整合出一穩定的控制系統，並且可以去除掉原先線上優化需要經過大量運算的預估時間，也可以減少反饋控制遇到特殊情況會產生偏差的問題，透過預先訓練好的模型再加入即時的資料反饋，就可以讓整體系統隨著時間做更動，讓系統保持在一穩定的平衡中。而強化學習基本上也就是線上優化以及反饋控制的結合方法，透過每個時間點的狀態以及該狀態可執行的動作，建立一套狀態跟動作的價值函數，並透過多次迭代的訓練，讓價值函數變成一套完整且穩定的動作決策對照表，並且透過即時資料的反饋，讓整體的模型隨著時間的推移更新，讓系統可以隨時針對不同的變化做出最好的動作決策。. 15.

(24) 第三章研究方法本章節將會敘述此研究所提出的 ARSTC 方法與架構：第一節介紹資料的收集、種類以及做初步處理及分析；第二節會介紹如何將處理過後的資料加入強化學習中運算以及相關的參數與公式設定；第三節介紹如何設定模擬環境與如何將測試資料投入模擬環境中。. 第一節. 資料收集與處理. 交通部高速公路局交通資料庫 [28] 有公開每天的全國高速公路流量及車速資料供民眾下載，其資料為每5分鐘上傳並儲存在高公局的公開資料庫中，內容包含各個國道之各路段公里數、方向、道路狀況，還有該檢測站的前五分鐘各車道車流量 (Volume)、平均車速 (Speed)、車道占用比率 (Lane Occupancy)等資訊 (表1)。 Vdid. Lane Speed (km/h) Laneoccupy. Volume (vehs). nfbVD-N1-S-88.060-M-LOOP. 1. 98. 18. 144. nfbVD-N1-S-88.060-M-LOOP. 2. 92. 19. 140. nfbVD-N1-S-88.060-M-LOOP. 3. 88. 13. 87. nfbVD-N1-S-88.060-M-LOOP. 4. 105. 2. 26. nfbVD-N1-S-90.000-M-LOOP. 1. 93. 15. 94. 表1 高公局高速公路公開資料格式. 16.

(25) 從這些資料當中，可以標籤出全台各地區國道常發生壅塞的路段，也可以快速的檢驗現行的路肩開發策略是否有效，在本研究中取 2020 年 1 月 23 日春節連假第一天的國道一號南下竹北至新竹路段 (86 – 91 km) (圖3) 進行初步的研究分析，透過 (圖4) 可以明顯的看出車流量對於車速的影響非常巨大，而該路段在當天的路肩開放時間為上午 6 點起至晚間 7 點止，在圖中也可以發現到，雖然路肩開放很長一段時間，但還是一樣會發生壅塞的情況，而且雖然在上午 6 點時就已經開放路肩通行，但整體路肩的使用量 (圖5)在上午 10 點前都沒有太多使用，而是等到了真正開始有壅塞情形開始時才大量的車流湧入路肩行駛，且從資料中可以發現現行路肩的開放並未對交通舒緩有很大的幫助，是直到傍晚左右壅塞的情況才改善很多，且車流量也慢慢下降，但是路肩依然開放行駛直到晚間 7 點才關閉通行。. 圖3. 國道一號竹北路段地圖：圖中從左至右為南向。. 17.

(26) 圖4. 1月23日國道一號南下竹北至新竹路段車流量及車速關係圖。. 圖5. 1月23日國道一號南下竹北至新竹路段路肩使用圖。. 第二節. 強化學習應用於路肩車流控制. 從第一節中所取得的資料中，可以取得該路段每條線道五分鐘內的平均車速、總車流量、車道的佔用比率以及欲下匝道的車流量，在此研究中，主要會從總車流量、車速與欲下匝道的車流量著手，透過這三項數據以及 18.

(27) 模擬出來的結果來計算該狀態時的獎勵。之後再使用強化學習中的 Q 學習 (Q Learning) 作為更新價值函數的方法，並以 Q-value 𝑄 (𝑆, 𝐴) 代表狀態與動作的價值函數。此小節會依序介紹 Q Learning 的基本函數更新方法、參數設定以及每次動作完的獎勵的計算方式。 3.2.1 Q Learning 如同上一張所提到的 Learning 是以時間差分法為基底的一強化學習方法，並定義出價值函數(Q-value, 𝑄(𝑆, 𝐴))，在此實驗中的狀態(State, 𝑆) 為各個時間點 t 於該路段的總車流量，動作(Action, 𝐴) 為該時間點 t 開放至路肩行駛的車輛數定義如下，會以這些車輛數作為動作主要原因是因為上一節中提及的竹北路段含路肩共有四線道，而所有線道每五分鐘的總車輛數約為 500 左右，故取每線道平均後的數值作為上限。. 𝐴 = [60,70,80,90,100,110,120,130]. (11). 在起始階段，先定義好價值函數表 (Q-Table) 表2，於表中設置好每個狀態及對應動作的價值函數𝑄(𝑠, 𝑎)並將每個𝑄(𝑠, 𝑎)初始化為0，並在每一次的動作執行後，透過取得到的獎勵(Reward, R)來進行𝑄(𝑠, 𝑎)的更新，並將更新公式(10)化簡變成：. 𝑄 (𝑠, 𝑎) = (1 − α)𝑄(𝑠, 𝑎) + 𝛼(𝑟 + 𝛾 max 𝑄 (𝑠′, 𝑎)) 𝑎. (12). 因為max 𝑄(𝑠′, 𝑎 )只會考慮到未來一個狀態的影響，所以可以透過馬可 𝑎. 夫決策過程來有效率的找出下一時間點的價值函數 𝑄(𝑠′, 𝑎)，會在下一小節介紹。. 19.

(28) Q-Table Action. Number of Vehicles Allows to Road Shoulder. State. Number. 0. of. ⋮. Vehicle. 300. 60. 70. 1.4350. 1.3758. ⋮. 1.3725. 80. 90. 100. 110. 120. 130. ⋯. 0.9971. 1.1642. ⋮. ⋱. ⋮. ⋮. 0.9734. ⋯. 1.5142. 1.4356. ⋮ 600. 表2 價值函數表(Q-Table). 3.2.2 應用於 Q Learning 的馬可夫決策過程因為 Q Learning 是基於時間差分法的強化學習，可以被歸類為可部分觀測的馬可夫決策過程，如此一來，在一開始的學習階段都要不斷的紀錄每個狀態之間的關聯性，透過訓練之後就可以了解每個狀態間的轉移關係 (圖 6)，再定義一個下一狀態關聯表 (Next State table) 表3用來記錄狀態間的關聯，透過這個關聯表，經過幾次的模擬之後就可以快速的知道在目前狀態下，未來有可能會發生的狀態有哪些。. 20.

(29) 400. 413. 421. 375. 350. 圖6. 狀態間轉移關係圖 Next State Table State s’. Number of Vehicles. State s. 0 Number. ⋮. of. 300. Vehicles. ⋮ 600. 50. 35. 30. ⋯. ⋯. ⋯. ⋯. ⋯. 350. 331. 325. ⋯. ⋯. ⋯. ⋯. ⋯. ⋯. ⋯. ⋯. ⋯. 表3 狀態關聯表 (Next State Table). 為了讓狀態的選取更合乎真實環境所發生的情況，會對於每個狀態被選取的機率依照其發生次數加入一個權重值，ARSTC 透過波茲曼分布 (Boltzmann Distribution)[26]來分配其被選取的機率，其公式如下：. 𝐵𝑆 (𝑠, 𝑚) =. 𝐸𝑥𝑝(𝐶(𝑠, 𝑚)⁄𝑡𝑒𝑚𝑝) , ∑𝑏∈𝑆 ′ 𝐸𝑥𝑝(𝐶(𝑠, 𝑛)⁄𝑡𝑒𝑚𝑝). 21. 𝑚, 𝑛 ∈ 𝑠 ′. (13).

(30) 其中 𝐵𝑆 (𝑠, 𝑚) 代表每一個狀態被選取的機率，𝐶 (𝑠, 𝑚), 𝐶(𝑠, 𝑛)代表該狀態發生過的次數，𝑡𝑒𝑚𝑝 為一系統溫度，會隨著選擇次數越多而變越低，在本實驗中將 𝑡𝑒𝑚𝑝的起始值設為1000，並定義其變化公式為：. 𝑡𝑒𝑚𝑝 = 1000 − 𝐶 (𝑠, 𝑚). (14). 經過波茲曼分布的機率選取後，就可以透過產生出的下一時間點狀態 s′來查找其在價值函數表中具有最高價值的 𝑄(𝑠′, 𝑎)來作為 max 𝑄(𝑠′, 𝑎)。 𝑎. 3.2.3 𝛆 − 貪婪法 (𝛆 − 𝒈𝒓𝒆𝒆𝒅𝒚) 在 Q Learning 中選取動作的方式有兩種，第一種是隨機選取一個動作，第二種為選取價值函數 Q(S, A)最高的動作，其兩種方式各有好壞，前者可以確保在一定迭代後每一個動作都可以被執行評估過一次，但其壞處就是在於因為是全隨機的，所以無法做出穩定的決策；而後者的好處為可以確保決策一定是當前最好的選擇，但其壞處在於因為可以選取的動作比較固定，所以很容易會陷入區域最佳解。為了讓系統可以保有一定的嘗試，又同時希望產出的動作可以趨於穩定，ε − 𝐺𝑟𝑒𝑒𝑑𝑦 [27] 很常被強化學習當作選取動作的工具，其透過定義一機率常數ε來作為判斷要隨機選取還是透過價值函數選取該次動作，在過去研究中 [24] [25] 都將其定義為 0.2，完整的流程如演算法1. 22.

(31) 演算法1.. ε − 𝐺𝑟𝑒𝑒𝑑𝑦 動作選取流程。. 可以將選取動作的方式定義為：. 𝑎𝑡 = {. 𝐵𝐴 ( 𝑠, 𝑎), 𝑚𝑎𝑥 𝑄(𝑠, 𝑎) ,. 𝑝<𝜀 𝑝≥𝜀. (15). 其中 𝐵𝐴 (𝑠, 𝑎) 為透過波茲曼分布選取動作 𝑎𝑡 ， p 為隨機產生 0 ~ 1 的數值。如此一來就可以同時保有隨機嘗試與穩定做決策的功能，但其中還是可能會因為無法評估完所有動作，而導致區域最佳解的問題，所以在本研究中首先將每一迭代的 𝜀 𝑖 更新：. 23.

(32) 𝐸𝑝𝑜𝑐ℎ − 𝐸𝑖 2𝐸𝑝𝑜𝑐ℎ. 𝜀𝑖 = 𝜀 +. (16). 𝜀 定義為 0.2，但會隨著迭代越來越多次做變動成 𝜀𝑖 ，𝐸𝑝𝑜𝑐ℎ為預計迭代總次數，𝐸𝑖 為目前的迭代次數，透過這樣的設定，系統在一開始的時候會比較高機率的隨機選取動作，到了訓練後期就會越趨平穩但還是保有隨機選取的機制。而在隨機選取動作的階段，一樣加入了波茲曼分布來計算每個動作被選取的機率，其定義為：. 𝐵𝑆 (𝑠, 𝑥) = (. 𝐸𝑥𝑝(𝐶 (𝑠, 𝑥)⁄𝑡𝑒𝑚𝑝) −1 ) , ∑𝑦 𝐸𝑥𝑝(𝐶 (𝑠, 𝑦)⁄𝑡𝑒𝑚𝑝). 𝑥, 𝑦 ∈ 𝑎. (17). 其中 𝐵𝑆 (𝑠, 𝑥) 代表當前狀態下的機率倒數，𝐶 (𝑠, 𝑥), 𝐶(𝑠, 𝑦) 為該動作被選取的次數，𝑡𝑒𝑚𝑝 為一變數，其變化方式與公式 (14) 一樣，再透過所有機率倒數的加總後求出一狀態動作選取機率 𝐵𝑆 ′(𝑠, 𝑥)：. 𝐵𝑠 (𝑠, 𝑥) −1 𝐵𝑆 ′(𝑠, 𝑥) = ( ) , ∑𝑦 𝐵𝑠 (𝑠, 𝑦). 𝑥, 𝑦 ∈ 𝑎. (18). 這麼做主要為了要讓選取次數較少的動作有更高的機率可以被選取到。. 24.

(33) 3.2.4 獎勵 (Reward) 計算在本研究中，最主要改善的問題就是路肩的流量問題以及減少塞車的時間，所以將這兩項目標當作獎勵的計算方式，先定義出每個時間點 𝑡 的獎勵 (Reward at 𝑡, 𝑟𝑡 ) 為：. 𝑟𝑡 = 𝑙𝑜𝑔10 (𝐷𝑒𝑝𝑎𝑟𝑡𝑑𝑒𝑙𝑎𝑦)−1 + 𝑟𝑎𝑡𝑒. (19). 其中 𝑟𝑡 代表在狀態 𝑠𝑡 時執行動作 𝑎𝑡 所得到的獎勵，𝐷𝑒𝑝𝑎𝑟𝑡𝑑𝑒𝑙𝑎𝑦 定義為平均每輛車 i 出發的延遲時間 (𝑠𝑒𝑐𝑜𝑛𝑑𝑠) 表示為：. 𝐷𝑒𝑝𝑎𝑟𝑡𝑑𝑒𝑙𝑎𝑦 = 𝐴𝑉𝐺(𝐷𝑟𝑒𝑎𝑙 − 𝐷𝑖𝑛𝑖𝑡 )𝑖. (20). 起始先給予每輛車出發的時間 𝐷𝑖𝑛𝑖𝑡 ，透過模擬的結果能夠取得每輛車的真正出發時間 𝐷𝑟𝑒𝑎𝑙 ，將每輛車𝐷𝑖 的延遲出發時間記為 (𝐷𝑟𝑒𝑎𝑙 − 𝐷𝑖𝑛𝑖𝑡 )𝑖 並計算出平均的延遲出發時間 𝐷𝑒𝑝𝑎𝑟𝑡𝑑𝑒𝑙𝑎𝑦，在模擬環境中會讓每輛車在最安全的情況下出發，所以延遲出發時間可被視為整體的塞車時間，當延遲出發時間越長代表整體塞車的情況越嚴重。詳細的模擬環境會在下一節說明， 𝑟𝑎𝑡𝑒 為欲下匝道車流量與行駛路肩車流量的比率表示為：. 𝑟𝑎𝑡𝑒 = 𝑓𝑜𝑢𝑡𝑡 /𝑎𝑡. 25. (21).

(34) 𝑓𝑜𝑢𝑡𝑡 代表在時間點 t 要下匝道的車量，𝑎𝑡 為時間點 t 所執行的動作，透過這兩數值的加總，來計算每個時間點的獎勵值。 3.2.5 學習率 (Learning rate, 𝜶) 在本研究中，將學習率 (𝛼)定義為：. 1 𝛼=( )𝛽 𝐶(𝑠, 𝑎). (22). 目的在於讓 Q-value 的更新效益隨著該動作被選取的次數而減少，𝐶(𝑠, 𝑎) 為狀態 s 跟動作 a 被選取的次數，𝛽 為一常數定義為 0.7、0.8 與 0.9，當 𝛽 越大，學習效率就會越低。. 第三節. 於模擬環境以強化學習訓練路肩開放策略. 本節會依照模擬環境的設定、實驗整體流程分別介紹。 3.3.1 實驗環境設定在此研究中，我們使用 Simulation of Urban Mobility (SUMO) [31] 的車輛模擬程式來進行實驗的結果模擬，首先將第一節中所取得到的各路段車流量以及上下匝道的車流量，在 SUMO 中分別以普通轎車、Custom1 以及 Custom2 等形式呈現 (圖7)，且將 Custom1 跟 Custom2 的所有參數設定與普通轎車相同，其中再以普通轎車代表一般行駛之車輛、Custom1 代表欲下匝道之車輛、 Custom2 代表不下匝道但行駛路肩之車輛。並且從開放街圖. 26.

(35) (Open Street Map, OSM) [32] 中擷取出實驗所需要的路段 (圖8) ，並將最外側車道標示為路肩車道，以達到最為貼近現實中的模擬環境。. 圖7. 於 SUMO 中的車輛種類示意圖. 圖8. 從 OSM 中將國道一號南下 86-91 km 路段資料於 SUMO 中呈現示意圖. 27.

(36) 3.3.2 實驗流程首先介紹整體的實驗運行流程，，架構如圖9，在整體系統中會一直與高公局取得每個時間點的交通資訊，通過 ARSTC 並做出決策之後，就會再次取得下一時間點的資料，依此循環。而本研究提出的 ARSTC 架構如圖9 ，其中主要分為兩個部分，第一部份為判斷路肩啟用時機，第二部分為透過 Q Learning 訓練好的 Model 對當前交通做決策，透過 ARSTC 做出的決策，高工局就可以依此來進行交通管控。. 圖9. 整體系統流程圖. 28.

(37) 圖10.. ARSTC 流程圖. 在第二部份中的 Model 生成主要是透過過去的交通歷史資料來訓練，從第一節所獲得的路況資料可以得出一結論，平均的塞車時間大概為4小時左右，所以在本研究中，取8個連假的第一天(春節連假第一天、端午連假第一天、中秋連假第一天、連假第一天、清明連假第一天以及雙十連假第一天)其中四個小時，每五分鐘一筆的路況資料作為訓練資料表4. 29.

(38) 日期. 開始時間. 結束時間. 2018/02/15. 06:30. 10:30. 2018/06/16. 06:50. 10:50. 2018/09/22. 05:50. 09:50. 2019/02/28. 06:15. 10:15. 2019/04/04. 05:25. 09:25. 2019/06/07. 05:50. 09:50. 2019/09/13. 05:40. 09:40. 2019/10/10. 05:30. 09:30. 表4 Training Dataset. 這四小時的資料取法是依照一塞車門檻作為指標，並取達標後的四小時資料。這項指標在整體系統中也扮演著決定路肩流量管制時機的角色，其流程如演算法2. 30.

(39) 演算法2.. 啟動路肩與流量控制流程. 其中會先定義三個常數 𝐶𝑠 為速度常數， 𝐶𝑓 為車流量常數， 𝐶 為一常數，在定義門檻值 ℎ 用來記錄交通資訊並判斷是否開啟路肩與流量管制，𝑇𝑆𝑡 為當前時間點 t 的行車速度，𝑇𝐹𝑡 為當前時間點 t 的車流量，而因為單從當下的行車速度與車流量無法看出是否即將發生壅塞情形，所以定義出 𝑅(𝑇𝑆𝑡 )為行車速度的比率：. 𝑅 (𝑇𝑆𝑡 ) =. 31. 𝑇𝑆𝑡 𝐶𝑠. (23).

(40) 與 𝑅(𝑇𝐹𝑡 ) 為車流量比率： 𝑅 (𝑇𝐹𝑡 ) =. 𝑇𝐹𝑡 𝐶𝑓. (24). 透過比率的方式計算，就能夠找出真正塞車的時間點，並且也能預估塞車的時間點，在本研究中為了能夠提前開啟路肩並進行流量管制，所以定義門檻公式設為：. 𝑅 (𝑇𝑆𝑡 ) − 𝐶 > 𝑅(𝑇𝐹𝑡 ). (25). 如果單純只將門檻值設為 𝑅 (𝑇𝑆𝑡 ) 與 𝑅(𝑇𝐹𝑡 ) 的差異比較，會造成已經發生壅塞事件時才開啟路肩與流量控制，這樣並無法有效的解決壅塞問題，所以透過加入一常數 𝐶 來做擁塞事件的預先評估，就可以在壅塞發生前先啟動控制路肩車流量，而因為從正常狀況便成壅塞狀況的時間很短暫，若將門檻值設太高，會造成太晚開啟路肩與流量控管，又為了防止例外事件，將門檻值 ℎ ≥ 3 (連續15分鐘)的交通資訊設為最終開啟控制之門檻。 3.3.3 Q Learning 結合路況資料從前一小節取得的 8 天 4 小時的路況資料，可以統整出一系列的狀態序列，總共 8 天每天 4 小時，每小時 12 筆資料共 384 筆資料，所以一共會有 384 個狀態，在透過這些資料結合 Q Learning 來訓練出穩定的決策模型，最後使用 2020/01/23 春節連假第一天的資料來做驗證，證明結合 Q Learning 的路肩車流量控制是否會比原先沒有任何控制的情形好，其整體的流程架構如圖11。. 32.

(41) 圖11.. Q Learning 整體實驗與驗證流程架構. 在本研究中建立了兩種 Model，分別是 Continuous Model 跟 Individual Model，前者是將所有的訓練資料統一做訓練，好處是可以在第一次迭代後就了解狀態之間彼此的關係，但每次迭代的時間就會比較久，不過這也代表此 Model 訓練出來後比較可以穩定的做出決策；後者是將訓練資料依照時間依序做訓練，所以每個迭代所需的時間比較短，且可以產生出 8 個 Model 來做使用，但其缺點在於會偏向每一天個別的資料做出不同的反應，所以訓練出來的 Model 不一定可以使用於所有的情況中。本研究提出了兩種 Model 訓練方式，會依照平均的延遲出發時間與總減少的車流量比率來做 Model 的表現評估。. 33.

(42) 第四章實驗結果分析第一節. 實驗設定. ARSTC 的全程實驗都在伺服器端進行，伺服器的硬體使用 AMD R7 3700X 處理器，32GB 記憶體以及 NVIDIA RTX 2070 8G 的顯示卡，在透過 SUMO 的模擬環境模擬每一個 State 來取得結果，實驗中每一個 State 平均的運算及模擬時間總和大約為 0.25 秒，本研究中分為好幾個驗證過程，分別為不同門檻值的比較、訓練結果評斷、不同學習率的結果比較以及不同迭代次數 (Epoch) 的結果比較。為了讓整體的模擬更合乎於現實高公局法規，在將 OSM 的地圖輸入進 SUMO 之後，首先將路段定義為無路肩區域 (86 – 88 km)、路肩可變換車道區(88 – 90 km)、路肩不可變換車道區 (90 – 91 km) 以及下匝道區 (91 km) (圖 12)，並且將路肩的最高速度設為 60 km/h. 圖12.. 實驗地區規劃示意圖. 34.

(43) 第二節. 門檻值比較. 對於不同門檻值得設定，會讓整體系統判斷是否啟動流量控制的時間受到不同的影響，本小節會針對不同的常數 𝐶、車速比率 𝑅(𝑇𝑆𝑡 ) 以及流量比率 𝑅 (𝑇𝐹𝑡 ) 來進行驗證。在本實驗中取五天的交通資料來進行門檻值的效果驗證，詳細日期如表5，透過這五天的資料來驗證不同常數 𝐶 啟動流量控管的時間點是否適當，圖13針對 𝐶 設定為 0.03、0.04 跟 0.05時每天的啟動時間比較。可以看的出來，當 𝐶 設為 0.03 時有時候會太晚啟動流量控制，而 0.04 跟 0.05 之間的差別不大，但 0.05 有一天啟動的時機比 0.04 還早一些，所以在本研究中取一個相對穩定的 0.04 作為門檻值。. 35.

(44) 日期. 連假與天數. 2020/01/23. 春節連假第一天. 2020/01/24. 春節連假第二天. 2020/01/25. 春節連假第三天. 2020/04/02. 清明連假第一天. 2020/04/03. 清明連假第二天表5 驗證資料日期表. 圖13.. 不同常數 C 比較結果. 36.

(45) 再來比較不同的 𝑅 (𝑇𝑆𝑡 )與 𝑅(𝑇𝐹𝑡 )的啟動結果，𝐶都定義為0.04，一樣為五天的資料做比較，這裡主要要找出最好的 𝐶𝑠 與 𝐶𝑓 設置數值，在本研究中進行了一組靜態 (Fixed Parameter, FP) 與三組動態資料作為 𝐶𝑠 與 𝐶𝑓 的設定值，其設定方式如表6，其中三組動態資料分別為 Day：依照去年連假同一天的最高車速是最高車流量，例如：2019/02/02；Date：依照去年同一日期的最高車速與最高車流量，例如：2019/01/23；Yesterday：依照前一天的最高車速與車流量，例如：2020/01/22。而其結果如圖14所示，透過結果可以發現到若是使用去年同一日期的資料當作門檻值，其所帶來的結果不盡理想，而若是使用前一天的資料，其結果雖然比前者好，但還是無法在最適合的時間點啟動路肩流量控制，而其餘三者的表現都不錯，因為連假中每天的車流模式大致上會雷同，所以可以看出來以同一天的資料當作門檻的結果很不錯，至於靜態資料的設置都相當符合啟動路肩流量控制的時機點，所以在本研究中，為了縮短整體計算時間，直接將 FP 當作 𝐶𝑠 與 𝐶𝑓 。. 37.

(46) 方法. 𝐶𝑠 (𝑘𝑚/ℎ). 𝐶𝑓 (vehs). FP. 110. 550. highest speed. highest flow. highest speed. highest flow. highest speed. highest flow. Same day Same date Yesterday. 表6 不同 𝐶𝑠 與 𝐶𝑓 設置方式. 圖14.. 不同𝐶𝑠 與𝐶𝑓 比較結果. 38.

(47) 第三節. 訓練結果評估. 本小節會針對前面所提出的兩種 Model，Continuous Model 及 Individual Model 來進行實驗分析。為了能夠更加的貼近於真實環境下有可能發生的情況，所以本研究中會透過不同的出發時間來進行模擬，但這樣做會因為一些可能發生的事件影響導致模擬的結果會有起伏，在本研究中不會針對這些資料進行過濾，主要是因為這些情況還是有可能會在真實環境中發生，所以保留這些例子反而能讓整體系統更貼近於真實。 Continuous Model 將資料聚集在一起才做訓練的好處為可以在一開始時就了解完每個狀態之間的關係，並且透過幾次迭代後就有機會找出好的決策過程，但其壞處也在於此，由於整體的狀態太多，所以在訓練其中很容易就被上述的數值干擾，這樣一來雖然一樣可以取得平衡，但是隨著迭代次數的增加，會比較容易受到干擾，而造成系統每隔一段時間就會找到一個新的平衡，但其實透過圖15的資料呈現可以發現，在受到干擾之前，系統都可做出相對穩定的決策 (大約在迭代次數 75 ~ 210 之間) ，而之後隨著一些狀態的關係，讓整體的決策數量往上成長，並緩慢的成長，但若扣除掉這些可能的干擾因素，還是可是看出系統相對來說算是非常穩定的做決策。而透過圖16的獎勵演進圖也可以發現不管 𝛽 設為多少，都能夠隨著迭代次數慢慢取得更高的獎勵，而且也能穩定在一定範圍內，透過這兩張實驗結果可以看出 𝛽 的數值主要會影響在動作決策上，對於獎勵的影響並沒有很大，所以在後續 Individual Model 中直接取 0.7 作為 𝛽 。. 39.

(48) 圖15.. Continuous Model : Action Evolution. 圖16.. Continuous Model : Reward Evolution. 而 Individual Model 中，將資料分開訓練的好處即可將上述說的干擾率降低，不會輕易受到多個干擾造成整體決策備受干擾，所以可以得出相對穩定的決策模型，而且也可以針對每天的車流行為來做針對性的校正，但是因為其每次都只有48個狀態做訓練，所以每一天不需要訓練到 500 次，訓練 100 次後就可以換一天繼續訓練。也因為每天的狀態較少，所以在訓練的前期時，會比較難去模擬所有可能發生的情況，但是到了訓練後期就可以讓整體系統變得更加穩定其訓練結果的動作決策演進如圖17，透過途中可以看到確實會依照不同訓練天產生出每一天的各自的訓練情形。而獎. 40.

(49) 勵演進如圖18，可以看出雖然起始階段整體的獎勵值幅度很大，但訓練幾天後就可以產生一穩定的決策模型，而每一天的訓練獎勵有落差也是因為每一天的車流行為不一樣所導致，但還是可以看的出來整體系統對於每天的訓練都可以取得穩定的獎勵。而因為不同訓練天數都能夠產生一個 Model，圖19顯示了若使用較少天數的 Model 會造成許多狀態沒有被訓練過的情形，如此一來對於應用到實際環境時基本上部會有作用，而是在7或是 8天的訓練資料天數才會降低到能接受的範圍內，所以後續的驗證中，會單純就訓練7天與8天的 Model 進行比較。. 圖17.. Individual Model : Action Evolution. 圖18.. Individual Model : Reward Evolution. 41.

(50) 圖19.. 不同天數 Model 應用於實際情況資料缺少量. 綜合以上的評估，可以了解雖然這兩種方式都各有優缺點，但是同樣都可以產生出一穩定的決策模型，所以可以透過這兩種模型分別作驗證評估，看對於不同的訓練模式是否可以比原先沒有控制的效果來的好。. 42.

(51) 第四節. 應用於實際狀況結果比較. 在此節主要會針對訓練好的不同 Model 進行模擬實際狀況結果的比較。其中會依照與無開放路肩以及無管控路肩流量的資料進行比較，而在模擬環境中，會以前面章節所提到的表現評估方式分別為：出發延遲時間與減少總放行車流量進行比較。在本研究中，針對不同的 Model 進行了 20 次的模擬測試，其延遲出發時間結果如圖20 所示，依序先是 Continuous Model 的各種不同 Epoch 與 𝛽 設置，最後兩組則是 Individual Model 分別以 7 天跟 8 天訓練出來的 Model，透過結果可以直接地看出如果沒有開啟路肩舒緩車流，整體的延遲出發時間會非常長，而且整體的交通情況會很不穩定，而開啟路肩可以直接的減緩延遲出發時間，透過圖中資訊也可以看出本研究所有的實驗 Model 都可以降低延遲出發時間，且都維持在一定的範圍中，代表透過預先訓練好的 Model 確實可以在變化很大的交通中，還可以很平穩的做決策，證明了確實可以透過 Q Learning 的技術訓練一套 Model 並且依此來控管交通狀況。. 43.

(52) 圖20.. 不同 Model 模擬20次結果。. 了解訓練好的 Model 都能夠確實做決策後，就可以比較整體與原先無管控路肩車流時的交通紓緩情形與減少車輛比率，圖21為各 Model 的模擬延遲出發時間減少比率，一樣從左邊開始依序是 Continuous Model 中各種不同的 Epoch 與 𝛽 設定，而最後兩筆為 Individual Model 中分別以 7 天跟 8 天訓練出來的 Model，首先在延遲出發時間減少比率中可以發現所有的 Continuous Model 都可以有效率的減少整體的延遲出發時間，也就是說能夠確實的透過訓練好的 Model 來舒緩整體的交通壅塞狀況；而 Individual Model 在這裡的表現就不是很好，基本上與原先的延遲出發時間沒有差別，代表當把所有的資料分開訓練時，系統給予的反饋比較不適合讓整體交通環境在壅塞情況發生時能夠有效的紓緩車流。. 44.

(53) Continuous Model. Individual Model. -0.45. 圖21.. 0.31. 不同 Model 平均延遲出發時間縮短比率。. 圖22為各 Model 的路肩車流量縮短比率，依序一樣是 Continuous Model 中不同 Epoch 與 𝛽 的設定，最後兩個為 Individual Model 分別以7天與8天的訓練結果，透過實驗結果可以發現到在 Continuous Model 中，當 Epoch 為 100、 𝛽 設為 0.7 的時候減少了很多的車流量，也可以結合上一張圖得出一個結果依照這樣的設定，能夠在減緩很多車流量的同時，一起舒緩整體的壅塞情況；而雖然 Individual Model 在延遲出發時間的表現不好，但是透過結果可以發現它減少了非常多的車流量，而這邊也可以解釋成，因為是透過每天的資料堆疊訓練出來的結果，所以會因為不同天的重新訓練而產生出不一樣的結果，也讓訓練好的 Model 會因為每天不同的情況產生不同的結果。. 45.

(54) Continuous Model. 圖22.. Individual Model. 不同 Model 減少路肩車流量比率。. 從上述的驗證過程來看，不管是 Continuous Model 或是 Individual Model，都可以對於交通的改善有所幫助，在 Continuous Model 中整體來說當 𝛽 = 0.7 的時候效果還是最好的，雖然當迭代次數越高反而結果比較差，都還是都有比原先的無控制路肩車流量來的好很多，都能夠同時減少延遲出發時間跟行駛車流量；而 Individual Model 雖然無法降低延遲時間，但其降低了非常多的車流量比率，甚至會降低比 Continuous Model 更多的比率。透過此小節的結果來看，不管使用哪一個 Model 或是 𝛽 設定為多少，本研究提出的 ARSTC 不但可以使用比無控制路肩車流量還要少的車流量，更可以降低整體的出發延遲時間，讓整體高速公路的行車環境能夠安全且更有效率的舒緩壅塞情況。. 46.

(55) 第五章結論與未來展望本研究所提出的基於強化學習之高速公路路肩流量管制策略 (Reinforcement Learning Approach for Adaptive Road Shoulder Traffic Control, ARSTC) 可以藉由交通部高速公路局所提供的即時路況資訊，透過程式化加入強化學習的方式，來做出決策允許現在開放多少車輛至路肩繼續行駛。 ARSTC 可以有效的降低整體的路肩行駛車流量 (減少16.16%)，更可以降低整體的出發延遲時間 (減少6.74%)，這也意味著能夠降低整體壅塞的時間，而且因為降低路肩車流量的關係，ASRTC 可以讓行駛在路肩的車流更順暢的下匝道，針對欲下匝道的車輛給予行駛路肩的優先權，而其他車輛則繼續行駛於其原本行駛的線道，如此一來不但可以減少高速公路上變換車道的機會，也可以降低欲下匝道與不下匝道車輛發生事故的機率，讓整體的高速公路車流運行起來能夠更加順暢且安全。不過 ARSTC 主要是針對能行駛路肩的一般車輛進行控管，在高速公路上還有其他不同種類的車種，例如：大客車、聯結車或是大型貨車等車輛，其對於高速公路的安全性還是有一定的風險，雖然目前 ARSTC 只有管控一般車輛，但在未來還是可以加入更多車輛種類，將每種車輛進行種類的權重計算，或是可以針對駕駛人平時的用路習慣增加權重值等等，透過更多的參數加入其中，讓整體的系統能夠更加的符合真實環境的需求。而 ARSTC 不單只可以用來管控路肩的車流量，透過不一樣的動作設定，也可以運用在其他道路上面，像是高乘載車道，雖然現行的高乘載車道只開放給公路客運行駛，但或許可以透過一些參數的調整，讓這些車道能夠開放更多空間供不同駕駛人使用。不管是透過流量的管控或是速度的限制，都可以經由不斷的訓練演進來符合更多樣的條件，而如何將這些條件結合在一起產生一套真正完整的道路控管系統也是未來車連網普及後的熱門研究方向。 47.

(56) 參考文獻 [1] 交通部高速公路局, 高速公路1968, 中華民國: 交通部高速公路局, 2020. [online]. Available: https://1968.freeway.gov.tw/, [Accessed: Jan 30, 2020] [2] 科技部, 民生公共物聯網, 中華民國: 科技部, 2020. [online]. Available: https://ci.taiwan.gov.tw/, [Accessed: Jan 30, 2020] [3] M. J. Cassidy and J. Rudjanakanoknad, “Increasing the capacity of an isolated merge by metering its on-ramp,” Transportation Research Part B: Methodological, VOL. 39, NO. 10, pp. 896–913, 2005. [4] K. Chung, J. Rudjanakanoknad, and M. J. Cassidy, “Relation between traffic density and capacity drop at three freeway bottlenecks,” Transportation Research Part B: Methodological, VOL. 41, NO. 1, pp. 82–95, 2007. [5] L. Zhang and D. Levinson, “Ramp metering and freeway bottleneck capacity,” Transportation Research Part A: Policy Practice, VOL. 44, NO. 4, pp. 218–235, 2011. [6] Zhibin Li, Pan Liu, Chengcheng Xu, Hui Duan, and Wei Wang, “Reinforcement LearningBased Variable Speed Limit Control Strategy to Reduce Traffic Congestion at Freeway Recurrent Bottlenecks”, IEEE Transactions on Intelligent Transportation on Systems, VOL. 18, NO. 11, NOVEMBER 2017 [7] Richard S. Sutton and Andrew G. Barto, “Reinforcement Learning: An Introduction,” VOL. 2, in Progress, Cambridge: MIT Press, 2014 [8] Leslie Park Kaelbling, Micheal L. Littman, and Andrew W. Moore, “Reinforcement Learning: A Survey,” Journal of Artificial Intelligence Research 4, pp. 237-285, 1996 [9] H. Liu, L. Zhang, D. Sun, and D. Wang, “Optimize the settings of variable speed limit system to improve the performance of freeway traffic,” IEEE Tranactions on Intelligent Transporation on System, VOL. 16, NO. 6, pp. 3249–3257, DECEMBER 2015. [10] Andreas Hegyi, Bart De Schutter, and J. Hellendoorn, “Optimal Coordination of Variable Speed Limits to Suppress Shock Waves,” IEEE Tranactions on Intelligent Transporation on System, VOL. 6, NO. 1, pp. 102-112, MARCH 2005 [11] Rodrigo C. Carlson, Ioannis Papamichail, and Markos Papageorgiou, “Optimal mainstream traffic flow control of large-scale motorway networks,” Transportation Research Part C: Rmerging Technologies, VOL. 18, NO. 2, pp. 193-212, 2010. 48.

(57) [12] R. C. Carlson, I. Papamichail, and M. PaPageorgious, “Local Feedback-Based Mainstream Traffic Flow Control on Motorways Using Variable Speed Limits,” IEEE Transaction on Intelligent Transportation System, VOL. 12, NO. 4, pp. 1261-1276, DECEMBER 2011. [13] G. Iordanidou, C. Roncoli, I. papamichail, and M. PaPageorgious, “Feedback-Based Mainstream Traffic Flow Control for Multiple Bottlenecks on Motorways,” IEEE Transaction on Intelligent Transportation System, VOL. 16, NO. 2, pp. 610-621, APRIL 2015. [14] Y. Zhang and P.A. Ioannou, “Combined Variable Speed Limit and Lane Change Control for Highway Traffic,” IEEE Transaction on Intelligent Transportation System, VOL. 18, NO. 7, pp. 1812-1823, JULY 2017. [15] Zhou, Weiyi. "A Q-Learning Based Integrated Variable Speed Limit and Hard Shoulder Running Control to Reduce Travel Time at Freeway Bottleneck." PhD diss., 2019. [16] R. S. Sutton and A. G. Barto, Reinforcement Learning: An Introduction. Cambridge, MA, USA: MIT Press, 1998. [17] Altman, Eitan, “Constrained Markov Decision Processes,” VOL. 7, CRC Press, 1999. [18] Spaan, Matthijs TJ. “Partially observable Markov Decision Processes,” Reinforcement Learning, Springer Berlin, Heidelberg, pp. 387-414, 2012. [19] Sutton, Richard S., Doina Precup, and Satinder P. Singh, “MDPs and semi-MDPs: A framework for temporal abstraction in reinforcement learning. ” Artifficial Intelligence, 112. 1-2, 181-211, 1999. [20] Jaakola, Tommi, Satinder P. Singh, and Micheal I. Jordan. “Reinforcement Learning algorithm for partially observable Markov decidion Problems,” Advance in neural information processing system. 1995. [21] Teasuro, Gerald. “Temporal difference learning and TD-Gammon,” Communication of the ACM 38.3, pp. 58-68, 1995. [22] Watkins, C.J.C.H. “Learning from Delayed Rewards,” Cambridge University, Ph.D. thesis, 1989. [23] Wang, Chong, Jian Zhang, Linghui Xu, Linchao Li, and Bin Ran. "A new solution for freeway congestion: Cooperative speed limit control using distributed reinforcement learning." IEEE Access 7 (2019): 41947-41957. [24] B. Abdulhai, R. Pringle, and G. J. Karakoulas, “Reinforcement learning for true adaptive traffic signal control,” Journal of Tranportation Engineering, VOL. 29, NO. 3, pp. 278– 285, 2003.. 49.

(58) [25] Kasra Rezaee, Baher Abdulhai, and Hossam Abdelgawad, “Application of reinforcement learning with continuous state space to ramp metering in real-world conditions,” IEEE Conference on Intelligent Transportation Systems, September, 2012 [26] Landau, Lev Davdvoich, and Lifshitz, Evgeny Mikhailovich, “Statistical Physics. Course of Theoretical Physics Edition 3., ” Oxford: Pergamon Press, ISBN 0-7506-3372-7, 1980. [27] Tokic, Michel, “Adaptive ε-greedy exploration in reinforcement learning based on value difference,” Annual Conference on Artificial Intellegence, pp. 203-210, Springer, Berlin, Heidelberg, 2010. [28] 交通部高速公路局交通資料庫, VD 五分鐘動態資訊(V 1.1), 中華民國: 交通部高速公路局,2020. [dataset]. Available: https://tisvcloud.freeway.gov.tw/history/vd/. [Accessed: Jan 30, 2020] [29] 交通部高速公路局, 國道主線實施開放路肩作業規定, 中華民國: 交通部高速公路局, 2020. [online]. Available: https://www.freeway.gov.tw/Upload/DownloadFiles/%E5%9C%8B%E9%81%93%E4% B8%BB%E7%B7%9A%E5%AF%A6%E6%96%BD%E9%96%8B%E6%94%BE%E8% B7%AF%E8%82%A9%E4%BD%9C%E6%A5%AD%E8%A6%8F%E5%AE%9A_005 361.pdf. [Accessed: May 20, 2020] [30] 交通部高速公路局, 高速公路及快速公路交通管制規則, 中華民國: 全國法規資料庫, 2020. [online]. Available: https://law.moj.gov.tw/LawClass/LawAll.aspx?pcode=K0040019. [Accessed: May 20, 2020] [31] German Aerospace Center (DLR), “Simulation of Urban Mobility, ” sumo.dlr.de, 2020. [online]. Available: https://sumo.dlr.de/docs/index.html. [Accessed: Jan 30, 2020] [32] OpenStreetMap Foundation (OSMF), “OpenStreetMap, ” openstreetmap.org, 2020. [online].Available: https://www.openstreetmap.org. [Accessed: Jan 30 2020]. 50.

(59)