基於深度學習的車輛隨意網路路由協定

全文

(1)國立臺灣師範大學資訊工程研究所碩士論文. 指導教授：賀耀華博士. 基於深度學習的車輛隨意網路路由協定. Deep Reinforcement Learning Routing for Vehicular Ad-hoc Network. 研究生：戴宗明撰. 中華民國 107 年 08 月.

(2) 摘要車輛隨意網路 (Vehicular Ad-hoc Network, VANET) 能提供許多智慧車輛的應用以及智慧交通系統 (Intelligence Traffic System, ITS) 所需的網路基礎。藉由車輛之間的封包交換達到傳遞訊息的作用，可應用於行車安全、路況警示或是駕駛輔助系統。車輛隨意網路具有節點高速移動、拓樸改變快速等性質，加上道路環境複雜和訊號干擾的問題，如何使封包能夠可靠地成功送達目的地，成為路由在車輛隨意網路上的主要研究領域。. 此研究提出深度強化學習車輛網路路由協定 (Deep Reinforcement Learning Routing. for VANET, vDRL)，類似於以位置為基礎的路由協定，並且不需要仰賴於任何路由規則，藉由強化學習 (Reinforcement Learning) 的泛化能力，使其足以適應不同環境與車輛的特色。實驗結果顯示在大多數不同的情境設定中，vDRL 相較於貪婪邊界無狀態路由(Greedy Perimeter Stateless Routing, GPSR) ，不僅提高封包的送達成功率、也降低端點對端點的延遲，以及路由所需的節點數。除此之外，此研究也提出一個有效的流程架構，藉由導入不同的街道地圖與真實車流量資訊，並使用強化學習訓練出最佳化的路由協定。. 關鍵字: 車輛隨意網路 (Vehicular Ad-hoc Network, VANET)、智慧交通系統 (Intelligent. Transport System, ITS)、強化學習 (Reinforcement Learning)、路由協定 (Routing Protocol)、人工智慧 (Artificial Intelligence, AI)、深度學習 (Deep Learning). i.

(3) Abstract In Intelligent Transport System (ITS), smart vehicle applications such as collision and road hazard warnings provide a safer and smarter driving environment. For safety applications, information is often exchanged between vehicle-to-vehicle (V2V). This type of fundamental network infrastructure is called Vehicular Ad-hoc Network (VANET). The main difference between VANET and Mobile Ad-hoc Network (MANET) is the highly dynamic characteristic of network topology due to high mobility of vehicles. This characteristic presents greater challenges for the VANET’s routing protocol to achieve high successful packet deliver ratio while reduce end-to-end delay and overhead. Thus, designing an efficient routing protocol is one of the active research topics in VANET. In this research, we proposed Deep Reinforcement Learning Routing for VANET (vDRL) to address the above-mentioned problem. Similar to position-awareness routing protocols, the location vehicles are used in the proposed vDRL. However, the reinforcement learning is applied for the next hop selection in the vDRL. Unlike other routing protocols in VANET, vDRL does not required fix routing rules which allows it to adapt the highly dynamic vehicle network environment. In addition, a network simulator is implemented that combines with reinforcement learning and neural network model. The simulator is able to generate variety of maps with different streets and traffic model for training the routing protocols to adapt different scenarios. The experiment results shown the proposed vDRL routing protocol is able to achieve high deliver rate and low delay with low overhead.. Keywords: Vehicular Ad-hoc Network (VANET), Intelligent Transport System (ITS), Reinforcement Learning, Routing Protocol, Artificial Intelligence (AI), Position-awareness Routing, Deep Learning. ii.

(4) 目錄附圖目錄 ..................................................................................................................................................... V 表目錄 ....................................................................................................................................................... VI 第一章. 緒論 ........................................................................................................................................ 1. 第二章. 文獻探討 ............................................................................................................................... 4. 第一節車輛隨意網路的特性與路由協定................................................................................ 4 2.1.1 車輛隨意網路的特性 ......................................................................................................... 4 2.1.2 現有的車輛隨意網路路由協定 ..................................................................................... 6 第二節強化學習背景...................................................................................................................... 10 2.2.1 強化學習的常用名詞 ....................................................................................................... 10 2.2.2 馬可夫決策過程 ................................................................................................................. 12 2.2.3 蒙地卡羅法 ........................................................................................................................... 14 2.2.4 時間差分法 ........................................................................................................................... 16 第三節基於強化學習的路由協定............................................................................................. 16 第三章. 方法設計 ............................................................................................................................. 18. 第一節第二節第三節. 問題描述................................................................................................................................ 18 強化學習應用於車輛隨意網路路由......................................................................... 20 於模擬環境以強化學習訓練路由協定.................................................................... 22. 3.3.1 回放緩衝 ................................................................................................................................ 23 3.3.2 封包轉送 ................................................................................................................................ 24 3.3.3 行動價值函數的更新 ....................................................................................................... 25 3.3.4 數值逼近法 ........................................................................................................................... 27 3.3.5 相關訓練細節 ...................................................................................................................... 30 第四節於車輛上執行路由協定.................................................................................................. 31 第四章. 實驗分析 ........................................................................................................................... 33. 第一節實驗設定................................................................................................................................ 33 第二節強化學習於車輛隨意網路的收斂性驗證............................................................... 37 第三節不同情境下的強化學習路由效能評估.................................................................... 39 4.3.1 不同連線模型的路由表現 ............................................................................................. 39 4.3.2 不同車輛密度的路由表現 ............................................................................................. 43 4.3.3 不同移動速率的路由表現 ............................................................................................. 46 4.3.4 不同通訊距離的路由表現 ............................................................................................. 47 4.3.5 地圖 (A) 與地圖 (B) 的路由成功率比較 ............................................................... 50 iii.

(5) 第五章. 結論與未來展望 ............................................................................................................... 53. 參考文獻 .................................................................................................................................................... 54. iv.

(6) 附圖目錄圖 1. 車輛隨意網路的兩種連線類型 ................................................................................. 2 圖 2. 強化學習的示意圖 .................................................................................................. 11 圖 3. 一個簡單的馬可夫決策過程 ................................................................................... 12 圖 4. Q-Route 應用強化學習於路由協定 ......................................................................... 17 圖 5. 車輛隨意網路路由示意圖 ....................................................................................... 19 圖 6. 最大傳送半徑與有效傳送半徑 ............................................................................... 19 圖 7. 系統架構一覽圖 ...................................................................................................... 23 圖 8. 訓練模組流程圖 ...................................................................................................... 23 圖 9. 回放緩衝示意圖 ...................................................................................................... 24 圖 10. 調整後的回放緩衝 ................................................................................................ 27 圖 11. 使用多層感知機作數值逼近 ................................................................................. 28 圖 12. 多層感知機的訓練流程圖 ..................................................................................... 29 圖 13. 於車輛上執行 vDRL 路由協定 .............................................................................. 32 圖 14. 實驗地圖設定 ........................................................................................................ 35 圖 15. 獎勵訓練曲線 ........................................................................................................ 37 圖 16. 端點對端點延遲訓練曲線 ..................................................................................... 38 圖 17. 所需路由節點數訓練曲線 ..................................................................................... 38 圖 18. 不同連線模型下距離對傳送成功率的關係 .......................................................... 40 圖 19. 不同連線模型的平均封包送達成功率 .................................................................. 41 圖 20. 不同連線模型的平均端點對端點延遲 .................................................................. 42 圖 21. 不同連線模型的平均所需轉送節點數 .................................................................. 43 圖 22. 不同車輛密度的平均送達成功率 ......................................................................... 44 圖 23. 不同車輛密度的平均端點對端點延遲 .................................................................. 44 圖 24. 不同車輛密度的平均所需轉送節點數 .................................................................. 45 圖 25. 不同移動速率時平均封包送達成功率 .................................................................. 46 圖 26. 不同移動速率時端點對端點延遲 ......................................................................... 46 圖 27. 不同移動速率時平均所需路由節點數 .................................................................. 47 圖 28. 不同通訊距離的平均封包送達成功率 .................................................................. 48 圖 29. 不同通訊距離的平均端點對端點延遲 .................................................................. 49 圖 30. 不同通訊距離的平均所需路由節點數 .................................................................. 50 圖 31. 不同地圖參數下的平均封包到達成功率 .............................................................. 51. v.

(7) 表目錄表 1. 表 2. 表 3. 表 4. 表 5.. 獎勵定義............................................................................................................. 20 狀態 𝑠𝑡 使用特徵 ................................................................................................ 21 多層感知機詳細參數 ......................................................................................... 33 默認地圖參數設定 ............................................................................................. 34 vDRL 於訓練與測試的參數設定 ....................................................................... 35. vi.

(8) 第一章緒論近幾年產業與學術研究機構積極推動智慧車輛的研發與製造，以及相關嵌入式系統的開發與整合。未來車輛將不再只是單純的代步工具，人們能夠在兩地移動的過程中受益於自動化與智慧系統的便捷與安全性。舉例而言：車流量可被預測以提前規劃最佳行車路線、安全駕駛輔助系統可以協助駕駛人反應突發狀況，抑或是道路的整修和氣候的影響能夠傳達給幾個街區外的行駛車輛知曉。而這些應用的共通點即是資訊需要在車輛間以低延遲、低額外成本的方式傳遞。車輛隨意網路 (Vehicular Ad-hoc Network, VANET) [1] [2][3] 結合了智慧車輛與物聯網，藉由車輛上配備的無線網路設備與衛星定位裝置 (Global Positioning System, GPS)，透過路由協定將資訊傳遞予其他車輛或是道路邊的連網設施 (Road Side Unit, RSU)，以達到訊息交換的功能。車聯網 (Vehicular Network) 根據通訊類型的不同，可大致分為車輛對設施 (Vehicle-to-Infrastructure, V2I) 以及車輛對車輛 (Vehicle-to-Vehicle, V2V) 兩種連線模式（如圖 1），其中若僅以車輛對車輛 (V2V) 作為連線手段，則又稱為車輛隨意網路 (Vehicular Ad-hoc Network, VANET)。而車輛對設施與車輛對車輛各有不同的硬體選用考量與傳送頻段，應用於不同類型的服務：例如車輛對設施的通訊可應用於車輛支付系統（如免下車繳交高速公路使用費）；車輛對車輛的通信則常見於車輛間的警示系統（如防碰撞警示系統），車輛間各自的資訊藉由互相傳遞交換，使得不同的車輛也能掌握周圍的車輛的狀況與動線，而這些資訊與電子交通設施結合，進而形成智慧交通系統 (Intelligent Transport System, ITS) [4]。此研究主要專注於討論在車輛對車輛連線下的路由協定，由於車輛皆具備機動性，相較於車輛對不會移動的設施在路由協定中更具挑戰。 1.

(9) 圖 1. 車聯網的兩種連線類型：左圖為車輛對設施 (V2I) 的連線，車輛可與設施進行雙向的資訊交換；右圖為車輛對車輛 (V2V) 的連線方式，車輛僅與車輛做雙向的資訊交換，僅以此連線模式的車輛網路又稱為車輛隨意網路. 使用車輛隨意網路相較於電信網路 (3rd-generation, 3G; 4rd-generation, 4G) 有著如下的優點： 1) 低延遲，封包直接在車輛之間轉送，所需地理距離較短；也不存在蜂窩網路對於區域內可服務人數的限制。許多應用有著低延遲的需求，如安全警示系統等； 2) 低額外成本，由於封包不需要仰賴電信者所架構的設施，減少在不同子網路或不同協定之間切換的額外成本； 3) 區域性，封包只在限制的區域內流動，降低安全性的顧慮，同時對某個區域進行廣播也能以更容易、更有效率的方式達成。. 車輛隨意網路屬於一種機會網路 (Opportunistic Network) [39]。在機會網路中，路. 由起點到終點通常不存在一條路徑，且節點周圍並不總是有鄰近的節點協助轉送，鄰近的節點何時會出現可能也不具有規律性。如此節點的周遭節點存有一定機率出現在周圍，並且路由協定必須考慮此一機率特性使得設計車輛隨意網路上的路由協定十分困難。. 車輛隨意網路也屬於容許延遲網路 (Delay-Tolerant Network, DTN) [40] 的一種，此. 類型的網路節點允許持有並儲存封包，直到其他時機才進行封包的轉送傳遞。容許延遲 2.

(10) 網路通常路由起始點與終點也不存在一條路徑，因此在此網路類型中的節點必須擁有儲存封包的能力，而且考慮到封包可能儲存在某節點上一段時間，延遲通常會較長。. 由於車輛網路同時具備上述的機會網路以及容許延遲網路的特性，因此在此情境下. 的路由設計上遭受許多挑戰：封包可能陷入周遭沒有其他車輛的窘境，使得路由超時而失敗。或者因為車輛與環境造成的訊號干擾而難以成功地讓封包成功抵達目的地。現有的車輛隨意網路路由協定如 Ad-hoc On-demand Distance Vector (AODV) [19]、Dynamic Source Routing (DSR) [20]、Greedy Perimeter Stateless Routing (GPSR) [21]、Clustering for Open IVC Networks (COIN) [22]、Epidemic Routing [41]、Probabilistic Routing Protocol using History of Encounters and Transitivity (PRoPHET) [42]、Maxprop [43]、GeOpps [44] 等仍無法有效的同時提供低延遲 (Low Delay)、低額外成本 (Low Overhead)，以及高路由成功率 (High Successful Delivery Rate) 等路由需求。. 此研究提出基於深度強化學習的車輛網路單點路由協定 (Deep Reinforcement. Learning Routing for VANET, vDRL)。以強化學習 (Reinforcement Learning) [8][9][10] 為基礎，vDRL 適用於車輛隨意網路，類似於以位置為基礎的路由協定，vDRL 考慮車輛的位置、移動速度、駕駛方位等等，選擇最佳的下一節點作為封包傳遞的路徑。在可控的模擬環境之中，經由 SARSA 或是 Q-Learning 的學習演算法不斷探索可行的路由策略，不斷地最佳化路由策略以具備高路由成功率、低端點對端點延遲，以及低所需的轉送節點數。vDRL 不使用規則驅動 (Rule-based) 的方式執行路由，更使其可以彈性地應付不同的狀況，並且能夠在訓練階段學習車輛的駕駛特性、探索網路特性等優點，進而可適應於不同的環境。. 3.

(11) 第二章文獻探討本章將簡述車輛隨意網路的路由協定相關文獻，包括強化學習的理論基礎以及應用強化學習於通用路由協定。第一節首先介紹車輛隨意網路路由的特性和目前應用在車輛隨意網路的不同路由協定；第二節接著介紹強化學習的背景知識；第三節介紹強化學習應用在通用路由協定上的相關文獻。. 第一節車輛隨意網路的特性與路由協定車輛隨意網路與行動隨意網路 (Mobile Ad-hoc Network, MANET) [28][29][30] 有許多相似之處，節點都具有一定的機動性，而且會隨著時間而移動。但是兩者之間仍有些相異之處，使得直接應用行動隨意網路的路由協定於車輛隨意網路時，會造成諸如路由成功率不佳等問題。. 2.1.1 車輛隨意網路的特性 . 車輛隨意網路的主要構成者為車輛，行動隨意網路則是以無線網路裝置為節點。最主要的差異在於兩者的機動性。車輛隨意網路的特性詳細介紹如下 [17]： •. 移動速度快 (High Move Speed)：車輛移動速度快且變化大，以臺灣都市街道為例，速限範圍大多為每小時 40~60 公里；高速公路上則可能為每小時 80~110 公里。若是在其他國家的高速公路甚至可能高達每小時 200 公里。. 4.

(12) •. 快速變動的拓樸結構 (High Dynamic Topology)：每臺車輛的行駛方向、速度都不盡相同，因此車輛與車輛間的相對距離在每個時間點也會有所不同，造成網路的拓樸隨時間一直快速地改變。. •. 節點間的連線生命週期短 (Frequent Disconnection)：車輛具備的機動性，使得快速變動的拓樸結構讓車輛與車輛之間能夠維持通信的時間減少，進而進行封包交換的時間會被壓縮，節點之間的連線可能轉瞬即逝。. •. 環境與車輛間的干擾 (Propagation Model)：都市街道存在許多可能造成訊號干擾的因素：如行道樹、交通號誌、建築物，行人等。車輛與車輛之間彼此也可能造成干擾。複雜環境之下訊號的干擾無所不在且難以歸咎其原因。. •. 存在特定的移動行為 (Patterned Mobility)：每臺車輛具有特定的移動行為，最基本的限制為道路的延伸方向。除此之外，車輛本身可能也具備不同的駕駛行為，例如都市公車循著特定路線較慢行駛、計程車在載客前隨意穿梭與人口密集處，或是載客之後行駛變化都是遵循特定的移動模式。. •. 無限制的電力與儲存空間 (Unlimited Battery Power and Storage)：車輛本身擁有發電機，可以提供車上的裝置足夠的電力需求，也足以提供儲存與處理資料的能力。. •. 具備多種感測器 (On-board Sensors)： 5.

(13) 許多市售車輛已具備衛星定位、周遭距離測量等感測器。智慧車輛的推動和普及在未來仍有極大的彈性具備其他種類的感測器得以運用。. 2.1.1 所討論的前四點特性，使得車輛隨意網路的路由遭受許多挑戰，不僅降低路由成功率，也使得許多現有應用於行動隨意網路的的路由協定變得不適合使用於車輛隨意網路之中。. 2.1.2 現有的車輛隨意網路路由協定. 現今車輛隨意網路上的路由協定，可以藉由區分封包路由方式的不同，以下列幾種主要的方式分類 [17][18]： •. 以傳統隨意網路路由為基礎 (Ad-hoc based Routing)：由於車輛隨意網路延續隨意網路 (Ad-hoc Network) 的基本特性，因此多數應用在隨意網路中的路由協定可以直接應用於車輛隨意網路上：如 Ad-hoc On-demand Distance Vector (AODV) [19] 或是 Dynamic Source Routing (DSR) [20] 等。不過車輛隨意網路的特性與隨意網路之間仍存有許多不同（如高機動性，以及 2.1.1 所述的特性），直接使用造成路由成功率低落。. •. 以位置資訊為基礎 (Position-based Routing)：許多車輛上已配備衛星定位系統，其提供的位置資訊可用來協助路由協定的設計。最常用的方式是結合相對位置與貪婪法 (Greedy)，也就是以最靠近路由終點位置的周遭節點當作為下一個轉送標的。貪婪邊界無狀態路由 Greedy. 6.

(14) Perimeter Stateless Routing (GPSR) [21] 是其中最為知名的路由協定； Movement Prediction-Based Routing (MOPR) [31] 則基於 GPSR 加入了位置預測的機制，達到更高的路由成功率。但是車輛隨意網路高速移動的特性、加上衛星定位系統可能的定位精度誤差，造成使用這類演算法時的挑戰。 •. 以群集為基礎 (Cluster-based Routing)：以群集為基礎的路由協定將地圖中的車輛分為數個群集 (Cluster)，每個群集擁有各自的代表。群集內的車輛以群集內通信協定 (Inter-cluster communication) 直接傳遞訊息；群集與群集則以群集間的通信協定 (Intra-cluster communication) 溝通。如何挑選合適的群集結構與決選出穩定的群集代表關鍵地影響這類路由協定的表現。並且為了維護群集結構的資訊，在拓樸變動快速的車輛隨意網路環境中需花費龐大的額外成本。這類路由協定常見的代表為 Clustering for Open IVC Networks (COIN) [22]、Aggregate Local Mobility (ALM) [32]。. •. 以廣播為基礎 (Broadcast Routing)：以廣播為基礎的路由協定透過洪水法 (Flooding) 將封包散布到四周的所有車輛，使得封包到達目的地的機會增加；然而，這麼做會產生許多被複製的相同訊息封包，而且同一臺車輛也可能會收到多個完全的封包，造成網路的壅塞。高封包的複製率也造成許多網路資源的浪費。. •. 以特定位置廣播為基礎 (Geocast Routing)：這類的路由協定 [23]：如 Dynamic Time-Stable Geocast Routing (DTSG) [33]、 LBM (Localtion Based Multicast) [34]、Location-Aided Routing (LAR) [35]。可 7.

(15) 以視為是以位置資訊為基礎的多路徑路由版本 (Multicast)。基本概念是一個節點所選擇的下一個傳遞標的不再只是單一節點，而是以一群被定義為「Zone of Relevance (ZoR)」的區域為目標。封包只會在 ZoR 中散布，可視為是廣播範圍受限的洪水法。透過減少相同封包被複製的個數，在路由成功率與封包複製率 (Packet Duplicate Rate) 之間權衡與取捨。. 除此之外，車輛隨意網路也具備機會網路以及容許延遲網路的特性，因此基於此兩種類型的路由協定也可能應用在車輛隨意網路。此類型的路由協定主要都使用了多路徑路由的特性，同時以多個封包進行路由過程，增加路由成功的可能性；這類型的路由協定主要包含幾個部分 [39][40]： 1) 緩衝 (Buffer) 的使用：由於封包可能儲存在節點中進行移動，此儲存的容量通常具有限制。 2) 緩衝的管理機制：緩衝的容量有所限制，必然需要一個管理的機制使得緩衝達到容量上限時，如何進行刪除、新增等操作。 3) 轉送的評估依據：鄰近的節點可能有零個至多個選擇，當鄰近節點具有一個以上的時候，是否將封包轉送至那些節點需要有評估的方式進行是否傳送的決策、及封包傳送個數的選擇。以下以探討幾個基於此類型網路特性下常見的路由協定： •. Epidemic Routing [41]：此路由協定類似於以廣播為基礎的洪水法，由於加入了緩衝的使用因而稍加不同。在路由過程中，每當兩個節點相遇時，兩個節點會交換各自緩衝內等待傳送的封包資訊，以「摘要向量」 (Summary Vector) 稱之，並且這個摘要向量之間會互相補足。整體觀之，封包會像是傳染病一般在節點之間傳送。此路由. 8.

(16) 協定對於緩衝的管理使用隊列實現，因此有先進先出的特性，當緩衝達到容量上限後，時間戳記越久的封包會先被刪除。 •. PRoPHET [42]： PRoPHET 為基於 Epidemic Routing 的多路徑路由。此路由協定假設網路的節點遵循一定的行為模式，若節點曾到訪過某個區域，則其再次到達該區域的機會越高。根據這個前提，假定在將封包送往目的地的過程之中，某節點遇到另一節點的次數越多，該節點可能是更可靠的協助轉送者，因此封包轉送至該節點可能更有可能到達路由目的地。. •. Maxprop [43]： Maxprop 是一種類似於 Epidemic Routing 的多路徑路由，其改進緩衝的管理機制，將緩衝分成高風險以及低風險的區段，主要以封包資訊已歷經多少 Hop Count 做為判斷。位於高風險區段的緩衝封包會優先從緩衝當中被刪除，此管理方式可改善 Epidemic Routing 的路由表現。. •. GeOpps [44]： GeOpps 考慮網路節點的 GPS 資訊協助多路徑路由。除此之外，其更利用衛星導航系統 (Navigation System, NS) 的路徑作為封包路由選擇的依據。由於現有的衛星導航系統已是成熟的技術，且許多商用的衛星導航系統也將車流、路況等資訊納入考量，因此藉由衛星導航系統的資訊協助封包路由也可獲得不錯的效果。. 9.

(17) 第二節強化學習背景不同於監督式學習 (Supervised Learning) 旨在找出輸入與輸出的映射關係，或是非監督式學習 (Unsupervised Learning) 探索輸入資料本身的組成結構。強化學習 (Reinforcement Learning) [8][9] 則擅長產生一個最佳化策略，使其最大化使用者所定義的獎勵 (Rewards)。強化學習的策略，在決策的過程中所做的任何一個中間決策，可能都不一定是當下最佳的行為（與貪婪法不同），但是對於整個任務而言，則可能會產生更高的總回報。. 2.2.1 強化學習的常用名詞. 強化學習以環境 (Environment) 表示欲處理的問題定義，而代理人 (Agent) 為執行策略的核心角色。策略會依據狀態 (State) 做出相對應的動作 (Action)；我們也將欲達到的目標以獎勵 (Reward) 的方式表達，獎勵對於在每個狀態下做出的動作給予回饋，用以最佳化強化學習的策略。本小節對於狀態、動作、獎勵，以及環境和代理人做出較詳細的定義： •. 狀態 (State, 𝑠$ )：是隨時間而改變的變數，用來表示在該時間點下，物體的內部變量。以機器人為例，它可以是在該時間點的電池剩餘時間、所處位置，或是機器手臂彎曲角度等等。. •. 動作 (Action, 𝑎$ )：. 10.

(18) 動作是與時間相關的變數，表示該時間點時代理人所做出的決策：例如在某時間點車輛是加速還是減速、機器人應該轉向多少角度等等。 •. 獎勵 (Reward, 𝑟$ )：獎勵與時間、狀態、動作相關，為在該時間點時根據其狀態與選擇的動作的回饋，通常需要延遲若干時間點後才能被觀測。強化學習根據獎勵的定義產生能夠最大化獎勵的策略。. •. 代理人 (Agent)：代理人在強化學習中，代表著遵循自身策略而與環境互動的主體。其根據自身狀態決策出相對應的動作。. •. 環境 (Environment)：代理人 (Agent) 所處的環境，也是欲處理問題的概述。代理人可以對環境一無所知 (Model-free reinforcement learning)，也可以嘗試預測環境 (Model-based reinforcement learning)。環境根據代理人的行為，給予回饋，其中包括獎勵以及狀態的更新訊息。. st+1. rt+1. st at. 圖 2. 強化學習的示意圖：代理人透過做出動作與環境互動，並觀察因動作所產生的狀態改變以及得到的獎勵試圖最佳化策略。. 11.

(19) 從圖 2 的示意圖，強化學習以代理人為主體，不斷地嘗試與環境互動。在任意時刻 𝑡 時，代理人根據自身狀態 𝑠$ 根據自身的策略做出動作 𝑎$ ，而環境接收到動作 𝑎$ 後在下一時刻 𝑡 + 1 給予狀態 𝑠$)* 更新與獎勵 𝑟$)* 。而強化學習的最終目的則是在整個過程中，最大化其收到的獎勵總和。. 2.2.2 馬可夫決策過程. 「馬可夫決策過程」 (Markov Decision Process, MDP) [10] 是一種能夠用來系統性的表達強化學習的數學模型。馬可夫決策過程中具有與強化學習等價定義的狀態、動作以及獎勵。. 圖 3. 一個簡單的馬可夫決策過程：在任何時間點狀態可能處於 A、B、C，或者 D。. 馬可夫決策過程以一群狀態（如圖 3 之 A~D）與若干連線所構成，每一條連線可以視為做出某種動作。連線的起點是做出該動作前的狀態，終點是做出該動作後所造成的狀態轉移。在任何時間點 𝑡 時，狀態 𝑠$ 可能處於 A~D 的任一個，在選擇動作 𝑎$ 後轉移至 𝑠$)* ，其轉移機率根據 𝑃,-,-./，並且若干時間點後（以 1 為例）得到獎勵 𝑟$)* 。馬可夫決策過程假設每一個狀態只與前一個狀態相依： 𝑃(𝑠$ |𝑠$2* , 𝑠$24 , 𝑠$25 , …) = 𝑃(𝑠$ |𝑠$2* ) 若定義總回報 (Return) 𝐺$ 表示從時間點 𝑡 開始到結束時，得到的獎勵總和： 12. (1).

(20) 𝐺$ = ∑; :<$)* 𝑟:. (2). 由於獎勵會延遲幾個時間點後才能夠觀測獲得。數學式 (2) 假設以延遲一個時間點才觀測到獎勵，因此計數 𝑖 從時間 𝑡 + 1 開始。. 若想找出從狀態 A 到狀態 D 的最佳策略，使得總回報最高。那麼一個作法是針對. 所有的狀態進行評分，以找出能夠得到最高回報的狀態群。這個用來評分狀態的函式稱為「狀態價值函數」(Value-function, 𝑣 )： 𝑣(𝑠) = Ε[𝐺$ |𝑠$ = 𝑠]. . . (3). 狀態價值函數 𝑣 用來表示若處於某狀態 𝑠 時，所期望達到的總回報 𝐺$ 。若再定義狀態轉移矩陣 𝑇 為所有狀態轉移機率的聯合表示： 𝑃,D,D 𝑇=C ⋮ 𝑃,- ,D. ⋯ ⋱ ⋯. 𝑃,D ,⋮ H 𝑃,-,-. (4). 則根據貝爾曼方程式 (Bellman-Equation) [8][9]，狀態價值函式可以求得封閉解： 𝑃,D,D 𝑟(𝑠J, 𝑎J ) 𝑣(𝑠J ) I ⋮ K=I K+𝛾C ⋮ ⋮ 𝑃,- ,D 𝑣(𝑠$ ) 𝑟(𝑠$ , 𝑎$ ) 𝑉 = 𝑅 + 𝛾𝑇𝑉. ⋯ ⋱ ⋯. 𝑃,D ,- 𝑣(𝑠J ) ⋮ H I ⋮ K 𝑃,-,- 𝑣(𝑠$ ). (5). (6). 其中 𝛾 為折扣率 (Discount)，介於 0~1 的數值，為過去所做出的決策的影響比例。得到封閉解的狀態價值函數後，此問題可轉變成規劃 (Planning) 問題，以動態規劃 (Dynamic Programming) 配合狀態價值函數，便可找出最佳決策路線以最大化總回報。. 若一馬可夫決策過程的狀態轉移矩陣無法直接求得，只能夠過對環境進行嘗試與觀. 測其狀態的轉移變化，則此問題稱為「可部分觀測的馬可夫決策過程」(Partial Obserable Markov Decision Process, POMDP) [11]。可部分觀測的馬可夫決策過程可以視為一般化 13.

(21) 的馬可夫決策過程。在此假設之下，貝爾曼方程式無法求得狀態價值函數的封閉解；僅能經由採樣觀測的方式，透過不斷的嘗試與紀錄其狀態轉移的發生次序，估算真實ㄗㄜ轉移機率，進而估計狀態狀態價值函數 v 。. 採樣估算可分為以一次模擬為基礎，或是以一個時間點為基礎。前者以蒙地卡羅. (Monte-Carlo) [12] 演算法為代表，後者以時間差分 (Temporal-Difference) [13] 演算法為代表。. 2.2.3 蒙地卡羅法. 蒙地卡羅法又可細分為「第一次拜訪時評估 (First-visit evaluation)」與「每次拜訪時評估 (Every-visit evaluation)」，差異只在於如何計算某狀態被觀測的次數 𝑁(𝑠)。蒙地卡羅採樣的方式如下（以「每次拜訪時評估」為例）：每當狀態 𝑠 於 𝑡 時間點被拜訪時： 𝑁(𝑠) ← 𝑁(𝑠) + 1 𝐶 (𝑠) ← 𝐶 (𝑠) + 𝐺$ 𝑣(𝑠) ←. 𝐶(𝑠). 𝑁(𝑠) (7). 其中 𝐶(𝑠) 是一個變數，用途於累計每次總回報的結果。「第一次拜訪時評估」的蒙地卡羅法在同一次模擬中，不管狀態 𝑠 被重複拜訪多次， 𝑁(𝑠) 與 𝐶(𝑠) 都僅計算一次；相反的，「每次拜訪時評估」則可能計算多次（如數學式 7）。. 14.

(22) . 透過數學式 (8) 替換 𝐶(𝑠) 以 𝐺$ 來表示，以 𝑣R(,) (𝑠) 為經過 𝑁(𝑠) 次估算後的狀態. 價值函數。其中 𝐺$: 為第 𝑖 次拜訪時的總回報： *. R(,). 𝑣R(,) (𝑠) = R(,) ∑:<* 𝐺$: . (8). 稍微整理後可以重寫成下面數學式 (9)： R(,). 1 𝑣R(,) (𝑠) = S 𝐺$: 𝑁 (𝑠 ) :<*. R(,)2*. 1 = (𝐺 R(,) S 𝐺$: ) 𝑁 (𝑠 ) $ :<*. =. 1 T𝐺 R(,) (𝑁(𝑠) − 1)𝑣R(,)2* (𝑠)V 𝑁 (𝑠 ) $. = 𝑣R(,)2* (𝑠) +. 1 T𝐺 R(,) − 𝑣R(,)2* (𝑠)V 𝑁 (𝑠 ) $ (9). 當 𝑁(𝑠) ≫ 0 時， 𝑁(𝑠) ≅ 𝑁(𝑠) − 1 ，上式可簡化為：. *. 𝑣(𝑠) ← 𝑣(𝑠) + R(,) (𝐺$ − 𝑣(𝑠)) . (10). . (11). *. 再以 𝛼 代替 R(,) ，可再寫成下式： 𝑣(𝑠) ← 𝑣(𝑠) + 𝛼(𝐺$ − 𝑣(𝑠)) . 此式常被使用於基於蒙地卡羅的強化學習研究之中，其中 𝛼 為學習率 (Learning Rate)，或稱為步長 (Step size)，是一可調的參數 [14]。. 然而數學式 (11) 所呈現的蒙地卡羅法，對於評估狀態價值函數在處理某些問題時. 仍是有些不方便，因為其必須等待至每次模擬結束後才開始進行狀態價值函數的估測更. 15.

(23) 新。例如某問題可能需要耗時許久才能夠進行一次完整的模擬；或是模擬時沒有辦法明確的定義終止點。這類的問題使得蒙地卡羅法的更新效率較差，更適合使用時間差分法來進行狀態的更新。. 2.2.4 時間差分法. 時間差分法不需要完成一次完整的模擬，便可以在過程中更新狀態價值函數。其選擇不去直接使用總回報 𝐺$ ，而是透過不同時間點所處的狀態（例如 𝑠$ 與 𝑠$)* ），彼此的狀態價值函數差異來估測 𝐺$ 。我們可以先根據數學式 (2) 先將 𝐺$ 換成 𝑟$)* + 𝐺$)*，再透過數學式 (3) 對於狀態價值函數的定義，則推得數學式 (12)： 𝑣(𝑠$ ) ← 𝑣(𝑠$ ) + 𝛼(𝑟$)* + 𝛾𝑣(𝑠$)* ) − 𝑣(𝑠$ )). (12). 由於這邊是利用模擬中前後時間點的狀態差異做更新，因此以狀態 𝑠$ 表示為在 𝑡 時間點所處於的狀態。. 除了狀態價值函數之外，行動價值函數 (Action-value function) 也常常被使用。行. 動價值函數與狀態價值函數類似，除了行動價值函數不只評估處於某狀態的價值好壞，更考慮採取某行動的價值變化，定義為 𝑄(𝑠, 𝑎)： 𝑄(𝑠, 𝑎) = Ε[𝐺$ |𝑠$ = 𝑠, 𝑎$ = 𝑎] 數學式 (11) 與 (12)，都可以經由替換狀態價值函數 𝑠$ 成 𝑄(𝑠, 𝑎) 達到等價效果。. 第三節基於強化學習的路由協定. 16. (13).

(24) 基於強化學習的通用路由協定中 [36][37][38]，Q-Route 是最早應用於封包路由的文獻 [36]。Q-Route 將行動價值函數定義為 𝑄\ (𝑑, 𝑧)，其中 𝑦 為當前所在的節點，而 𝑑 為路由目的地 (Destination)， 𝑧 為 𝑦 的所有相鄰節點：. 圖 4. Q-Route 應用強化學習於路由協定. 若以 𝑥 表示所有可能所處的節點，其行動價值函數 𝑄a (𝑑, 𝑧) 以下列方式更新： 𝑄a (𝑑, 𝑦) = 𝑄a (𝑑, 𝑦) + 𝛼(𝑞 + 𝑠 + 𝑡 − 𝑄a (𝑑, 𝑦)) . (14). 其中 𝑞 為封包在佇列中所花費的時間成本、 𝑠 為封包在節點間傳送的時間成本， 𝑡 則如下定義： 𝑡=. min. f ∈ hi:jklmn, mo \. (𝑄\ (𝑑, 𝑧)) . (15). 對比於上節，可以發現數學式 (15) 為利用時間差分演算法做為學習演算法，而且獎勵定義為 r$)* = 𝑞 + 𝑠 。整個問題實為最小化總回報（最小化所有時間成本）。. 除了 Q-Route 之外，也有許多應用強化學習於路由協定的文獻，包括使用策略梯. 度的強化學習應用於動態網路路由協定 [37]，以及結合行動價值函數與策略梯度應用. 於軟體定義網路的路由協定 [38] 等等。. 17.

(25) 第三章方法設計本章將敘述此研究所提出的 vDRL 方法與架構：第一節介紹車輛隨意網路的路由問題描述；第二節將解釋 vDRL 如何應用強化學習處理車輛隨意網路的路由問題；第三節介紹模擬環境的設計與如何在模擬環境中以強化學習訓練 vDRL 路由協定；第四節則講述如何將訓練好的模型應用於車輛上進行封包路由。. 第一節問題描述給定一固定的長方形範圍 𝐺 （長 𝑚 單位、寬 𝑛 單位），範圍內有若干水平方向延伸的街道與垂直方向延伸的街道，車輛在這個長方形範圍中的街道上隨意或者遵循特定的移動模式。每臺車輛具有無線網路設備以及衛星定位系統 GPS，且無線網路設備最大的傳送半徑為 𝑅 。每臺車輛在不同的時間點，有不同的移動速度 𝑉 、行駛方向 𝐻 （以上下左右表示之）、相對於路由終點的直線距離 𝐷 ，和有效的無限網路傳送半徑𝑅iooiu$:vi ，其可表達為最大傳送半徑 𝑅 乘以有效倍率 𝜙 ，介於 0 與 1 之間的連續數值： 𝑅iooiu$:vi = 𝜙𝑅, 𝑤ℎ𝑒𝑟𝑒 𝜙 ∈ [0, 1]. (16). 此研究的目標定義為在這個長方形範圍 𝐺 中，選擇一臺車輛作為起始點 (Source)，. 並且定義目標區域或者另一臺車輛作為目的地 (Destination)，設計一路由協定使封包能夠從起始點，經由不斷挑選最佳的下一個節點，直到封包抵達目的地。這個路由過程是否失敗由整個傳送過程是否超過最大可忍受的時間單位而決定，並且路由協定以三個效能指標所評估：平均封包送達成功率 (Averaged Packet Successful Deliver Rate)、平均端. 18.

(26) 點對端點延遲 (Averaged End-to-End Delay) ，以及平均轉送次數 (Averaged Hop Counts)。 . Source. Destination. 圖 5. 車輛隨意網路路由示意圖：車輛在一長方形範圍內移動，路由目標則是從起始點 (Source) 經由其他車輛不斷轉送封包直到抵達目的地 (Destination). 𝑅. 𝑅iooiu$:vi = 𝜙𝑅. 圖 6. 最大傳送半徑與有效傳送半徑：每臺車輛在不同時間點有不同的有效無線網路傳輸半徑 𝑅iooiu$:vi (藍色)，其為最大無線網路傳送半徑 𝑅 (紅色) 乘上倍率 𝜙. 19.

(27) 第二節強化學習應用於車輛隨意網路路由應用強化學習於第一節定義之問題描述，車輛隨意網路的路由特性必須使用狀態、動作以及獎勵來表示。此研究所提出的 vDRL 路由協定主要目標為最大化封包送達成功率、最小化端點對端點的延遲，以及最小化傳送成本（路由所需節點數）。vDRL 對於獎勵的如下數學式 (17) 𝑟jm|} , 𝑖𝑓 𝑝𝑎𝑐𝑘𝑒𝑡 𝑟𝑒𝑎𝑐ℎ𝑒𝑠 𝑡ℎ𝑒 𝑑𝑒𝑠𝑡𝑖𝑛𝑎𝑡𝑖𝑜𝑛. 𝑟$ = {𝑟$:~i_um,$ + 𝑟$n|h,_um,$ , 𝑒𝑙𝑠𝑒 𝑖𝑓 𝑝𝑎𝑐𝑘𝑒𝑡 𝑖𝑠 𝑡𝑟𝑎𝑛𝑚𝑖𝑡𝑡𝑒𝑑 𝑡𝑜 𝑛𝑒𝑖𝑏𝑜𝑟𝑠. 𝑟$:~i_um,$ , 𝑒𝑙𝑠𝑒 𝑖𝑓 𝑝𝑎𝑐𝑘𝑒𝑡 𝑖𝑠 𝑏𝑒𝑖𝑛𝑔 ℎ𝑒𝑙𝑑. (17) 其中 𝑟jm|} 是一個相對大且大於零的值，直接獎勵了封包成功抵達的情況。 𝑟$:~i_um,$ 和 𝑟$n|h,_um,$ 則是相對小且小於零的值，意味著我們不鼓勵強化學習以取得這些獎勵為目標。除此之外，這樣的定義也可簡單以最終的獎勵是否為正數來區分路由是否成功。表 1 為獎勵的定義數值，獎勵的正負數值代表是否鼓勵其行為（由於目標為最大化取得的. 總獎勵），而數值的絕對大小則是隱含著優先次序：以路由成功為最高次序、降低延遲為第二次序，降低路由節點數則為最低考量。表 1. 獎勵定義. 獎勵. 數值. 𝒓𝒈𝒐𝒂𝒍 . 1000. 𝒓𝒕𝒊𝒎𝒆_𝒄𝒐𝒔𝒕. -1. 𝒓𝒕𝒓𝒂𝒏𝒔_𝒄𝒐𝒔𝒕. -0.1. 20.

(28) . 為了完整表達車輛的內部變量，這裡選用車輛的速度 𝑉 、行駛方向 𝐻 、與路由終. 點的直線距離 𝐷 ，以及無線網路有效傳送半徑 𝑅iooiu$:vi 作為某時間點 𝑡 的狀態 𝑠$ 。其中與路由終點的直線距離 𝐷 可以由車輛具備的衛星定位設備提供：通過對目的地的衛星定位進行歐幾里德距離 (Euclid Distance) 計算後當作狀態的其中一個特徵。表 2. 狀態 𝑠$ 使用特徵特徵. 維度. 範例. 速度 𝑽 . 1. 40.0 (公里/小時). 行駛方向 𝑯 . 2. (0, 1) 表示 (x, y)，朝向正上方 (y) 方向行駛. 與目的地的距離 𝑫 . 1. 10.3 (公尺). 有效傳送半徑 𝑹𝒆𝒇𝒇𝒆𝒄𝒕𝒊𝒗𝒆 . 1. 10.0 (公尺). 而動作 𝑎$ 在 vDRL 中定義成可能作為下一個封包傳送車輛 (Next hop) 的狀態：為. 了完整評估從某車輛傳送一封包至另一車輛，我們必須同時擁有兩臺車輛的當下的內部變量作為判斷，即是兩臺車輛各自的狀態。若傳送者與接收者為同一車輛（𝑎$ = 𝑠$ ），則視為選擇在該時間點下不轉送封包，獎勵不會計入轉送的額外成本（𝑟$n|h,_um,$ ）。. 有了狀態 𝑠$ 、動作 𝑎$ ，以及獎勵 𝑟$ 的定義，行動價值函數 𝑄(𝑠$ , 𝑎$ ) 就可以用來評. 分轉送行為：封包從某車輛 𝑠$ ，轉送至另一車輛 𝑎$ 的好壞與否。越高的行動價值函數 𝑄(𝑠$ , 𝑎$ ) 代表封包從車輛 𝑠$ ，轉送至車輛 𝑎$ 將有著更高的路由成功機率。強化學習並不需要直接地利用 𝑄(𝑠$ , 𝑎$ ) 本身的數值大小，而將所有可能的 𝑄(𝑠$ , 𝑎$ ) 排序後取其相對較大的一個作為決策依據。. 從上述定義的狀態 𝑠$ 與動作 𝑎$ ，不難預見其所面臨的一大問題：如何儲存由狀態. 與動作組合出的行動價值函數 𝑄(𝑠$ , 𝑎$ ) 。由於我們選用的四個特徵中有三個為連續數值 21.

(29) （詳見表 2），意味著它們有著無限多種可能的數值，幾乎不會有兩個相同的狀態出現，直接儲存 𝑄(𝑠$ , 𝑎$ ) 在記憶體中是不能辦到的。儲存效率也不佳，許多狀態 𝑠$ 或者動作 𝑎$ 僅只出現一次，這個問題將在下節的 3.3.4 以加入類神經網路模型 (Neural Network) 改善。. 第三節於模擬環境以強化學習訓練路由協定此研究所提出的 vDRL 包含完整的訓練框架（圖 7 與圖 8），能夠輸入街道資訊以及車流量資訊的模擬環境。在模擬環境之中，強化學習可以嘗試與環境互動，試圖找出能得到最高總回報的路由策略。模擬器能夠隨機產生多組與輸入類似的情境，例如在同張地圖上，但是不同的路由起始與路由終點、不同的車輛起始位置，或是不同的車輛駕駛行為等等。透過多次的反覆訓練，產生出合適的路由策略，並輸出作為最終可實際應用的模型。. 22.

(30) 圖 7. 系統架構一覽圖：經由強化學習所訓練出的路由策略，以模型輸出，並且安裝至車輛上。應用時不需要重新調整或訓練，達到即時的路由決策。. 圖 8. 訓練模組流程圖：訓練模組可再細分為多個模組之間的流程圖. vDRL 根據每次在模擬環境所嘗試的路由過程，持續改進其路由策略。意即我們必須收集與記錄模擬環境中的封包傳遞，提供 vDRL 能夠用以最佳化的訓練資料。. 3.3.1 回放緩衝. 藉由宣告一塊記憶體稱為「回放緩衝 (Replay Buffer)」，我們可以紀錄每個時刻封包所處的車輛、轉送後的車輛，和該轉送所獲得的獎勵，完整地表達路由行為。假設 𝑡 時間點時，持有封包的車輛狀態為 𝑠$ ，且其周遭可作為下一個轉送節點的所有車輛記為向量 𝐴$ ，當前策略從向量 𝐴$ 中所選擇的下一轉送車輛為 𝑎$ ，並且 𝑎$ ⊂ 𝐴$ ；而轉送後延遲一時刻 𝑡 + 1 所觀測到的獎勵為 𝑟$)* ； 23.

(31) 圖 9. 回放緩衝示意圖：左邊為回放緩衝中紀錄的格式，右邊為對應所採取的路由路線圖. 圖 9 說明我們如何將路由行為以回放緩衝的方式進行儲存。回放緩衝將會是之後 vDRL. 用以學習改進其路由策略的重要訓練資料。. 3.3.2 封包轉送. 每次模擬開始時，封包會從路由起始點 (Source) 出發，經過一系列的轉送行為嘗試抵達目的地 (Destination)。轉送行為包括三個步驟： 1) 感測鄰近車輛 (Get states of nearby vehicles)：持有封包的車輛必須先取得周遭的車輛資訊。透過廣播特殊的 HELLO 訊息，並且讓任何收到該廣播訊息的車輛回報自身的狀態，使得持有封包的車輛可以獲得所有可供轉送封包的候選車輛狀態。 2) 評估周遭車輛 (Score all nearby vehicles)：. 24.

(32) 取得周遭車輛的狀態之後，便可選擇任一臺周遭的車輛 𝑎$ ，結合當時自身的狀態 𝑠$ 以行動價值函數 𝑄(𝑠$ , 𝑎$ ) 評估其作為下一節轉送節點是否合適。 vDRL 會依據行動價值函數的評分結果，當作路由策略的行動選擇。 3) 選擇最高評分車輛進行封包轉送 (Forward to the vehicle with highest score)：經由上一步驟對每輛周遭車輛進行評分之後，所有評分結果會經過排序而找出擁有最大行動價值函數分數的車輛，作為下一個轉送節點進行封包的轉移。轉移之後持有封包之車輛可能會改變，並且時間前進到下一時刻，每臺車輛的狀態也隨時間更新。持有封包的車輛有可能在封包轉移後仍是同一車輛，代表此刻 vDRL 的路由決策選擇不轉送封包。. 為了使每次模擬不至於因為封包不斷地來回傳遞，產生無窮迴圈造成模擬無法終止，或者時刻過長而產生重複而無助益的訓練樣本，我們定義若在最大容許時間之內，封包仍未傳送到路由終點，則宣告此次路由嘗試因超時 (Timeout) 而失敗。. 3.3.3 行動價值函數的更新. 根據每次模擬中所搜集到回放緩衝的紀錄，vDRL 得以利用這些訓練資料逐步改進自己的路由策略。起初的路由策略可能是以隨機的方式 (Random) 進行封包的轉送，因此有極大的機率因為超時而失敗。經過數次嘗試之後，封包可能在某次模擬中恰好在時限內抵達路由終點，一但存在路由成功的經驗後，該成功經驗的路由行為會被學習起來並且使用到往後模擬所使用的路由策略當中。路由策略以此方式繼續不斷地修正，以挑戰取得最高的總獎勵為目標。. 25.

(33) . 如何有效地學習任何成功與失敗的經驗仰賴於學習演算法：例如 SARSA 與. Q-Learning。我們將在後面的實驗當中，比較經由這兩種著名的學習演算法所訓練出的路由策略，在車輛隨意網路上的表現差異。. SARSA 與 Q-Learning 都是基於時間差分演算法 (Temporal-Difference) 用以更新. 行動價值函數 𝑄(𝑠$ , 𝑎$ ) 的演算法，兩者的不同之處在於 SARSA 是在之前所實行的策略之中找出最佳化的可能，其公式如下數學式 (18)： 𝑄(𝑠$ , 𝑎$ ) ← 𝑄(𝑠$ , 𝑎$ ) + 𝛼(𝑟$)* + 𝛾𝑄(𝑠$)* , 𝑎$)* ) − 𝑄(𝑠$ , 𝑎$ )) . (18). 注意到數學式 (17) 其中的 𝑄(𝑠$)* , 𝑎$)* ) 項：為在時間點 𝑡 + 1 時，其策略在根據狀態 𝑠$)* 與所實行的動作 𝑎$)* 組合成的行動價值函數。比較 Q-Learning 的公式： 𝑄(𝑠$ , 𝑎$ ) ← 𝑄(𝑠$ , 𝑎$ ) + 𝛼(𝑟$)* + 𝛾 max 𝑄(𝑠$)* , 𝑎′$)* ) − 𝑄(𝑠$ , 𝑎$ )) |Ÿ-./. (19). 可以察覺到差異在於 max 𝑄(𝑠$)* , 𝑎′$)* ) 這項： 𝑎′$)* 在這裡表示為封包處於車輛 𝑠$)* 時， |Ÿ-./. 周遭的所有車輛之中使得 𝑄(𝑠$)* , 𝑎′$)* ) 具有最大獎勵回報的車輛 𝑎′$)* 。為了實現 Q-Learning，我們必須稍加修改圖 9 的回放緩衝，使得它不僅紀錄路由策略所選擇節點，還要包括下一時刻 𝑡 + 1 中，所有可能的候選動作 𝐴$)* ，如圖 10 所示。. 26.

(34) 圖 10. 調整後的回放緩衝：此修改版本相較於圖 9 將原本紀錄 𝑎$)* 改為紀錄 𝐴$)* 。也就是下一時刻的所有可能選擇的轉送車輛，都需要被記錄於回放緩衝內。. 從數學式 (18) 以及數學式 (19) 中可以發現，SARSA 或是 Q-Learning 所需的變數皆已記錄在回放緩衝之中，因此透過「模擬」、「經由 SARSA 或者 Q-Learning 的學習演算法更新行動價值函數」的不斷循環，路由策略將逐步最佳化乃至收斂。剩下的問題在於第二節的最後所提到：如何儲存連續範圍且無限大的行動價值函數。. 3.3.4 數值逼近法. 儲存連續範圍且無限大的行動價值函數包含兩個層面的問題：1) 連續範圍的行動價值函數意味著每個狀態可能僅只出現一次，兩個狀態可能很相似但幾乎不完全相同，這個問題需要有某種映射函式將一群相似的狀態映射至某個標籤；2) 另一個層面則是攸關於以何種資料夾夠儲存於記憶體當中。而這兩個層面都可以透過數值逼近 (Value Approximation) 的方式解決。. 27.

(35) . 數值逼近可以採用分群 (Clustering) 或是回歸 (Regression) 等模型，這裡選擇的是. 多層感知機 (Multi-Layer Perceptron, MLP)，為一種類神經網路模型 (Neural Network)，透過將最後一層的輸出透過線性激發單元 (Linear Activator Unit) 輸出，使其在大多數的回歸問題上有優秀的表現。圖 11 顯示多層感知機如何用於儲存行動價值函數 𝑄(𝑠$ , 𝑎$ ) ：輸入狀態 𝑠$ 以及動作 𝑎$ ，通過多層感知機的推導後，得到輸出的行動價值函數 𝑄(𝑠$ , 𝑎$ ) ：. 圖 11. 使用多層感知機作數值逼近：透過輸入狀態 𝑠$ 與動作 𝑎$ ，得到行動價值函數 𝑄(𝑠$ , 𝑎$ ) . 假設多層感知機的模型權重 (Weights) 為 𝑀 ，為了保持強化學習在同一次模擬中使用 ¢ ，一致的路由策略、以及多層感知機的訓練上可以收斂。因此使用另一組固定的權重 𝑀 獨立於更新中的權重 𝑀 ，在模擬中提供 vDRL 的路由策略使用。以多層感知機實作數值逼近後，SARSA 學習演算法可以從數學式 (18) 改寫如下式 (20)： 𝑄£ (𝑠$ , 𝑎$ ) ← 𝑄£¢ (𝑠$ , 𝑎$ ) + 𝛼(𝑟$)* + 𝛾𝑄£¢ (𝑠$)* , 𝑎$)* ) − 𝑄£¢ (𝑠$ , 𝑎$ )) . (20). 相同的，Q-Learning 則可以從數學式 (19) 重新寫成 (21)： 𝑄£ (𝑠$ , 𝑎$ ) ← 𝑄£¢ (𝑠$ , 𝑎$ ) + 𝛼(𝑟$)* + 𝛾 max 𝑄£¢ (𝑠$)* , 𝑎′$)* ) − 𝑄£¢ (𝑠$ , 𝑎$ )) |Ÿ-./. (21). ¢ 可以透過幾乎無成本的方式獲得而不需要分別儲存兩份權重，作法是路由策略權重 𝑀 ¢ 於模擬進行時，並一直使用直到模擬結束 SARSA 或 Q-Learning 介使用固定的權重 𝑀. 28.

(36) ¢ 與 𝑀 交換。換句話說， 𝑀 是 𝑀 ¤ 經過訓練更新後的版本，而每次模入更新之後，將 𝑀 ¢ ，如此同時間只有一份權重需要儲存。擬開始時，我們使用最新的 𝑀 取代 𝑀. 由於多層感知機屬於監督式學習 (Supervised Learning)，訓練時必須提供輸入相對. 應的輸出。這個輸出實際上為 SARSA 或是 Q-Learning 的右項： SARSA： 𝑄£ (𝑠$ , 𝑎$ ) ← 𝑄£¢ (𝑠$ , 𝑎$ ) + 𝛼(𝑟$)* + 𝛾𝑄£¢ (𝑠$)* , 𝑎$)* ) − 𝑄£¢ (𝑠$ , 𝑎$ )) . (22). 以及 Q-Learning： 𝑄£ (𝑠$ , 𝑎$ ) ← 𝑄£¢ (𝑠$ , 𝑎$ ) + 𝛼(𝑟$)* + 𝛾 max 𝑄£¢ (𝑠$)* , 𝑎′$)* ) − 𝑄£¢ (𝑠$ , 𝑎$ )) |Ÿ-./. (23). 這邊可以固定 α （學習率或步長）為 1，因為其可透過調整多層感知機訓練時所使用的學習率達到相同效果。上面的數學式 (21) 以及 (22) 可以因此而簡化成如下面的數學式 (24) 和 (25)： 𝑄£ (𝑠$ , 𝑎$ ) ← 𝑟$)* + 𝛾𝑄£¢ (𝑠$)* , 𝑎$)* ) . (24). 𝑄£ (𝑠$ , 𝑎$ ) ← 𝑟$)* + 𝛾 max 𝑄£¢ (𝑠$)* , 𝑎′$)* ) . (25). 以及. |Ÿ-./. 數學式 (24) 和 (25) 的右項，即我們所希望的多層感知機輸出。而輸出所需要的所有變量也都已經被記錄在回放緩衝之中，因此整個多層感知機的訓練過程如圖 12：. 圖 12. 多層感知機的訓練流程圖. 29.

(37) 3.3.5 相關訓練細節. 訓練多層感知機時，可以選擇使用均方誤差 (Mean Square Error) 或是平均絕對誤差 (Mean Absolute Error) 為損失函式，並使用倒傳遞演算法 (Back Propagation) 做多層感知機的權重更新。均方誤差誤差對於大於 1 的誤差懲罰會相較於平均絕對誤差來得重；相反的，平均絕對誤差在誤差小於 1 的懲罰較重。它們之間的差異會影響強化學習收斂的階段：均方誤差傾向於早期快速地收斂，而平均絕對誤差則會收斂的較晚，使得強化學習有更多時間探索 (Explore) 其他的動作選擇的可能性，增加泛化 (Generalization) 能力，但也可能造成策略收斂上的困難。此研究的訓練過程選擇使用均方誤差，縮短訓練所需要的收斂時間。. 均方誤差： *. 𝐿(𝑀) = R ∑R §: − 𝑦: )4 :<*(𝑦. (26). 平均絕對誤差： *. 𝐿(𝑀) = R ∑R §: − 𝑦: | :<* |𝑦. (27). 其中 𝐿 為損失函式， 𝑦 為模型的輸出、 𝑦§ 為期望的輸出、 𝑁 是訓練資料的總數。. 一般來說，訓練強化學習的演算法時，常常使用一個機率實現隨機探索。當處於隨. 機探索時，強化學習所執行的策略會忽略所有行動價值函數的評分，單純地依照機率分布來選擇下一步，目的在於鼓勵其他動作被選擇的機率。若強化學習收斂的速度太快，可能使得有些可能帶來較高總回報的動作，因為當下可能產生較少的獎勵而不會被發現。. 30.

(38) . vDRL 不使用隨機探索於訓練過程中。由於車輛隨意網路是擁有高度動態的環境，. 在訓練過程中我們經常發現對於某種車輛佈局中表現不錯的行為，不一定在其他佈局中可以取得同樣好的結果，其所處的環境中本身就具有高度的隨機性。使用了隨機探索會導致 vDRL 的收斂速度過於緩慢，在計算資源有所限制的情況之下，我們選擇直接利用車輛隨意網路環境中存在的隨機性，透過訓練更多不同環境的佈局，來產生探索各種不同動作選擇的可能，取代直接使用某個隨機探索機率。. 第四節於車輛上執行路由協定訓練好的 vDRL 透過將多層感知機模型輸出，並且下載到每臺車輛上，以便執行路由協定。執行路由協定時的封包轉送過程，與在模擬環境中的封包轉送雷同，卻更為簡化，由於多層感知機已經訓練完畢，且不在車輛上繼續做權重的更新，因而不需要紀錄封包的動向於回放緩衝、獎勵也不需要被計算。整個封包轉送的過程包含三個步驟： 1) 取得周遭車輛資訊； 2) 使用訓練完畢的多層感知機進行轉送評分； 3) 選擇最高的評分車輛進行封包轉送。. 假設欲傳送一封包從路由起始點 (Source) 到路由終點 (Destination)，首先持有封. 包的車輛會向周圍廣播 HELLO 訊息，收到該訊息的周圍車輛將立刻回報各自車輛的狀態（如表 2）。接著，vDRL 將持有封包車輛的狀態作為多層感知機的第一個參數，與任何回報的車輛狀態依序作為第二個參數一起評分。評分結果進行排序後，選定擁有最高評分的車輛轉送封包，對於該持有封包的車輛而言，轉送行為到這裡結束，而下一臺階收到封包的車輛，依據同樣的過程進行轉送；以封包為追蹤角度，整個轉送行為會持 31.

(39) 續不斷重複，直到封包成功抵達路由終點，或是超時而失敗。圖 13 將上述的三個步驟具象化。. . 圖 13. 於車輛上執行 vDRL 路由協定：圖 A 中的紅色圓圈為持有封包車輛，藍色圓圈表示路由目的地。圖 B 為圖 A 中紅色區域的放大圖，顯示持有封包車輛對周遭廣播以知曉鄰近車輛的狀態；圖 C 使用訓練好的多層感知機對周遭車輛進行評分；圖 D 將該封包轉送至得分最高之鄰近車輛，並且車輛移動並更新各自狀態. 考慮到路由協定能夠在每臺車輛上獨立的運作，因此 vDRL 只使用周遭鄰近車輛身上的資訊作為轉送的參考依據。另外，即時性也是重要的考慮標的，vDRL 在模型的設計上以盡可能縮小多層感知機的權重數量為目標。關於多層感知機的詳細參數設定可參考第四章第一節實驗設定中的表 3。. 32.

(40) 第四章實驗分析本章節分析此研究所提出的強化學習車輛隨意網路路由協定 vDRL 於不同環境參數下的表現。第一節將會列出實驗中所使用的參數設定以及環境；第二節以獎勵對訓練次數的作圖驗證 vDRL 在車輛隨意網路路由問題中的收斂性；第三節會針對多種不同的環境. 設定下，以路由成功率、端點延遲，以及所需的轉送結點數進行效能的綜合評估。. 第一節實驗設定 vDRL 的訓練過程全程在伺服器端進行，伺服器使用 Intel 7th i7 處理器、32 GB記憶體，並且配備 NVIDIA GTX 1080 的顯示卡利用 CUDA 加速多層感知機的訓練速度。多層感知機包含輸入層、全連結隱藏層，以及最後的輸出層，各層之間以線性整流單元 (Rectified Linear Unit, ReLU) 作為激活函數。輸入分別是 𝑠$ 和 𝑎$ 總共十個浮點數型態的輸入（各包含四個表 2 所定義的特徵，其中行駛方向以兩個維度表示）、隱藏層為擁有十六個神經元的全連接層、最後的輸出層為一個浮點數輸出，表示 Q(sª , aª ) ，與第二層隱藏層以全連接的方式連接（表 3）。表 3. 多層感知機詳細參數名稱. 輸入. 輸出. 參數. 輸入層. 10. 16. 176. 隱藏層. 16. 16. 272. 輸出層. 16. 1. 17 465. 總參數. 33.

(41) 在相同的地圖與情境參數下，車輛可以透過設定隨機種子來達到不同的位置以及轉向的機率。此研究使用了兩種不同的地圖參數（詳見於表 4 與圖 14），包括地圖大小、路長、連線模型、車輛速率、總車輛數、有效無線網路通訊半徑、駕駛行為，以及路由超時；其中駕駛行為指的是車輛如何在地圖中移動，例如：車輛在直行時是否偏好特定的行駛速度（偏快、中等、慢速）、車輛面臨十字路口時是否偏好直行或是轉向（包括特定的轉向方位），以及車輛的細部駕駛行為：計程車是否載客時可能有著明顯不同的駕駛行為、公車和各種不同目的的車輛也有著細部的駕駛行為差異。隨機的駕駛行為代表著這些參數被隨機賦值（如轉向機率、直行偏好速度等等）。. 表 4. 默認地圖參數設定變數. 地圖 (A) 設定. 地圖 (B) 設定. 地圖大小. 長 50 公尺、寬 50 公尺. 長 250 公尺、寬 250 公尺. 路長. 12 公尺. 30 公尺. 連線模型. 單位圓. 單位圓. 車輛速率. 每小時 40 公里. 每小時 40 公里. 總車輛數. 100. 100. 有效通訊距離. 10 公尺. 50 公尺. 駕駛行為. 隨機. 隨機. 路由超時. 20 秒 (200 個時間單位). 20 秒 (200 個時間單位). 34.

(42) . . 圖 14. 實驗地圖設定：左圖為表 3 之地圖 (A) ；右圖為表 3 之地圖 (B) 。右上角藍點為路由起始點，左下角綠點為路由終點，半透明淺藍色範圍則為有效通訊距離，其餘紅點則為車輛。. 訓練時透過設置 500 個不同的隨機種子增加各種車輛可能的出現位置和情況，並且於 100 種不同的配置方式進行測試，另外額外配置 1 個特定隨機種子用於收驗性驗證。為了避免模擬封包陷入無限迴圈的情況，每當封包傳送 100 仍未到達路由終點，則宣告路由超時而失敗，終止該此模擬，其行為仍然記錄於回放緩衝。所有關於訓練以及測試相關的參數列於表 5 表 5. vDRL 於訓練與測試的參數設定變數. 訓練階段. 測試階段. 模擬次數. 500 次. 100 次. 折扣率 𝛄. 0.99. N/A. 多層感知機批量 (Batch size). 32. N/A. 多層感知機訓練圈數 (Epochs). 100. N/A. 多層感知機的訓練演算法. Adam (學習率 0.01). N/A. 35.

(43) 連線模型. 單位圓. 單位圓、指數衰退. 車輛速率. 每小時 40 公里. 每小時 40、40~80、80~120 公里. 總車輛數. 100. 15、30、100. 有效通訊距離. 10 公尺. 3~8 公尺、10 公尺. 駕駛行為. 隨機. 隨機. 路由超時. 50 秒 (500 時間單位). 20 秒 (200 時間單位). 實驗所使用的評估指標有三個（數學式 28 到 30），分別是： 1) 平均封包送達成功率，以百分比表示之。為總共一百次的測試中，封包未超時而成功到達路由終點的次數，此數值越高表示路由協定越為可靠； 2) 平均端點到端點的延遲，以封包在路由時所需的平均模擬時間表示之。封包在每個模擬時間點都可以選擇轉送至鄰近車輛、或者選擇不轉送。封包透過多次決策嘗試從起始點轉送至目的地，此數值越低則擁有越少的延遲時間； 3) 平均轉送次數，為封包在路由時所需的轉送至周遭車輛的次數（選擇不轉送則不計）。由於每次轉送都帶來些許的額外成本，我們鼓勵使用較少的轉送次數達到相同的路由目的，此數值越低則額外成本越少。 •. 平均封包送達成功率 (Averaged Packet Successful Deliver Rate)： ¬-uui,,o-} ®m-$i, ¯m$|} ®m-$i,. •. × 100%. 平均端點對端點延遲 (Averaged End-to-End Delay)： ∑R :<* 𝑇𝑖𝑚𝑒®m-$i :. •. (28). (29). 平均轉送次數 (Averaged Hop Counts)： ∑R :<* 𝐻𝑜𝑝 𝐶𝑜𝑢𝑛𝑡𝑠®m-$i :. 36. (30).

(44) . 第二節強化學習於車輛隨意網路的收斂性驗證為了驗證 vDRL 在訓練階段的收斂狀況，以及確認我們定義的獎勵是否有效地表達車輛隨意網路的路由問題，一個獨立於訓練與測試所使用的環境被當作驗證 (Validation) 用途。我們藉由穿插一個驗證環境的測試於每次的訓練迭代 (Epoch) 之後，通過在該環境所獲得的獎勵對訓練迭代 (Epoch) 作圖，可以獲得獎勵訓練曲線、端點對端點延遲訓練曲線，以及所需路由節點訓練曲線，分別對應圖 15、圖 16、圖 17。. 圖 15. 獎勵訓練曲線. 從圖 15 可以觀察到 vDRL 的訓練大致可分為三個時期表現： 1) 訓練初期，於訓練迭代 0~75 左右。vDRL 所實行的路由策略仍在嘗試於找到一條成功的路由路徑，大多數所獲得的獎勵為負值； 2) 訓練中期，大約為訓練迭代 75~350 左右。vDRL 在這個時期已可穩定找到成功的路由路徑，但是表現偶有震盪發生，時好時壞； 3) 訓練後期，於訓練迭代 350~500 左右，訓練結果已趨於穩定，沒有任何的模擬結果造成遜於 GPSR 的情. 37.

(45) 況發生。同樣的，使用端點對端點延遲以及所需路由節點數對訓練迭代作圖，可獲得如圖 16 與圖 17 的曲線：. 圖 16. 端點對端點延遲訓練曲線. 圖 17. 所需路由節點數訓練曲線. 圖 16 以及圖 17 的觀察與圖 15 呈現一致性的結論。vDRL 所探索的路由策略約在訓練迭. 代超過 350 次之後，已經幾乎都優於 GPSR 路由協定的表現。. 從圖 15、圖 16、圖 17 的訓練曲線當中，也同時顯現車輛隨意網路的路由問題是符. 合「可部分觀測的馬可夫過程」，因此可被強化學習最佳化。雖然只依靠前一狀態的資 38.

(46) 訊不足以預測車輛處於十字路口時會繼續直行或者轉向，不過除了行駛的方向之外，任何時刻的速度以及是否會離開無線網路所及的通訊範圍仍是能夠由前一時刻的狀態推估，它們的變化是緩慢且連續的。另外，車輛在直線道路時的駕駛行為相對穩定，地圖中的直線道路比例也相較於處於十字路口來得高，因此可合理推測車輛隨意網路路由問題存在有通用的路由策略可以被學習。從訓練曲線的收斂行為也佐證了這個觀察。. 第三節不同情境下的強化學習路由效能評估本節以不同的環境設定探討經強化學習所產生的 vDRL 路由策略，由於此研究所提出得 vDRL 路由策略屬於單點路由協定，同一時間僅以一個封包進行路由，考慮到許多應用在機會網路以及容許延遲網路的路由協定幾乎都為多路徑路由，難以進行一致性的效能評估，因此實驗所選擇的比較對象為傳統使用的貪婪邊界無狀態路由協定 (GPSR)；除此之外，透過 SARSA 和 Q-Learning 所產生的路由策略差異也將一併討論。實驗將比較不同的連線模型、車輛密度、行駛速率，以及有效通訊距離之下，路由協定的平均送達成功率（數學式 28）、平均端點對端點延遲（數學式 29），與平均所需轉送節點數（數學式 30）。實驗除了所操作的變量之外，其他所使用的參數皆與表 4 的默認參數相同。 4.3.1 到 4.3.4 的所有實驗使用地圖 (A) ，4.3.5 則比較 vDRL 在地圖 (A) 與地圖 (B) 的路由成功率。. 4.3.1 不同連線模型的路由表現. 39.

(47) 首先比較不同的連線模型：單位圓與指數衰退（圖 18），對於 vDRL 路由協定以及 GPRS 所造成的影響。單位圓的假設通常僅用於理論推導，實際上真實的連線行為由於各種干擾等原因，往往會較接近於指數衰退的模型；它們之間的差異在單位圓假設在有效通信範圍內，封包總會成功送達彼端；而指數衰退即使在範圍內，送達的成功率也與彼此之間的距離成指數的反比關係。. 圖 18. 不同連線模型下距離對傳送成功率的關係（有效傳輸距離以 10 公尺為例）. 40.

(48) 圖 19. 不同連線模型的平均封包送達成功率. 圖 19 顯示當連線模型是單位圓時，所有觀察的路由協定皆可以順利的從路由起點抵達. 終點；但是當連線模型改為指數衰退時，GPSR 的平均路由成功率迅速下降，僅剩下在單位圓時的 66.66%。而透過 Q-Learning 所學習的路由策略也稍受影響，然而影響程度僅 5.06%，SARSA 訓練出的路由策略則全數路由成功。. 我們可以從觀察中猜測當路由協定處於指數衰退的連線模型時，貪婪法 (Greedy). 容易陷入區域最佳解 (Local minimum)，也就是封包容易處於周遭車輛都不比自己來得靠近路由終點，這時候 GPSR 會進入回復模式 (Recovery Mode) 嘗試脫離此狀態而造成嚴重的延遲，進而更大的機率造成超時而路由失敗。反之，基於強化學習的 vDRL 路由協定由於不根據於固定的路由規則，因而可以更廣泛地適用於不同情況而僅受到較輕微的影響。. 這邊必須強調，經由 SARSA 以及 Q-Learning 所學習出的 vDRL 路由策略，在訓練. 的模擬環境中皆是使用單位圓的連線模型。換句話說，它們對於指數衰退的連線模型一. 41.

(49) 無所知，但是在測試時卻可發揮優異的泛化 (Generalization) 能力，在不同的參數設定之下也展現出不錯的表現。. 圖 20 與圖 21 分別是使用單位圓以及指數衰退模型時，平均端點對端點延遲、和平. 均所需的轉送節點數。圖 20 中的紅色虛線為使用 Epidemic Routing 且具備無限大的緩衝空間，透過不斷地廣播找出的全域最佳解。由於其所需的封包複製數量高達三十五比一，使得實際應用時非常容易壅塞整個網路環境，僅適合極短距離（相隔一至兩個節點）的訊息傳送，因此僅列出作為參考依據：. 圖 20. 不同連線模型的平均端點對端點延遲. 42.

(50) 圖 21. 不同連線模型的平均所需轉送節點數. 從圖 20 與圖 21 中大致可以歸納出幾個觀察： 1) 指數衰退的連線模型幾乎會造成更多的延遲，與所需的路由節點數。除了使用 SARSA 訓練的 vDRL 在圖 21 的指數衰退模型下比起單位圓使用了更少的節點，其餘觀察的路由協定其所需節點數皆上升； 2) 透過 Q-Learning 所訓練的 vDRL 路由策略在這個實驗中的表現略遜於以 SARSA 訓練出的策略。圖 20 單位圓的實驗結果中，雖然 Q-Learning 所訓練的策略擁有相對最低的端點延遲，其所需的路由節點數卻最高。從數學式 (18) 以及 (19) 與該節的討論可以猜測， Q-Learning 比起 SARSA 所使用的路由策略更傾向於高風險的策略，其所選的節點為下一時刻可能帶來最高報酬的選擇；而 SARSA 總是從過去的經驗中學習，選擇較為保守。. 4.3.2 不同車輛密度的路由表現. 這個實驗比較了不同的車輛密度下，GPSR 以及 vDRL 路由策略的不同表現。我們預期當車輛密度低的情況時，可供封包轉送的機會較少，路由協定需要果斷且聰明的選擇是否轉送封包，否則接下來地一段時間內可能將沒有任何的車輛在周遭可幫助轉送，而更大機率地造成路由超時。圖 22 比較了不同車輛密度下的平均送達成功率： 43.

(51) 圖 22. 不同車輛密度的平均送達成功率. 圖 22 的結果呈現出當車輛密度降低時，平均封包送達成功率也隨之降低。vDRL 在不同. 的車輛密度時，仍相較於 GPSR 擁有較高的路由成功率，而其中透過 SARSA 訓練的路由策略仍稍加優於 Q-Learning。接著比較平均端點對端點延遲以及平均所需的路由節點數，平均延遲中的紅色虛線同樣代表著全域最佳解，僅列為參考：. 圖 23. 不同車輛密度的平均端點對端點延遲. 44.

(52) 圖 24. 不同車輛密度的平均所需轉送節點數. 圖 23 和圖 24 顯示了當車輛密度降低時，端點與端點延遲劇烈上升。由於車輛可轉送的. 機會跟著降低，大多時候封包被迫隨著車輛移動，然而車輛的移動速度相較於封包的傳遞速度相對緩慢許多，因而造成嚴重的延遲；圖 24 顯示平均轉送所需的節點數，可以發現當車輛密度降低時，所需的轉送節點數沒有大量的變化，但仍隨車輛密度降低而有減少趨勢，這可能是因於車輛密度的變化在這個實驗中只影響了周遭車輛的出現機率，而較少的周遭車輛可供轉送封包，也意味著轉送次數較少，造成所需轉送節點數的下降。. 從實驗中可以注意到透過 Q-Learning 所訓練的策略，其所需的轉送節點數相較於. 其他兩個路由策略還要來得高出許多，這是因為 Q-Learning 使用較為冒險的方式進行路由（與 4.3.1 節的觀察一致），因此當有機會轉送封包時，Q-Learning 會盡量嘗試轉送，若在轉送後立即陷入區域最佳解，則可能會退回原來的節點，產生大量的節點傳遞過程。整體來說，以 SARSA 所訓練出的路由策略擁有最高的成功率、最低的端點對端點延遲以及最低的所需轉送節點。. 45.

(53) 4.3.3 不同移動速率的路由表現. 接著我們試圖改變車輛的移動速率，觀察 GPSR 以及 vDRL 路由協定是否會受到影響。由於車輛的移動速率對於封包的路由遞送速度相對於緩慢許多，因此應該不會造成大幅的影響。不過，經強化學習所訓練的 vDRL 路由策略，是否會因為車輛速率與訓練參數不同而有不一致的行為則是另一個想觀察的重點。圖 25、圖 26、圖 27 為處於不同的車輛速率時，不同路由策略的平均封包送達成功率、平均端點對端點延遲（紅色虛線為參考之全域最佳解），以及平均所需路由節點數。. 圖 25. 不同移動速率時平均封包送達成功率. 圖 26. 不同移動速率時端點對端點延遲. 46.