不同連線模型的路由表現

第四章實驗分析

第三節不同情境下的強化學習路由效能評估

4.3.1 不同連線模型的路由表現

第三節不同情境下的強化學習路由效能評估

本節以不同的環境設定探討經強化學習所產生的vDRL 路由策略，由於此研究所提出得 vDRL 路由策略屬於單點路由協定，同一時間僅以一個封包進行路由，考慮到許多應用在機會網路以及容許延遲網路的路由協定幾乎都為多路徑路由，難以進行一致性的效能評估，因此實驗所選擇的比較對象為傳統使用的貪婪邊界無狀態路由協定 (GPSR)；除此之外，透過SARSA 和 Q-Learning 所產生的路由策略差異也將一併討論。實驗將比較不同的連線模型、車輛密度、行駛速率，以及有效通訊距離之下，路由協定的平均送達成功率（數學式 28）、平均端點對端點延遲（數學式 29），與平均所需轉送節點數（數學式 30）。實驗除了所操作的變量之外，其他所使用的參數皆與表 4的默認參數相同。

4.3.1 到 4.3.4 的所有實驗使用地圖 (A) ，4.3.5 則比較 vDRL 在地圖 (A) 與地圖 (B) 的路由成功率。

4.3.1 不同連線模型的路由表現

首先比較不同的連線模型：單位圓與指數衰退（圖 18），對於vDRL 路由協定以及 GPRS 所造成的影響。單位圓的假設通常僅用於理論推導，實際上真實的連線行為由於各種干擾等原因，往往會較接近於指數衰退的模型；它們之間的差異在單位圓假設在有效通信範圍內，封包總會成功送達彼端；而指數衰退即使在範圍內，送達的成功率也與彼此之間的距離成指數的反比關係。

圖 18. 不同連線模型下距離對傳送成功率的關係（有效傳輸距離以 10 公尺為例）

圖 19. 不同連線模型的平均封包送達成功率

圖 19 顯示當連線模型是單位圓時，所有觀察的路由協定皆可以順利的從路由起點抵達終點；但是當連線模型改為指數衰退時，GPSR 的平均路由成功率迅速下降，僅剩下在單位圓時的66.66%。而透過 Q-Learning 所學習的路由策略也稍受影響，然而影響程度僅5.06%，SARSA 訓練出的路由策略則全數路由成功。

我們可以從觀察中猜測當路由協定處於指數衰退的連線模型時，貪婪法 (Greedy) 容易陷入區域最佳解 (Local minimum)，也就是封包容易處於周遭車輛都不比自己來得靠近路由終點，這時候GPSR 會進入回復模式 (Recovery Mode) 嘗試脫離此狀態而造成嚴重的延遲，進而更大的機率造成超時而路由失敗。反之，基於強化學習的vDRL 路由協定由於不根據於固定的路由規則，因而可以更廣泛地適用於不同情況而僅受到較輕微的影響。

這邊必須強調，經由SARSA 以及 Q-Learning 所學習出的 vDRL 路由策略，在訓練的模擬環境中皆是使用單位圓的連線模型。換句話說，它們對於指數衰退的連線模型一

無所知，但是在測試時卻可發揮優異的泛化 (Generalization) 能力，在不同的參數設定之下也展現出不錯的表現。

圖 20與圖 21 分別是使用單位圓以及指數衰退模型時，平均端點對端點延遲、和平均所需的轉送節點數。圖 20中的紅色虛線為使用 Epidemic Routing 且具備無限大的緩衝空間，透過不斷地廣播找出的全域最佳解。由於其所需的封包複製數量高達三十五比一，使得實際應用時非常容易壅塞整個網路環境，僅適合極短距離（相隔一至兩個節點）

的訊息傳送，因此僅列出作為參考依據：

圖 20. 不同連線模型的平均端點對端點延遲

圖 21. 不同連線模型的平均所需轉送節點數

從圖 20 與圖 21 中大致可以歸納出幾個觀察： 1) 指數衰退的連線模型幾乎會造成更多的延遲，與所需的路由節點數。除了使用SARSA 訓練的 vDRL 在^圖²¹的指數衰退模型下比起單位圓使用了更少的節點，其餘觀察的路由協定其所需節點數皆上升； 2) 透過 Q-Learning 所訓練的 vDRL 路由策略在這個實驗中的表現略遜於以 SARSA 訓練出的策略。圖 20單位圓的實驗結果中，雖然 Q-Learning 所訓練的策略擁有相對最低的端點延遲，其所需的路由節點數卻最高。從數學式 (18) 以及 (19) 與該節的討論可以猜測，

Q-Learning 比起 SARSA 所使用的路由策略更傾向於高風險的策略，其所選的節點為下一時刻可能帶來最高報酬的選擇；而SARSA 總是從過去的經驗中學習，選擇較為保守。

在文檔中基於深度學習的車輛隨意網路路由協定 (頁 46-50)

第四章 實驗分析

第三節 不同情境下的強化學習路由效能評估

4.3.1 不同連線模型的路由表現

第三節 不同情境下的強化學習路由效能評估

第四章實驗分析

第三節不同情境下的強化學習路由效能評估

第三節不同情境下的強化學習路由效能評估