第四章 實驗分析
第三節 不同情境下的強化學習路由效能評估
4.3.1 不同連線模型的路由表現
第三節 不同情境下的強化學習路由效能評估
本節以不同的環境設定探討經強化學習所產生的vDRL 路由策略,由於此研究所提出得 vDRL 路由策略屬於單點路由協定,同一時間僅以一個封包進行路由,考慮到許多應用 在機會網路以及容許延遲網路的路由協定幾乎都為多路徑路由,難以進行一致性的效能 評估,因此實驗所選擇的比較對象為傳統使用的貪婪邊界無狀態路由協定 (GPSR);除 此之外,透過SARSA 和 Q-Learning 所產生的路由策略差異也將一併討論。實驗將比較 不同的連線模型、車輛密度、行駛速率,以及有效通訊距離之下,路由協定的平均送達 成功率(數學式 28)、平均端點對端點延遲(數學式 29),與平均所需轉送節點數(數 學式 30)。實驗除了所操作的變量之外,其他所使用的參數皆與表 4的默認參數相同。
4.3.1 到 4.3.4 的所有實驗使用地圖 (A) ,4.3.5 則比較 vDRL 在地圖 (A) 與地圖 (B) 的 路由成功率。
4.3.1 不同連線模型的路由表現
首先比較不同的連線模型:單位圓與指數衰退(圖 18),對於vDRL 路由協定以及 GPRS 所造成的影響。單位圓的假設通常僅用於理論推導,實際上真實的連線行為由於各種干 擾等原因,往往會較接近於指數衰退的模型;它們之間的差異在單位圓假設在有效通信 範圍內,封包總會成功送達彼端;而指數衰退即使在範圍內,送達的成功率也與彼此之 間的距離成指數的反比關係。
圖 18. 不同連線模型下距離對傳送成功率的關係(有效傳輸距離以 10 公尺為例)
圖 19. 不同連線模型的平均封包送達成功率
圖 19 顯示當連線模型是單位圓時,所有觀察的路由協定皆可以順利的從路由起點抵達 終點;但是當連線模型改為指數衰退時,GPSR 的平均路由成功率迅速下降,僅剩下在 單位圓時的66.66%。而透過 Q-Learning 所學習的路由策略也稍受影響,然而影響程度 僅5.06%,SARSA 訓練出的路由策略則全數路由成功。
我們可以從觀察中猜測當路由協定處於指數衰退的連線模型時,貪婪法 (Greedy) 容易陷入區域最佳解 (Local minimum),也就是封包容易處於周遭車輛都不比自己來得 靠近路由終點,這時候GPSR 會進入回復模式 (Recovery Mode) 嘗試脫離此狀態而造成 嚴重的延遲,進而更大的機率造成超時而路由失敗。反之,基於強化學習的vDRL 路由 協定由於不根據於固定的路由規則,因而可以更廣泛地適用於不同情況而僅受到較輕微 的影響。
這邊必須強調,經由SARSA 以及 Q-Learning 所學習出的 vDRL 路由策略,在訓練 的模擬環境中皆是使用單位圓的連線模型。換句話說,它們對於指數衰退的連線模型一
無所知,但是在測試時卻可發揮優異的泛化 (Generalization) 能力,在不同的參數設定 之下也展現出不錯的表現。
圖 20與圖 21 分別是使用單位圓以及指數衰退模型時,平均端點對端點延遲、和平 均所需的轉送節點數。圖 20中的紅色虛線為使用 Epidemic Routing 且具備無限大的緩 衝空間,透過不斷地廣播找出的全域最佳解。由於其所需的封包複製數量高達三十五比 一,使得實際應用時非常容易壅塞整個網路環境,僅適合極短距離(相隔一至兩個節點)
的訊息傳送,因此僅列出作為參考依據:
圖 20. 不同連線模型的平均端點對端點延遲
圖 21. 不同連線模型的平均所需轉送節點數
從圖 20 與圖 21 中大致可以歸納出幾個觀察: 1) 指數衰退的連線模型幾乎會造成更多 的延遲,與所需的路由節點數。除了使用SARSA 訓練的 vDRL 在圖 21的指數衰退模型 下比起單位圓使用了更少的節點,其餘觀察的路由協定其所需節點數皆上升; 2) 透過 Q-Learning 所訓練的 vDRL 路由策略在這個實驗中的表現略遜於以 SARSA 訓練出的策 略。圖 20單位圓的實驗結果中,雖然 Q-Learning 所訓練的策略擁有相對最低的端點延 遲,其所需的路由節點數卻最高。從數學式 (18) 以及 (19) 與該節的討論可以猜測,
Q-Learning 比起 SARSA 所使用的路由策略更傾向於高風險的策略,其所選的節點為下 一時刻可能帶來最高報酬的選擇;而SARSA 總是從過去的經驗中學習,選擇較為保守。