第四章 實驗分析
第三節 不同情境下的強化學習路由效能評估
4.3.4 不同通訊距離的路由表現
圖 27. 不同移動速率時平均所需路由節點數
從圖 25、圖 26、圖 27,可以很清楚地觀察到,當車輛速率不同時,縱使有著細微的路由 差異,但大致行為保持一致。實驗結果可以推斷處在單位圓的假設時,車輛速率對於路 由協定幾乎不造成影響。原因可能是路由傳遞的速度大幅快於車輛的移動速率,因此對 於路由路線的選擇上不會產生較大的改變。更重要的是,此實驗更直接說明,我們雖然 直接利用車輛速率作為vDRL 的狀態特徵,但卻沒有以直接記憶的方式利用在路由策略 上(當多層感知機過擬合 (Overfitting) 時,可能產生直接記憶訓練資料的情況)。訓 練時僅使用固定每小時 40 公里的速率,改變其數值仍然表現出一致性的結果,說明我 們的多層感知機在vDRL 所使用的設計,並未發生過擬合的狀態,且具有一定的泛化能 力足以應用在類似但不同的參數環境之中。
在這個實驗中,經由 Q-Learning 所訓練出的 vDRL 路由策略取得稍微較好的端點 延遲,卻使用較多的轉送節點。這裡呈現的結果與之前的觀察大多保持一致的行為,而 值得注意的是,較少的路由所需轉送節點數不一定會導致較低的端點延遲。
4.3.4 不同通訊距離的路由表現
這個實驗模擬通訊距離因為道路環境、周遭建築、眾多的無線訊號充斥於環境之中而造 成若干程度的干擾,使得封包的有效傳送距離遭受挑戰的情形。實驗使用兩組環境做為 對照: 1) 較低干擾的環境,封包有效傳送的距離可達一個小街區(約 10 公尺); 2) 高度干擾的環境,封包有效傳送距離只剩餘3~8公尺,封包更難以與其他車輛進行連線。
圖 28顯示兩者的平均封包送達成功率:
圖 28. 不同通訊距離的平均封包送達成功率
圖 28 顯示封包送達成功率在實驗中不受有效通訊距離的縮短而造成封包的路由失敗,
可能的原因是這個實驗當中對於有效傳送距離的差異,並不足使得路由路徑從本來的成 功變為超時。圖 29為平均端點對端點延遲(紅色虛線為全域最佳解,僅列為參考):
圖 29. 不同通訊距離的平均端點對端點延遲
對比圖 28 與圖 29,縱使平均路由成功率高,但是端點對端點的延遲則大幅上升。由於 有效通訊距離的降低,意味著封包需要用更多次的轉送才能到達路由終點。從圖 29 可 以發現,當有效通訊距離較高時,三者皆可在短時間內成功路由,但是vDRL 路由策略 卻稍差於基於貪婪法的GPSR。我們不難發現,在車輛足夠多、並且處於單位圓的假設 時,直接往最靠近的路由終點的鄰近車輛轉送會產生最佳的轉送策略(例如GPSR 的貪 婪模式),這實驗可能說明了vDRL 的路由策略並未收斂至基於貪婪的最佳解,但是差 異卻非常小;反觀在高度干擾的環境之下,貪婪模式的GPSR 不再是路由最佳策略,筆 直於路由終點的路徑上可能充滿著訊號受干擾的車輛,這時候或許選擇點到點距離稍長 的路徑卻相對干擾較低的路徑反而更具優勢,而圖 29 的右圖的實驗結果結果也顯示了 這個差距。接著,圖 30呈現的是在不同的干擾環境中所得到的平均所需節點數:
圖 30. 不同通訊距離的平均所需路由節點數
圖 30 的結果顯示,在干擾程度較低時,由於封包可以傳送的較遠,普遍都比高度干擾 的環境需要更少的封包傳遞次數,三者其中又以透過 Q-Learning 的路由策略為最低。
對照圖 29,可以發現透過 Q-Learning 所學習出的路由策略在干擾程度較低的環境,相 對於使用SARSA 路由策略,有著更相似於 GPSR 的貪婪結果。然而在高度干擾的環境 中,Q-Learning 則使用較高的額外成本、較多的轉送次數,卻達到更低的端點對端點延 遲。充分顯現了vDRL 基於強化學習而產生的彈性與延展性,我們很難將 vDRL 使用的 策略完整的描述,其中更涉及類神經網路的推導過程而造成解釋的困難,但是從實驗結 論的觀點,在有效通訊距離較小的情況之下,較多的探索、嘗試轉送不同的周遭節點可 能對於路由策略比起貪婪更來得有效。