第四章 實驗結果—非人類玩家駕駛風格模仿
4.1 控制器訓練結果
圖 4-1 是低階控制器油門模組的訓練結果。在這裡要模仿的對象是 Berniw。
在訓練賽道中每個 game tick 的指令輸出,油門控制模組演化時所用的訓練資料 只佔了約總資料量的 20%。這是由於 Berniw 在訓練賽道中僅有約 10%的時間進 行剎車,為了避免演化出的控制器為了降低方均根值而總是輸出加速的指令,因 此只另外從加速的指令中取樣出和減速指令大約相同數量的資料。訓練完成後,
使用 Berniw 所有的駕駛資料進行測試。在這裡將油門和煞車的指令結合成一種 指令,值介於-1 到+1 之間。值大於 0 時代表踩油門,小於 0 是踩煞車。圖 4-1(a)~(d) 是模糊系統的成員函數和輸出演化的結果。4-1(e)是軟閥的演化結果,從中可以 看出控制器在加速和減速時的操作風格有明顯的差異。最後計算出誤差的方均根 值是 0.5824。
圖 4-1(a) Front 演化結果
圖 4-1(b) Max10 演化結果
圖 4-1(c) Max20 演化結果
圖 4-1(d) Fuzzy System Output 演化結果
圖 4-1(e) 軟閥演化結果
圖 4-1(a)~(e) 低階控制器油門模組的訓練結果
低階控制器轉向控制模組的訓練資料是 Berniw 所有的駕駛資料。轉向控制 指 令 的 值 介 於 -1 到 +1 之 間 , 訓 練 後 得 到 的 結 果 是𝑆40= 0.4075、𝑆30 = 0.2751、𝑆20 = 0.1845、𝑆10 = 0.0993。誤差的方均根值是 0.0784。
圖 4-2 和圖 4-3 是訓練後控制器和 Berniw 在油門控制和轉向控制的一部分 比較結果。圖中的實線是 Berniw 的控制指令,虛線是訓練後控制器的控制指令。
從圖可以看出油門控制指令變化較劇烈,因此方均根值也較大。轉向控制指令則 是震盪幅度較小,誤差的方均根值也較低。
圖 4-2 油門控制指令比較:實線是 Berniw,虛線是訓練後判斷器
圖 4-3 轉向控制指令比較:實線是 Berniw,虛線是訓練後判斷器
透過指令結合器將低階和高階控制器整合後,可以發現到除了直觀上比較偏 向一般人類玩家的思考模式外,對於實際的模仿效果也有重要的影響。圖 4-4 和 圖 4-5 是一小段模仿結果的展示與比較。圖 4-4 是只使用低階控制器的結果,其 中實線軌跡是 Berniw 跑出的,而虛線是訓練後的控制器跑出的結果。圖 4-5 是 指令結合器依上述方法結合低階控制器和高階控制器後的結果。而單純使用高階 控制器會在彎道處出車禍。從比較圖中可以明顯看出低階控制器並沒有辦法對於 前方的彎道進行位置上的規劃,使得控制器在軌跡上跑出了與 Berniw 差異很大 的結果。在結合高階控制器後,軌跡明顯相似許多。控制器在彎道前出現了和 Berniw 相仿的規劃,也進一步的讓低階控制器在進入彎道後可以展現出相似的 軌跡。
圖 4-4 低階控制器的結果
圖 4-5 低階+高階控制器的結果