• 沒有找到結果。

研究方法—人類玩家駕駛風格模仿

5.1 目標玩家與研究環境

模仿的人類玩家有八位:KT、YR、HA、SD、HB、JG、ZS、TS。八位玩 家都是介於 24 到 26 歲的男性。每位人類玩家在每一個實驗用賽道中連續駕駛五 圈,並進行二次。第一次的五圈是為了讓玩家熟悉賽道,避免因過多的車禍而影 響到資料品質。只有第二次的五圈駕駛記錄才會作為研究用資料。由於完成所有 賽道的駕駛時間過長,容易造成疲勞,因此玩家不一定會一次跑完所有的實驗用 賽道,大部分玩家會需要多天的時間分次完成。玩家駕駛時使用實體類比方向盤 作轉向控制,油門和煞車透過類比搖桿進行控制,圖 5-1 是實驗時使用的方向盤。

排檔設置為自動排檔。

圖 5-1 方向盤

使用的 TORCS 版本是 1.3.4,駕駛難度設定成新手級別。在新手級別中,賽 車並不會因為毀損情況嚴重而被迫中止比賽。人類玩家駕駛的賽道有 5 個: CG Speedway number 1、CG track 2、Aalborg、Alpine 1 以及 E-Track 4。收集的駕駛 資料同樣會進行 3.1 節中所述的三個前處理。

5.2 方法概論

首先目標不再是嘗試直接建構一個具備模仿對像風格且適用未知賽道的控 制器。現在的目標是針對各個賽道去建構個別適用的控制器。每當遇到一個陌生 賽道時,都會由一個共通的基礎控制器演化,演化的目標是速度表現以及重現出 目標玩家的風格。而這個基礎控制器至少有穩健的駕駛能力以及可以調整這二個 特性。穩健駕駛能力是為了在實務上產生出一個具備足夠競爭力的 NPC 與其它 玩家進行遊戲,並且讓之後的演化過程可以在較短的時間和空間成本下順利進行。

圖 5-2 是模仿方法的流程。

圖 5-2 人類玩家模仿方法流程圖

演化的部分跟第三章中的適應機制是相同的。針對每個人類玩家建出各自的 風格判斷器,之後作為目標函數中的風格相似度判斷依據。速度表現方面仍然是 以完成一圈賽道的時間作為判斷基準。

5.3 控制器架構

控制器的結構和第三章中所提的是十分相似的,如圖 5-3 所示。差別在於將 高階控制器改為簡單的中線導向控制器。中線導向控制器只輸出轉向控制指令,

控制的目標是讓賽車位於賽道的中線上,可以視為一種簡化版的高階控制器。

圖 5-3 控制器架構

這樣設計的原因是為了避免圖 4-4 中所示,單純只有低階控制器會發生的問 題。在指令結合器方面,首先油門控制指令全由低階控制器負責。而轉向控制的 部分,仍然是整合兩種控制器的輸出,但是將式(7)更改為式(9):

w = 1 exp( 0.1*( 150)) 1

x (9)

用意是希望只有在賽車處於較長的安全路段時,才讓中線導向控制器發揮影響力。

在接近彎道時的入彎速度和位置則期望讓低階控制器可以在演化時自行學到一 些目標玩家的風格。

5.4 人類玩家駕駛風格分析

非人類玩家大部分從內部的演算法就能知道駕駛策略和行為方面的差異,但 以人類玩家為實驗對象時,並不能確定玩家們是否確實存在著自我風格。因此對 於這次研究的八位玩家的駕駛資料進行了分析,目標是觀察玩家是否具有著自我

駕駛風格,而且與其它玩家的風格存在著差異。

1. 基礎控制器在演化後至少表現出目標玩家部分的駕駛特徵,而且與其它人類 玩家的駕駛特徵存在著較大的差異。

2. 人類玩家在測試賽道中表現出的駕駛特徵和在其它 4 個賽道中表現出的特徵 相似。也就是即使單從軌跡和速度上很難直觀的看出共同的特徵,但實際上 仍然存在著風格上的一致性。

實務上風格一致性的高低、模仿方法和評估方法的適切性都會影響到實驗的 結果,使得步驟 4 中的理想狀態並不容易成立。因此實際上在步驟 4 中會將 8 個判斷器值作大小上的排名,值越低排名越前面。實驗觀察的重點就在於排名是 否都落在前端。

相關文件