• 沒有找到結果。

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

2.2 狀態轉換

與狀態轉換有關的研究有二:有限狀態機以及馬可夫決策過程。本節將針對此 二研究進行介紹與探討,並建立狀態轉換與二維方向向量機率模型之間的關係。

有限狀態機(finite state machine)是一數學模型,其中包含了數量有限個狀態,

狀態之間經由特定動作或輸入轉換到下一個特定狀態。狀態包含了起始以及接受 (或稱終點)狀態,起始狀態指的是沒有任何箭頭指到的狀態[27],由起始狀態開始 轉換直至接受狀態。有限狀態機通常以圖來呈現,如圖 2.1 為一偵測輸入字串是否 出現連續兩個 1 之有限狀態機。兩個圈的狀態 S3 為接受狀態,S0 表示起始狀態,

經由 0 或 1 的符號作為輸入,轉換至下一個狀態 S1 或是 S2,直到接受狀態 S3 後 結束。

圖 2.1: 偵測輸入字串是否出現連續兩個 1 之有限狀態機

有限狀態機藉由狀態以及動作轉換,可以應用在許多地方。以紅綠燈為例,紅 燈、黃燈以及綠燈即為狀態,動作轉換如紅燈轉黃燈、黃燈轉綠燈等燈號轉換。每 經過一段時間,有限狀態機會自動進行燈號轉換,完成自動控制。在無人機的領域 上,有限狀態機可以用來做為決策控制方法。在研究[28]中,無人機執行噴灑農藥 任務,從初始狀態轉換到偵測狀態,並藉由偵測結果不斷靠近噴灑目標。接著將會

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

從偵測狀態轉換到噴灑目標追蹤狀態,飛到噴灑目標的上方,確認後開始降低至特 定高度來進行噴灑農藥,完成噴灑農藥任務。

馬可夫決策過程為一與有限狀態機相似的數學模型,說明馬可夫決策過程之 前,需要先瞭解馬可夫鏈(Markov chain),馬可夫鏈表示了在狀態空間中,從一個 狀態轉換到下一個狀態的隨機過程,且具馬可夫性,也就是下一個狀態的機率分布 只由當前狀態決定,與之前轉換過的狀態皆無關係。如圖 2.2,S1 的下一個狀態有 0.7 的機率轉換到 S3,有 0.3 的機率轉換到 S2,馬可夫一詞的由來根據俄國數學家 安德烈·馬可夫於 1906 年實作此一過程[29]得名。

圖 2.2: 具有 3 個狀態之馬可夫鏈

馬可夫鏈由兩個集合(S, P)所組成,S 表示了有限數量的狀態集合,P 則為條件 機率 P(St+1|St),表示在當前狀態 St下轉換至 St+1的機率。當馬可夫鏈增加了動作 A、獎勵 R 以及折扣因素 γ,轉變成(S, A, P, R, γ),此一元組與馬可夫決策過程是 相同的[29]。其中 S 依然表示了有限數量的狀態集合,A 為動作集合,P 依然為條 件機率,不過變成 P(St+1|St, At),表示在當前狀態 St下,執行了動作 At後轉換至 St+1的機率。R 為函式 R(St, At, St+1)之縮寫,執行 At使 St轉換至 St+1後,會立即

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

獲得的獎勵。折扣因素γ 是一個介於 0 到 1 之間的常數,γ 靠近 0 會讓決策偏向如 何及時獲得最佳獎勵,靠近 1 則使決策偏向整體獲得最佳獎勵。如圖 2.3,狀態 S0 執行 A0 後轉換到 S1,並依照 S0、A0 與 S1 獲得 R0 作為獎勵。

圖 2.3: 馬可夫決策過程

有限狀態機與馬可夫決策過程皆具狀態以及動作轉換,有限狀態機的狀態轉 換是明確的,也就是當前狀態接收到動作或訊號後,就會根據設計好的轉換方式進 行轉換,且狀態轉換是一定成功的。如紅綠燈的狀態轉換,一定會從綠燈變成黃燈,

再從黃燈變成紅燈。然而對於無人機的線條跟隨而言,當無人機向左方移動時,有 可能會改變線條跟隨狀態,也有可能維持原本的線條跟隨狀態,是具有隨機性的轉 換過程。且需要有策略性的方式引導無人機往未跟隨過的線條前進。

鑒於無人機的精準線條跟隨是具有隨機性與策略性的轉換過程,本研究所使 用之二維方向向量機率模型主要來自馬可夫決策過程中的狀態與動作轉換,並建 立線條跟隨的認知做為跟隨策略。對於本研究之無人機進行線條跟隨時,從前方的 攝像機所獲得的影像,應為當前無人機進行線條跟隨時的狀態。線條跟隨時可能出 現的狀態分別為無人機在線條寬度內、無人機有看到線條但不在線條寬度內上以 及無人機沒看到線條,這也就是馬可夫決策過程裡的狀態。對於線條跟隨而言,在 動作轉換上應要讓當前狀態轉換至無人機在線條寬度內,因此透過上下左右的動

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

作讓無人機能將當前狀態轉換至無人機在線條寬度內。後續依照線條偵測的結果,

以線條跟隨的認知做為跟隨策略,驅使無人機往未跟隨過的線條進行精準跟隨。

目前的研究也有透過影像作為馬可夫決策過程裡的狀態,Koenig 在 2018 年的 研究[30],將經過 VGG 訓練後得到的影像作為馬可夫決策過程裡的狀態。Xiang 在 2015 的研究[31]將影像裡的當前跟蹤目標的狀態作為馬可夫決策過程裡的狀態。

上下左右 4 個方向經常在與馬可夫決策過程相關的研究中使用,如 Turchetta 在 2016 年的研究[32]以上下左右 4 個方向作為動作。Ferreira 在 2018 年的研究[33]亦 使用上下左右 4 個方向作為動作。然而馬可夫決策過程由於計算上的複雜度,因 此在研究中通常一次只會採取單一方向的動作。與本研究相比,本研究除了上下左 右 4 個方向以外,還具有左上、左下、右上以及右下等複合性的方向。