工具探討

第二章相關研究

2.2 工具探討

國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

家告訴你關於肢體語言的事，很多都是錯的」[10]。關於讀取肢體語言只需憑直覺的看法，和 Pentland 不謀而合。Pentland 認為，因為有些肢體語言基於隱藏真實意圖的目的，被人們有意識地在溝通中頻繁使用，於是不能依賴這些訊息作為誠實訊息（honest signals）；而必須去觀察那些經由潛意識、或是那些無法控制的訊息，它們才是最誠實的[11]。

基於認同這樣的看法，不採用根據專家們對於肢體語言意涵的見解，不嘗試訂定明確的規則，而是援引普羅大眾的直覺，來訓練機器學習大眾的直覺結論，作為本論文的實作理論基礎。

2.2. 工具探討

前述提及，自 Kinect 感測器上市以來，在各種領域的相關應用與研究，如雨後春筍般地蓬勃發展。例如 Pasch 等學者則使用 Kinect SDK 所提供的骨架資料，嘗試建立一套與情緒相關的肢體語言語料庫[12]。

圖 2.3、van Teijlingen 等學者應用 Xsens Body Suit 及 Kinect 感測器資料，以感知使用者行為[14]

另外，van Teijlingen 等學者，則同時使用 Xsens MVN suit[13]及 Kinect 感測器的資料，作為兩種感知使用者行為的裝置，在將兩者資料對應之後，並以 SVM（support vector machine）對動作的一連串模式資料進行分類，以判斷使用者正在進行的行為[14]。相較於 Xsens 的穿戴式追踪裝置對使用者的不便感覺，

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

在這裡，Kinect 感測器作為較低精確度的、較不干擾使用者的補充方案。圖 2.3 描述了該研究的主要處理流程。

關於 Kinect SDK 所提供的骨架資料的概觀，如下圖 2.4 所示。此外，由於 Kinect 同時最多可以追踪到兩位不同的使用者，對於已偵測到的使用者，可以編號（ID）判別是誰的骨架資料，進行特定使用者的骨架追踪[6]。詳細的骨架資料及其節點的狀態、使用時機、以及應用程式介面的範例，都記載在 MSDN。

圖 2.4、Kinect SDK 提供的骨架資料[6]，其中包含使用者的 20 個身體節點資訊

至於 Kinect SDK 提供的臉部辨識功能[5]，其中令人相當激賞的，便是 3D 臉部模型的相關功能。除了偵測基本的頭部角度（俯仰、滾動、和搖擺）以外，

對於臉部表情，則有動畫單元（Animation Units）以及形狀單元（Shape Units）

可供應用。只是，對於一個特定的使用者，形狀單元需要花費約 2 分鐘的時間，才能訓練完成並取得。

相較形狀單元，動畫單元則即時地提供了簡單的臉部表情的描述特徵。如表 2.1 所列，雖然僅僅只有 Candide3 model 裡所定義的動畫單元中的 6 個單元，

其中 2 個關於眉毛的形狀，4 個關於嘴巴的形狀及嘴唇的位置，已經可以重點描

‧

Illustration AU Value Interpretation

Neutral Face

(all AUs 0)

AU0 – Upper Lip Raiser

(In Candid3 this is AU10)

0=neutral, covering teeth 1=showing teeth fully -1=maximal possible pushed down lip

AU1 – Jaw Lowerer (In Candid3 this is AU26/27)

0=closed 1=fully open -1= closed, like 0

AU2 – Lip Stretcher (In Candid3 this is AU20)

0=neutral

1=fully stretched (joker’s smile) -0.5=rounded (pout)

-1=fully rounded (kissing mouth) AU3 – Brow Lowerer

(In Candid3 this is AU4)

0=neutral

-1=raised almost all the way +1=fully lowered (to the limit of the eyes)

AU4 – Lip Corner Depressor

(In Candid3 this is AU13/15)

0=neutral

-1=very happy smile +1=very sad frown

AU5 – Outer Brow Raiser

(In Candid3 this is AU2)

0=neutral

-1=fully lowered as a very sad face

+1=raised as in an expression of deep surprise

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

Kinect 感測器內建麥克風陣列，提供開發者判斷聲音來源方向等資訊，而 Kinect SDK 對於語音的支援，則視 Kinect 感測器為一標準的聲音輸入裝置，開發者只要藉由 Kinect SDK 取得 DMO（DirectX Media Object）物件，則可進行各種對於聲音資料的操作，例如錄音、或者畫出聲波[15]等。

以上文獻及工具的探討，勾勒出大致的輪廓，對於處理相關議題的方法及技術，提供較清楚且有效率的方向，讓我們有更多餘力以處理關鍵的問題。下一章，

我們將更著重在本研究中提出的關鍵議題：「簡報」的表現及其評估方法。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

第三章

研究方法

在本章節中，我們將聚焦在「簡報」這個場域，根據現階段可用的工具及技術，選取可用的指標，並提出基本構想。接下來進行前期研究，然後依照結果，評估基本構想的可行性。最後基於構想，設計出研究的架構、預想研究執行的細節，以及預計取得的目標。

3.1. 基本構想

在認知或行為心理學領域中，經常計算反應時間（response time），其定義為：從對人們呈現刺激後，到人們作出反應、或者到作出某個指定動作之間的時距。這一類透過反應時間作為量測人們的心理運作過程、或用來推估認知模式的指標的研究，稱之為心理測時（mental chronometry）。反應時間的長短，通常也與刺激（如實驗者要求的作業）或是反應（如實驗者指定的動作）的複雜度呈現正相關。Posner 在研究中[16] (如圖 3.1 所示)，利用腦電波儀（EEG）以及功能性核磁共振攝影（fMRI），計算不同的作業所耗費的反應時間，以及在大腦中活化的區域部位。由圖 3.1 可以得知，更正錯誤是其中最耗時的作業。

圖 3.1、Posner 對不同作業的反應時間、以及所活化大腦區域的研究[16]

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

那麼，如果我們錄下簡報者做簡報的影片，而後提供簡報影片，讓人們在觀看的同時，依照直覺判斷好惡，並因好惡而作出反應，將他們的反應記錄下來後，我們是否就可以宣稱，在人們的反應時間內，對應到簡報影片中的表現模式，即為反應人們好惡的表現模式？這也是本論文最初的發想，詳見圖 3.2。

圖 3.2、利用反應時間，評估喜歡／不喜歡的簡報影片片段

然而，由於個體差異，就算再簡單的作業，每個人的反應時間也都不同。

不過，如果我們可以接受些許的誤差，其實不需要精確的反應時間，反而為了取得大眾對於好惡的共識，應該以最大可容忍的反應時間為基準。以下再深入拆解整個決策過程，以便估計整個動作耗費的反應時間。

圖 3.3、評估片段的決策過程

如圖 3.3 所示，我們想要估計四段反應時間，t1、t2、t3、t4 為藍色線段所標示的時距。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

t1：因為簡報是影片而非圖片，是包含各種特徵變動的時間序列，人們欲表示喜歡／不喜歡的表情、動作、或聲音，需要有充分展示的時間，

才有機會被觀看者理解及評估。而且，影片中的簡報者同樣也面臨有刺激（如現場問問題）以及需要作出反應（回應），所估計的則是簡報者的反應時間。

t2：在看完一段影片之後，對簡報者的表現模式在大腦中已經做出結論，

其間所耗費的時距。

t3：從大腦發送訊號，指揮手部進行鍵盤按鍵或滑鼠的反應時間。

t4：按下鍵盤按鍵或滑鼠後，到電腦接受輸入而記錄影片該點的時間戳記。因為 t4 純粹是電腦的反應時間，所以視為極短而忽略不計，並且就以記錄的時間戳記做為使用者完成整個評估動作的結束時間。

在這裡可以估計的是 t2 及 t3。鑑於此心理決策的複雜程度，以及未來的評估系統平台選擇用網頁呈現的緣故，我們參考了 Goldberg 等學者在一個關於 Fitts' 定律（Fitts' Law）的研究中[17]，其中最複雜的變動圓(Var Circles)測試的資料集。所有測試反應時間平均值為 862 毫秒，標準差為 287 毫秒。故 t2、t3 的總和，以其平均數加一個標準差以內的值（1149 ms）作為最大可容忍的反應時間來估計，約為 1 秒。

至於 t1 則比較難估計，雖然不是所有的簡報場合，都會有在場者問問題（提供刺激）或回應問題的情景，但一整場的簡報時段，還是可以分解成是對簡報者進行一次次「刺激－反應」測試的總和。是以在此假定簡報者的反應時間 t1=t2+t3，也就是約取 1 秒，作為簡報者表現的取樣長度。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

總結上述推論，我們可以用最後人們因評估決定而動作所記錄下來的時間戳記，往前回推 2 秒，認定期間出現的任意行為模式，作為反應人們評估意見的表現模式。以下便開始研究試作此基本構想。

3.2. 前期研究

以下將細分四個小節，介紹在前期研究中，所涉的相關實作技術，包括：

錄製影音檔，並儲存相關特徵；影片格式轉換；取出影片中的聲音，分析其特徵，及偵測特定聲音事件；以及使用網頁技術呈現影片，並試作使用者介面及需求功能，等部分。取得這些成果，有助於將基本構想，實作在研究及應用之上。

3.2.1. 錄製影音檔，並儲存相關特徵

已知 Kinect 感測器為一具備彩色攝影機、深度攝影機、以及麥克風陣列的影音擷取裝置，使用 Kinect SDK 便可完成錄影功能。另外 Kinect SDK 也提供了取出 3D 臉部模型的頂點、繪製在影像串流上的範例程式[5]，經由改寫該範例程式後，將繪製的結果錄成影片，用來觀察 Kinect SDK 所提供的臉部頂點是否準確，如圖 3.4 所示。

圖 3.4、以觀察除錯的目的而錄製的影片，並且在過程中確認 Kinect SDK 所提供的 3D 臉部模型其精確度及穩定度

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

除了錄影功能外，為了日後在分析行為模式時，有更多面向的選擇，我們需要另外儲存 Kinect SDK 所提供的深度資訊，諸如動畫單元、骨架資料、以及 3D 臉部頂點資訊。在儲存這些額外資訊時，另加上當時的時間戳記，日後便可藉由相對的時間戳記，取出對應的特徵資訊，以進行研究分析及應用。圖 3.5 是和影片一起儲存的動畫單元序列。在儲存檔案時，檔名包含開始錄影時的時間戳記，如此一來便可由動畫單元的檔名，對應到特定的影片檔。

圖 3.5、一個儲存 Kinect SDK 的動畫單元資訊範例。此外還另存有骨架資訊，以及 3D 臉部頂點資訊，每筆資料都附帶當時產生的時間戳記，以供後續資料分析。

然而，由於現階段執行 Kinect 感測器應用程式，相當耗費系統資源，連帶使得錄影等儲存工作，變得相當依賴執行平台的性能。在錄影時為求不增加系統負擔，選擇不壓縮影音資料，直接儲存為 avi（audio video interleave）檔案，

其中，預設的影像為解析度 640x480 的 32bits RGBA 格式，而聲音則為 16k 取樣頻率、16bits 位元深度、單聲道的 PCM（pulse-coded modulation）格式。但這樣一來，在後續的利用，尤其欲將影片以網頁呈現時，必須再做格式轉換，否則將面臨影片檔案太大（以致等待時間太久），以及瀏覽器所支援播放相容性等等

在文檔中基於 RGBD 影音串流之肢體表情語言表現評估 - 政大學術集成 (頁 19-0)

第二章 相關研究

2.2 工具探討

國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

2.2. 工具探討

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

第三章

研究方法

3.1. 基本構想

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

3.2. 前期研究

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

第二章相關研究

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學