論文架構

第一章緒論

1.2 論文架構

國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

3. 我們也提出，由大眾評估資料所取得的影音表現特徵模式，可以透過機器學習、建立模型的方法，預測簡報時的表現模式，並由現有資料驗證其模型的可用性。

4. 我們應用上述機器學習的結果，實作出一原型應用程式，用以預測簡報者的表現，其評估結果符合大眾直覺之判斷。

1.2. 論文架構

本論文架構如下所述。在第二章的相關研究中，我們將會概觀地探討近年來利用影音技術所進行肢體語言的相關議題，以及基於 Kinect 感測器或其他感測技術的研究。在第三章的研究方法中，首先針對簡報這個場景，提出本研究的基本構想，接下來簡單地展示基於此構想所做的前期研究，以及在得到初步的成果後，設計研究架構，並且設定預期的目標。在第四章，將詳細地描述研究的資料蒐集與其過程，簡介所使用的分析工具，以及研究結果的分析。第五章則將說明，

如何將第四章所得到的研究結果與分析，實作為 Kinect 應用程式，並展示使用範例。最後在第六章中，本論文對所實作的系統做一個簡單的結論，並且提出未來可能繼續研究發展的方向。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

第二章

2.1. 文獻探討

在電腦視覺領域中，臉部辨識的技術已經發展了相當長的時間。而表情／

情緒計算及辨識（affective computing）的應用，則必須仰賴臉部辨識高精準度，

及其相關技術的成熟。麻省理工學院媒體實驗室（MIT Media Laboratory）的 Hoque 等學者，則因應應屆畢業生面談的需求，開發一套可訓練對話技巧的虛擬教練系統 MACH（My Automated Conversation coacH）[8]。一開始，他們請兩位在面談領域的專家，對所有受試者們的模擬面談，進行專家評估問卷，加上受試者自我評估問卷，作為訓練前的對照組。劃入使用 MACH 系統訓練組的受試者，被規定至少使用一次 MACH 訓練面談技巧（最多則不限次數），之後再次進行模擬面談，進行訓練後的專家評估問卷（再加上受試者的自我評估問卷）。由評估結果是否進步，觀察 MACH 的訓練是否有效。

如圖 2.1 所示，MACH 衡量對話行為的基礎，由三個部分構成：臉部表情處理（點頭／搖頭次數、笑的計數）、聲韻分析（音量、音調、停頓次數）、以及語音識別（說話速度、填充字辨識）。受試者行為經過分析後，由 3D 虛擬教練根據設定的規則做出反應，如此持續反覆到面談訓練結束。整個 MACH 對話

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

訓練的過程所分析之受試者的行為，以圖形化的呈現回饋給受試者，以作為檢討改進的依據。

圖 2.1、MIT MACH 對話訓練系統[8]的運作流程

S. Feese 等人在關於三人會議的研究中，則針對語音及動作資料進行處理 [9]。在語音部分的處理流程，如圖 2.2 所示，先根據不同參與者分割聲音，再取得對話的切片，最後再根據幾種語音的線索，進行集群分析。其中語音的線索包括：說話的總共時間長度、簡短發言的次數、以及過場的間距長度。每個會議對話的長度為 2 分鐘，他們假設，一段話平均約為 30 秒鐘，而 2 分鐘可讓每個人至少說完兩段話。至於動作資料，他們則單純地針對參與者的頭部方向，進行集群分析。實驗結果表明，對於語音的集群結果，顯示出有意義的小組領導力及高效率。相較於聲音的集群穩定結果，動作資料的集群結果則顯示不穩定，研究者認為這是因為動作資料的不足所導致。

圖 2.2、S. Feese 等人的三人會議研究[9]，對於語音的處理流程

然而，有其他對於肢體語言分析作法的不同意見。例如富比世專欄作家 Morgan 即在文章中指出，「要精確地讀取肢體語言，就是憑直覺」，而且，「專

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

家告訴你關於肢體語言的事，很多都是錯的」[10]。關於讀取肢體語言只需憑直覺的看法，和 Pentland 不謀而合。Pentland 認為，因為有些肢體語言基於隱藏真實意圖的目的，被人們有意識地在溝通中頻繁使用，於是不能依賴這些訊息作為誠實訊息（honest signals）；而必須去觀察那些經由潛意識、或是那些無法控制的訊息，它們才是最誠實的[11]。

基於認同這樣的看法，不採用根據專家們對於肢體語言意涵的見解，不嘗試訂定明確的規則，而是援引普羅大眾的直覺，來訓練機器學習大眾的直覺結論，作為本論文的實作理論基礎。

2.2. 工具探討

前述提及，自 Kinect 感測器上市以來，在各種領域的相關應用與研究，如雨後春筍般地蓬勃發展。例如 Pasch 等學者則使用 Kinect SDK 所提供的骨架資料，嘗試建立一套與情緒相關的肢體語言語料庫[12]。

圖 2.3、van Teijlingen 等學者應用 Xsens Body Suit 及 Kinect 感測器資料，以感知使用者行為[14]

另外，van Teijlingen 等學者，則同時使用 Xsens MVN suit[13]及 Kinect 感測器的資料，作為兩種感知使用者行為的裝置，在將兩者資料對應之後，並以 SVM（support vector machine）對動作的一連串模式資料進行分類，以判斷使用者正在進行的行為[14]。相較於 Xsens 的穿戴式追踪裝置對使用者的不便感覺，

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

在這裡，Kinect 感測器作為較低精確度的、較不干擾使用者的補充方案。圖 2.3 描述了該研究的主要處理流程。

關於 Kinect SDK 所提供的骨架資料的概觀，如下圖 2.4 所示。此外，由於 Kinect 同時最多可以追踪到兩位不同的使用者，對於已偵測到的使用者，可以編號（ID）判別是誰的骨架資料，進行特定使用者的骨架追踪[6]。詳細的骨架資料及其節點的狀態、使用時機、以及應用程式介面的範例，都記載在 MSDN。

圖 2.4、Kinect SDK 提供的骨架資料[6]，其中包含使用者的 20 個身體節點資訊

至於 Kinect SDK 提供的臉部辨識功能[5]，其中令人相當激賞的，便是 3D 臉部模型的相關功能。除了偵測基本的頭部角度（俯仰、滾動、和搖擺）以外，

對於臉部表情，則有動畫單元（Animation Units）以及形狀單元（Shape Units）

可供應用。只是，對於一個特定的使用者，形狀單元需要花費約 2 分鐘的時間，才能訓練完成並取得。

相較形狀單元，動畫單元則即時地提供了簡單的臉部表情的描述特徵。如表 2.1 所列，雖然僅僅只有 Candide3 model 裡所定義的動畫單元中的 6 個單元，

其中 2 個關於眉毛的形狀，4 個關於嘴巴的形狀及嘴唇的位置，已經可以重點描

‧

Illustration AU Value Interpretation

Neutral Face

(all AUs 0)

AU0 – Upper Lip Raiser

(In Candid3 this is AU10)

0=neutral, covering teeth 1=showing teeth fully -1=maximal possible pushed down lip

AU1 – Jaw Lowerer (In Candid3 this is AU26/27)

0=closed 1=fully open -1= closed, like 0

AU2 – Lip Stretcher (In Candid3 this is AU20)

0=neutral

1=fully stretched (joker’s smile) -0.5=rounded (pout)

-1=fully rounded (kissing mouth) AU3 – Brow Lowerer

(In Candid3 this is AU4)

0=neutral

-1=raised almost all the way +1=fully lowered (to the limit of the eyes)

AU4 – Lip Corner Depressor

(In Candid3 this is AU13/15)

0=neutral

-1=very happy smile +1=very sad frown

AU5 – Outer Brow Raiser

(In Candid3 this is AU2)

0=neutral

-1=fully lowered as a very sad face

+1=raised as in an expression of deep surprise

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

Kinect 感測器內建麥克風陣列，提供開發者判斷聲音來源方向等資訊，而 Kinect SDK 對於語音的支援，則視 Kinect 感測器為一標準的聲音輸入裝置，開發者只要藉由 Kinect SDK 取得 DMO（DirectX Media Object）物件，則可進行各種對於聲音資料的操作，例如錄音、或者畫出聲波[15]等。

以上文獻及工具的探討，勾勒出大致的輪廓，對於處理相關議題的方法及技術，提供較清楚且有效率的方向，讓我們有更多餘力以處理關鍵的問題。下一章，

我們將更著重在本研究中提出的關鍵議題：「簡報」的表現及其評估方法。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

第三章

研究方法

在本章節中，我們將聚焦在「簡報」這個場域，根據現階段可用的工具及技術，選取可用的指標，並提出基本構想。接下來進行前期研究，然後依照結果，評估基本構想的可行性。最後基於構想，設計出研究的架構、預想研究執行的細節，以及預計取得的目標。

3.1. 基本構想

在認知或行為心理學領域中，經常計算反應時間（response time），其定義為：從對人們呈現刺激後，到人們作出反應、或者到作出某個指定動作之間的時距。這一類透過反應時間作為量測人們的心理運作過程、或用來推估認知模式的指標的研究，稱之為心理測時（mental chronometry）。反應時間的長短，通常也與刺激（如實驗者要求的作業）或是反應（如實驗者指定的動作）的複雜度呈現正相關。Posner 在研究中[16] (如圖 3.1 所示)，利用腦電波儀（EEG）以及功能性核磁共振攝影（fMRI），計算不同的作業所耗費的反應時間，以及在大腦中活化的區域部位。由圖 3.1 可以得知，更正錯誤是其中最耗時的作業。

圖 3.1、Posner 對不同作業的反應時間、以及所活化大腦區域的研究[16]

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

那麼，如果我們錄下簡報者做簡報的影片，而後提供簡報影片，讓人們在觀看的同時，依照直覺判斷好惡，並因好惡而作出反應，將他們的反應記錄下來後，我們是否就可以宣稱，在人們的反應時間內，對應到簡報影片中的表現模式，即為反應人們好惡的表現模式？這也是本論文最初的發想，詳見圖 3.2。

圖 3.2、利用反應時間，評估喜歡／不喜歡的簡報影片片段

然而，由於個體差異，就算再簡單的作業，每個人的反應時間也都不同。

不過，如果我們可以接受些許的誤差，其實不需要精確的反應時間，反而為了取得大眾對於好惡的共識，應該以最大可容忍的反應時間為基準。以下再深入拆解整個決策過程，以便估計整個動作耗費的反應時間。

圖 3.3、評估片段的決策過程

如圖 3.3 所示，我們想要估計四段反應時間，t1、t2、t3、t4 為藍色線段所標示的時距。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

t1：因為簡報是影片而非圖片，是包含各種特徵變動的時間序列，人們欲表示喜歡／不喜歡的表情、動作、或聲音，需要有充分展示的時間，

在文檔中基於 RGBD 影音串流之肢體表情語言表現評估 - 政大學術集成 (頁 16-0)

第一章 緒論

1.2 論文架構

國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

1.2. 論文架構

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

第二章

相關研究

2.1. 文獻探討

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

2.2. 工具探討

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

第三章

研究方法

3.1. 基本構想

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

第一章緒論

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學