第一章 緒論
1.2 論文架構
國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
3. 我們也提出,由大眾評估資料所取得的影音表現特徵模式,可以透過機 器學習、建立模型的方法,預測簡報時的表現模式,並由現有資料驗證 其模型的可用性。
4. 我們應用上述機器學習的結果,實作出一原型應用程式,用以預測簡報 者的表現,其評估結果符合大眾直覺之判斷。
1.2. 論文架構
本論文架構如下所述。在第二章的相關研究中,我們將會概觀地探討近年來 利用影音技術所進行肢體語言的相關議題,以及基於 Kinect 感測器或其他感測 技術的研究。在第三章的研究方法中,首先針對簡報這個場景,提出本研究的基 本構想,接下來簡單地展示基於此構想所做的前期研究,以及在得到初步的成果 後,設計研究架構,並且設定預期的目標。在第四章,將詳細地描述研究的資料 蒐集與其過程,簡介所使用的分析工具,以及研究結果的分析。第五章則將說明,
如何將第四章所得到的研究結果與分析,實作為 Kinect 應用程式,並展示使用 範例。最後在第六章中,本論文對所實作的系統做一個簡單的結論,並且提出未 來可能繼續研究發展的方向。
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
第二章
相關研究
在本章節中,我們從兩個方向,進行相關研究之探討。其一是對於近年來利 用影音技術,所進行肢體語言或人際互動等研究之文獻探討;另一方面,則基於 Kinect 感測器或其他感測技術,所應用範圍之工具探討。我們可以一窥現今在肢 體語言及其擷取技術相關領域的進展概況。
2.1. 文獻探討
在電腦視覺領域中,臉部辨識的技術已經發展了相當長的時間。而表情/
情緒計算及辨識(affective computing)的應用,則必須仰賴臉部辨識高精準度,
及其相關技術的成熟。麻省理工學院媒體實驗室(MIT Media Laboratory)的 Hoque 等學者,則因應應屆畢業生面談的需求,開發一套可訓練對話技巧的虛 擬教練系統 MACH(My Automated Conversation coacH)[8]。一開始,他們請兩 位在面談領域的專家,對所有受試者們的模擬面談,進行專家評估問卷,加上 受試者自我評估問卷,作為訓練前的對照組。劃入使用 MACH 系統訓練組的受 試者,被規定至少使用一次 MACH 訓練面談技巧(最多則不限次數),之後再 次進行模擬面談,進行訓練後的專家評估問卷(再加上受試者的自我評估問 卷)。由評估結果是否進步,觀察 MACH 的訓練是否有效。
如圖 2.1 所示,MACH 衡量對話行為的基礎,由三個部分構成:臉部表情 處理(點頭/搖頭次數、笑的計數)、聲韻分析(音量、音調、停頓次數)、以 及語音識別(說話速度、填充字辨識)。受試者行為經過分析後,由 3D 虛擬教 練根據設定的規則做出反應,如此持續反覆到面談訓練結束。整個 MACH 對話
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
訓練的過程所分析之受試者的行為,以圖形化的呈現回饋給受試者,以作為檢 討改進的依據。
圖 2.1、MIT MACH 對話訓練系統[8]的運作流程
S. Feese 等人在關於三人會議的研究中,則針對語音及動作資料進行處理 [9]。在語音部分的處理流程,如圖 2.2 所示,先根據不同參與者分割聲音,再 取得對話的切片,最後再根據幾種語音的線索,進行集群分析。其中語音的線 索包括:說話的總共時間長度、簡短發言的次數、以及過場的間距長度。每個 會議對話的長度為 2 分鐘,他們假設,一段話平均約為 30 秒鐘,而 2 分鐘可讓 每個人至少說完兩段話。至於動作資料,他們則單純地針對參與者的頭部方 向,進行集群分析。實驗結果表明,對於語音的集群結果,顯示出有意義的小 組領導力及高效率。相較於聲音的集群穩定結果,動作資料的集群結果則顯示 不穩定,研究者認為這是因為動作資料的不足所導致。
圖 2.2、S. Feese 等人的三人會議研究[9],對於語音的處理流程
然而,有其他對於肢體語言分析作法的不同意見。例如富比世專欄作家 Morgan 即在文章中指出,「要精確地讀取肢體語言,就是憑直覺」,而且,「專
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
家告訴你關於肢體語言的事,很多都是錯的」[10]。關於讀取肢體語言只需憑直 覺的看法,和 Pentland 不謀而合。Pentland 認為,因為有些肢體語言基於隱藏真 實意圖的目的,被人們有意識地在溝通中頻繁使用,於是不能依賴這些訊息作 為誠實訊息(honest signals);而必須去觀察那些經由潛意識、或是那些無法控 制的訊息,它們才是最誠實的[11]。
基於認同這樣的看法,不採用根據專家們對於肢體語言意涵的見解,不嘗 試訂定明確的規則,而是援引普羅大眾的直覺,來訓練機器學習大眾的直覺結 論,作為本論文的實作理論基礎。
2.2. 工具探討
前述提及,自 Kinect 感測器上市以來,在各種領域的相關應用與研究,如 雨後春筍般地蓬勃發展。例如 Pasch 等學者則使用 Kinect SDK 所提供的骨架資 料,嘗試建立一套與情緒相關的肢體語言語料庫[12]。
圖 2.3、van Teijlingen 等學者應用 Xsens Body Suit 及 Kinect 感測器資料,以感知 使用者行為[14]
另外,van Teijlingen 等學者,則同時使用 Xsens MVN suit[13]及 Kinect 感測 器的資料,作為兩種感知使用者行為的裝置,在將兩者資料對應之後,並以 SVM(support vector machine)對動作的一連串模式資料進行分類,以判斷使用 者正在進行的行為[14]。相較於 Xsens 的穿戴式追踪裝置對使用者的不便感覺,
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
在這裡,Kinect 感測器作為較低精確度的、較不干擾使用者的補充方案。圖 2.3 描述了該研究的主要處理流程。
關於 Kinect SDK 所提供的骨架資料的概觀,如下圖 2.4 所示。此外,由於 Kinect 同時最多可以追踪到兩位不同的使用者,對於已偵測到的使用者,可以 編號(ID)判別是誰的骨架資料,進行特定使用者的骨架追踪[6]。詳細的骨架 資 料 及 其 節 點 的 狀 態 、 使 用 時 機 、 以 及 應 用 程 式 介 面 的 範 例 , 都 記 載 在 MSDN。
圖 2.4、Kinect SDK 提供的骨架資料[6],其中包含使用者的 20 個身體節點資訊
至於 Kinect SDK 提供的臉部辨識功能[5],其中令人相當激賞的,便是 3D 臉部模型的相關功能。除了偵測基本的頭部角度(俯仰、滾動、和搖擺)以外,
對於臉部表情,則有動畫單元(Animation Units)以及形狀單元(Shape Units)
可供應用。只是,對於一個特定的使用者,形狀單元需要花費約 2 分鐘的時 間,才能訓練完成並取得。
相較形狀單元,動畫單元則即時地提供了簡單的臉部表情的描述特徵。如 表 2.1 所列,雖然僅僅只有 Candide3 model 裡所定義的動畫單元中的 6 個單元,
其中 2 個關於眉毛的形狀,4 個關於嘴巴的形狀及嘴唇的位置,已經可以重點描
‧
Illustration AU Value Interpretation
Neutral Face
(all AUs 0)
AU0 – Upper Lip Raiser
(In Candid3 this is AU10)
0=neutral, covering teeth 1=showing teeth fully -1=maximal possible pushed down lip
AU1 – Jaw Lowerer (In Candid3 this is AU26/27)
0=closed 1=fully open -1= closed, like 0
AU2 – Lip Stretcher (In Candid3 this is AU20)
0=neutral
1=fully stretched (joker’s smile) -0.5=rounded (pout)
-1=fully rounded (kissing mouth) AU3 – Brow Lowerer
(In Candid3 this is AU4)
0=neutral
-1=raised almost all the way +1=fully lowered (to the limit of the eyes)
AU4 – Lip Corner Depressor
(In Candid3 this is AU13/15)
0=neutral
-1=very happy smile +1=very sad frown
AU5 – Outer Brow Raiser
(In Candid3 this is AU2)
0=neutral
-1=fully lowered as a very sad face
+1=raised as in an expression of deep surprise
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
Kinect 感測器內建麥克風陣列,提供開發者判斷聲音來源方向等資訊,而 Kinect SDK 對於語音的支援,則視 Kinect 感測器為一標準的聲音輸入裝置,開 發者只要藉由 Kinect SDK 取得 DMO(DirectX Media Object)物件,則可進行各 種對於聲音資料的操作,例如錄音、或者畫出聲波[15]等。
以上文獻及工具的探討,勾勒出大致的輪廓,對於處理相關議題的方法及技 術,提供較清楚且有效率的方向,讓我們有更多餘力以處理關鍵的問題。下一章,
我們將更著重在本研究中提出的關鍵議題:「簡報」的表現及其評估方法。
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
第三章
研究方法
在本章節中,我們將聚焦在「簡報」這個場域,根據現階段可用的工具及技 術,選取可用的指標,並提出基本構想。接下來進行前期研究,然後依照結 果,評估基本構想的可行性。最後基於構想,設計出研究的架構、預想研究執 行的細節,以及預計取得的目標。
3.1. 基本構想
在認知或行為心理學領域中,經常計算反應時間(response time),其定義 為:從對人們呈現刺激後,到人們作出反應、或者到作出某個指定動作之間的 時距。這一類透過反應時間作為量測人們的心理運作過程、或用來推估認知模 式的指標的研究,稱之為心理測時(mental chronometry)。反應時間的長短,通 常也與刺激(如實驗者要求的作業)或是反應(如實驗者指定的動作)的複雜度 呈現正相關。Posner 在研究中[16] (如圖 3.1 所示),利用腦電波儀(EEG)以及 功能性核磁共振攝影(fMRI),計算不同的作業所耗費的反應時間,以及在大 腦中活化的區域部位。由圖 3.1 可以得知,更正錯誤是其中最耗時的作業。
圖 3.1、Posner 對不同作業的反應時間、以及所活化大腦區域的研究[16]
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
那麼,如果我們錄下簡報者做簡報的影片,而後提供簡報影片,讓人們在 觀看的同時,依照直覺判斷好惡,並因好惡而作出反應,將他們的反應記錄下 來後,我們是否就可以宣稱,在人們的反應時間內,對應到簡報影片中的表現 模式,即為反應人們好惡的表現模式?這也是本論文最初的發想,詳見圖 3.2。
圖 3.2、利用反應時間,評估喜歡/不喜歡的簡報影片片段
然而,由於個體差異,就算再簡單的作業,每個人的反應時間也都不同。
不過,如果我們可以接受些許的誤差,其實不需要精確的反應時間,反而為了 取得大眾對於好惡的共識,應該以最大可容忍的反應時間為基準。以下再深入 拆解整個決策過程,以便估計整個動作耗費的反應時間。
圖 3.3、評估片段的決策過程
如圖 3.3 所示,我們想要估計四段反應時間,t1、t2、t3、t4 為藍色線段所 標示的時距。
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
t1: 因為簡報是影片而非圖片,是包含各種特徵變動的時間序列,人們欲 表示喜歡/不喜歡的表情、動作、或聲音,需要有充分展示的時間,
t1: 因為簡報是影片而非圖片,是包含各種特徵變動的時間序列,人們欲 表示喜歡/不喜歡的表情、動作、或聲音,需要有充分展示的時間,