• 沒有找到結果。

第二章 相關研究

2.2 工具探討

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

家告訴你關於肢體語言的事,很多都是錯的」[10]。關於讀取肢體語言只需憑直 覺的看法,和 Pentland 不謀而合。Pentland 認為,因為有些肢體語言基於隱藏真 實意圖的目的,被人們有意識地在溝通中頻繁使用,於是不能依賴這些訊息作 為誠實訊息(honest signals);而必須去觀察那些經由潛意識、或是那些無法控 制的訊息,它們才是最誠實的[11]。

基於認同這樣的看法,不採用根據專家們對於肢體語言意涵的見解,不嘗 試訂定明確的規則,而是援引普羅大眾的直覺,來訓練機器學習大眾的直覺結 論,作為本論文的實作理論基礎。

2.2. 工具探討

前述提及,自 Kinect 感測器上市以來,在各種領域的相關應用與研究,如 雨後春筍般地蓬勃發展。例如 Pasch 等學者則使用 Kinect SDK 所提供的骨架資 料,嘗試建立一套與情緒相關的肢體語言語料庫[12]。

圖 2.3、van Teijlingen 等學者應用 Xsens Body Suit 及 Kinect 感測器資料,以感知 使用者行為[14]

另外,van Teijlingen 等學者,則同時使用 Xsens MVN suit[13]及 Kinect 感測 器的資料,作為兩種感知使用者行為的裝置,在將兩者資料對應之後,並以 SVM(support vector machine)對動作的一連串模式資料進行分類,以判斷使用 者正在進行的行為[14]。相較於 Xsens 的穿戴式追踪裝置對使用者的不便感覺,

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

在這裡,Kinect 感測器作為較低精確度的、較不干擾使用者的補充方案。圖 2.3 描述了該研究的主要處理流程。

關於 Kinect SDK 所提供的骨架資料的概觀,如下圖 2.4 所示。此外,由於 Kinect 同時最多可以追踪到兩位不同的使用者,對於已偵測到的使用者,可以 編號(ID)判別是誰的骨架資料,進行特定使用者的骨架追踪[6]。詳細的骨架 資 料 及 其 節 點 的 狀 態 、 使 用 時 機 、 以 及 應 用 程 式 介 面 的 範 例 , 都 記 載 在 MSDN。

圖 2.4、Kinect SDK 提供的骨架資料[6],其中包含使用者的 20 個身體節點資訊

至於 Kinect SDK 提供的臉部辨識功能[5],其中令人相當激賞的,便是 3D 臉部模型的相關功能。除了偵測基本的頭部角度(俯仰、滾動、和搖擺)以外,

對於臉部表情,則有動畫單元(Animation Units)以及形狀單元(Shape Units)

可供應用。只是,對於一個特定的使用者,形狀單元需要花費約 2 分鐘的時 間,才能訓練完成並取得。

相較形狀單元,動畫單元則即時地提供了簡單的臉部表情的描述特徵。如 表 2.1 所列,雖然僅僅只有 Candide3 model 裡所定義的動畫單元中的 6 個單元,

其中 2 個關於眉毛的形狀,4 個關於嘴巴的形狀及嘴唇的位置,已經可以重點描

Illustration AU Value Interpretation

Neutral Face

(all AUs 0)

AU0 – Upper Lip Raiser

(In Candid3 this is AU10)

0=neutral, covering teeth 1=showing teeth fully -1=maximal possible pushed down lip

AU1 – Jaw Lowerer (In Candid3 this is AU26/27)

0=closed 1=fully open -1= closed, like 0

AU2 – Lip Stretcher (In Candid3 this is AU20)

0=neutral

1=fully stretched (joker’s smile) -0.5=rounded (pout)

-1=fully rounded (kissing mouth) AU3 – Brow Lowerer

(In Candid3 this is AU4)

0=neutral

-1=raised almost all the way +1=fully lowered (to the limit of the eyes)

AU4 – Lip Corner Depressor

(In Candid3 this is AU13/15)

0=neutral

-1=very happy smile +1=very sad frown

AU5 – Outer Brow Raiser

(In Candid3 this is AU2)

0=neutral

-1=fully lowered as a very sad face

+1=raised as in an expression of deep surprise

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

Kinect 感測器內建麥克風陣列,提供開發者判斷聲音來源方向等資訊,而 Kinect SDK 對於語音的支援,則視 Kinect 感測器為一標準的聲音輸入裝置,開 發者只要藉由 Kinect SDK 取得 DMO(DirectX Media Object)物件,則可進行各 種對於聲音資料的操作,例如錄音、或者畫出聲波[15]等。

以上文獻及工具的探討,勾勒出大致的輪廓,對於處理相關議題的方法及技 術,提供較清楚且有效率的方向,讓我們有更多餘力以處理關鍵的問題。下一章,

我們將更著重在本研究中提出的關鍵議題:「簡報」的表現及其評估方法。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

第三章

研究方法

在本章節中,我們將聚焦在「簡報」這個場域,根據現階段可用的工具及技 術,選取可用的指標,並提出基本構想。接下來進行前期研究,然後依照結 果,評估基本構想的可行性。最後基於構想,設計出研究的架構、預想研究執 行的細節,以及預計取得的目標。

3.1. 基本構想

在認知或行為心理學領域中,經常計算反應時間(response time),其定義 為:從對人們呈現刺激後,到人們作出反應、或者到作出某個指定動作之間的 時距。這一類透過反應時間作為量測人們的心理運作過程、或用來推估認知模 式的指標的研究,稱之為心理測時(mental chronometry)。反應時間的長短,通 常也與刺激(如實驗者要求的作業)或是反應(如實驗者指定的動作)的複雜度 呈現正相關。Posner 在研究中[16] (如圖 3.1 所示),利用腦電波儀(EEG)以及 功能性核磁共振攝影(fMRI),計算不同的作業所耗費的反應時間,以及在大 腦中活化的區域部位。由圖 3.1 可以得知,更正錯誤是其中最耗時的作業。

圖 3.1、Posner 對不同作業的反應時間、以及所活化大腦區域的研究[16]

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

那麼,如果我們錄下簡報者做簡報的影片,而後提供簡報影片,讓人們在 觀看的同時,依照直覺判斷好惡,並因好惡而作出反應,將他們的反應記錄下 來後,我們是否就可以宣稱,在人們的反應時間內,對應到簡報影片中的表現 模式,即為反應人們好惡的表現模式?這也是本論文最初的發想,詳見圖 3.2。

圖 3.2、利用反應時間,評估喜歡/不喜歡的簡報影片片段

然而,由於個體差異,就算再簡單的作業,每個人的反應時間也都不同。

不過,如果我們可以接受些許的誤差,其實不需要精確的反應時間,反而為了 取得大眾對於好惡的共識,應該以最大可容忍的反應時間為基準。以下再深入 拆解整個決策過程,以便估計整個動作耗費的反應時間。

圖 3.3、評估片段的決策過程

如圖 3.3 所示,我們想要估計四段反應時間,t1、t2、t3、t4 為藍色線段所 標示的時距。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

t1: 因為簡報是影片而非圖片,是包含各種特徵變動的時間序列,人們欲 表示喜歡/不喜歡的表情、動作、或聲音,需要有充分展示的時間,

才有機會被觀看者理解及評估。而且,影片中的簡報者同樣也面臨有 刺激(如現場問問題)以及需要作出反應(回應),所估計的則是簡報 者的反應時間。

t2: 在看完一段影片之後,對簡報者的表現模式在大腦中已經做出結論,

其間所耗費的時距。

t3: 從大腦發送訊號,指揮手部進行鍵盤按鍵或滑鼠的反應時間。

t4: 按下 鍵盤按鍵或滑鼠後 ,到電腦 接受輸入而記錄影片該點的時間戳 記。因為 t4 純粹是電腦的反應時間,所以視為極短而忽略不計,並且 就以記錄的時間戳記做為使用者完成整個評估動作的結束時間。

在這裡可以估計的是 t2 及 t3。鑑於此心理決策的複雜程度,以及未來的評 估系統平台選擇用網頁呈現的緣故,我們參考了 Goldberg 等學者在一個關於 Fitts' 定律(Fitts' Law)的研究中[17],其中最複雜的變動圓(Var Circles)測試的 資料集。所有測試反應時間平均值為 862 毫秒,標準差為 287 毫秒。故 t2、t3 的總和,以其平均數加一個標準差以內的值(1149 ms)作為最大可容忍的反應 時間來估計,約為 1 秒。

至於 t1 則比較難估計,雖然不是所有的簡報場合,都會有在場者問問題(提 供刺激)或回應問題的情景,但一整場的簡報時段,還是可以分解成是對簡報者 進行一 次次「刺激-反應 」測試的總和。 是以在此假定簡報 者的反應時 間 t1=t2+t3,也就是約取 1 秒,作為簡報者表現的取樣長度。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

總結上述推論,我們可以用最後人們因評估決定而動作所記錄下來的時間 戳記,往前回推 2 秒,認定期間出現的任意行為模式,作為反應人們評估意見 的表現模式。以下便開始研究試作此基本構想。

3.2. 前期研究

以下將細分四個小節,介紹在前期研究中,所涉的相關實作技術,包括:

錄製影音檔,並儲存相關特徵;影片格式轉換;取出影片中的聲音,分析其特 徵,及偵測特定聲音事件;以及使用網頁技術呈現影片,並試作使用者介面及 需求功能,等部分。取得這些成果,有助於將基本構想,實作在研究及應用之 上。

3.2.1. 錄製影音檔,並儲存相關特徵

已知 Kinect 感測器為一具備彩色攝影機、深度攝影機、以及麥克風陣列的 影音擷取裝置,使用 Kinect SDK 便可完成錄影功能。另外 Kinect SDK 也提供了 取出 3D 臉部模型的頂點、繪製在影像串流上的範例程式[5],經由改寫該範例 程式後,將繪製的結果錄成影片,用來觀察 Kinect SDK 所提供的臉部頂點是否 準確,如圖 3.4 所示。

圖 3.4、以觀察除錯的目的而錄製的影片,並且在過程中確認 Kinect SDK 所提供 的 3D 臉部模型其精確度及穩定度

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

除了錄影功能外,為了日後在分析行為模式時,有更多面向的選擇,我們 需要另外儲存 Kinect SDK 所提供的深度資訊,諸如動畫單元、骨架資料、以及 3D 臉部頂點資訊。在儲存這些額外資訊時,另加上當時的時間戳記,日後便可 藉由相對的時間戳記,取出對應的特徵資訊,以進行研究分析及應用。圖 3.5 是 和影片一起儲存的動畫單元序列。在儲存檔案時,檔名包含開始錄影時的時間 戳記,如此一來便可由動畫單元的檔名,對應到特定的影片檔。

圖 3.5、一個儲存 Kinect SDK 的動畫單元資訊範例。此外還另存有骨架資訊,以 及 3D 臉部頂點資訊,每筆資料都附帶當時產生的時間戳記,以供後續資料分析。

然而,由於現階段執行 Kinect 感測器應用程式,相當耗費系統資源,連帶 使得錄影等儲存工作,變得相當依賴執行平台的性能。在錄影時為求不增加系 統負擔,選擇不壓縮影音資料,直接儲存為 avi(audio video interleave)檔案,

其中,預設的影像為解析度 640x480 的 32bits RGBA 格式,而聲音則為 16k 取樣 頻率、16bits 位元深度、單聲道的 PCM(pulse-coded modulation)格式。但這樣 一來,在後續的利用,尤其欲將影片以網頁呈現時,必須再做格式轉換,否則 將面臨影片檔案太大(以致等待時間太久),以及瀏覽器所支援播放相容性等等

其中,預設的影像為解析度 640x480 的 32bits RGBA 格式,而聲音則為 16k 取樣 頻率、16bits 位元深度、單聲道的 PCM(pulse-coded modulation)格式。但這樣 一來,在後續的利用,尤其欲將影片以網頁呈現時,必須再做格式轉換,否則 將面臨影片檔案太大(以致等待時間太久),以及瀏覽器所支援播放相容性等等