基於 RGBD 影音串流之肢體表情語言表現評估 - 政大學術集成

全文

(1)國立政治大學資訊科學系 Department of Computer Science National Chengchi University 碩士論文 Master’s Thesis. 立. 政治大. ‧ 國. 學. 基於 RGBD 影音串流之肢體表情語言表現評估. ‧. Estimation and Evaluation of Body Language. Nat. n. al. er. io. sit. y. Using RGBD Data. Ch. engchi. i n U. v. 研究生：吳怡潔指導教授：廖文宏. 中華民國一百零三年七月 July 2014.

(2) 基於 RGBD 影音串流之肢體表情語言表現評估 Estimation and Evaluation of Body Language Using RGBD Data. 研究生：吳怡潔. Student：Yi-Chieh Wu. 指導教授：廖文宏. 立. Advisor：Wen-Hung Liao 治政大. ‧ 國. 資訊科學系. 學. 國立政治大學. sit. io. A Thesis. er. Nat. y. ‧. 碩士論文. n. submitted to a lDepartment of Computer v Science i n C hChengchi University National U i e. ngch. in partial fulfillment of the Requirements for the degree of Master in Computer Science. 中華民國一百零三年七月 July 2014.

(3) 立. 政治大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v.

(4) 立. 政治大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v.

(5) 基於 RGBD 影音串流之肢體表情語言表現評估. 摘要. 本論文基於具備捕捉影像深度的 RGBD 影音串流裝置－Kinect 感測器，在簡報場域中，作為擷取簡報者肢體動作、表情、以及語言表現. 治政模式的設備。首先我們提出在特定時段內的表現模式，可以經由大眾大立 ‧ 國. 學. 的評估，而具有喜歡／不喜歡的性質，我們將其分別命名為 Period of Like(POL)以及 Period of Dislike(POD)。論文中並以三種 Kinect SDK. ‧. 所提供的影像特徵：動畫單元、骨架關節點、以及 3D 臉部頂點，輔. sit. y. Nat. 以 35 位評估者所提供之評估資料，以 POD/POL 取出的特徵模式，. er. io. n. al 分析是否具有一致性，以及是否可用於未來預測。最後將研究結果開 iv n U engchi 發應用於原型程式，期許這樣的預測系統，能夠為在簡報中表現不佳. Ch. 而困擾的人們，提點其優劣之處，以作為後續改善之依據。. 關鍵字：肢體語言; RGBD Kinect 感測器; 表現評估; 聲音處理; 模式分類。.

(6) Estimation and Evaluation of Body Language Using RGBD Data. Abstract. In this thesis, we capture body movements, facial expressions, and voice data of subjects in the presentation scenario using RGBD-capable Kinect. 政治大 indicate their preferences/aversions to the presentation style. We denote 立. sensor. The acquired videos were accessed by a group of reviewers to. the two classes of ruling as Period of Like (POL) and Period of Dislike. ‧ 國. 學. (POD), respectively. We then employ three types of image features,. ‧. namely, animation units (AU), skeletal joints, and 3D face vertices to. sit. y. Nat. analyze the consistency of the evaluation result, as well as the ability to. io. er. classify unseen footage based on the training data supplied by 35 evaluators. Finally, we develop a prototype program to help users to. al. n. v i n C h during their presentation identify their strength/weakness so that they can engchi U improve their skills accordingly.. Keywords: Body language; RGBD Kinect sensor; performance evaluation; audio processing; pattern classification..

(7) 致謝辭感謝我的指導教授廖文宏老師，除了在課堂上得到許多豐富寶貴的知識以外，也讓我體會到他在研究上嚴謹的要求以及耐心的指導，使得在這些年的學習過程中，不但充分滿足了求知慾，也更加了解獲得知識的方法及態度。. 政治大另外感謝廖文宏老師所開課程「數位系統導論」班上的 33 位未立. ‧ 國. 學. 曾謀面的大學部同學、以及我的主管許文賢先生、大學室友莊瑩珍小. ‧. 姐、專班同學陳巧如小姐、吳坤螢先生、學長許志毓先生、劉嘉瑜先. sit. y. Nat. 生、辜致翔先生，在本研究中提供了他們的寶貴意見、簡報錄影、以. er. io. 及時間。在口試過程中，感謝口試委員唐政元教授及紀明德教授，給. n. a. v. l C 予我很多的想法與建議，使我的論文內容更加完善。 ni. hengchi U. 最後要特別感謝外子，在這段過程中提供了語音處理相關技術的諮詢顧問，並協助家務及育嬰，至此讓我完成了願望，願將這份成就獻給他。.

(8) 目錄第一章. 緒論 .............................................................................................................. 1. 1.1. 研究動機 ..................................................................................................... 1. 1.2. 論文架構 ..................................................................................................... 4. 第二章. 相關研究 ...................................................................................................... 5. 2.1. 文獻探討 ..................................................................................................... 5. 第三章. 研究方法 .................................................................................................... 11. 3.1. 基本構想 ................................................................................................... 11. 3.2. 前期研究 ................................................................................................... 14. ‧. ‧ 國. 學. 2.2. 治政大工具探討 ..................................................................................................... 7 立. 錄製影音檔，並儲存相關特徵.................................................................................. 14. 3.2.2. 影片格式轉換 ............................................................................................................. 16. 3.2.3. 取出影片中的聲音，分析其特徵，及偵測特定聲音事件 ...................................... 16. 3.2.4. 使用網頁技術呈現影片，並試作使用者介面及需求功能 ...................................... 21. y. sit. n. al. er. io. 3.3. Nat. 3.2.1. Ch. engchi. i n U. v. 研究架構設計 ........................................................................................... 22. 3.3.1. 問題陳述 ..................................................................................................................... 22. 3.3.2. 研究架構 ..................................................................................................................... 22. 3.3.3. 研究分析工具 ............................................................................................................. 23. 3.3. 目標設定 ................................................................................................... 24. 第四章. 研究過程與結果分析 ............................................................................... 25. 4.1. 研究過程 ................................................................................................... 25. 4.1.1. 小量測試評估階段 ..................................................................................................... 25. 4.1.2. 實驗者自行測試評估階段.......................................................................................... 27. 4.1.3. 大量正式評估階段 ..................................................................................................... 28. 4.2. 分析項目 ................................................................................................... 29.

(9) 4.2.1. 動畫單元特徵模式 ..................................................................................................... 29. 4.2.2. 骨架關節點位置差值（Skeletal Joints Position Difference）特徵模式................... 31. 4.2.3. 3D 臉部頂點位置差值（3D Vertex Position Difference）特徵模式 ....................... 32. 4.2.4. 聲音事件命中率 ......................................................................................................... 33. 4.3. 可用性分析 ............................................................................................... 34. 4.3.1. 檢驗動畫單元特徵模式的共識程度.......................................................................... 35. 4.3.2. 檢驗骨架關節點位置差值特徵模式的共識程度 ...................................................... 38. 4.3.3. 檢驗 3D 臉部位置差值特徵模式的共識程度 ........................................................... 40. 4.3.4. 檢驗聲音事件的共識程度.......................................................................................... 41. 4.3.5. 喜歡／不喜歡的表現模式，機器能否學習並預測？ .............................................. 43. 第五章. 研究結果之應用 ....................................................................................... 55. 5.1. 基於研究結果之應用 .............................................................................. 55. 5.2. 應用實例 ................................................................................................... 56. 第六章. 結論與未來研究方向 ............................................................................... 59. 5.1. 結論 ........................................................................................................... 59. 5.2. 未來研究方向 ........................................................................................... 59. 立. 政治大. ‧. ‧ 國. 學. sit. y. Nat. al. er. io. 參考文獻 ........................................................................................................................... 61. n. v i n Ch 附錄 ................................................................................................................................... 65 engchi U.

(10) 圖目錄圖 1.1：Kinect for Windows 教育版 ............................................................................... 2 圖 2.1：MIT MACH 對話訓練系統的運作流程 ........................................................... 6 圖 2.2：S. Feese 等人的三人會議研究 .......................................................................... 6 圖 2.3：van Teijlingen 等人應用 Xsens Body Suit 及 Kinect 感測器資料，以感知使用者行為 ............................................................................................................................. 7. 政治大圖 2.4：Kinect SDK 提供的骨架資料 ............................................................................ 8 立. ‧ 國. 學. 圖 3.1：Posner 的研究 .................................................................................................... 11. ‧. 圖 3.2：利用反應時間，評估喜歡／不喜歡的簡報影片片段 ................................. 12. sit. y. Nat. 圖 3.3：評估片段的決策過程 ....................................................................................... 12. n. al. er. io. 圖 3.4：以觀察除錯的目的而錄製的影片 .................................................................. 14. Ch. i n U. v. 圖 3.5：儲存 Kinect SDK 的動畫單元資訊 ................................................................. 15. engchi. 圖 3.6：「testepd」端點偵測測試程式 ....................................................................... 17 圖 3.7：試作評估平台的使用者介面，以及需求功能.............................................. 21 圖 3.8：研究架構 ............................................................................................................ 22 圖 4.1：小量測試評估系統網站 ................................................................................... 26 圖 4.2：實驗者自行測試評估系統網站....................................................................... 27 圖 4.3：大量正式評估系統網站 ................................................................................... 29.

(11) 圖 4.4：影片 66687244 的動畫單元分布圖 ................................................................ 30 圖 4.5：4 個影片的 3D 臉部頂點位置分布圖 ............................................................ 33 圖 4.6：實驗者自行測試評估階段之聲音事件命中率比較 ..................................... 41 圖 4.7：大量正式評估階段以評估者分組之聲音事件命中率折線圖..................... 43 圖 5.1：表現評估預測系統之架構圖 ........................................................................... 55 圖 5.2：表現評估預測系統之原型程式....................................................................... 57 圖 5.3：表現評估預測系統執行期間的記錄檔 .......................................................... 57. 立. 政治大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v.

(12) 表目錄表 2.1：Kinect SDK 提供的 6 個動畫單元 .................................................................... 9 表 3.1：A 組偵測非結束停頓；B 組偵測其他事件 .................................................. 19 表 4.1：影片 12 的骨架關節點各向度位置的已追踪比例 ....................................... 31 表 4.2：和 POD/POL 取交集後所計算的聲音事件命中率 ....................................... 34. 政治大. 表 4.3：關節點位置差值模式的 DTW 距離統計結果比較 ...................................... 39. 立. 表 4.4：3D 臉部頂點位置差值項目中，平均 DTW 距離比基準值小的組別 ....... 40. ‧ 國. 學. 表 4.5：動畫單元特徵模式之分三類結果 .................................................................. 44. ‧. 表 4.6：骨架關節點位置差值特徵模式之分三類結果.............................................. 45. y. Nat. al. er. io. sit. 表 4.7：3D 臉部位置差值特徵模式之分三類結果 .................................................... 46. n. 表 4.8：動畫單元特徵模式之分二類結果 .................................................................. 47. Ch. engchi. i n U. v. 表 4.9：骨架關節點位置差值特徵模式之分二類結果.............................................. 48 表 4.10：3D 臉部位置差值特徵模式之分二類結果 .................................................. 49 表 4.11：動畫單元特徵模式之 POD/POL 二元分類結果 ......................................... 50 表 4.12：骨架關節點位置差值特徵模式之 POD/POL 二元分類結果 .................... 51 表 4.13：3D 臉部位置差值特徵模式之 POD/POL 二元分類結果 .......................... 52.

(13) 第一章緒論 1.1. 研究動機在我們的日常經驗中，偶爾會看到內容空泛重覆的演說，但台下觀眾的反應卻非常熱烈；更經常看到準備充分、內容言之有物的演說，然而觀眾們卻不. 政治大. 感興趣、甚至出現昏昏欲睡的現象。當然，影響觀眾情緒、注意力的因素眾. 立. 多，坊間也有不少如何精簡簡報流程、加強演說內容等教戰手冊出版，提供需. ‧ 國. 學. 要者參考應用。只是，專家們即便提及肢體語言表現在類似演說簡報這種溝通場合中的重要性，肢體語言本身卻似乎沒有一套放諸四海的準則。Rachael Jack. ‧. 在研究[1]中也有類似的觀察，其結論指出，除了笑容可以在跨文化受試者的感. Nat. sit. y. 受中得到共識以外，其他例如驚訝、恐懼、厭惡與憤怒的臉部表情，對於跨文. n. al. er. io. 化受試者的感知，卻沒有辦法得出一致的類別，即無共識。. Ch. i n U. v. 然而，排除跨文化的因素，人們是否能利用肢體語言有效溝通？換言之，. engchi. 是否能夠用非語言的表達方式透露訊息，抑或能夠讀取他人所表達的「言外之意」？很多研究結果顯示，人們具備以非口語方式準確傳達特定的意圖之能力，也能從他人的非語言表現中解讀訊息。例如 Pentland 在「Honest Signals」一書中，即提出 sociometer（以下皆譯作社交儀表）的概念[2]，社交儀表是一種作用在無需使用語言的溝通頻道的裝置。他並指出，很多情境下，包括像協調、推銷、約會、團隊共事等人際互動場合，可以藉由量度社交儀表作為指標，觀察人們所發送的訊息，準確預測人們如何行動，以及後續的發展結果。他們的研究並發現，特定類型的訊息和任務是否成功有著密切的關聯性。. 1.

(14) 那麼，一般人們認知中的肢體語言（body language），究竟涵蓋了哪些範圍，由哪些部分所構成的呢？根據牛津線上英文辭典[3]的定義，肢體語言是「用以傳達態度及感情的有意識及無意識的動作及姿勢」（The conscious and unconscious movements and postures by which attitudes and feelings are communicated）。一般則認為，身體姿勢及動作、手勢動作、臉部表情、以及眼神動作，是構成肢體語言的幾個主要因素；另外還有說話的音調高低、以及速度快慢，也是在分析肢體語言時會關注的幾個項目。綜合以上看法，現階段有哪些工具或技術，可以為我們方便地取得肢體語. 政治大 RGBD sensor（彩色攝影機搭載深度資訊感測器），或許可以提供部份的解決方立言的基本概況，或者可以取得更進一步的社交儀表的訊息呢？目前正在流行的. ‧ 國. 學. 案。Microsoft 公司所開發的 Kinect 感測器（Kinect Sensor，如圖 1.1 所示），搭配 Xbox 360 問世，掀起銷售熱潮，也進入無須接觸控制器即能操作遊戲介面的. ‧. 體感新時代。而 Microsoft 公司在 2012 年，正式銷售可在 Windows 系統上執行. sit. y. Nat. 的 Kinect 感測器「Kinect for Windows」；軟體方面，Microsoft 公司則在 2011. n. al. er. io. 年釋出 SDK，提供給 Windows 上的應用程式開發者使用[4]。從此，除了 Xbox. v. 的遊戲開發者以外，更多在 Windows 平台上利用 Kinect 感測器的體感應用與相關研究，也於焉興起。. Ch. engchi. i n U. 圖 1.1、Kinect for Windows 教育版 2.

(15) 和一般大眾所熟知的彩色攝影機（RGB camera）相比，Kinect 感測器在機構設計上，加入了深度攝影機（Depth sensor），提供了空間上的深度資訊。基於此深度資訊，Kinect SDK 也提供了臉部追蹤（face tracking）[5]、及骨架追蹤（skeleton tracking）[6]的應用程式介面（API），給開發者更多發揮創意的可能性。相較於傳統專用於臉部辨識的彩色攝影機所需要的高規格，Kinect 感測器在 RGB 攝影機的規格其實並無特出，卻因為具備深度資訊，以及所搭配的建模技術，在臉部辨識方面的精準度確實相當優秀。當然，像這樣新興的 RGBD 感測器，仍在日新月益地發展中。Microsoft 公. 政治大 [7]，已知內載規格更好的深度攝影機，以及宣稱更精準的骨架追蹤。而隨著這立司即預定在 2014 年 7 月，推出 Kinect for windows V2，現正處於預購的階段. ‧ 國. 學. 些 RGBD 裝置的功能、以及所提供的 SDK，在改版更新之後，具備更強的效能和更多功能的支援，但它有沒有辦法提供我們一套表情、肢體、甚至聲音的穩. ‧. 定指標，以便用於追蹤人們與語言無關的表現模式，作為後續分析之用？關於. sit. y. Nat. 這一點，將在後面 2.2 節的「工具探討」中有較深入的闡述。. n. al. er. io. 我們歸納上述對於肢體語言的初步認識，以及透過取得肢體語言的訊息而整. i n U. v. 合了上述 RGBD 感測器的技術，進行了在簡報情境下電腦自動判讀肢體表情優. Ch. engchi. 劣的研究，以下列舉本論文的主要貢獻： 1.. 我們提出經由大眾評估下之特定時段內的簡報者之表現模式，根據 RGBD 串流裝置（Kinect 感測器）所取得的資料，包含影像及聲音的特徵，得以判別喜歡／不喜歡的段落。. 2.. 我們分析並證實，由前述概念所選出的影音特徵模式中，它們之間具有共識。分析資料並顯示，每位簡報者有其獨特的表現模式，而與不同的簡報者之間有個別差異。. 3.

(16) 3.. 我們也提出，由大眾評估資料所取得的影音表現特徵模式，可以透過機器學習、建立模型的方法，預測簡報時的表現模式，並由現有資料驗證其模型的可用性。. 4.. 我們應用上述機器學習的結果，實作出一原型應用程式，用以預測簡報者的表現，其評估結果符合大眾直覺之判斷。. 1.2. 論文架構本論文架構如下所述。在第二章的相關研究中，我們將會概觀地探討近年來. 政治大. 利用影音技術所進行肢體語言的相關議題，以及基於 Kinect 感測器或其他感測. 立. 技術的研究。在第三章的研究方法中，首先針對簡報這個場景，提出本研究的基. ‧ 國. 學. 本構想，接下來簡單地展示基於此構想所做的前期研究，以及在得到初步的成果後，設計研究架構，並且設定預期的目標。在第四章，將詳細地描述研究的資料. ‧. 蒐集與其過程，簡介所使用的分析工具，以及研究結果的分析。第五章則將說明，. Nat. sit. y. 如何將第四章所得到的研究結果與分析，實作為 Kinect 應用程式，並展示使用. n. al. er. io. 範例。最後在第六章中，本論文對所實作的系統做一個簡單的結論，並且提出未來可能繼續研究發展的方向。. Ch. engchi. 4. i n U. v.

(17) 第二章相關研究在本章節中，我們從兩個方向，進行相關研究之探討。其一是對於近年來利用影音技術，所進行肢體語言或人際互動等研究之文獻探討；另一方面，則基於 Kinect 感測器或其他感測技術，所應用範圍之工具探討。我們可以一窥現今在肢體語言及其擷取技術相關領域的進展概況。. 2.1. 文獻探討. 立. 政治大. 在電腦視覺領域中，臉部辨識的技術已經發展了相當長的時間。而表情／. ‧ 國. 學. 情緒計算及辨識（affective computing）的應用，則必須仰賴臉部辨識高精準度，. ‧. 及其相關技術的成熟。麻省理工學院媒體實驗室（MIT Media Laboratory）的 Hoque 等學者，則因應應屆畢業生面談的需求，開發一套可訓練對話技巧的虛. y. Nat. io. sit. 擬教練系統 MACH（My Automated Conversation coacH）[8]。一開始，他們請兩. n. al. er. 位在面談領域的專家，對所有受試者們的模擬面談，進行專家評估問卷，加上. Ch. i n U. v. 受試者自我評估問卷，作為訓練前的對照組。劃入使用 MACH 系統訓練組的受. engchi. 試者，被規定至少使用一次 MACH 訓練面談技巧（最多則不限次數），之後再次進行模擬面談，進行訓練後的專家評估問卷（再加上受試者的自我評估問卷）。由評估結果是否進步，觀察 MACH 的訓練是否有效。如圖 2.1 所示，MACH 衡量對話行為的基礎，由三個部分構成：臉部表情處理（點頭／搖頭次數、笑的計數）、聲韻分析（音量、音調、停頓次數）、以及語音識別（說話速度、填充字辨識）。受試者行為經過分析後，由 3D 虛擬教練根據設定的規則做出反應，如此持續反覆到面談訓練結束。整個 MACH 對話. 5.

(18) 訓練的過程所分析之受試者的行為，以圖形化的呈現回饋給受試者，以作為檢討改進的依據。. 立. 政治大. 圖 2.1、MIT MACH 對話訓練系統[8]的運作流程. ‧ 國. 學. S. Feese 等人在關於三人會議的研究中，則針對語音及動作資料進行處理. ‧. [9]。在語音部分的處理流程，如圖 2.2 所示，先根據不同參與者分割聲音，再取得對話的切片，最後再根據幾種語音的線索，進行集群分析。其中語音的線. y. Nat. io. sit. 索包括：說話的總共時間長度、簡短發言的次數、以及過場的間距長度。每個. n. al. er. 會議對話的長度為 2 分鐘，他們假設，一段話平均約為 30 秒鐘，而 2 分鐘可讓. Ch. i n U. v. 每個人至少說完兩段話。至於動作資料，他們則單純地針對參與者的頭部方. engchi. 向，進行集群分析。實驗結果表明，對於語音的集群結果，顯示出有意義的小組領導力及高效率。相較於聲音的集群穩定結果，動作資料的集群結果則顯示不穩定，研究者認為這是因為動作資料的不足所導致。. 圖 2.2、S. Feese 等人的三人會議研究[9]，對於語音的處理流程然而，有其他對於肢體語言分析作法的不同意見。例如富比世專欄作家 Morgan 即在文章中指出，「要精確地讀取肢體語言，就是憑直覺」，而且，「專 6.

(19) 家告訴你關於肢體語言的事，很多都是錯的」[10]。關於讀取肢體語言只需憑直覺的看法，和 Pentland 不謀而合。Pentland 認為，因為有些肢體語言基於隱藏真實意圖的目的，被人們有意識地在溝通中頻繁使用，於是不能依賴這些訊息作為誠實訊息（honest signals）；而必須去觀察那些經由潛意識、或是那些無法控制的訊息，它們才是最誠實的[11]。基於認同這樣的看法，不採用根據專家們對於肢體語言意涵的見解，不嘗試訂定明確的規則，而是援引普羅大眾的直覺，來訓練機器學習大眾的直覺結論，作為本論文的實作理論基礎。. 立. 2.2. 工具探討. 政治大. ‧ 國. 學. 前述提及，自 Kinect 感測器上市以來，在各種領域的相關應用與研究，如雨後春筍般地蓬勃發展。例如 Pasch 等學者則使用 Kinect SDK 所提供的骨架資. ‧. 料，嘗試建立一套與情緒相關的肢體語言語料庫[12]。. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 圖 2.3、van Teijlingen 等學者應用 Xsens Body Suit 及 Kinect 感測器資料，以感知使用者行為[14] 另外，van Teijlingen 等學者，則同時使用 Xsens MVN suit[13]及 Kinect 感測器的資料，作為兩種感知使用者行為的裝置，在將兩者資料對應之後，並以 SVM（support vector machine）對動作的一連串模式資料進行分類，以判斷使用者正在進行的行為[14]。相較於 Xsens 的穿戴式追踪裝置對使用者的不便感覺，. 7.

(20) 在這裡，Kinect 感測器作為較低精確度的、較不干擾使用者的補充方案。圖 2.3 描述了該研究的主要處理流程。關於 Kinect SDK 所提供的骨架資料的概觀，如下圖 2.4 所示。此外，由於 Kinect 同時最多可以追踪到兩位不同的使用者，對於已偵測到的使用者，可以編號（ID）判別是誰的骨架資料，進行特定使用者的骨架追踪[6]。詳細的骨架資料及其節點的狀態、使用時機、以及應用程式介面的範例，都記載在 MSDN。. 立. 政治大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. i n U. v. 圖 2.4、Kinect SDK 提供的骨架資料[6]，其中包含使用者的 20 個身體節點資訊. Ch. engchi. 至於 Kinect SDK 提供的臉部辨識功能[5]，其中令人相當激賞的，便是 3D 臉部模型的相關功能。除了偵測基本的頭部角度（俯仰、滾動、和搖擺）以外，對於臉部表情，則有動畫單元（Animation Units）以及形狀單元（Shape Units）可供應用。只是，對於一個特定的使用者，形狀單元需要花費約 2 分鐘的時間，才能訓練完成並取得。相較形狀單元，動畫單元則即時地提供了簡單的臉部表情的描述特徵。如表 2.1 所列，雖然僅僅只有 Candide3 model 裡所定義的動畫單元中的 6 個單元，其中 2 個關於眉毛的形狀，4 個關於嘴巴的形狀及嘴唇的位置，已經可以重點描 8.

(21) 繪出使用者在說話時，表情的關鍵變化。其他的資訊，諸如取出 3D 臉部模型裡的頂點，以及應用程式介面的範例，都記載在 MSDN 中。表 2.1、Kinect SDK 提供的 6 個動畫單元[5]. Avatar Illustration. AU Name and Value. AU Value Interpretation. Neutral Face (all AUs 0). AU0 – Upper Lip Raiser (In Candid3 this is AU10). 立. teeth 政治 0=neutral, 大 covering 1=showing teeth fully -1=maximal possible pushed down lip. ‧ 國. 學. AU1 – Jaw Lowerer (In Candid3 this is AU26/27). ‧. 0=closed 1=fully open -1= closed, like 0. y. Nat. sit. 0=neutral 1=fully stretched (joker’s smile) -0.5=rounded (pout) -1=fully rounded (kissing mouth). n. al. er. io. AU2 – Lip Stretcher (In Candid3 this is AU20). AU3 – Brow Lowerer (In Candid3 this is AU4). Ch. i n U. v. e n g c h i0=neutral. -1=raised almost all the way +1=fully lowered (to the limit of the eyes). AU4 – Lip Corner Depressor (In Candid3 this is AU13/15). 0=neutral -1=very happy smile +1=very sad frown. AU5 – Outer Brow Raiser (In Candid3 this is AU2). 0=neutral -1=fully lowered as a very sad face +1=raised as in an expression of deep surprise. 9.

(22) Kinect 感測器內建麥克風陣列，提供開發者判斷聲音來源方向等資訊，而 Kinect SDK 對於語音的支援，則視 Kinect 感測器為一標準的聲音輸入裝置，開發者只要藉由 Kinect SDK 取得 DMO（DirectX Media Object）物件，則可進行各種對於聲音資料的操作，例如錄音、或者畫出聲波[15]等。以上文獻及工具的探討，勾勒出大致的輪廓，對於處理相關議題的方法及技術，提供較清楚且有效率的方向，讓我們有更多餘力以處理關鍵的問題。下一章，我們將更著重在本研究中提出的關鍵議題：「簡報」的表現及其評估方法。. 立. 政治大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. 10. i n U. v.

(23) 第三章研究方法在本章節中，我們將聚焦在「簡報」這個場域，根據現階段可用的工具及技術，選取可用的指標，並提出基本構想。接下來進行前期研究，然後依照結果，評估基本構想的可行性。最後基於構想，設計出研究的架構、預想研究執行的細節，以及預計取得的目標。. 立. 3.1. 基本構想. 政治大. ‧ 國. 學. 在認知或行為心理學領域中，經常計算反應時間（response time），其定義. ‧. 為：從對人們呈現刺激後，到人們作出反應、或者到作出某個指定動作之間的. sit. y. Nat. 時距。這一類透過反應時間作為量測人們的心理運作過程、或用來推估認知模. io. er. 式的指標的研究，稱之為心理測時（mental chronometry）。反應時間的長短，通. al. 常也與刺激（如實驗者要求的作業）或是反應（如實驗者指定的動作）的複雜度. n. v i n C h (如圖 3.1 所示)，利用腦電波儀（EEG）以及呈現正相關。Posner 在研究中[16] engchi U 功能性核磁共振攝影（fMRI），計算不同的作業所耗費的反應時間，以及在大腦中活化的區域部位。由圖 3.1 可以得知，更正錯誤是其中最耗時的作業。. 圖 3.1、Posner 對不同作業的反應時間、以及所活化大腦區域的研究[16] 11.

(24) 那麼，如果我們錄下簡報者做簡報的影片，而後提供簡報影片，讓人們在觀看的同時，依照直覺判斷好惡，並因好惡而作出反應，將他們的反應記錄下來後，我們是否就可以宣稱，在人們的反應時間內，對應到簡報影片中的表現模式，即為反應人們好惡的表現模式？這也是本論文最初的發想，詳見圖 3.2。. 立. 政治大. ‧ 國. 學. 圖 3.2、利用反應時間，評估喜歡／不喜歡的簡報影片片段. ‧. 然而，由於個體差異，就算再簡單的作業，每個人的反應時間也都不同。. sit. y. Nat. 不過，如果我們可以接受些許的誤差，其實不需要精確的反應時間，反而為了. io. er. 取得大眾對於好惡的共識，應該以最大可容忍的反應時間為基準。以下再深入拆解整個決策過程，以便估計整個動作耗費的反應時間。. n. al. Ch. engchi. i n U. v. 圖 3.3、評估片段的決策過程如圖 3.3 所示，我們想要估計四段反應時間，t1、t2、t3、t4 為藍色線段所標示的時距。 12.

(25) t1：因為簡報是影片而非圖片，是包含各種特徵變動的時間序列，人們欲表示喜歡／不喜歡的表情、動作、或聲音，需要有充分展示的時間，才有機會被觀看者理解及評估。而且，影片中的簡報者同樣也面臨有刺激（如現場問問題）以及需要作出反應（回應），所估計的則是簡報者的反應時間。 t2：在看完一段影片之後，對簡報者的表現模式在大腦中已經做出結論，其間所耗費的時距。 t3：從大腦發送訊號，指揮手部進行鍵盤按鍵或滑鼠的反應時間。. 政治大 t4：按下鍵盤按鍵或滑鼠後，到電腦接受輸入而記錄影片該點的時間戳立. ‧ 國. 學. 記。因為 t4 純粹是電腦的反應時間，所以視為極短而忽略不計，並且就以記錄的時間戳記做為使用者完成整個評估動作的結束時間。. ‧. 在這裡可以估計的是 t2 及 t3。鑑於此心理決策的複雜程度，以及未來的評. Nat. sit. y. 估系統平台選擇用網頁呈現的緣故，我們參考了 Goldberg 等學者在一個關於. n. al. er. io. Fitts' 定律（Fitts' Law）的研究中[17]，其中最複雜的變動圓(Var Circles)測試的. i n U. v. 資料集。所有測試反應時間平均值為 862 毫秒，標準差為 287 毫秒。故 t2、t3. Ch. engchi. 的總和，以其平均數加一個標準差以內的值（1149 ms）作為最大可容忍的反應時間來估計，約為 1 秒。至於 t1 則比較難估計，雖然不是所有的簡報場合，都會有在場者問問題（提供刺激）或回應問題的情景，但一整場的簡報時段，還是可以分解成是對簡報者進行一次次「刺激－反應」測試的總和。是以在此假定簡報者的反應時間 t1=t2+t3，也就是約取 1 秒，作為簡報者表現的取樣長度。. 13.

(26) 總結上述推論，我們可以用最後人們因評估決定而動作所記錄下來的時間戳記，往前回推 2 秒，認定期間出現的任意行為模式，作為反應人們評估意見的表現模式。以下便開始研究試作此基本構想。. 3.2. 前期研究以下將細分四個小節，介紹在前期研究中，所涉的相關實作技術，包括：錄製影音檔，並儲存相關特徵；影片格式轉換；取出影片中的聲音，分析其特徵，及偵測特定聲音事件；以及使用網頁技術呈現影片，並試作使用者介面及. 政治大. 需求功能，等部分。取得這些成果，有助於將基本構想，實作在研究及應用之. 立. 學. ‧ 國. 上。. 3.2.1. 錄製影音檔，並儲存相關特徵. ‧. 已知 Kinect 感測器為一具備彩色攝影機、深度攝影機、以及麥克風陣列的. sit. y. Nat. 影音擷取裝置，使用 Kinect SDK 便可完成錄影功能。另外 Kinect SDK 也提供了. io. al. er. 取出 3D 臉部模型的頂點、繪製在影像串流上的範例程式[5]，經由改寫該範例. n. 程式後，將繪製的結果錄成影片，用來觀察 Kinect SDK 所提供的臉部頂點是否準確，如圖 3.4 所示。. Ch. engchi. i n U. v. 圖 3.4、以觀察除錯的目的而錄製的影片，並且在過程中確認 Kinect SDK 所提供的 3D 臉部模型其精確度及穩定度 14.

(27) 除了錄影功能外，為了日後在分析行為模式時，有更多面向的選擇，我們需要另外儲存 Kinect SDK 所提供的深度資訊，諸如動畫單元、骨架資料、以及 3D 臉部頂點資訊。在儲存這些額外資訊時，另加上當時的時間戳記，日後便可藉由相對的時間戳記，取出對應的特徵資訊，以進行研究分析及應用。圖 3.5 是和影片一起儲存的動畫單元序列。在儲存檔案時，檔名包含開始錄影時的時間戳記，如此一來便可由動畫單元的檔名，對應到特定的影片檔。. 立. 政治大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. v. 圖 3.5、一個儲存 Kinect SDK 的動畫單元資訊範例。此外還另存有骨架資訊，以. Ch. engchi. i n U. 及 3D 臉部頂點資訊，每筆資料都附帶當時產生的時間戳記，以供後續資料分析。然而，由於現階段執行 Kinect 感測器應用程式，相當耗費系統資源，連帶使得錄影等儲存工作，變得相當依賴執行平台的性能。在錄影時為求不增加系統負擔，選擇不壓縮影音資料，直接儲存為 avi（audio video interleave）檔案，其中，預設的影像為解析度 640x480 的 32bits RGBA 格式，而聲音則為 16k 取樣頻率、16bits 位元深度、單聲道的 PCM（pulse-coded modulation）格式。但這樣一來，在後續的利用，尤其欲將影片以網頁呈現時，必須再做格式轉換，否則將面臨影片檔案太大（以致等待時間太久），以及瀏覽器所支援播放相容性等等問題。 15.

(28) 3.2.2. 影片格式轉換在這裡選擇一套開放程式碼軟體「FFmpeg」[18]，執行影片格式轉換的需求。由於各大瀏覽器支援程度的差異[19]，因此選擇最多瀏覽器支援的 mp4 檔案，影像格式為 AVC（Advanced Video Coding），聲音格式為 AAC（Advanced Audio Coding），作為最終提供評估的影片格式。. 3.2.3. 取出影片中的聲音，分析其特徵，及偵測特定聲音事件上述提及所採用的開放程式碼的 FFmpeg，不只可以用來轉換影片格式，也. 政治大. 可以將錄影檔案影音分離，使我們能夠單獨針對分離出來的語音資料，進行處. 立. 理及分析。. ‧ 國. 學. 我們已經藉由 Kinect SDK 取得影像部分的特徵模式，然而現階段 Kinect SDK 的語音辨識引擎並沒有在這部分提供太多特徵模式的情況下，如何取得及. ‧. 追踪聲音特徵的模式？目前在聲音辨識領域中，大多數研究還是取 MFCC. Nat. sit. y. （Mel-frequency cepstral coefficients，梅爾頻率倒頻譜係數）作為特徵值，用以. n. al. er. io. 判別聲音的種類。在這裡使用了 ETSI （ the European Telecommunications. i n U. v. Standards Institute）所釋出的程式碼[20]，其函式庫在計算 MFCC 之前，先對語. Ch. engchi. 音資料用 Wiener 濾波器（Wiener filter）去噪（de-noise）、及依賴信噪比的聲波處理（SWP, SNR-dependent Waveform Processing）－即強化高信噪比的區段，而弱化低信噪比的區段－，並將此流程定為標準，其理論與作法詳見於[21]文件。由於我們並不想真正辨識簡報者說話的內容，而僅僅只關心某些說話習慣的特性，例如速度快慢、停頓次數、有無咳嗽、或沒事乾笑等，所以我們部分參考了 Hoque 等學者在 MACH 裡的介面設計[8]，將我們所關心的特性，盡可能偵測出來，並且顯示在使用者介面上，回饋給使用者作為參考。. 16.

(29) 其中，對於說話速度的判定，我們參考了 Acero 等人基於隱藏馬可夫模型（HMM, Hidden Markov Model）進行端點偵測（EPD, endpoint detection）的作法 [22]，使用較簡化的高斯混合模型（GMM, Gaussian mixture model）分類，以實作端點偵測。圖 3.6 是對一個由 Kinect 感測器所錄下的聲音檔，進行端點偵測的結果。為了計算端點偵測的準確率，先手動標記聲音檔的有聲及無聲部分，提供給測試程式作為標準答案。計算正確率的公式如下：正確率 = (和手動標記結果符合的樣本數) / (全部聲音樣本數). 立. (3.1). 政治大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 圖 3.6、「testepd」為本研究基於高斯混合模型分類的端點偵測測試程式。這個長達 103 秒聲音檔的測試結果，端點偵測正確率為 85.87%。關於偵測聲音事件的實作，首先，還是需要取出我們關心的聲音片段，進行計算、處理及分析。本論文援引一套 MacWhinney 在研究中所開發使用的軟體工具「CLAN」[23]，在該軟體介面中以人工方式標注我們所關心的聲音事件（只標注簡報者本人的聲音）所發生的起始到終點的時間、以及事件類型，並把所標注的聲音事件類型及其時間戳記匯出，之後再撰寫程式，計算指定位置的 17.

(30) 聲音事件特徵值，製作成訓練或測試的樣本。根據需求，目前規劃由機器自動偵測的聲音事件，計有： . Type 1－簡短回應. . Type 2－咳嗽、吸鼻. . Type 3－非結束停頓. . Type 6－笑聲. 這些聲音事件，嘗試以計算固定長度的 MFCC 作為特徵值（在本論文中，. 治政 10 毫秒作為一個單位，一單位計算 14 個特徵值，以固定的 150 毫秒，計算共大立 210 個特徵值），再加以支持向量機器訓練學習後分類，以偵測我們關心的語音 ‧ 國. 學. 事件。支持向量機器則直接使用台大資工林智仁教授所釋出的支持向量機器函. ‧. 式庫（libSVM）[24]。. sit. y. Nat. 然而從幾次的試驗中，以上所列的多重聲音事件的分類正確率並不高，這. io. er. 迫使我們再重新檢討偵測聲音事件的作法，而後發現，尤其是非結束的停頓，. al. 具有與其他聲音事件的不同特性。首先，和其他類型的聲音事件相比，非結束. n. v i n Ch 的停頓必然發生在無聲區段之前，而非交雜在語句之中。搭配端點偵測，可以 engchi U 達到第一級的過濾效果。再者，就我們觀察的結果，和語句正常的結束相比，非結束的停頓明顯會因為簡報者還想繼續說，而有拖長音節的現象。雖然每個人說話速度不一，在無聲區段前取出固定長度 150 毫秒，非結束停頓的事件絕大多數只能取到母音，並且腔調些微不同於正常的結束。根據以上推論，我們把聲音事件的偵測，以不同的處理方式，再細分成 A,B 兩組。A 組以偵測非結束停頓為目標的二類分類，加入端點偵測的結果為條件，作為計算特徵值的結束位置；B 組則是完全不做端點偵測，但也取固定長度 150 毫秒／210 個特徵值，目標為四類分類（簡短回應、咳嗽、笑、一般聲 18.

(31) 音）。由 Kinect 感測器所錄下的 21 個簡報者影片，在標示以上聲音事件，並依不同處理方式，取出訓練及測試樣本後，由 SVM 分類，結果如表 3.1 所示。表 3.1、從簡報者影片中取出訓練及測試的聲音樣本。A 組搭配端點偵測，目標為偵測非結束停頓（訓練樣本個數：neutral=315, type 3=313）；B 組則為偵測其他語音事件（訓練樣本個數 neutral=210, type 1=117, type 2=31, type 6=26）聲音樣本. A組. B組. 訓練樣本. 100% (628/628). 89.8438% (345/384). 全部測試樣本. 68.9221% (1752/2542). 78.0303% (103/132). 84.785% (769/907). 70.8333% (102/144). 89.0852% (857/962). 59.6154% (62/104). 87.7531% (910/1037). y. sit. n. al. er. io. 影片 5. 80.7931% (652/807). Nat. 影片 4. 70.7547% (75/106). ‧. 影片 3. 學. 影片 2. ‧ 國. 影片 1. 82.7762% (15427/18637) 政治大 69.4737% 84.0816% (618/735) 立 (66/95). i n U. v. 影片 6. 63.2768% (112/177). 影片 7. 71.4286% (65/91). 74.4425% (434/583). 影片 8. 68.3544% (54/79). 76.5957% (396/517). 影片 9. 77.2727% (68/88). 78.2696% (389/497). 影片 10. 74.7253% (68/91). 79.4574% (410/516). 影片 11. 69.4561% (166/239). 71.2249% (1099/1543). 影片 12. 63.3333% (57/90). 84.127% (954/1134). 影片 13. 66.9065% (93/139). 75.8693% (720/949). Ch. 87.1864% (973/1116). engchi. 19.

(32) 影片 14. 63.1068% (65/103). 83.2877% (608/730). 影片 15. 62.2449% (61/98). 90.0744% (726/806). 影片 16. 70.8029% (97/137). 88.0305% (809/919). 影片 17. 71.4286% (100/140). 84.5361% (820/970). 影片 18. 74.7967% (92/123). 83.9069% (829/988). 影片 19. 68.0203% (134/197). 83.0901% (968/1165). 影片 20. 70.8861% (56/79). 84.4396% (776/919). 影片 21. 62.2222% (56/90). 立. 政治84.8268% 大 (710/837). ‧ 國. 學. 探究 A 組的錯誤，原因大致有二。對於說話速度較慢的狀況，非結束停頓及正常結束較難區分，然而，這結果也支持了我們的推論，即對於一般速度的. ‧. 講者，非結束停頓時，確實有拖長音節的現象。另外的錯誤，則來自我們所標. sit. y. Nat. 的聲音事件，都是對於簡報者本人的聲音，而其他在場者的聲音則都被視為正. io. al. er. 常結束。然而，這樣粗略的分類，原本就沒有考慮其他在場者的因素，對於正. v. n. 確率的計算，至少在取測試樣本時，標示出其他參與者的聲音事件，正確率應該就能提高。. Ch. engchi. i n U. 探究 B 組的錯誤，原因則大多來自於事件 Type 1（簡短回應）與正常說話的情況較難區分，以及誤報（false positive）的錯誤。對於簡短回應的定義，是只有一到兩個音節的語音，基本上仍屬正常說話的範圍內。若真要和正常說話區分，應該再參考別的條件，例如語句持續的長度，等等。而對於誤報的問題，則因為事件 Type 2（咳嗽、吸鼻）和 Type 6（笑聲）的訓練樣本過少而導致。在後續的實作上，需要取得更多的 Type 2 和 Type 6 事件，增加訓練樣本，以改善此問題。. 20.

(33) 3.2.4. 使用網頁技術呈現影片，並試作使用者介面及需求功能目前雲端產業正在蓬勃且快速的發展，而其中不需自己架站，即可使用 Java Servlet、Ruby、或 PHP 等語言開發網頁應用程式的 PaaS（platform as a service）服務，其強大的功能，提供了開發前端使用者介面更多選擇及彈性，不需執著一定要在桌面上開發應用程式，以及不需面臨後續種種問題（發佈給評估者的困難度、評估者對應用程式安全性的信任、回收評估結果等）。在此選擇免費的 PaaS 平台 Heroku[25]（有免費的最陽春方案）作為網頁應用程式的前端，以及 Amazon S3[26]（Amazon Simple Storage Service，有免費的最低使用額度）. 政治大. 作為簡報影片及評估者動作記錄的儲存空間。. 立. 然而，其中需要克服的，是要有辦法在影片播放時，使用者做了指定的動. ‧ 國. 學. 作後，標記當下影片位置的時間戳記。關於這些需求的因應，HTML5 新增了很多對影片控制項的事件（event）介面，可以由此得知影片目前播放的位置[27]。. ‧. 另外，為了想要使評估者的反應時間盡可能縮短，加入了 HTML DOM. y. Nat. sit. （Document Object Model）Events[28]，可用來監聽並處理鍵盤輸入事件。最後. n. al. er. io. 再將評估結果上傳至 Amazon S3。圖 3.7 即為使用了上述技術的試作版本。. Ch. engchi. i n U. v. 圖 3.7、試作評估平台的使用者介面，以及需求功能 21.

(34) 至此已解決了大部分的實作技術問題，接下來闡述本論文的研究架構設計。. 3.3. 研究架構設計 3.3.1. 問題陳述雖然已有估計好惡表現模式的基本構想，但因為評估所要求的內容（對簡報表現的好惡意見）是屬於比較複雜的心理決策，首先並不確定大眾的意見，是否存在一種或是數種的共識？再者，也不確定對於單一個人的意見而言，是否存. 政治大. 有一致性？最後，綜合我們前述所提出的，在取出反應人們評估意見的幾項影. 立. 像及聲音表現模式特徵值後，經由機器學習，是否能夠區分出喜歡／不喜歡的. ‧ 國. 學. 表現模式？針對這些問題，我們設計了以下的研究架構，並在第四章「研究過程. n. al. er. io. sit. y. Nat. 3.3.2. 研究架構. ‧. 與結果分析」之中回答這些問題。. Ch. engchi. i n U. v. 圖 3.8、研究架構，包括蒐集資料的評估者流程，以及後續分析資料的分析流程 22.

(35) 如圖 3.8 所示，研究架構又可分為兩個部分：評估者流程，以及分析流程。評估者流程是一個利用網頁應用程式作為平台，蒐集評估資料的流程。願意提供評估意見的大眾，連到我們的「簡報表現評估系統」網站，觀看特定數量的簡報影片，在評估後，上傳評估結果至指定的儲存空間，即完成此流程。在這個流程中，考慮到評估者在觀看多個影片時，會產生疲勞現象，進而影響到前後段影片在評估上的偏誤，故每一次新的評估過程，都會將呈現的影片重新隨機排序，以避免疲勞現象集中在同一個影片的評估結果之中。在分析流程中，則遵循在基本構想中所設想的，根據每個評估結果以及當. 政治大. 下的時間戳記，往前回推 2 秒鐘，作為反應評估者好惡的表現模式時距。在. 立. 此，定義 POD（Period of Dislike）為評估者標示不喜歡的時段，而定義 POL. ‧ 國. 學. （Period of Like）為評估者標示喜歡的時段。依據 POD/POL 分別取出表現模式之後，再利用下一節所提及的研究分析工具，進行三個問題的分析，即：. ‧. 在相同的影片中，所有評估者選出的表現模式，是否具有共識？. 2.. 同一位評估者，對於所有影片所選出的表現模式，是否具有一致性？. 3.. 所選出喜歡／不喜歡的表現模式，能否經由機器學習並預測？. n. al. er. io. sit. y. Nat. 1.. Ch. engchi. i n U. v. 3.3.3. 研究分析工具在研究分析工具方面，本論文選擇使用一套免費軟體「R」[29]，作為處理評估資料、取出表現模式資料、以及分析結果的工具。其中關於影像部分的表現模式是否一致的問題，在這裡則選用 Giorgino 在 R 平台上所撰寫的 DTW （dynamic time warping）套件[30]，用來計算兩個表現模式特徵序列的距離。此外，由於對於評估者的反應時間估計可能有誤差，導致在取出的表現模式連帶存有誤差，在這裡計算 DTW 時，則選擇採取非對稱式的比對[31]，以減低誤差造成的影響。 23.

(36) 在聲音部分的資料分析方面，由於 Kinect 感測器錄下的聲音來源不限於簡報者本人，則繼續使用前述提及的軟體「CLAN」[23]，以人工方式標注我們所關心的聲音事件（只標注簡報者本人的聲音），並把所標注的聲音事件類型及其時間戳記，匯入 R 軟體中進行分析與研究。和 3.2.3 節不同之處在於，在這裡並非要訓練電腦自動判斷聲音事件，而是我們想分析評估結果和聲音事件的關聯。故我們增加了可能會引起評估者喜歡／不喜歡的聲音事件 Type4（結巴、重覆）以及 Type5（結巴、修正）。本論文所處理分析的聲音事件，彙總如下： Type 1－簡短回應. . Type 2－咳嗽、吸鼻. . Type 3－非結束停頓. . Type 4－結巴、重覆. . Type 5－結巴、修正. . Type 6－笑聲. ‧. ‧ 國. 立. 政治大. 學. . n. er. io. sit. y. Nat. al. 3.4. 目標設定. Ch. engchi. i n U. v. 本研究的目標，希望可以從分析資料、並試著回答問題陳述中的三個問題後，得出顯著的可用性。因其結論為可用的，所以我們便可據此結論提供給機器學習，並且實作於應用程式之中。. 24.

(37) 第四章研究過程與結果分析在本章節中，主要介紹使用 Kinect 感測器所錄製的簡報影片內容、評估資料的蒐集過程，以及在每個階段中對所觀察到的問題，辨其原因，並且如何進行修正。對於各階段蒐集到的評估資料，都視為一個獨立的資料集，以 R 分析資料後，並嘗試回答第 3.3.2 節「研究架構」中所提出的三個問題，以分析結果. 政治大. 的可用性，最後再比較每個階段的分析結果。. 立. ‧ 國. 學. 4.1. 研究過程. ‧. 4.1.1. 小量測試評估階段. sit. y. Nat. 在這個階段裡，將「研究架構」中所規劃的「評估者流程」實作內容大致底. n. al. er. io. 定。首先，由 Kinect 感測器所錄製的簡報影片，採用了甲同學在論文口試簡報. i n U. v. 中的 5 個錄影，影片長度從 1 分 42 秒到 2 分 15 秒，總長度約略為 10 分鐘，並. Ch. engchi. 在評估系統網頁上依序提供評估，如圖 4.1 所示。. 總共有 6 人次的研究生，參與了本階段的評估。對於每一輪的完整評估工作，他們總共需要觀看上述的 5 個簡報影片。而在評估之始，評估系統會給予該評估者一個時間戳記，並在上傳評估結果時以此戳記作為一部分的檔名，以便在後續分析時，可用此戳記識別評估結果是否來自同一位評估者。. 25.

(38) 立. 政治大. ‧ 國. 學. 圖 4.1、小量測試評估系統網站，位置：. http://tranquil-headland-6804.herokuapp.com/evaluation/. ‧. 經由此階段的評估過程，陸續發現不少問題，條列如下：. sit. y. Nat. 2.. 與預期的數量比較，評估者提供的評估數量過少。. 3.. 超過半數的評估者，沒有做完一輪完整評估。. 4.. 發現在部分 POD/POL 內，不存在 Kinect 感測器的動畫單元、骨架資. n. al. er. 評估者反應，提示不夠清楚，不曉得評估的重點，以及要如何操作。. io. 1.. Ch. engchi. i n U. v. 料。 5.. 當時並無儲存 Kinect SDK 所提供之 3D 臉部頂點資料。. 針對上述列出的問題，重新檢討評估系統網站的使用者介面及流程，並在其後加以錄製同時儲存 3D 臉部頂點資料的簡報影片後，由筆者一人模擬多人次評估者，進行評估作業。至於 POD/POL 內不存在特徵資料的問題，可以藉由選. 26.

(39) 擇影片以特徵資料多而優先選取，以及增加評估資料（例如提高評估意願，或者使評估輸入變得輕鬆等）的作法，以減低此問題的重要性。. 4.1.2. 實驗者自行測試評估階段在此階段裡，先針對上節所發現之問題，進行修改，茲列出重要修正如下： 1.. 評估者提供的評估數量過少的問題，除了跟評估者所反應的「提示不夠清楚」，而加強提示語以外，懷疑也有疲勞現象的影響，故依照研究架. 政治大影片呈現順序皆不相同（隨機排序）。立. 構中所設想的，為避免評估者疲勞而影響結果，每一位評估者看到的. ‧ 國. 學. 2.. 半數以上沒有做完一輪完整評估的問題，懷疑是使用者介面只能用滑鼠，輸入不方便，故增加鍵盤快速鍵 u/d，以利更快速地標記喜歡／不. ‧. 喜歡之意見。. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 圖 4.2、實驗者自行測試評估系統網站，左圖為正常影音版，位置： http://tranquil-headland-6804.herokuapp.com/evaluation_2/；右圖為靜音版，位置：http://tranquil-headland-6804.herokuapp.com/evaluation_silence/. 27.

(40) 在此次的評估階段，由於重新使用 Kinect 感測器錄製了影片，而採用了乙、丙兩位同學在論文口試簡報中共 10 個錄影（乙 6 個、丙 4 個），影片長度從 1 分 43 秒到 3 分 36 秒，總長度約略為 23 分鐘半，並在新的評估系統網頁上提供評估，如圖 4.2 所示。筆者由於親身經歷了此階段的評估過程，以下則提出並檢討改進本階段的問題。首先，一輪完整評估的時間不能太久，雖然在本階段的一輪完整評估時間，應可在半小時內完成，然而實際評估的過程，感覺仍然相當繁重而漫長，為了取得足夠的評估資料，又不能將影片的數量減少。在下一階段，這個問題. 政治大. 將以增加簡報者 4 人的作法，以不同語言的多樣性及新鮮感，試圖提升評估者的評估意願與專注力。. 立. ‧ 國. 學. 此外，為了避免評估者面對評估系統卻無所適從的問題，在下一階段，將更加強關於操作評估的提示文字敘述，並簡述整個過程中會出現在使用者介面. ‧. 上的項目及其意義，以及遇到問題時該如何進行下一步操作，盡可能地引導評. y. Nat. n. er. io. al. 4.1.3. 大量正式評估階段. sit. 估者完成完整一輪的評估工作。. Ch. engchi. i n U. v. 由於經過了兩個測試階段，已經解決大部分已發現的問題，在這個階段裡，如 4.1.2 一節最後所述，用以評估的簡報影片，新增了四位大學專題生使用英語簡報其專題的錄影，共 6 個簡報影片，同時刪減上個階段的乙、丙兩位的簡報影片至 6 個影片（乙 3 個、丙 3 個），合計共 12 個影片。影片長度從 1 分 9 秒到 3 分 36 秒，總長度約略為 24 分鐘，於修改後的評估系統網頁上提供評估。如下圖 4.3 所示。雖然在首頁提示輸入學號以進入系統，其實系統內部仍保留之前的機制，即在評估之始，評估系統會給予該評估者一個時間戳記，作為識別評估資料是否來自同一人。故本階段採以學號為主，時間戳記為輔，作為評估者的識別方 28.

(41) 式。此階段共有 35 位評估者，其中 33 位評估者為政大資科系大二學生，其餘兩位評估者的身份則為社會人士。. 政治大. 圖 4.3、大量正式評估系統網站，左圖為預先提示的操作說明，位置：. 立. http://tranquil-headland-6804.herokuapp.com/evaluation_3/. ‧ 國. 學. 雖然並非所有人都完成一輪完整評估，也有評估者有重覆評估的情況，不. ‧. 過，在剃除完全無意見的空白評估資料後，對於每個簡報影片，至少都有 32 人. y. sit. io. n. al. er. 大量。. Nat. 次以上的有效評估資料，據此我們可以說，此階段所蒐集到的評估資料已足稱. 4.2. 分析項目. Ch. engchi. i n U. v. 在影像方面，我們已經儲存了從 Kinect SDK 取得的動畫單元、骨架、以及 3D 臉部頂點三項資料。在聲音方面，則在錄影完成後，利用「CLAN」[23]軟體，以人工方式標注了聲音事件。根據 3.3.2 一節所設想的分析流程，接下來，我們需要採用評估資料內容，取出 POD/POL 內所包含的特徵模式。. 4.2.1. 動畫單元特徵模式當 Kinect 感測器完成錄影後，我們便可取得該影片的動畫單元、骨架、以及 3D 臉部頂點資料集。將這些資料匯入 R[29]以後，可畫出屬於該影片的數值 29.

(42) 分布。圖 4.4 即為影片 12 的動畫單元分布，以及取出 POD/POL 內動畫單元模式的示意。這些在時段內的動畫單元模式，雖然從觀察中就可以看出部分動畫單元模式有很多的重疊（被複數的評估者所選擇），以及 POD 及 POL 之間重疊的模式並不普遍，不過我們仍將在後續的資料分析中，計算模式與模式之間的相似程度。. 立. 政治大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 圖 4.4、影片 12 的動畫單元分布圖，下圖是和 POD/POL 取交集後的分布。 POD 以淡灰色表示，POL 以淡黃色表示。若多位評估者選到重疊的時段，該區域會顯示較深的顏色。. 30.

(43) 4.2.2. 骨架關節點位置差值（Skeletal Joints Position Difference）特徵模式在處理骨架資料方面，由於我們關注的是簡報情境，雖然前述的錄影中有站立的簡報形式（甲的影片），不過基本上簡報者還是維持在定點的狀態，故我們只取上半身的骨架關節點，就應可充分描述該簡報者的肢體表現模式。本研究中所利用的 8 個骨架關節點計有：左肩、左肘、左腕、左手、右肩、右肘、右腕、右手[6]。不過，因為骨架資料是位置，作為模式判斷則內含太多重覆資訊，故我們對它進行計算差值處理，用 R[29]去計算以上 8 個骨架關節點位置的差值，每個. 政治大. 關節點有 x/y/z 三個向度，合計共需增加 24 個差值欄位。. 立. MSDN 在骨架追蹤 API 的說明文件[6]中提到，對於每一個關節點，都有一. ‧ 國. 學. 個狀態值，標示其關節點已追踪（tracked）或推估（inferred），或者未追踪（not. ‧. tracked）的狀態，三個向度則參考同一個狀態值。表 4.1 也試圖計算我們取得的. y. Nat. 骨架資料，其中已追踪部分的比例。我們觀察的結果，雙手的關節點普遍都有. n. er. io. al. sit. 已追踪比例偏低的現象。. v. 總之，我們也可以把骨架關節點位置差值作為特徵，對其取出 POD/POL 內. Ch. engchi. i n U. 之特徵模式。不過這部分在 R 軟體中的操作，跟 4.2.1 一節所描述之取出動畫單元特徵模式的作法都一樣，同樣也會在後續的資料分析，計算此特徵模式間的相似程度，從相似度分析的結果，再決定如何應用骨架資料。表 4.1、影片 12 的骨架關節點各向度位置的已追踪比例。其中顯示雙手關節點資料為已追踪狀態的比例較低。骨架關節點. 全部記錄（筆）. 已追踪比例. 左肩. 2005. 0.959. 右肩. 1070. 0.512 31.

(44) 左肘. 1670. 0.799. 右肘. 1813. 0.867. 左腕. 1512. 0.723. 右腕. 1502. 0.718. 左手. 1099. 0.526. 右手. 875. 0.418. 政治大 3D 臉部頂點位置，指的是立 Kinect SDK 所提供構成 3D 臉部模型的所有頂. 4.2.3. 3D 臉部頂點位置差值（3D Vertex Position Difference）特徵模式. ‧ 國. 學. 點，一筆資料中，共包含 121 個臉部頂點位置，數量上十分驚人，而在實用性上則值得探討。圖 4.5 是由 R[29]所隨機選取兩個頂點位置欄位，並觀察兩者的. ‧. 位置分布關係。觀察下圖的兩頂點位置關係，可以確知，由於整個頭部是連動. sit. y. Nat. 的，我們隨機取兩個臉部頂點，它們在動作方向上的軌跡也會是類似的。雖然. io. al. er. 之前我們沒有對基本的頭部角度（俯仰、滾動、和搖擺[5]）儲存追踪記錄，但. v. n. 是，我們應該可以藉由計算 3D 臉部頂點位置差值，作為追踪頭部運動的資訊。. Ch. engchi. i n U. 類似於處理骨架資料，我們固定地取用 3D 臉部頂點的第一個及最後一個頂點，計算其位置差值，並儲存在新增的兩個差值欄位。其後我們也將把 3D 臉部頂點位置差值視為一類特徵，並且取出 POD/POL 特徵模式後，進行分析。. 32.

(45) 立. 政治大. ‧ 國. 學 ‧. 圖 4.5、4 個影片的 3D 臉部頂點位置分布圖，對於每個影片，在 121 個頂點中，. Nat. n. al. sit. 的。. er. io 4.2.4. 聲音事件命中率. y. 隨機選取兩個頂點繪製分布圖，可以觀察到任兩個臉部頂點位置的軌跡是相似. Ch. engchi. i n U. v. 如 3.3.3 一節所提到，我們使用軟體 CLAN[23]，以手動標註我們認為會影響講話順暢度，而引起評估者喜歡／不喜歡感覺的聲音事件。在將手動標註的聲音事件資料集匯入 R[29]以後，一樣可以把聲音事件和 POD/POL 一起取交集。我們單純地只關心特定的聲音事件，是否發生在 POD/POL 內，所以在這裡想要探討的是，POD/POL 內發生了多少我們所標註的聲音事件，而所佔比例又是聲音事件發生總次數的多少？也就是 POD/POL 所及的範圍，能夠命中多少聲音事件的比率，是我們用來觀察評估的指標。表 4.2 即為計算聲音事件命中率的範例。. 33.

(46) 表 4.2、以 2 個影片為例，和 POD/POL 取交集後所計算的聲音事件命中率。 D_1~D_6 為聲音事件 type 1~type 6 發生在 POD 的命中率，L1~L6 則為聲音事件在 POL 的命中率。. D_1. D_2. D_3. D_4 D_5 D_6. 影片 1 hit 0.03 0.087 0.022 0.014 ratio hit 4 8 2 1 count total 138 92 92 69 count 影片 2 hit 0.085 0.086 0.075 0.071 ratio hit 19 12 23 8 count total 224 140 308 112 count. L_2. L_3. L_4 L_5 L_6. 0.022 0.054 0.239 0.087 0. 0. 3. 5. 22. 6. 0. 0. 0. 0. 138. 92. 92. 69. 0. 0. 政治大 0.04 0.043. 0.091 0.063. 0. 0. 9. 6. 28. 7. 0. 0. 0. 0. 224. 140. 308. 112. 0. 0. 學. ‧. ‧ 國. 立. L_1. 然而由於其中兩個聲音事件：Type 4（結巴、重覆）及 Type 5（結巴、修. y. Nat. sit. 正），在選擇不做語音辨識的情況下，目前尚無正確率較令人滿意的自動偵測技. n. al. er. io. 術。故做此項分析，純粹只是想研究聲音事件，對評估者評估簡報表現的影響. i n U. v. 程度，以及是否根據評估者不同而有個別差異（或存在一致性）。. Ch. engchi. 4.3. 可用性分析我們已經在前面根據 POD/POL 取出了時段內的影像特徵模式，接下來即研究下列問題： 1.. 在相同的影片中，所有評估者選出的表現模式，是否具有共識？. 2.. 同一位評估者，對於所有影片所選出的表現模式，是否具有一致性？. 3.. 所選出喜歡／不喜歡的表現模式，能否經由機器學習並預測？. 34.

(47) 第一及第二個問題，我們利用 R[29]中的 DTW[30]套件，針對 POD/POL 集合裡所選取出來的特徵模式，兩兩計算模式間的 DTW 距離。關於影像各特徵模式更詳細的相似度結果，分別在附錄中的「動畫單元特徵模式間之相似度」、「骨架關節點位置差值特徵模式間之相似度」、以及「3D 臉部頂點位置差值特徵模式間之相似度」三個小節中提供。至於第三個問題，我們則對於 POD/POL 內所取得的特徵模式，在 R[29]中進行階層式集群分析（hierarchical clustering analysis），先觀察特徵模式的集群程度，再取出最大群的特徵模式，作為訓練資料，並就現有的影片作為測試資. 政治大述方法所選出之特徵模式的預測能力。更詳細的階層式集群分析結果，分別在立. 料，由 SVM[24]進行分類的訓練及測試，由現有資料的正確率，用以評估由上. ‧ 國. 學. 附錄中的「動畫單元特徵模式之階層式集群分析」、「骨架關節點位置差值特徵模式之階層式集群分析」、以及「3D 臉部頂點位置差值特徵模式之階層式集群. ‧. 分析」三個小節中提供。. y. Nat. io. sit. 在聲音事件方面，我們仍然想要研究第一及第二個問題，所以採用 4.2.4 一. n. al. er. 節中所提及的命中率作為指標，以回答這兩個問題。更詳細的聲音事件命中率. i n U. 結果，在附錄中的「聲音事件命中率」一節中提供。. Ch. engchi. v. 4.3.1. 檢驗動畫單元特徵模式的共識程度使用 DTW 距離評估兩組模式是否相似時，必須先尋求基準。首先為了檢驗動畫單元特徵模式，我們在大量正式評估的資料中，針對在 POD 內選取的所有模式，全部共有 855 組，兩兩做 DTW，之後我們便可得到此集合內的 DTW 距離概況，如，平均值：0.844、標準差：0.445、最大值：3.298、中位數：0.745 等。依據中央極限定理，因正式評估所取樣本數足夠大量，而趨近於常態分布。假設我們採取較寬鬆的條件，以平均值減 0.5 個標準差作為基準（即隨機樣本落在小於基準值範圍的機率約為 31%），即在 POD 模式的集合中，以 35.

(48) DTW=0.621 作為基準值，來觀察相同影片內所取出的 POD 模式集合，是否具有共識。我們先簡單地使用各個影片 POD 模式集合計算出的 DTW 平均數來檢驗，12 個正式評估的影片中，除了 3 個影片以外（DTW 平均值：0.627、0.801、 0.761），其餘影片的 DTW 距離的平均值皆小於基準值。我們對 POL 模式也用同樣的作法檢驗，在大量正式評估的動畫單元特徵模式資料中，共取出 930 組 POL 特徵模式，得到平均值 0.814 及標準差 0.428、以及 DTW=0.600 作為基準值。檢驗之後發現，12 個正式評估的影片中，除了 4 個影片以外（DTW 平均值：0.811、0.66、0.791、0.744），其餘的影片模式 DTW 距離平均值都小於基準值。. 立. 政治大. 以上述所得出的 POD/POL 特徵模式 DTW 距離的基準值，我們同樣也可以. ‧ 國. 學. 拿來檢驗同一位評估者的意見，是否具有一致性。在正式評估階段的 35 位評估者所取出的動畫單元特徵模式中，我們發現，在 POD 的集合以 DTW=0.621 作為. ‧. 基準值時，有高達 30 位評估者意見所選出模式的 DTW 距離平均值，都大於基. y. Nat. io. sit. 準值，其餘小於基準值的評估者，則有樣本過小（選取的模式個數小於 10 或沒. n. al. er. 有選）的問題。而在 POL 集合以 DTW=0.600 作為基準值之下，則有高達 32 位. i n U. v. 評估者的結果超過基準值，除了一位評估者（評估者#20，DTW 平均值：0.523、. Ch. engchi. 選取模式個數：15），其餘兩位評估者所選取的模式個數都小於 10。我們從這個動畫單元特徵模式的檢驗過程及結果，可以得到幾點結論。首先，同一個影片中是否存在共識的問題，我們可以說，不管是 POD 或 POL 所取得的模式，大部分的影片中，模式間的平均相似度都可落在基準值內；但部分影片卻超過基準值，而同時觀察它們在 POD 與 POL 內的表現，則會發現若 POD 超過基準值，則 POL 很有可能也會超過基準（如影片 5、影片 11），然而，也並非所有影片都有這種現象。所以雖然在同一個影片，可以在大多數的評估者意見中取得共識，卻不能排除這個共識有複數、或更加分歧的狀況。所幸就算 36.

(49) 是最分歧的影片表現（POD：影片 5 的平均 DTW 最大為 0.801；POL：影片 5 的平均 DTW 最大為 0.811 ），也沒有超過全部模式的平均值（ POD ： DTW=0.844；POL：DTW=0.814）。然而，關於同一個評估者的意見是否具有一致性的問題，結果卻顯示為更加分歧，最分歧的評估者意見，甚至都超出全部模式的平均值（ POD 的平均 DTW 最大為 1.028 > 0.844；POL 的平均 DTW 最大為 0.897 > 0.814）。這個現象較可能的成因，也許在 12 個影片中的 6 位簡報者，因為個別差異，每個人所呈現出來的表現模式都不同，若一定要在每個影片都做出評分，. 政治大. 取出的表現模式必定會較為分歧。這也顯示表現模式的差異，較多來自於不同. 立. 簡報者的個別差異，而較少來自於不同評估者的意見。或者換句話說，如果我. ‧ 國. 學. 們蒐集到夠多人的簡報表現模式，並且讓評估者都對於這些模式進行評分，則這夠多人的表現模式則可以視為一個人類普遍都會出現的常態表現模式，而我. ‧. 們現在覺得同一個評估者面對多種表現模式而出現很分歧的意見，則應該會增. y. Nat. er. io. sit. 長收斂到一定數量的模式，這些模式仍可歸納在 POD/POL 的共識集合之中。我們用小量評估測試階段的動畫單元特徵模式，來初步檢視一下這個推. al. n. v i n C hDTW=0.621，POL 論。我們仍然以上面計算的 POD e n g c h i U DTW=0.600 作為基準值，. 觀察同一個影片的共識，以及同一位評估者的一致性問題。由於這個階段雖然. 有 5 個影片，實際上簡報者只有一位。POD 的模式集合裡，在同一個影片中， DTW 平均值超過基準值的有 2 個（DTW 平均值：0.629、0.633）；同一位評估者意見中，6 位評估者的結果只有 2 位超出基準值（DTW 平均值：0.645、 0.733）。而在 POL 的模式集合裡，同一個影片中，DTW 平均值超過基準值的有 1 個（DTW 平均值：0.651）；同一位評估者意見中，6 位評估者中有 3 位超出基準值（DTW 平均值：0.606、0.600、0.705）。雖然此階段樣本數很少，不過已經顯示出，就算只有一位簡報者，仍然可能表現出複數以上的模式，以致 37.

(50) 並不是所有選取出來的模式都是相似的；但是在同一個影片的共識，以及同一位評估者的一致性問題上，則呈現差異不大的結果。這表示我們所推論的，表現模式的差異，較多來自於不同簡報者的個別差異，而較少來自於不同評估者的意見，在小量資料上獲得了支持。理解此分析結果後，將來應用特徵模式於 SVM 分類時，策略應是取每個影片的共識模式，作為訓練模型的樣本；而非在少數的影片中取用全部的模式。其後提供動畫單元特徵模式給機器學習時，我們將會採取 6 個動畫單元，以及固定模式長度 20 組，以維度 120 維的資料建模。. 4.3.2.. 治政大檢驗骨架關節點位置差值特徵模式的共識程度立 ‧ 國. 學. 重覆上一節的檢驗流程，我們取出在骨架關節點位置差值全部的 POD/POL 特徵模式，並且兩兩計算 DTW 距離，得出 POD：平均值 7.592、標準差 4.397，. ‧. 取 DTW=7.592 - 4.397/2 = 5.393 作為基準值。以下也列出在 POL 的全部模式間. sit. y. Nat. DTW 距離的統計數值：平均值 8.531、標準差 5.975，取 DTW=8.531 - 5.975/2 =. io. n. al. er. 5.543 作為 POL 集合的基準值。. i n U. v. 首先檢驗同一個影片內的共識程度，在 POD 模式集合裡，只有 2 個影片的. Ch. engchi. 平均 DTW 小於基準值（影片 1、影片 10，平均 DTW：4.754、4.701），其餘影片的平均 DTW 距離都大於基準值；在 POL 模式集合裡，一樣有 2 個影片的平均 DTW 小於基準值（影片 1、影片 10，平均 DTW：5.447、4.671）。再檢驗同一位評估者的一致性問題，POD 模式集合裡，35 位評估者中有 4 位的結果小於基準值，其他的 31 位評估者結果都大於基準值。在 POL 模式集合裡，則全數評估者的結果都大於基準值。以上結果，仍可初步得出在同一位評估者內的 DTW 距離，略大於在同一個影片中的 DTW 距離，同一位評估者仍選出較不一致的模式，而同一個影片中大眾所選出的模式則較具共識。雖然在關節點位置差值這個項目中，相似度的結果 38.