• 沒有找到結果。

第五章 研究結果之應用

5.2 應用實例

Kinect SDK 所提供之範例程式「Face Tracking Visualization」C++的版本[33],作 為本研究表現評估預測系統之藍本。在增加了顯示上一節提及之影音偵測模組所 回饋的內容後,呈現的畫面如圖 5.2 所展示。此外,為了讓使用者掌握自己的表

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

現全貌,另外在程式執行的過程中,也儲存了執行期間所有事件的記錄檔,包括 事件的開始及結束時間,以及事件的內容,例如預測的評分結果,或僅記錄某聲 音事件已被偵測,如圖 5.3 所展示。

(a) (b)

(c)

圖 5.2、基於 Kinect SDK 範例程式「Face Tracking Visualization」[33],所開發的 表現評估預測系統之原型程式。a) 系統一致判斷為自然狀態 b) 系統一致判斷 為扣分狀態 c) 系統偶爾出現矛盾,動畫單元和骨架關節點差值有不同的判斷。

圖 5.3、表現評估預測系統執行期間的記錄檔。其中標示為影像分類模組的矛盾。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

筆者自行測試原型程式,在影像特徵模式的評估,動畫單元模式的二類及三 類分類結果,偶爾出現矛盾現象(如圖 5.3 內的記錄檔中所顯示),但大部分的 結果原則上相同(意即,兩者同時出現-1;或是在二類分類出現 0,而在三類分 類出現 0 或 1)。並且,在兩者同時出現-1 時,該區塊的文字顏色以紅色顯示,

使用者便能立即注意此回饋,因而有所學習。在骨架關節點位置差值模式的三類 分類結果,據筆者使用時觀察,極難出現 0 的分類,研判是所提供的 0 類別訓練 樣本太少。在使用者介面上,則只針對-1 類別出現時,以紅色的文字提示。

在聲音事件的偵測方面,除了端點偵測以外,其他聲音事件則多有不準確的 現象。據研判應是提供之訓練樣本過少而導致。不過,這些問題,應可在增加特 定的聲音事件之訓練樣本,並更新模型到本系統之核心模組後,即能增加其準確 率。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

第六章

結論與未來研究方向

6.1. 結論

我們試圖採用較穩定並可用的特徵模式,以分析結果證實大眾對於簡報表現 的意見,存在有少數且可供機器學習並辨別的共識模式。這些共識,不同於例如 Hoque 的研究[8]中的專家們所據以評估的標準規範,而更接近於人們的直覺,類 似於 Pentland 在「Honest Signals」中所提出的社交儀表[2]。雖然 Pentland 指出,

所謂的誠實訊息(honest signals)是那些經由潛意識、或是那些無法控制的訊息,

而非由訓練得來[11]。不過我們相信,藉由大眾意見的回饋,使用本系統的模擬 簡報者,可以觀察自己的肢體語言及表情,甚至從比較前後的表現差異,調整在 簡報時的心態,從而改善其簡報技巧。

6.2. 未來研究方向

從 4.3.1 一節的小結中提出採取特徵模式策略之後,其實筆者已隱約察覺,

在本研究所提供於評估的影片及其特徵模式,尚不能稱為全面而大量。本研究只 初步證實了共識模式的存在,而究竟共識涵蓋的範圍有多廣?能否使用穩定且有 限維度的特徵以預測?共識可以是跨文化的嗎、或者是與不同文化領域有其密切 關聯性?這種種議題,都值得究其一生來探討。

另外,在本研究中,也發現有 POD/POL 區間內,不存在任何特徵模式以供 分析及處理。不過既然 MSDN 關於臉部追踪的說明文件[5]中,指出目前所採用 的 6 個動畫單元特徵,是取自 Candide 3 模型中的部分參數,所以我們自然也可

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

以藉由自行對影像建模,而取得與 Kinect SDK 所提供的動畫單元特徵類似的係 數。這樣的作法,雖然準確率不比已用大量人臉資料建模的 Kinect SDK,仍然 可以考慮此做法,作為 Kinect SDK 無資料提供時的補救方案。然而,筆者從評 估資料中也觀察到,對於某些不專心評估、或是隨便評估的評估者,其評估資料 的特徵,通常在影片一開始不久處,存有少數評估之後便結束了。而在 Kinect 應用程式開始錄影不久之處,那時 Kinect SDK 尚無法提供任何特徵資料,這樣 其實也達到了過濾並取得優質評估資料的效果。

現有 Kinect SDK 所提供的動畫單元特徵仍然太少,至少對於眼睛運動的追 踪,是本研究未來可發展的一個主題。我們認為,簡報者的眼神軌跡,應該會對 評估者的好惡造成影響。然而目前大部分針對眼神軌跡追踪的研究及應用,仍是 需要被追踪者處在某個固定、不能大幅移動的位置,而非像簡報這種可以自由小 量移動的情景。追踪頭部移動的軌跡,是另一個無法進行眼球追踪時的補救作 法,然而在本研究中已證實,可以用來作為頭部追踪的 3D 臉部頂點位置差值,

其結果並不穩定故不可用。

由於 Kinect 感測器第二代即將發行[7],因為硬體效能改良,對於骨架資料 的準確度也有大幅提升。在未來研究中,使用更新一代的 Kinect 感測器,應該 能取得更精準的骨架資料,甚至也可以藉由分析骨架動作─而不僅僅只是利用位 置差值,本研究的分析資料也指出,此特徵模式仍然包含太多重覆資訊─。若能 在未來研究中,發展出與動作相關的特徵係數,如此一來,對於肢體甚至手勢的 模式,就可以更精確地分析,並得到更可用的結果。

PNAS online, 2012.

[2] Alex Pentland, ” Honest Signals : How They Shape Our World”, The MIT Press, August.2008.

[3] Oxford Dictionaries,

http://www.oxforddictionaries.com/definition/english/body-language.

[4] Wikipedia contributors, "Kinect," Wikipedia, The Free Encyclopedia,

http://en.wikipedia.org/w/index.php?title=Kinect&oldid=612754262 (accessed June 29, 2014).

[5] MSDN, ”Face Tracking",

http://msdn.microsoft.com/en-us/library/jj130970.aspx.

[6] MSDN, ”Tracking Users with Kinect Skeletal Tracking", http://msdn.microsoft.com/en-us/library/jj131025.aspx.

[7] Microsoft, “Pre-order the Kinect for Windows v2 sensor”,

http://www.microsoft.com/en-us/kinectforwindows/Purchase/developer-sku.aspx [8] M. E. Hoque, M. Courgeon, B. Mutlu, J-C. Martin, R. W. Picard, “MACH: My

Automated Conversation coacH “, In the 15th International Conference on Ubiquitous Computing (Ubicomp), September 2013.

[9] S. Feese, B. Arnrich, G. Tröster, B. Meyer, K. Jonas, “Automatic Clustering of Conversational Patterns from Speech and Motion Data”, Measuring Behavior 2012.

[10] Nick Morgan, “7 Surprising Truths about Body Language”,

http://www.forbes.com/sites/nickmorgan/2012/10/25/7-surprising-truths-about-b

[11] Alex Pentland, ” Honest Signals : How They Shape Our World”, The MIT Press, p.3-4, August.2008.

[12] Marco Pasch, Monica Landoni, “Building Corpora of Bodily Expressions of Affect”, Measuring Behavior 2012.

[13] Xsens MVN suit, http://www.xsens.com/products/xsens-mvn/.

[14] Wouter van Teijlingen, Egon L. van den Broek, Reinier Könemann, John G.M.

Schavemaker, “Towards Sensing Behavior Using the Kinect”, Measuring Behavior 2012.

[15] MSDN, “Using the Kinect as an Audio Device”, http://msdn.microsoft.com/en-us/library/jj883682.aspx.

[16] Posner MI, “Timing the Brain: Mental Chronometry as a Tool in Neuroscience”, PLoS Biol 3(2): e51. doi:10.1371/journal.pbio.0030051, 2005,

http://www.plosbiology.org/article/info:doi/10.1371/journal.pbio.0030051.

[17] Ken Goldberg, Siamak Faridani, Ron Alterovitz, “A New Derivation and Dataset for Fitts' Law of Human Motion”, Technical Report No. UCB/EECS-2013-171 , October 22, 2013, http://www.tele-actor.net/fitts-dataset/.

[18] FFmpeg, https://www.ffmpeg.org/.

[19] w3schools, “HTML <video> Tag”,

http://www.w3schools.com/tags/tag_video.asp.

[20] ETSI, 2002, http://www.etsi.org/,

http://www.etsi.org/deliver/etsi_es/202000_202099/202050/01.01.05_60/.

[21] ETSI, “Speech Processing, Transmission and Quality Aspects (STQ); Distributed speech recognition; Advanced front-end feature extraction algorithm;

Compression algorithms”, 2002,

http://www.etsi.org/deliver/etsi_es/202000_202099/202050/01.01.05_60/es_202

endpoint detector”, Third European Conference on Speech Communication and Technology, EUROSPEECH 1993, Berlin, Germany, September 22-25, 1993.

[23] Brian MacWhinney, “The CHILDES Project, Tools for Analyzing Talk – Electronic Edition, Part 2: The CLAN Programs”,

http://childes.psy.cmu.edu/manuals/CLAN.pdf.

[24] Chih-Chung Chang and Chih-Jen Lin, LIBSVM : a library for support vector machines. ACM Transactions on Intelligent Systems and Technology, 2:27:1--27:27, 2011. Software available at

http://www.csie.ntu.edu.tw/~cjlin/libsvm.

[25] Heroku, https://www.heroku.com/.

[26] Amazon S3, https://aws.amazon.com/documentation/s3/.

[27] w3schools, “HTML Event Attributes”,

http://www.w3schools.com/tags/ref_eventattributes.asp.

[28] w3schools, “HTML DOM Events”,

http://www.w3schools.com/jsref/dom_obj_event.asp.

[29] R Core Team (2014). R: A language and environment for statistical computing.

R Foundation for Statistical Computing, Vienna, Austria.

URL http://www.R-project.org/.

[30] Giorgino T (2009). "Computing and Visualizing Dynamic Time Warping Alignments in R: The dtw Package." _Journal of Statistical Software_,*31*(7), pp. 1-24. <URL: http://www.jstatsoft.org/v31/i07/>.

[31] Tormene, P.; Giorgino, T.; Quaglini, S. & Stefanelli, M. Matching incomplete time series with dynamic time warping: an algorithm and an application to

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

[32] MSDN, “NUI_SKELETON_DATA Structure”,

http://msdn.microsoft.com/en-us/library/nuisensor.nui_skeleton_data.aspx.

[33] MSDN, “Face Tracking Visualization C++ Sample”, http://msdn.microsoft.com/en-us/library/jj131045.aspx.

POD patterns grouped by video (DTW)

mean sd mad max median n2

POD patterns grouped by evaluator (DTW)

mean sd mad max median n2

POL patterns grouped by video (DTW)

mean sd mad max median n2

影片 13 0.650777 0.327504 0.340469 1.465472 0.679887 400 影片 14 0.472110 0.227888 0.204989 1.554942 0.462850 576 影片 15 0.470522 0.242542 0.188484 1.073859 0.451708 225 影片 16 0.497204 0.219296 0.205054 1.303985 0.484430 625

POL patterns grouped by evaluator (DTW)

mean sd mad max median n2

評估者 36 0.606105 0.283231 0.239429 1.893733 0.557811 2401 評估者 37 0.428604 0.239053 0.195305 0.960758 0.400759 64

POD patterns grouped by video (DTW)

mean sd mad max median n2

POD patterns grouped by evaluator (DTW)

mean sd mad max median n2

POL patterns grouped by video (DTW)

mean sd mad max median n2

POL patterns grouped by evaluator (DTW)

mean sd mad max median n2

Total POD patterns (DTW)

mean sd mad max median n2

all 0.844019 0.445462 0.406424 3.298202 0.744925 731025 au0 0.376644 0.359295 0.286652 2.000000 0.252795 731025 au1 0.160077 0.152913 0.106803 1.059232 0.100280 731025 au2 0.199241 0.199840 0.102875 1.839153 0.121916 731025 au3 0.124172 0.122168 0.067097 1.014453 0.075017 731025 au4 0.303845 0.295670 0.210086 1.963720 0.192289 731025 au5 0.137734 0.142616 0.070219 1.353344 0.079419 731025

Total POL patterns (DTW)

mean sd mad max median n2

all 0.814032 0.427939 0.375082 3.263176 0.715155 864900 au0 0.373774 0.354448 0.281130 1.987693 0.253540 864900 au1 0.129604 0.132453 0.072842 1.154808 0.074596 864900 au2 0.177329 0.177173 0.086975 1.909408 0.111607 864900

au3 0.123436 0.119782 0.064721 1.130590 0.076060 864900 au4 0.265912 0.265286 0.172045 1.875707 0.163357 864900 au5 0.162590 0.166716 0.084919 1.403156 0.090849 864900

二、 骨架關節點位置差值特徵模式間之相似度

 大量正式評估階段

POD patterns grouped by video (DTW, unit: cm)

mean sd mad max median n2

POD patterns grouped by evaluator (DTW, unit: cm)

mean sd mad max median n2

POL patterns grouped by video (DTW, unit: cm)

mean sd mad max median n2

POL patterns grouped by evaluator (DTW, unit: cm)

mean sd mad max median n2

Total POD patterns (DTW, unit: cm)

mean sd mad max median n2

Total POL patterns (DTW, unit: cm)

mean sd mad max median n2

POD patterns grouped by video (DTW, unit: cm)

mean sd mad max median n2

影片 1 1.129806 1.513129 0.353654 8.383999 0.545200 1296 影片 2 1.004931 1.424743 0.393709 8.758219 0.478861 3969 影片 3 0.374904 0.199816 0.137482 1.268708 0.345291 3600 影片 4 0.841001 0.719213 0.321322 5.401673 0.596615 16129

POD patterns grouped by evaluator (DTW, unit: cm)

mean sd mad max median n2

POL patterns grouped by video (DTW, unit: cm)

mean sd mad max median n2

POL patterns grouped by evaluator (DTW, unit: cm)

mean sd mad max median n2

Total POD patterns (DTW, unit: cm)

mean sd mad max median n2

Total POL patterns (DTW, unit: cm)

mean sd mad max median n2

Events grouped by video

D_1 D_2 D_3 D_4 D_5 L_1 L_2 L_3 L_4 L_5 影片 1 --normal

Events grouped by evaluator

D_1 D_2 D_3 D_4 D_5 L_1 L_2 L_3 L_4 L_5 評估者 42 --normal hit ratio 0.146341 0.516129 0.078652 0.1 0.166667

hit hit ratio 0.170732 0.419355 0.151685 0.2 0.208333

hit

count 7 13 27 4 5

total

count 41 31 178 20 24

評估者 46 --normal hit ratio 0.219512 0.741935 0.191011 0.35 0.208333

hit

hit ratio 0.228571 0.333333 0.109195 0.235294 0.041667 hit

count 8 9 19 4 1

total

count 35 27 174 17 24

評估者 50 --silence hit ratio 0.243902 0.354839 0.168539 0.15 0.125

hit hit ratio 0.268293 0.258065 0.134831 0.1 0.166667

hit

count 11 8 24 2 4

total

count 41 31 178 20 24

 大量正式評估階段

Events grouped by video

D_1 D_2 D_3 D_4 D_5 D_6 L_1 L_2 L_3 L_4 L_5 L_6 影片 1 hit ratio 0.028986 0.086957 0.021739 0.014493 0.021739 0.054348 0.23913 0.086957

hit

count 4 8 2 1 0 0 3 5 22 6 0 0

total

count 138 92 92 69 0 0 138 92 92 69 0 0

影片 2 hit ratio 0.084821 0.085714 0.074675 0.071429 0.040179 0.042857 0.090909 0.0625

hit

hit ratio 0.044118 0.054622 0.023756 0.014706 0.04902 0.235294 0.022059 0.012605 0.085973 0.044118 0.088235 0.029412

hit

Events grouped by evaluator

D_1 D_2 D_3 D_4 D_5 D_6 L_1 L_2 L_3 L_4 L_5 L_6

評估者 1

hit ratio 0 0 0.018519 0 0 0 0 0.043478 0.024691 0 0 0

hit

count 0 0 3 0 0 0 0 1 4 0 0 0

hit ratio 0.091954 0.173913 0.098765 0.117647 0.12 0.076923 0.057471 0.086957 0.111111 0.058824 0.04 0.076923

hit

count 8 4 16 2 3 1 5 2 18 1 1 1

total

count 87 23 162 17 25 13 87 23 162 17 25 13

hit ratio 0.298851 0.173913 0.314815 0.176471 0.28 1.230769 0.241379 0.086957 0.401235 0.235294 0.56 0.076923

hit

hit ratio 0.068966 0.043478 0.04321 0.058824 0.08 0.153846 0.022989 0.086957 0.061728 0.058824 0.04 0.076923

hit ratio 0.241379 0.304348 0.234568 0.352941 0.24 0.384615 0.126437 0.26087 0.271605 0.117647 0.36 0.076923

hit

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

五、 動畫單元特徵模式之階層式集群分析

 大量正式評估階段

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

六、 骨架關節點位置差值特徵模式之階層式集群分析

 大量正式評估階段

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

七、 3D 臉部頂點位置差值特徵模式之階層式集群分析

 大量正式評估階段

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y