喜歡／不喜歡的表現模式，機器能否學習並預測？ - 可用性分析

第四章研究過程與結果分析

4.3 可用性分析

4.3.5 喜歡／不喜歡的表現模式，機器能否學習並預測？

國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

在此檢視為何聲音事件命中率會大於 1 的問題，由於我們計算命中率，是只要 POD/POL 的 2 秒區間，和手動標示的聲音事件時間段有重疊，即計算一次的命中。如此一來，只要聲音事件的時間段夠長，評估者即有可能在前後兩次的評估結果，命中同一個聲音事件。不過縱觀本研究，這種前後評估同時命中同一個聲音事件的情況並不多見，我們可以將聲音事件命中率大於 1 的現象，

視為評估者對於該聲音事件敏感的表現。

圖 4.7、大量正式評估階段以 35 位評估者評估資料分組之聲音事件命中率折線圖。其中 POD_1~POD_6 指聲音事件 type 1~type 6 發生於 POD，而 POL_1~POL_6 則指聲音事件發生於 POL。當一位評估者在 5 個以上的聲音事件有大於 0.1 的命

中率時，我們以彩色粗線標註，表示這是對聲音事件較敏感的評估者。

4.3.5. 喜歡／不喜歡的表現模式，機器能否學習並預測？

接下來，我們想要知道，所取出的各項影像特徵模式，能否經由機器學習，並且用於未來的預測？從 4.3.1 一節的結論得知，我們需要從每個影片中取

‧

製作測試樣本方面，則先根據評估的 POD/POL 劃分集合，POD/POL 集合外的資料，根據 2 秒內 20 筆資料的原則，作為標示 0 的測試樣本；而對於

（訓練樣本數－0/neutral: 55，1/POL: 455，-1/POD:517）

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

影片樣本 分類正確率

訓練樣本 98.0526% (1007/1027) 全部測試樣本 76.1566% (428/562) 影片 1 76.4706% (39/51) 影片 2 79.0698% (34/43) 影片 3 82.8125% (53/64)

影片 4 80% (36/45)

影片 5 68.75% (44/64) 影片 6 66.1538% (43/65)

影片 7 70% (21/30)

影片 8 82.8571% (29/35) 影片 9 76.6667% (23/30) 影片 10 83.3333% (25/30) 影片 11 85.1852% (23/27) 影片 12 74.359% (58/78)

表 4.6、骨架關節點位置差值特徵模式之分三類結果

（訓練樣本數－0/neutral: 58，1/POL: 663，-1/POD: 602）

影片樣本 分類正確率

訓練樣本 97.808% (1294/1323)

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

全部測試樣本 71.6606% (397/554) 影片 1 84.3137% (43/51) 影片 2 62.7907% (27/43) 影片 3 65.625% (42/64) 影片 4 60.9756% (25/41) 影片 5 81.25% (52/64) 影片 6 76.9231% (50/65) 影片 7 64.2857% (18/28) 影片 8 79.4118% (27/34) 影片 9 58.6207% (17/29) 影片 10 46.6667% (14/30) 影片 11 85.1852% (23/27) 影片 12 75.641% (59/78)

表 4.7、3D 臉部位置差值特徵模式之分三類結果

（訓練樣本數－0/neutral: 59，1/POL: 573，-1/POD: 543）

影片樣本 分類正確率

訓練樣本 85.3617% (1003/1175) 全部測試樣本 58.8968% (331/562) 影片 1 56.8627% (29/51)

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

影片 2 53.4884% (23/43)

影片 3 50% (32/64)

影片 4 60% (27/45)

影片 5 70.3125% (45/64) 影片 6 58.4615% (38/65) 影片 7 66.6667% (20/30) 影片 8 68.5714% (24/35)

影片 9 50% (15/30)

影片 10 56.6667% (17/30) 影片 11 51.8519% (14/27) 影片 12 60.2564% (47/78)

此外，我們也想知道，如果只想探討人們是否討厭的模式，而不納入喜歡的模式，這樣一來，這三項影像特徵模式是否仍是可用的嗎？與上述三類分類的作法相同，只是不使用 POL，而只採用 POD 的資料，分別製作出-1、0 類別的訓練及測試樣本。表 4.8、4.9、及 4.10，分別呈現動畫單元、骨架關節點位置差值、及 3D 臉部位置差值，這三項特徵模式的分二類結果。

表 4.8、動畫單元特徵模式之分二類結果

（訓練樣本數－0/neutral: 250，-1/POD: 517）

影片樣本 分類正確率

訓練樣本 95.9583% (736/767)

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

全部測試樣本 82.8201% (511/617)

影片 1 84% (42/50)

影片 2 78.2609% (36/46) 影片 3 81.1594% (56/69)

影片 4 78% (39/50)

影片 5 83.0986% (59/71) 影片 6 78.8732% (56/71) 影片 7 81.5789% (31/38) 影片 8 76.4706% (26/34)

影片 9 100% (34/34)

影片 10 88.5714% (31/35) 影片 11 91.1765% (31/34) 影片 12 82.3529% (70/85)

表 4.9、骨架關節點位置差值特徵模式之分二類結果

（訓練樣本數－0/neutral: 251，-1/POD: 602）

影片樣本 分類正確率

訓練樣本 72.6846% (620/853) 全部測試樣本 61.1842% (372/608)

影片 1 40% (20/50)

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

影片 2 69.5652% (32/46) 影片 3 62.3188% (43/69) 影片 4 73.913% (34/46) 影片 5 49.2958% (35/71) 影片 6 71.831% (51/71) 影片 7 62.8571% (22/35) 影片 8 48.4848% (16/33) 影片 9 75.7576% (25/33) 影片 10 88.5714% (31/35) 影片 11 38.2353% (13/34) 影片 12 58.8235% (50/85)

表 4.10、3D 臉部位置差值特徵模式之分二類結果

（訓練樣本數－0/neutral: 234，-1/POD: 543）

影片樣本 分類正確率

訓練樣本 78.5071% (610/777) 全部測試樣本 65.6402% (405/617)

影片 1 54% (27/50)

影片 2 69.5652% (32/46) 影片 3 62.3188% (43/69)

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

影片 4 78% (39/50)

影片 5 57.7465% (41/71) 影片 6 64.7887% (46/71) 影片 7 84.2105% (32/38) 影片 8 44.1176% (15/34) 影片 9 76.4706% (26/34) 影片 10 91.4286% (32/35) 影片 11 61.7647% (21/34)

影片 12 60% (51/85)

更進一步，我們還想知道，如果不納入自然狀態（neutral）集合下的資料，

而單純就 POD/POL 資料分兩類，結果又會如何？表 4.11、4.12、及 4.13，分別呈現動畫單元、骨架關節點位置差值、及 3D 臉部位置差值，這三項特徵模式的 POD/POL 二元分類結果。

表 4.11、動畫單元特徵模式之 POD/POL 二元分類結果

（訓練樣本數－1/POL: 455，-1/POD: 517）

影片樣本 分類正確率

訓練樣本 87.8601% (854/972) 全部測試樣本 68.3897% (344/503) 影片 1 68.8889% (31/45) 影片 2 64.1026% (25/39)

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

影片 3 65.5172% (38/58) 影片 4 72.7273% (32/44) 影片 5 58.3333% (35/60) 影片 6 66.6667% (40/60) 影片 7 73.0769% (19/26) 影片 8 75.8621% (22/29) 影片 9 54.1667% (13/24) 影片 10 82.1429% (23/28) 影片 11 80.7692% (21/26) 影片 12 70.3125% (45/64)

表 4.12、骨架關節點位置差值特徵模式之 POD/POL 二元分類結果

（訓練樣本數－1/POL: 663，-1/POD: 602）

影片樣本 分類正確率

訓練樣本 97.7075% (1236/1265) 全部測試樣本 68.5484% (340/496) 影片 1 82.2222% (37/45) 影片 2 58.9744% (23/39) 影片 3 62.069% (36/58)

影片 4 60% (24/40)

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

影片 5 80% (48/60)

影片 6 75% (45/60)

影片 7 58.3333% (14/24)

影片 8 75% (21/28)

影片 9 54.1667% (13/24) 影片 10 42.8571% (12/28) 影片 11 84.6154% (22/26) 影片 12 70.3125% (45/64)

表 4.13、3D 臉部位置差值特徵模式之 POD/POL 二元分類結果

（訓練樣本數－1/POL: 573，-1/POD: 543）

影片樣本 分類正確率

訓練樣本 87.3656% (975/1116) 全部測試樣本 61.336% (303/494) 影片 1 62.2222% (28/45) 影片 2 58.9744% (23/39) 影片 3 51.7241% (30/58) 影片 4 59.0909% (26/44)

影片 5 70% (42/60)

影片 6 58.3333% (35/60)

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

影片 7 65.3846% (17/26) 影片 8 72.4138% (21/29)

影片 9 50% (12/24)

影片 10 57.1429% (16/28)

影片 11 50% (13/26)

影片 12 62.5% (40/64)

動畫單元特徵模式在分三類的結果，至少有 66%的正確率；而在分二類的結果，至少有 76%的正確率。從現有資料的分類正確率來評估，動畫單元特徵模式是可用的。而 POD/POL 二元分類結果，顯示的是 POL/POL 兩個集合間重疊的狀況。我們可以比較後得知，影片 9 的分類正確率最低（54.1667%），顯示 POD/POL 間應有很大部分的重疊，但是在分二類及分三類的結果，影片 9 的分類正確率分別為 100%以及 76.6667%，這表示自然狀態（neutral）的資料，以及能夠引起人們反應動作的資料（POD/POL），在動畫單元特徵模式下的重疊較少，較能夠清楚區分，而在分二類及分三類的正確率呈現比 POD/POL 二元分類正確率更好的現象。

骨架關節點位置差值特徵模式在分三類的結果，其中有 6 個影片的正確率大於 66%；而在分二類的結果，則只有 2 個影片的正確率大於 75%。由於在分三類中測試樣本的取法，同時參考了 POD 及 POL，若 POD 和 POL 有重覆，仍同時採用為測試樣本，而分別標註為-1 及 1 的類別。理論上，這樣的做法，會使得三類分類的錯誤率更高，因為重疊區間的類似的特徵模式，同時標註兩種類別，至少有其中一筆應判定為錯。然而，此特徵模式的分三類正確率，最低仍有

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

47%，顯示比分二類更加穩定。在此項目中，則應判定分二類比分三類的正確率結果更差，更不可用。

為了探求在分三類結果中有 6 個影片正確率偏低的原因，我們可以從 POD/POL 二元分類結果，觀察 POL/POL 兩個集合間重疊的狀況。從資料中發現，

這 6 個正確率偏低的影片，在 POD/POL 二元分類正確率也偏低（正確率<70%）。

據此我們可以說，在骨架關節點位置差值特徵模式的分三類正確率，與 POD/POL 資料是否能夠清楚區分，有很大的關聯性。當 POD/POL 集合的重疊部分愈小，

則分三類結果會愈好。

基於骨架關節點位置差值特徵模式三類分類的結果雖然不夠好，但尚稱穩定，故我們認為，骨架關節點位置差值特徵模式，在三類分類算是姑且可用的；但在二類分類的表現不佳而不可用。

至於 3D 臉部頂點位置差值特徵模式，無論是二類分類或三類分類，分類正確率的結果都普遍顯示偏低，且在每個影片中的結果並不穩定，故判定此特徵模式無實用價值而不採用。

在本章中，我們以兩種角度，找出可用的特徵模式，在下一章，我們即採用這些可用的特徵模式，並開發應用程式以應用。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

第五章研究結果之應用

5.1. 基於研究結果之應用

圖 5.1、將研究結果應用於表現評估預測系統之架構圖

我們從上一章的研究結果中，取出可用的影像特徵模式之模型，以及前期研究對於偵測聲音事件的研究結果，綜合起來，組成表現評估預測系統的核心模組，如圖 5.1 的架構圖所展示。

在影像部分，由於研究結果來自於我們從大量正式評估階段中所取得的大眾意見，我們並不曉得何謂「正確／不正確」的表現模式，評分完全依賴大眾意見所建立之模型。所以在此預測系統內，對一組從 Kinect 感測器取得的動畫單元特徵模式，同時進行二類及三類的分類，且將結果並列顯示在使用者介面上，以

‧

Kinect SDK 所提供之範例程式「Face Tracking Visualization」C++的版本[33]，作為本研究表現評估預測系統之藍本。在增加了顯示上一節提及之影音偵測模組所回饋的內容後，呈現的畫面如圖 5.2 所展示。此外，為了讓使用者掌握自己的表

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

現全貌，另外在程式執行的過程中，也儲存了執行期間所有事件的記錄檔，包括事件的開始及結束時間，以及事件的內容，例如預測的評分結果，或僅記錄某聲音事件已被偵測，如圖 5.3 所展示。

(a) (b)

(c)

圖 5.2、基於 Kinect SDK 範例程式「Face Tracking Visualization」[33]，所開發的表現評估預測系統之原型程式。a) 系統一致判斷為自然狀態 b) 系統一致判斷為扣分狀態 c) 系統偶爾出現矛盾，動畫單元和骨架關節點差值有不同的判斷。

圖 5.3、表現評估預測系統執行期間的記錄檔。其中標示為影像分類模組的矛盾。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

筆者自行測試原型程式，在影像特徵模式的評估，動畫單元模式的二類及三類分類結果，偶爾出現矛盾現象（如圖 5.3 內的記錄檔中所顯示），但大部分的結果原則上相同（意即，兩者同時出現-1；或是在二類分類出現 0，而在三類分類出現 0 或 1）。並且，在兩者同時出現-1 時，該區塊的文字顏色以紅色顯示，

使用者便能立即注意此回饋，因而有所學習。在骨架關節點位置差值模式的三類分類結果，據筆者使用時觀察，極難出現 0 的分類，研判是所提供的 0 類別訓練樣本太少。在使用者介面上，則只針對-1 類別出現時，以紅色的文字提示。

在聲音事件的偵測方面，除了端點偵測以外，其他聲音事件則多有不準確的現象。據研判應是提供之訓練樣本過少而導致。不過，這些問題，應可在增加特定的聲音事件之訓練樣本，並更新模型到本系統之核心模組後，即能增加其準確率。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

第六章

結論與未來研究方向

6.1. 結論

我們試圖採用較穩定並可用的特徵模式，以分析結果證實大眾對於簡報表現的意見，存在有少數且可供機器學習並辨別的共識模式。這些共識，不同於例如 Hoque 的研究[8]中的專家們所據以評估的標準規範，而更接近於人們的直覺，類似於 Pentland 在「Honest Signals」中所提出的社交儀表[2]。雖然 Pentland 指出，

所謂的誠實訊息（honest signals）是那些經由潛意識、或是那些無法控制的訊息，

而非由訓練得來[11]。不過我們相信，藉由大眾意見的回饋，使用本系統的模擬簡報者，可以觀察自己的肢體語言及表情，甚至從比較前後的表現差異，調整在

在文檔中基於 RGBD 影音串流之肢體表情語言表現評估 - 政大學術集成 (頁 55-0)

喜歡／不喜歡的表現模式，機器能否學習並預測？

第四章 研究過程與結果分析

4.3 可用性分析

4.3.5 喜歡／不喜歡的表現模式，機器能否學習並預測？

國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

第五章 研究結果之應用

5.1. 基於研究結果之應用

‧

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

第四章研究過程與結果分析

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學

第五章研究結果之應用

立政治大學

立政治大學

立政治大學