第四章 研究過程與結果分析
4.3 可用性分析
4.3.5 喜歡/不喜歡的表現模式,機器能否學習並預測?
國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
在此檢視為何聲音事件命中率會大於 1 的問題,由於我們計算命中率,是 只要 POD/POL 的 2 秒區間,和手動標示的聲音事件時間段有重疊,即計算一次 的命中。如此一來,只要聲音事件的時間段夠長,評估者即有可能在前後兩次 的評估結果,命中同一個聲音事件。不過縱觀本研究,這種前後評估同時命中 同一個聲音事件的情況並不多見,我們可以將聲音事件命中率大於 1 的現象,
視為評估者對於該聲音事件敏感的表現。
圖 4.7、大量正式評估階段以 35 位評估者評估資料分組之聲音事件命中率折線 圖。其中 POD_1~POD_6 指聲音事件 type 1~type 6 發生於 POD,而 POL_1~POL_6 則指聲音事件發生於 POL。當一位評估者在 5 個以上的聲音事件有大於 0.1 的命
中率時,我們以彩色粗線標註,表示這是對聲音事件較敏感的評估者。
4.3.5. 喜歡/不喜歡的表現模式,機器能否學習並預測?
接下來,我們想要知道,所取出的各項影像特徵模式,能否經由機器學 習,並且用於未來的預測?從 4.3.1 一節的結論得知,我們需要從每個影片中取
‧
製作測試樣本方面,則先根據評估的 POD/POL 劃分集合,POD/POL 集合 外的資料,根據 2 秒內 20 筆資料的原則,作為標示 0 的測試樣本;而對於
(訓練樣本數-0/neutral: 55,1/POL: 455,-1/POD:517)
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
影片樣本 分類正確率
訓練樣本 98.0526% (1007/1027) 全部測試樣本 76.1566% (428/562) 影片 1 76.4706% (39/51) 影片 2 79.0698% (34/43) 影片 3 82.8125% (53/64)
影片 4 80% (36/45)
影片 5 68.75% (44/64) 影片 6 66.1538% (43/65)
影片 7 70% (21/30)
影片 8 82.8571% (29/35) 影片 9 76.6667% (23/30) 影片 10 83.3333% (25/30) 影片 11 85.1852% (23/27) 影片 12 74.359% (58/78)
表 4.6、骨架關節點位置差值特徵模式之分三類結果
(訓練樣本數-0/neutral: 58,1/POL: 663,-1/POD: 602)
影片樣本 分類正確率
訓練樣本 97.808% (1294/1323)
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
全部測試樣本 71.6606% (397/554) 影片 1 84.3137% (43/51) 影片 2 62.7907% (27/43) 影片 3 65.625% (42/64) 影片 4 60.9756% (25/41) 影片 5 81.25% (52/64) 影片 6 76.9231% (50/65) 影片 7 64.2857% (18/28) 影片 8 79.4118% (27/34) 影片 9 58.6207% (17/29) 影片 10 46.6667% (14/30) 影片 11 85.1852% (23/27) 影片 12 75.641% (59/78)
表 4.7、3D 臉部位置差值特徵模式之分三類結果
(訓練樣本數-0/neutral: 59,1/POL: 573,-1/POD: 543)
影片樣本 分類正確率
訓練樣本 85.3617% (1003/1175) 全部測試樣本 58.8968% (331/562) 影片 1 56.8627% (29/51)
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
影片 2 53.4884% (23/43)
影片 3 50% (32/64)
影片 4 60% (27/45)
影片 5 70.3125% (45/64) 影片 6 58.4615% (38/65) 影片 7 66.6667% (20/30) 影片 8 68.5714% (24/35)
影片 9 50% (15/30)
影片 10 56.6667% (17/30) 影片 11 51.8519% (14/27) 影片 12 60.2564% (47/78)
此外,我們也想知道,如果只想探討人們是否討厭的模式,而不納入喜歡 的模式,這樣一來,這三項影像特徵模式是否仍是可用的嗎?與上述三類分類 的作法相同,只是不使用 POL,而只採用 POD 的資料,分別製作出-1、0 類別 的訓練及測試樣本。表 4.8、4.9、及 4.10,分別呈現動畫單元、骨架關節點位置 差值、及 3D 臉部位置差值,這三項特徵模式的分二類結果。
表 4.8、動畫單元特徵模式之分二類結果
(訓練樣本數-0/neutral: 250,-1/POD: 517)
影片樣本 分類正確率
訓練樣本 95.9583% (736/767)
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
全部測試樣本 82.8201% (511/617)
影片 1 84% (42/50)
影片 2 78.2609% (36/46) 影片 3 81.1594% (56/69)
影片 4 78% (39/50)
影片 5 83.0986% (59/71) 影片 6 78.8732% (56/71) 影片 7 81.5789% (31/38) 影片 8 76.4706% (26/34)
影片 9 100% (34/34)
影片 10 88.5714% (31/35) 影片 11 91.1765% (31/34) 影片 12 82.3529% (70/85)
表 4.9、骨架關節點位置差值特徵模式之分二類結果
(訓練樣本數-0/neutral: 251,-1/POD: 602)
影片樣本 分類正確率
訓練樣本 72.6846% (620/853) 全部測試樣本 61.1842% (372/608)
影片 1 40% (20/50)
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
影片 2 69.5652% (32/46) 影片 3 62.3188% (43/69) 影片 4 73.913% (34/46) 影片 5 49.2958% (35/71) 影片 6 71.831% (51/71) 影片 7 62.8571% (22/35) 影片 8 48.4848% (16/33) 影片 9 75.7576% (25/33) 影片 10 88.5714% (31/35) 影片 11 38.2353% (13/34) 影片 12 58.8235% (50/85)
表 4.10、3D 臉部位置差值特徵模式之分二類結果
(訓練樣本數-0/neutral: 234,-1/POD: 543)
影片樣本 分類正確率
訓練樣本 78.5071% (610/777) 全部測試樣本 65.6402% (405/617)
影片 1 54% (27/50)
影片 2 69.5652% (32/46) 影片 3 62.3188% (43/69)
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
影片 4 78% (39/50)
影片 5 57.7465% (41/71) 影片 6 64.7887% (46/71) 影片 7 84.2105% (32/38) 影片 8 44.1176% (15/34) 影片 9 76.4706% (26/34) 影片 10 91.4286% (32/35) 影片 11 61.7647% (21/34)
影片 12 60% (51/85)
更進一步,我們還想知道,如果不納入自然狀態(neutral)集合下的資料,
而單純就 POD/POL 資料分兩類,結果又會如何?表 4.11、4.12、及 4.13,分別 呈現動畫單元、骨架關節點位置差值、及 3D 臉部位置差值,這三項特徵模式的 POD/POL 二元分類結果。
表 4.11、動畫單元特徵模式之 POD/POL 二元分類結果
(訓練樣本數-1/POL: 455,-1/POD: 517)
影片樣本 分類正確率
訓練樣本 87.8601% (854/972) 全部測試樣本 68.3897% (344/503) 影片 1 68.8889% (31/45) 影片 2 64.1026% (25/39)
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
影片 3 65.5172% (38/58) 影片 4 72.7273% (32/44) 影片 5 58.3333% (35/60) 影片 6 66.6667% (40/60) 影片 7 73.0769% (19/26) 影片 8 75.8621% (22/29) 影片 9 54.1667% (13/24) 影片 10 82.1429% (23/28) 影片 11 80.7692% (21/26) 影片 12 70.3125% (45/64)
表 4.12、骨架關節點位置差值特徵模式之 POD/POL 二元分類結果
(訓練樣本數-1/POL: 663,-1/POD: 602)
影片樣本 分類正確率
訓練樣本 97.7075% (1236/1265) 全部測試樣本 68.5484% (340/496) 影片 1 82.2222% (37/45) 影片 2 58.9744% (23/39) 影片 3 62.069% (36/58)
影片 4 60% (24/40)
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
影片 5 80% (48/60)
影片 6 75% (45/60)
影片 7 58.3333% (14/24)
影片 8 75% (21/28)
影片 9 54.1667% (13/24) 影片 10 42.8571% (12/28) 影片 11 84.6154% (22/26) 影片 12 70.3125% (45/64)
表 4.13、3D 臉部位置差值特徵模式之 POD/POL 二元分類結果
(訓練樣本數-1/POL: 573,-1/POD: 543)
影片樣本 分類正確率
訓練樣本 87.3656% (975/1116) 全部測試樣本 61.336% (303/494) 影片 1 62.2222% (28/45) 影片 2 58.9744% (23/39) 影片 3 51.7241% (30/58) 影片 4 59.0909% (26/44)
影片 5 70% (42/60)
影片 6 58.3333% (35/60)
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
影片 7 65.3846% (17/26) 影片 8 72.4138% (21/29)
影片 9 50% (12/24)
影片 10 57.1429% (16/28)
影片 11 50% (13/26)
影片 12 62.5% (40/64)
動畫單元特徵模式在分三類的結果,至少有 66%的正確率;而在分二類的 結果,至少有 76%的正確率。從現有資料的分類正確率來評估,動畫單元特徵 模式是可用的。而 POD/POL 二元分類結果,顯示的是 POL/POL 兩個集合間重 疊的狀況。我們可以比較後得知,影片 9 的分類正確率最低(54.1667%),顯示 POD/POL 間應有很大部分的重疊,但是在分二類及分三類的結果,影片 9 的分 類正確率分別為 100%以及 76.6667%,這表示自然狀態(neutral)的資料,以及 能夠引起人們反應動作的資料(POD/POL),在動畫單元特徵模式下的重疊較 少,較能夠清楚區分,而在分二類及分三類的正確率呈現比 POD/POL 二元分類 正確率更好的現象。
骨架關節點位置差值特徵模式在分三類的結果,其中有 6 個影片的正確率 大於 66%;而在分二類的結果,則只有 2 個影片的正確率大於 75%。由於在分 三類中測試樣本的取法,同時參考了 POD 及 POL,若 POD 和 POL 有重覆,仍 同時採用為測試樣本,而分別標註為-1 及 1 的類別。理論上,這樣的做法,會使 得三類分類的錯誤率更高,因為重疊區間的類似的特徵模式,同時標註兩種類 別,至少有其中一筆應判定為錯。然而,此特徵模式的分三類正確率,最低仍有
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
47%,顯示比分二類更加穩定。在此項目中,則應判定分二類比分三類的正確率 結果更差,更不可用。
為了探求在分三類結果中有 6 個影片正確率偏低的原因, 我們可以從 POD/POL 二元分類結果,觀察 POL/POL 兩個集合間重疊的狀況。從資料中發現,
這 6 個正確率偏低的影片,在 POD/POL 二元分類正確率也偏低(正確率<70%)。
據此我們可以說,在骨架關節點位置差值特徵模式的分三類正確率,與 POD/POL 資料是否能夠清楚區分,有很大的關聯性。當 POD/POL 集合的重疊部分愈小,
則分三類結果會愈好。
基於骨架關節點位置差值特徵模式三類分類的結果雖然不夠好,但尚稱穩 定,故我們認為,骨架關節點位置差值特徵模式,在三類分類算是姑且可用 的;但在二類分類的表現不佳而不可用。
至於 3D 臉部頂點位置差值特徵模式,無論是二類分類或三類分類,分類正 確率的結果都普遍顯示偏低,且在每個影片中的結果並不穩定,故判定此特徵 模式無實用價值而不採用。
在本章中,我們以兩種角度,找出可用的特徵模式,在下一章,我們即採 用這些可用的特徵模式,並開發應用程式以應用。
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
第五章 研究結果之應用
5.1. 基於研究結果之應用
圖 5.1、將研究結果應用於表現評估預測系統之架構圖
我們從上一章的研究結果中,取出可用的影像特徵模式之模型,以及前期研 究對於偵測聲音事件的研究結果,綜合起來,組成表現評估預測系統的核心模 組,如圖 5.1 的架構圖所展示。
在影像部分,由於研究結果來自於我們從大量正式評估階段中所取得的大眾 意見,我們並不曉得何謂「正確/不正確」的表現模式,評分完全依賴大眾意見 所建立之模型。所以在此預測系統內,對一組從 Kinect 感測器取得的動畫單元 特徵模式,同時進行二類及三類的分類,且將結果並列顯示在使用者介面上,以
‧
Kinect SDK 所提供之範例程式「Face Tracking Visualization」C++的版本[33],作 為本研究表現評估預測系統之藍本。在增加了顯示上一節提及之影音偵測模組所 回饋的內容後,呈現的畫面如圖 5.2 所展示。此外,為了讓使用者掌握自己的表‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
現全貌,另外在程式執行的過程中,也儲存了執行期間所有事件的記錄檔,包括 事件的開始及結束時間,以及事件的內容,例如預測的評分結果,或僅記錄某聲 音事件已被偵測,如圖 5.3 所展示。
(a) (b)
(c)
圖 5.2、基於 Kinect SDK 範例程式「Face Tracking Visualization」[33],所開發的 表現評估預測系統之原型程式。a) 系統一致判斷為自然狀態 b) 系統一致判斷 為扣分狀態 c) 系統偶爾出現矛盾,動畫單元和骨架關節點差值有不同的判斷。
圖 5.3、表現評估預測系統執行期間的記錄檔。其中標示為影像分類模組的矛盾。
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
筆者自行測試原型程式,在影像特徵模式的評估,動畫單元模式的二類及三 類分類結果,偶爾出現矛盾現象(如圖 5.3 內的記錄檔中所顯示),但大部分的 結果原則上相同(意即,兩者同時出現-1;或是在二類分類出現 0,而在三類分 類出現 0 或 1)。並且,在兩者同時出現-1 時,該區塊的文字顏色以紅色顯示,
使用者便能立即注意此回饋,因而有所學習。在骨架關節點位置差值模式的三類 分類結果,據筆者使用時觀察,極難出現 0 的分類,研判是所提供的 0 類別訓練 樣本太少。在使用者介面上,則只針對-1 類別出現時,以紅色的文字提示。
在聲音事件的偵測方面,除了端點偵測以外,其他聲音事件則多有不準確的 現象。據研判應是提供之訓練樣本過少而導致。不過,這些問題,應可在增加特 定的聲音事件之訓練樣本,並更新模型到本系統之核心模組後,即能增加其準確 率。
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
第六章
結論與未來研究方向
6.1. 結論
我們試圖採用較穩定並可用的特徵模式,以分析結果證實大眾對於簡報表現 的意見,存在有少數且可供機器學習並辨別的共識模式。這些共識,不同於例如 Hoque 的研究[8]中的專家們所據以評估的標準規範,而更接近於人們的直覺,類 似於 Pentland 在「Honest Signals」中所提出的社交儀表[2]。雖然 Pentland 指出,
所謂的誠實訊息(honest signals)是那些經由潛意識、或是那些無法控制的訊息,
而非由訓練得來[11]。不過我們相信,藉由大眾意見的回饋,使用本系統的模擬 簡報者,可以觀察自己的肢體語言及表情,甚至從比較前後的表現差異,調整在
而非由訓練得來[11]。不過我們相信,藉由大眾意見的回饋,使用本系統的模擬 簡報者,可以觀察自己的肢體語言及表情,甚至從比較前後的表現差異,調整在