第三章 研究方法
3.3 研究架構設計
3.3.3 研究分析工具
此,定義 POD(Period of Dislike)為評估者標示不喜歡的時段,而定義 POL
(Period of Like)為評估者標示喜歡的時段。依據 POD/POL 分別取出表現模式
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
在聲音部分的資料分析方面,由於 Kinect 感測器錄下的聲音來源不限於簡 報者本人,則繼續使用前述提及的軟體「CLAN」[23],以人工方式標注我們所 關心的聲音事件(只標注簡報者本人的聲音),並把所標注的聲音事件類型及其 時間戳記,匯入 R 軟體中進行分析與研究。和 3.2.3 節不同之處在於,在這裡並 非要訓練電腦自動判斷聲音事件,而是我們想分析評估結果和聲音事件的關 聯。故我們增加了可能會引起評估者喜歡/不喜歡的聲音事件 Type4(結巴、重 覆)以及 Type5(結巴、修正)。本論文所處理分析的聲音事件,彙總如下:
Type 1-簡短回應
Type 2-咳嗽、吸鼻
Type 3-非結束停頓
Type 4-結巴、重覆
Type 5-結巴、修正
Type 6-笑聲
3.4. 目標設定
本研究的目標,希望可以從分析資料、並試著回答問題陳述中的三個問題 後,得出顯著的可用性。因其結論為可用的,所以我們便可據此結論提供給機 器學習,並且實作於應用程式之中。
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
第四章
研究過程與結果分析
在本章節中,主要介紹使用 Kinect 感測器所錄製的簡報影片內容、評估資 料的蒐集過程,以及在每個階段中對所觀察到的問題,辨其原因,並且如何進 行修正。對於各階段蒐集到的評估資料,都視為一個獨立的資料集,以 R 分析 資料後,並嘗試回答第 3.3.2 節「研究架構」中所提出的三個問題,以分析結果 的可用性,最後再比較每個階段的分析結果。
4.1. 研究過程
4.1.1. 小量測試評估階段
在這個階段裡,將「研究架構」中所規劃的「評估者流程」實作內容大致底 定。首先,由 Kinect 感測器所錄製的簡報影片,採用了甲同學在論文口試簡報 中的 5 個錄影,影片長度從 1 分 42 秒到 2 分 15 秒,總長度約略為 10 分鐘,並 在評估系統網頁上依序提供評估,如圖 4.1 所示。
總共有 6 人次的研究生,參與了本階段的評估。對於每一輪的完整評估工 作,他們總共需要觀看上述的 5 個簡報影片。而在評估之始,評估系統會給予 該評估者一個時間戳記,並在上傳評估結果時以此戳記作為一部分的檔名,以 便在後續分析時,可用此戳記識別評估結果是否來自同一位評估者。
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
圖 4.1、小量測試評估系統網站,位置:
http://tranquil-headland-6804.herokuapp.com/evaluation/
經由此階段的評估過程,陸續發現不少問題,條列如下:
1. 評估者反應,提示不夠清楚,不曉得評估的重點,以及要如何操作。
2. 與預期的數量比較,評估者提供的評估數量過少。
3. 超過半數的評估者,沒有做完一輪完整評估。
4. 發現在部分 POD/POL 內,不存在 Kinect 感測器的動畫單元、骨架資 料。
5. 當時並無儲存 Kinect SDK 所提供之 3D 臉部頂點資料。
針對上述列出的問題,重新檢討評估系統網站的使用者介面及流程,並在 其後加以錄製同時儲存 3D 臉部頂點資料的簡報影片後,由筆者一人模擬多人次 評估者,進行評估作業。至於 POD/POL 內不存在特徵資料的問題,可以藉由選
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
擇影片以特徵資料多而優先選取,以及增加評估資料(例如提高評估意願,或者 使評估輸入變得輕鬆等)的作法,以減低此問題的重要性。
4.1.2. 實驗者自行測試評估階段
在此階段裡,先針對上節所發現之問題,進行修改,茲列出重要修正如 下:
1. 評估者提供的評估數量過少的問題,除了跟評估者所反應的「提示不夠 清楚」,而加強提示語以外,懷疑也有疲勞現象的影響,故依照研究架 構中所設想的,為避免評估者疲勞而影響結果,每一位評估者看到的 影片呈現順序皆不相同(隨機排序)。
2. 半數以上沒有做完一輪完整評估的問題,懷疑是使用者介面只能用滑 鼠,輸入不方便,故增加鍵盤快速鍵 u/d,以利更快速地標記喜歡/不 喜歡之意見。
圖 4.2、實驗者自行測試評估系統網站,左圖為正常影音版,位置:
http://tranquil-headland-6804.herokuapp.com/evaluation_2/;右圖為靜音版,位 置:http://tranquil-headland-6804.herokuapp.com/evaluation_silence/
‧
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
式。此階段共有 35 位評估者,其中 33 位評估者為政大資科系大二學生,其餘兩 位評估者的身份則為社會人士。
圖 4.3、大量正式評估系統網站,左圖為預先提示的操作說明,位置:
http://tranquil-headland-6804.herokuapp.com/evaluation_3/
雖然並非所有人都完成一輪完整評估,也有評估者有重覆評估的情況,不 過,在剃除完全無意見的空白評估資料後,對於每個簡報影片,至少都有 32 人 次以上的有效評估資料,據此我們可以說,此階段所蒐集到的評估資料已足稱 大量。
4.2. 分析項目
在影像方面,我們已經儲存了從 Kinect SDK 取得的動畫單元、骨架、以及 3D 臉部頂點三項資料。在聲音方面,則在錄影完成後,利用「CLAN」[23]軟 體,以人工方式標注了聲音事件。根據 3.3.2 一節所設想的分析流程,接下來,
我們需要採用評估資料內容,取出 POD/POL 內所包含的特徵模式。
4.2.1. 動畫單元特徵模式
當 Kinect 感測器完成錄影後,我們便可取得該影片的動畫單元、骨架、以 及 3D 臉部頂點資料集。將這些資料匯入 R[29]以後,可畫出屬於該影片的數值
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
分布。圖 4.4 即為影片 12 的動畫單元分布,以及取出 POD/POL 內動畫單元模式 的示意。這些在時段內的動畫單元模式,雖然從觀察中就可以看出部分動畫單 元模式有很多的重疊(被複數的評估者所選擇),以及 POD 及 POL 之間重疊的 模式並不普遍,不過我們仍將在後續的資料分析中,計算模式與模式之間的相 似程度。
圖 4.4、影片 12 的動畫單元分布圖,下圖是和 POD/POL 取交集後的分布。
POD 以淡灰色表示,POL 以淡黃色表示。若多位評估者選到重疊的時段,該區 域會顯示較深的顏色。
‧
4.2.2. 骨架關節點位置差值(Skeletal Joints Position Difference)特徵模式
在處理骨架資料方面,由於我們關注的是簡報情境,雖然前述的錄影中有
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
左肘 1670 0.799
右肘 1813 0.867
左腕 1512 0.723
右腕 1502 0.718
左手 1099 0.526
右手 875 0.418
4.2.3. 3D 臉部頂點位置差值(3D Vertex Position Difference)特徵模式
3D 臉部頂點位置,指的是 Kinect SDK 所提供構成 3D 臉部模型的所有頂 點,一筆資料中,共包含 121 個臉部頂點位置,數量上十分驚人,而在實用性 上則值得探討。圖 4.5 是由 R[29]所隨機選取兩個頂點位置欄位,並觀察兩者的 位置分布關係。觀察下圖的兩頂點位置關係,可以確知,由於整個頭部是連動 的,我們隨機取兩個臉部頂點,它們在動作方向上的軌跡也會是類似的。雖然 之前我們沒有對基本的頭部角度(俯仰、滾動、和搖擺[5])儲存追踪記錄,但 是,我們應該可以藉由計算 3D 臉部頂點位置差值,作為追踪頭部運動的資訊。
類似於處理骨架資料,我們固定地取用 3D 臉部頂點的第一個及最後一個頂 點,計算其位置差值,並儲存在新增的兩個差值欄位。其後我們也將把 3D 臉部 頂點位置差值視為一類特徵,並且取出 POD/POL 特徵模式後,進行分析。
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
圖 4.5、4 個影片的 3D 臉部頂點位置分布圖,對於每個影片,在 121 個頂點中,
隨機選取兩個頂點繪製分布圖,可以觀察到任兩個臉部頂點位置的軌跡是相似 的。
4.2.4. 聲音事件命中率
如 3.3.3 一節所提到,我們使用軟體 CLAN[23],以手動標註我們認為會影 響講話順暢度,而引起評估者喜歡/不喜歡感覺的聲音事件。在將手動標註的 聲音事件資料集匯入 R[29]以後,一樣可以把聲音事件和 POD/POL 一起取交 集。我們單純地只關心特定的聲音事件,是否發生在 POD/POL 內,所以在這裡 想要探討的是,POD/POL 內發生了多少我們所標註的聲音事件,而所佔比例又 是聲音事件發生總次數的多少?也就是 POD/POL 所及的範圍,能夠命中多少聲 音事件的比率,是我們用來觀察評估的指標。表 4.2 即為計算聲音事件命中率的 範例。
‧
‧
進行階層式集群分析(hierarchical clustering analysis),先觀察特徵模式的集群 程度,再取出最大群的特徵模式,作為訓練資料,並就現有的影片作為測試資‧
‧
DTW 平均值超過基準值的有 2 個(DTW 平均值:0.629、0.633);同一位評估 者意見中,6 位評估者的結果只有 2 位超出基準值(DTW 平均值:0.645、
0.733)。而在 POL 的模式集合裡,同一個影片中,DTW 平均值超過基準值的 有 1 個(DTW 平均值:0.651);同一位評估者意見中,6 位評估者中有 3 位超 出基準值(DTW 平均值:0.606、0.600、0.705)。雖然此階段樣本數很少,不 過已經顯示出,就算只有一位簡報者,仍然可能表現出複數以上的模式,以致
‧
‧
差和中位數絕對差(Median absolute deviation,簡稱 MAD)接近,最大值約為 平均值的 3 倍;而影片 2 的平均 DTW 距離大於基準值,雖然中位數和平均值的DTW Distance of POD of Skeletal Position Difference Patterns (cm) mean sd mad max median n2
‧
DTW Distance of POD of 3D Vertex Position Difference Patterns (cm) mean sd mad max median n2 影片 3 0.375 0.200 0.137 1.269 0.345 3600 評估者 1 0.348 0.336 0.331 0.848 0.224 9
評估者 14 0 0 0 0 0 1
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
評估者 22 0.304 0.160 0.131 0.484 0.361 49
評估者 24 0 0 0 0 0 1
評估者 30 0.372 0.303 0.402 0.897 0.316 16 DTW Distance of POL of 3D Vertex Position Difference Patterns (cm)
mean sd mad max median n2 評估者 29 0.324 0.197 0.181 0.692 0.325 49
綜合以上結論,由於此項目模式間 DTW 距離的分布,相較骨架關節點位置 差值,普遍有差值更小,導致不合常理的最大值出現時,使得平均值及標準差都 被誇大,以致結果難以檢驗,並且難與其他特徵模式做比較。。不過我們還是可 以由後續的 3D 臉部位置差值特徵模式之集群分析、以及機器學習的過程及結 果,觀察並評估此特徵模式的可用性。我們將會採取 2 個臉部頂點差值,加上 3 個向度(x、y、z),以及固定模式長度 20 組,以維度 120 維的資料建模。
4.3.4. 檢驗聲音事件的共識程度
在實驗者自行測試評估階段中,筆者曾設計一個靜音的對照組測驗,想瞭 解聲音事件是否對於好惡的評估結果,具有一定程度的影響力。圖 4.6 是以同一 位評估者內的聲音事件命中率,分別繪製正常版及靜音版的命中率折線圖。我 們可以由此結果觀察得知,至少就筆者而言,評估結果確實和某些聲音事件的
在實驗者自行測試評估階段中,筆者曾設計一個靜音的對照組測驗,想瞭 解聲音事件是否對於好惡的評估結果,具有一定程度的影響力。圖 4.6 是以同一 位評估者內的聲音事件命中率,分別繪製正常版及靜音版的命中率折線圖。我 們可以由此結果觀察得知,至少就筆者而言,評估結果確實和某些聲音事件的