第四章 研究過程與結果分析
4.2 分析項目
國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
式。此階段共有 35 位評估者,其中 33 位評估者為政大資科系大二學生,其餘兩 位評估者的身份則為社會人士。
圖 4.3、大量正式評估系統網站,左圖為預先提示的操作說明,位置:
http://tranquil-headland-6804.herokuapp.com/evaluation_3/
雖然並非所有人都完成一輪完整評估,也有評估者有重覆評估的情況,不 過,在剃除完全無意見的空白評估資料後,對於每個簡報影片,至少都有 32 人 次以上的有效評估資料,據此我們可以說,此階段所蒐集到的評估資料已足稱 大量。
4.2. 分析項目
在影像方面,我們已經儲存了從 Kinect SDK 取得的動畫單元、骨架、以及 3D 臉部頂點三項資料。在聲音方面,則在錄影完成後,利用「CLAN」[23]軟 體,以人工方式標注了聲音事件。根據 3.3.2 一節所設想的分析流程,接下來,
我們需要採用評估資料內容,取出 POD/POL 內所包含的特徵模式。
4.2.1. 動畫單元特徵模式
當 Kinect 感測器完成錄影後,我們便可取得該影片的動畫單元、骨架、以 及 3D 臉部頂點資料集。將這些資料匯入 R[29]以後,可畫出屬於該影片的數值
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
分布。圖 4.4 即為影片 12 的動畫單元分布,以及取出 POD/POL 內動畫單元模式 的示意。這些在時段內的動畫單元模式,雖然從觀察中就可以看出部分動畫單 元模式有很多的重疊(被複數的評估者所選擇),以及 POD 及 POL 之間重疊的 模式並不普遍,不過我們仍將在後續的資料分析中,計算模式與模式之間的相 似程度。
圖 4.4、影片 12 的動畫單元分布圖,下圖是和 POD/POL 取交集後的分布。
POD 以淡灰色表示,POL 以淡黃色表示。若多位評估者選到重疊的時段,該區 域會顯示較深的顏色。
‧
4.2.2. 骨架關節點位置差值(Skeletal Joints Position Difference)特徵模式
在處理骨架資料方面,由於我們關注的是簡報情境,雖然前述的錄影中有
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
左肘 1670 0.799
右肘 1813 0.867
左腕 1512 0.723
右腕 1502 0.718
左手 1099 0.526
右手 875 0.418
4.2.3. 3D 臉部頂點位置差值(3D Vertex Position Difference)特徵模式
3D 臉部頂點位置,指的是 Kinect SDK 所提供構成 3D 臉部模型的所有頂 點,一筆資料中,共包含 121 個臉部頂點位置,數量上十分驚人,而在實用性 上則值得探討。圖 4.5 是由 R[29]所隨機選取兩個頂點位置欄位,並觀察兩者的 位置分布關係。觀察下圖的兩頂點位置關係,可以確知,由於整個頭部是連動 的,我們隨機取兩個臉部頂點,它們在動作方向上的軌跡也會是類似的。雖然 之前我們沒有對基本的頭部角度(俯仰、滾動、和搖擺[5])儲存追踪記錄,但 是,我們應該可以藉由計算 3D 臉部頂點位置差值,作為追踪頭部運動的資訊。
類似於處理骨架資料,我們固定地取用 3D 臉部頂點的第一個及最後一個頂 點,計算其位置差值,並儲存在新增的兩個差值欄位。其後我們也將把 3D 臉部 頂點位置差值視為一類特徵,並且取出 POD/POL 特徵模式後,進行分析。
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
圖 4.5、4 個影片的 3D 臉部頂點位置分布圖,對於每個影片,在 121 個頂點中,
隨機選取兩個頂點繪製分布圖,可以觀察到任兩個臉部頂點位置的軌跡是相似 的。
4.2.4. 聲音事件命中率
如 3.3.3 一節所提到,我們使用軟體 CLAN[23],以手動標註我們認為會影 響講話順暢度,而引起評估者喜歡/不喜歡感覺的聲音事件。在將手動標註的 聲音事件資料集匯入 R[29]以後,一樣可以把聲音事件和 POD/POL 一起取交 集。我們單純地只關心特定的聲音事件,是否發生在 POD/POL 內,所以在這裡 想要探討的是,POD/POL 內發生了多少我們所標註的聲音事件,而所佔比例又 是聲音事件發生總次數的多少?也就是 POD/POL 所及的範圍,能夠命中多少聲 音事件的比率,是我們用來觀察評估的指標。表 4.2 即為計算聲音事件命中率的 範例。