研究方法 - 聽其所見，觀其所聞：以眼動探討口語與場景互動的跨感官理解歷程

國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

實驗一：有預覽的口語理解作業

第一節研究方法

一、實驗設計

本論文採取實驗法，為一項2（物體類別）× 3（場景類型）二因子參與者內設計。本實驗採取隨機區組設計（random block design），每位參與者在過程中會遭遇到所有的實驗情境。第一項操弄因素為物體類別，包含口語詞彙提及目標物體和未提及非目標物體。第二項操弄因素為場景類型，根據目標物體與所在背景的關係分為一致、不一致和空白（中性）三種場景。

二、參與者

計有24 位修習心理學通識課程的大學部在學生參與實驗，結束後可獲得 0.5 小時的實驗參與時數。女性占 19 名（79%），男性占 5 名（21%）；年齡介於18 到 24 歲（平均 20.04 歲）。所有人皆為本國籍且長期居住在台灣地區的中文母語使用者，具備正常聽力、裸視或矯正後正常的視力表現，無色盲、眼球運動、神經及語言方面疾患。

三、實驗設備

參與者在理解過程中的眼動資料透過SR Research 公司的 Eyelink 1000 桌上型系統(SR Research, 2010)進行記錄。實驗期間的抽樣率為 1000 Hz，等於每一毫秒產生一項來自參與者優勢眼當下位置的資料點。參與者眼睛與22 吋 LCD 螢幕（型號VX2268WM，解析度 1024 × 768 像素，更新率 60 Hz）保持約 75 公分左右的觀看距離，並被要求倚靠下巴架避免頭部及身體移動降低測量穩定性。在實驗編排方面，透過Matlab 2012a 軟體與其 Psychotoolbox（版本 2.54）

模組控制刺激呈現及記錄按鍵反應。在邊看邊聽的實驗過程中，參與者從電腦螢幕觀看視覺陳列刺激，並配戴頭戴式耳機聆聽口語輸入刺激。

四、實驗材料

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

本實驗總計包含33 組視聽刺激。其中 3 組用於實驗練習階段，各種場景條件各一。在正式實驗素材中，每組刺激由目標詞彙的聽覺語句刺激和三項視覺陳列搭配構成，每一視覺場景包含一對被鑲嵌在三種可能背景的視覺物體。以圖3-1 為例，語音提及的目標物體（老虎）和語音未提及的非目標物體（禿鷹），分別出現在一致（原野）、不一致（海洋）和中性空白（單色全灰）背景構成三種場景情境。在觀看其中一項視覺場景的同時，聆聽包含目標物體名稱的中文口語句子：「民宅主人因視力不佳誤將老虎錯認為大貓導致這起死傷慘劇」。所有視聽覺刺激僅透過目標項目的視覺實體及口語詞彙產生指涉關連，此設計旨在分離兩者對理解作業產生的混淆效果。

圖 3-1 場景圖片材料範例

註：成對的口語提及目標物體（老虎）及未提及非目標物體（禿鷹）由左至右與一致（原野）、

不一致（天空）及空白（灰底）構成三種場景類型。

視覺陳列總計有90 張全彩照片，解析度為 1024 × 768 像素。其中包含 60 項不重複出現的物體以及背景，它們所屬的種類多元，物體方面包括工具、人物和動物，背景方面則來自於室內、室外和自然環境等類別。所有視覺素材均由研究者透過Google Images 搜尋引擎以關鍵字蒐集，並且以 Adobe Photoshop CS5 影像處理軟體進行個別後製及場景合成。

所有出現在同一視覺場景的成對操弄物體，其面積、與圖片中心距離以及視覺凸顯程度均進行事前控制。目標和非目標物體的平均物理面積大致相仿，

然因變異程度較大項目分析將納入此因素作為共變項（單位為像素；目標組：

平均值= 27521.27, 標準差= 12220.53；非目標組：平均值= 25506.37, 標準差=

13490.77；p > .05）。其次，物體中心至圖像中央的平均直線距離無顯著差異

（單位為像素；目標組：平均值= 374.98, 標準差= 62.05；非目標組：平均值=

374.59, 標準差= 61.57；p > .05）。第三，採用 Itti and Koch (2000)開發且廣泛用 於場景研究實驗的MATLAB Saliency Toolbox 來控制陳對物體的低階物理視覺

‧

軟體(Boersma & Weenink, 2002)以一般中文語速進行錄製（取樣頻率為 11,025 Hz）。整體來說，目標詞語音訊號平均約在句子開始後的 2.91（標準差= 0.19）

‧

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

參與者被告知這項反應以正確為首要考量，無須講求反應速度。每位參與者約在30 分鐘內完成實驗。

圖 3-2 實驗一與實驗二的嘗試次刺激呈現結構範例六、資料分析

在進行眼動資料分析之前，首先呈現參與者在三種背景條件下的理解題正確率，旨在確認參與者在實驗期間確實按研究者要求執行口語理解作業。

在眼動資料分析方面，由於過去視覺情境典範實驗發現物體面積會改變人在視聽理解期間早期和晚期階段的凝視行為表現(Cavicchio et al., 2014)，「物體面積」將作為共變數納入各項眼動資料分析的統計模型之中。

眼動資料分析主要包含兩種類型。第一，參考過去場景觀看研究曾採用的眼動指標，對視覺場景呈現期間（平均值=5009，標準差=219，單位為毫秒）各實驗情境的凝視指標進行分析，以便了解參與者在跨感官理解期間對目標及非目標物體的整體凝視行為表現。沿用過去場景觀賞文獻報告可有效反應場景一致性效果的眼動凝視指標，本論文採用的凝視指標有三：（1）初始凝視延滯

（time to first fixation）：從場景刺激出現到該物體興趣區域首次凝視發生的所需時間；（2）初始凝視時間（first fixation duration）：場景觀看期間，物體興趣區域內第一個凝視點的持續時間，反映物體初次被凝視處理的最早期階段；（3）

整體凝視時間（total gaze duration）：場景觀看期間，物體興趣區域內所有凝視行為持續時間的加總，為一項反應整體處理的凝視指標。

因眼動凝視指標常出現細格觀察值數量不等的問題（例如，若物體在觀看過程中未被凝視，初始凝視延滯指標就無對應資料），此時線性混合模型

（linear mixed effects model）的統計考驗力會比傳統變異數分析來得大，因此採用線性混合模型進行統計考驗。在統計模型中，固定效果項目包含物體類

‧

提供的「最小外接矩形法」（minimum bounding rectangle, MBR）劃定目標物體及非目標物體的興趣區域。接著，對場景出現後2,000 毫秒之內的眼動資料點進行時區切割，每間隔20 毫秒以參與者為單位（by-subject）或以刺激項目為單位（by-item）計算出各興趣區域的平均凝視比例。對於兩種計算單位來說，

計算公式皆為：落在目標物體（或非目標物體）的眼動資料點個數除以該時間區段落在四類區域眼動資料點個數加總。

考量到這類時序資料在各觀察單位之間的非獨立性（例如，參與者在數個相鄰時間區段的資料點可能來自同一凝視事件），違反傳統變異數分析有關各觀察依變項獨立性的基本假設。因此，本論文採用Mirman, Dixon, and Magnuson (2008)建議的「成長曲線分析」（growth curve analysis, GCA），以便量化口語輸入訊號及視覺場景陳列因素，如何隨時間影響目標及非目標物體的凝視比例曲線發展。根據Mirman 及其同事的介紹，成長曲線分析是一種階層線性回歸模型（hierarchical linear model）技術，可透過多項時間參數項目將凝視比例曲線解構為獨立的成分，並可在不同實驗情境及個人差異層次進行比較。

成長曲線模型包含以下三項結構：第一種次模型利用一組四次方的直交多項式（a fourth-order orthogonal polynomial）估計凝視曲線的發展趨勢，包括截距（intercept）、一次（linear）、二次（quadratic）、三次（cubic）及四次

（quartic）等時間項目（time terms）。第二種次模型則用來評估實驗操弄變項

（物體類別、場景類型及兩者交互作用）在各時間項目參數對物體凝視曲線造成的固定效果（fixed effects）。成長曲線模型的各時間項目在固定效果的統計考

‧

在文檔中聽其所見，觀其所聞：以眼動探討口語與場景互動的跨感官理解歷程 - 政大學術集成 (頁 52-58)

研究方法

國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

實驗一：有預覽的口語理解作業

第一節 研究方法

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧

‧

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧

‧

立政治大學

第一節研究方法

立政治大學

立政治大學