聽其所見，觀其所聞：以眼動探討口語與場景互動的跨感官理解歷程 - 政大學術集成

全文

(1)國立政治大學心理學研究所博士學位論文 Graduate Institute of Psychology National Chengchi University Doctoral Dissertation. 政治大聽其所見，觀其所聞：立. ‧ 國. 學. 以眼動探討口語與場景互動的跨感官理解歷程 Look while listeng: Using eye movements to investigate the. n. al. y. er. io. sit. Nat. cross-modal comprehension.. ‧. interaction between spoken language and visual scene during. Ch. engchi. 研究生：游婉雲. i n U. v. 撰. Student: Wan-Yun Yu 指導教授：蔡介立. 博士. Advisor: Jie-Li Tsai, Ph. D. 中華民國一百零六年五月.

(2) 立. 政治大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v.

(3) 謝辭 2010 年初秋，暫別了啟蒙個人學術研究興趣的傳播學，大膽地踏上名為心理語言學的另一座崇山峻嶺，開啟了這段探索人類資訊處理機制的奇異旅程。而今，總算完成這座大山給予的諸項試煉，我將滿懷謙卑地開始下一趟遠行。這本論文的誕生，首先必須歸功於蔡介立老師的悉心指導。謝謝老師包容我的各種靈光乍現，總以最嚴謹的科學角度與我反覆辯證，陪著我一同梳理出可行的研究理路。進入 EMRLAB，除了認識眼動與閱讀架構出的人類語言處理本質外，也不負其名地督促我使用 Excel、Matlab & R 等提升實驗執行力的軟體工具，使我逐漸具備獨立解決問題的 know-how 與膽識。謝謝汪曼穎老師費心. 政治大非老師，您有關資料分析的建議提升了本論文研究證據的品質。謝謝顏妙璇老立師，自入學起時常仰賴學姐的大小支援，妳是我求學期間最好的心靈導師。特審閱論文初稿，您給予的寶貴建議對本論文的整體架構有很大幫助。感謝曾祥. ‧ 國. 學. 別感謝陶振超老師，自碩士班起就是我最忠實的良師益友，您面對研究的熱忱與宏觀胸襟，對我產生深遠的啟發。. ‧. 其他幾位師長也對這段求學過程帶來重要影響，於此一併提出感謝。謝謝. sit. y. Nat. 張卿卿老師鼓勵我繼續深造，您對研究的想法總是讓我獲益良多。慶幸有蔣治. io. 孫蒨如老師對本論文實驗參與者招募的支援。. al. er. 邦老師的堅持，才能讓我這個統計和實驗設計的大外行有些長進。最後，謝謝. n. v i n EMRLAB 的同伴們，你們見證了這本論文的誕生，細數那些大家一起困在 Ch engchi U 洞穴準備 meeting 和實驗的日子，是求學期間最珍貴的生活回憶之一。翠屏、雅嵐和熊，謝謝各位前輩幫助初來 lab 的我快速融入新環境；阿如、怡璇、瑪莉、媛媜、Bobby 柏亨、孟璋和翊倫，你們讓這個小天地充滿蓬勃朝氣；宛柔和冠慧在生活庶務的統籌規劃，使 lab 維持著良好的工作環境；謝謝家興學長對實驗設計和統計提出的諸多建議。心理系博士班的學姊妹們，謝謝妳們的同窗情誼。超級好朋友廖小球，謝謝妳從世界各地捎來真摯的關懷。最後，感謝我的家人。老爸的自由教育，老媽的悉心照顧，老弟的義氣相挺，自小給予許多關懷的外婆和阿姨們，你們是全世界最棒的後盾。謝謝男友不間斷的支持，與我分享過程中的憂愁和喜悅，有你真好。婉雲于心腦學研究中心.

(4) 摘要在人類溝通及語言使用行為中，口語和場景是構成人類跨感官理解歷程的兩項重要成分。究竟兩類資訊如何共同改變理解歷程仍待檢驗。本論文旨在探問四項研究問題：一，過去文獻對理解期間的視覺注意力運作提出兩類觀點。階層取徑主張口語優先並決定視覺表徵的處理，互動取徑則認為口語和視覺表徵可獨立影響視覺注意力。二，口語可促進指涉物體的凝視行為，然口語指涉效果是否受作業目標影響的本質仍不清楚。三，以複雜場景作為視覺情境，探討視覺複雜性和語義一致性表徵如何影響理解歷程。四，檢驗視覺刺激的預覽時間如何改變口語和場景表徵因素對理解歷程的影響。. 治政本論文透過一系列視覺情境典範實驗探討以上研究問題。在每ㄧ項嘗試次大立中，參與者在聆聽中文語句期間同時觀看包含包含兩項物體的圖片：一為鑲嵌 ‧ 國. 學. 在一致（例如：原野）、不一致（例如：天空）和空白背景的口語指涉目標物體（例如：老虎），另一項則為口語未指涉且與背景一致的非目標物體（例如：禿. ‧. 鷹）。其次，四項實驗直交地操弄「作業目標」（「口語理解作業」或「場景理解. sit. y. Nat. 作業」）和「預覽時間」（「一秒預覽」或「無預覽」）因素。. er. io. 實驗結果發現：一，無論作業目標為何，所有實驗皆出現穩定的口語指涉. al. v i n Ch 為，也可和口語共同決定理解期間的視覺注意力運作。三，作業目標對口語指 engchi U n. 效果。二，場景的視覺複雜性和語義一致性表徵不僅可獨立引導物體凝視行. 涉效果及場景一致性效果產生差異化的調節作用。四，預覽時間有效促進口語理解作業的口語指涉效果，場景理解作業則不受影響。整體而言，本論文的實驗證據支持互動取徑觀點。換言之，在跨感官理解的過程中，人類認知運作可透過協調語言、視覺和記憶等次系統，快速整合口語和場景所提供的物理和語義表徵，並依據當下情境動態地改變人類對外在世界的感官經驗。. 關鍵字：視聽整合、理解、場景一致性、口語、眼動。 I.

(5) Abstract In human communication and language use, both speech and scene constitute the cross-modal comprehension process. However, how these two elements combine to affect human comprehension process has not yet been fully resolved. Four research questions will be examined. First, two approaches can account for the comprehension process: the hierarchical approach asserts speech plays the main part whereas the visual feature has only a supporting role, while the interactive approach states that both speech and visual feature combine to determine the comprehension process. Second, despite the speech can cause the spoken reference effect on having more fixations on its visual referent, the nature of this effect is still unclear. Third, most past. 政治大 of real world scenes on the comprehension process. Fourth, whether the preview time 立 could alter the influence of speech and scene on comprehension will be tested. studies adopted simple object array as visual context, little is known about the impact. ‧ 國. 學. A series of visual world paradigm experiments were conducted. Factors of task. ‧. demand (speech comprehension vs. scene comprehension) and preview time (1second vs. none) were orthogonally manipulated in four experiments. In each trial,. y. Nat. participants listened to a spoken sentence in Chinese while viewing a picture with two. io. sit. critical objects: one is the mentioned target object (e.g., tiger), which was embedded. n. al. er. in either a consistent, inconsistent or blank background; the other is an unmentioned. i n U. v. non-target object (e.g., eagle) that was always consistent with its background.. Ch. engchi. Several findings were found. First, the reliable spoken reference effect were shown regardless of the task demand was given. Second, the visual complexity and scene consistency not only can individually guide fixations on objects, but can work together with the speech to determine the visual attention during comprehension. Third, task demand could differently modulate the spoken reference and scene consistency effect, respectively. Fourth, preview time significantly enhances the spoken reference effect in the speech comprehension task, whereas no impact was observed in the scene comprehension task. These evidence supported the view of interactive approach. In conclusion, human’s different cognitive systems, including language, vision and memory, can interact with each other and cause the moment to moment experience of how we understand the complex world around us. II.

(6) Key words：audio-visual integration; comprehension; scene consistency; spoken language; eye movement.. 立. 政治大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. III. i n U. v.

(7) 目錄緒論................................................................................................................ 1 文獻探討........................................................................................................ 4 第一節. 視聽理解歷程的語言和視覺變因........................................................ 4. 一、語言變因................................................................................................ 4 二、視覺變因................................................................................................ 7 第二節場景一致性的脈絡因素.......................................................................... 9 一、場景定義與構成要素.......................................................................... 10 二、場景的視覺處理.................................................................................. 11 三、場景一致性效果.................................................................................. 13. 政治大一、階層取徑模型...................................................................................... 15 立. 第三節跨感官視聽理解模型回顧.................................................................... 14. ‧ 國. 學. 二、互動取徑模型...................................................................................... 18 第四節視覺情境典範與口語理解.................................................................... 22. ‧. 一、刺激類型.............................................................................................. 23 二、呈現時序.............................................................................................. 25. Nat. sit. y. 三、作業方式.............................................................................................. 26. er. io. 四、測量指標.............................................................................................. 27. al. v i n Ch 第五節小結........................................................................................................ 31 engchi U n. 五、限制與批評.......................................................................................... 29. 一、研究架構.............................................................................................. 31 二、研究焦點.............................................................................................. 33 三、實驗說明及預期結果.......................................................................... 34 實驗一：有預覽的口語理解作業.............................................................. 39. 第一節研究方法................................................................................................ 39 一、實驗設計.............................................................................................. 39 二、參與者.................................................................................................. 39 三、實驗設備.............................................................................................. 39 四、實驗材料.............................................................................................. 39 五、實驗流程.............................................................................................. 42 IV.

(8) 六、資料分析.............................................................................................. 43 第二節實驗結果................................................................................................ 45 一、理解作業正確率.................................................................................. 45 二、凝視指標分析...................................................................................... 45 三、凝視曲線分析...................................................................................... 46 第三節討論........................................................................................................ 52 實驗二：有預覽的場景理解作業.............................................................. 55 第一節研究方法................................................................................................ 55 一、實驗設計.............................................................................................. 55 二、參與者.................................................................................................. 55. 政治大四、實驗材料.............................................................................................. 55 立三、實驗設備.............................................................................................. 55. ‧ 國. 學. 五、實驗流程.............................................................................................. 55 六、資料分析.............................................................................................. 55. ‧. 第二節實驗結果................................................................................................ 56 一、理解作業正確率.................................................................................. 56. y. Nat. sit. 二、凝視指標分析...................................................................................... 56. er. io. 三、凝視曲線分析...................................................................................... 57. al. v i n Ch 實驗三：無預覽的口語理解作業.............................................................. 69 engchi U n. 第三節討論........................................................................................................ 67. 第一節研究方法................................................................................................ 69 一、實驗設計.............................................................................................. 69 二、參與者.................................................................................................. 69 三、實驗設備.............................................................................................. 69 四、實驗材料.............................................................................................. 69 五、實驗流程.............................................................................................. 69 六、資料分析.............................................................................................. 70 第二節實驗結果................................................................................................ 70 一、理解作業正確率.................................................................................. 70 二、凝視指標分析...................................................................................... 71 V.

(9) 三、凝視曲線分析...................................................................................... 72 第三節討論........................................................................................................ 76 實驗四：無預覽的場景理解作業.............................................................. 77 第一節研究方法................................................................................................ 77 一、實驗設計.............................................................................................. 77 二、參與者.................................................................................................. 77 三、實驗設備.............................................................................................. 77 四、實驗材料.............................................................................................. 77 五、實驗流程.............................................................................................. 77 六、資料分析.............................................................................................. 77. 政治大一、理解作業正確率.................................................................................. 78 立. 第二節實驗結果................................................................................................ 78. ‧ 國. 學. 二、凝視指標分析...................................................................................... 78 三、凝視曲線分析...................................................................................... 79. ‧. 第三節討論........................................................................................................ 85 預覽時間因素的跨實驗比較...................................................................... 87. y. Nat. sit. 第一節口語理解作業的跨實驗比較................................................................ 87. er. io. 第二節場景理解作業的跨實驗比較................................................................ 89. al. v i n Ch 綜合討論...................................................................................................... 93 engchi U n. 第三節討論........................................................................................................ 91. 第一節研究發現................................................................................................ 93 一、口語指涉效果的本質.......................................................................... 93 二、視覺資訊的場景類型效果.................................................................. 93 三、預覽時間與作業目標對口語指涉效果的影響.................................. 94 第二節結果討論................................................................................................ 95 一、跨感官視聽理解模型：階層或互動？.............................................. 95 二、場景一致性的相反效果...................................................................... 96 三、口語指涉效果的差異化作用.............................................................. 97 第三節結論與建議............................................................................................ 99 參考文獻…………………………………………………………………………... 101 VI.

(10) 附錄：實驗材料說明................................................................................................ 110. 立. 政治大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. VII. i n U. v.

(11) 表目錄表 3-1 實驗一物體類別（2）× 場景類型（3）凝視指標平均數（標準誤） ..... 46 表 3-2 實驗一場景預覽階段成長曲線分析結果 ..................................................... 49 表 3-3 實驗一：目標詞後觀看階段成長曲線分析結果 ......................................... 51 表 4-1 實驗二物體類別（2）× 場景類型（3）凝視指標平均數（標準誤） ..... 56 表 4-2 實驗二場景預覽階段成長曲線分析結果 ..................................................... 59 表 4-3 實驗一、實驗二場景預覽階段目標物體在各場景類型的實驗組別效果 . 62 表 4-4 實驗二目標詞後觀看階段分析結果 ............................................................. 63 表 4-5 實驗一、實驗二目標詞後觀看階段分析結果 ............................................. 65. 政治大表 5-2 實驗三目標詞後觀看階段分析結果 ............................................................. 74 立表 6-1 實驗四物體類別（2）× 場景類型（3）凝視指標平均數（標準誤） ..... 78 表 5-1 實驗三物體類別（2）× 場景類型（3）凝視指標平均數（標準誤） ..... 71. ‧ 國. 學. 表 6-2 實驗四目標詞後觀看階段成長曲線分析結果 ............................................. 81 表 6-3 實驗三、實驗四目標詞後觀看階段分析結果 ............................................. 83. ‧. 表 7-1 實驗一、實驗三目標詞後觀看階段成長曲線分析結果 ............................. 87. n. al. er. io. sit. y. Nat. 表 7-2 實驗二、實驗四目標詞後觀看階段分析結果 ............................................. 90. Ch. engchi. V. i n U. v.

(12) 圖目錄圖 2-1 脈絡導引模型說明圖例 .............................................................................. 12 圖 2-2 跨感官視聽理解模型之一：協同相互作用說法 ...................................... 16 圖 2-3 跨感官視聽理解模型之二：神經衝動處理模型 ...................................... 17 圖 2-4 跨感官視聽理解模型之三：工作記憶模型 .............................................. 19 圖 2-5 跨感官視聽理解模型之四：束制滿足模型 .............................................. 20 圖 2-6 視覺情境典範的三種視覺陳列 .................................................................. 24 圖 2-7 本論文構想之跨感官視聽理解模式 .......................................................... 32 圖 3-1 場景圖片材料範例 ...................................................................................... 40. 政治大實驗一場景觀看首二秒物體凝視比例 ...................................................... 48 立實驗一場景預覽階段目標物體凝視比例之模型預測結果 ...................... 50. 圖 3-2 實驗一與實驗二的嘗試次刺激呈現結構範例 .......................................... 43 圖 3-3. 學. ‧ 國. 圖 3-4. 圖 3-5 實驗一目標詞後觀看階段口語指涉效果之模型預測結果 ...................... 52 圖 4-1 實驗二場景觀看首二秒物體凝視結果 ...................................................... 58. ‧. 圖 4-2 實驗二場景預覽階段目標物體凝視比例之模型預測結果 ...................... 61. sit. y. Nat. 圖 4-3 實驗一、二場景預覽階段目標物體凝視比例之差異 .............................. 62. io. er. 圖 4-4 實驗二目標詞後觀看階段口語指涉效果之模型預測結果 ...................... 64 圖 4-5 實驗一、二目標詞後觀看階段口語指涉效果比較 .................................. 66. al. n. v i n 實驗一、二目標詞後觀看階段各場景類型的口語指涉效果比較 .......... 67 Ch engchi U 實驗三與實驗四的嘗試次刺激呈現結構範例 .......................................... 70. 圖 4-6 圖 5-1. 圖 5-2 實驗三場景觀看首一秒期間物體凝視曲線 .............................................. 73 圖 5-3 實驗三目標詞後觀看階段口語指涉效果之模型預測結果 ...................... 75 圖 6-1 實驗四場景觀看首一秒期間物體凝視曲線 .............................................. 80 圖 6-2 實驗四目標詞後觀看階段口語指涉效果之模型預測結果 ...................... 82 圖 6-3 實驗三、四目標詞後觀看階段口語指涉效果比較 .................................. 84 圖 6-4 實驗三、四目標詞後觀看階段三種場景口語指涉效果比較 .................. 85 圖 7-1 實驗一、三目標詞後觀看階段口語指涉效果比較 .................................. 88 圖 7-2 實驗一、三目標詞後觀看階段三種場景口語指涉效果比較 .................. 89 圖 7-3 實驗二、四目標詞後觀看階段口語指涉效果比較 .................................. 90 VI.

(13) 圖 7-4 實驗二、四目標詞後觀看階段三種場景口語指涉效果比較 .................. 91. 立. 政治大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. VII. i n U. v.

(14) 緒論在日常生活的溝通情境中，人類知覺系統首先會接收來自多重感官的物理訊號，接著透過記憶系統的加工程序將其轉換成多種面向的心智表徵，形成理解外在世界、從事決策及採取相應行動的情境知識基礎。例如，某日前往商場購物時，聽到賣場人員廣播:「目前本場正在舉辦全系列自營品牌鮮乳買一送一的限時特賣活動，請有需要的顧客立即前往選購…」。還來不及聽完廣播，你就立刻前往人潮洶湧的冷藏櫃位搶購到該款商品。在這樣一個稀鬆平常的生活事件中，人類的認知系統須接收來自多重感官的物理刺激（如：賣場景象、促銷廣播），同時運用過去儲存在記憶系統的相關知識（如：牛乳所在區塊、品牌資. 政治大. 訊）對各種資訊進行整合。除了瞭解眼前發生的事件（牛乳限時促銷），亦能根. 立. 據個體對於訊息的理解及其需求執行相關動作促成購買行為的發生。. ‧ 國. 學. 就認知心理學資訊處理歷程的角度來看，有關人類溝通行為的理解歷程涉及許多在不同層次發生的心智運作程序：究竟人如何將來自外在世界、透過不. ‧. 同感官傳遞的物理訊號轉換成有意義的概念？概念涵括的各種物理屬性及語義. y. Nat. 關聯表徵成分如何被統合成一個整體？來自不同感官形式的表徵成分在理解過. n. al. er. io. 或時間發展，改變其在理解歷程之中扮演的角色嗎？. sit. 程中扮演同樣重要的角色嗎？或者，不同感官形式的表徵成分會隨著情境因素. i n U. v. 儘管在過去的心理學研究之中，有關人類如何進行理解的研究議題已吸引. Ch. engchi. 諸多研究者投入並發展出多項有關理解歷程的理論模型，對瞭解人類的理解歷程提供了豐富的知識。然而，過去的研究成果大多建構在語言文字的基礎之上，且其探討的資訊處理活動場域也侷限在單一感官的理解歷程，例如單純來自聽覺感官的口語理解或來自視覺感官的文字閱讀理解(Graesser, Singer, & Trabasso, 1994; Johnson-Laird, 1983; Van Dijk, Kintsch, & Van Dijk, 1983; Zwaan & Radvansky, 1998)。儘管過去研究成果對於瞭解人類的理解歷程有其卓著的貢獻，這些理論知識仍無法完全含括在涉及多重感官輸入下，人類認知系統如何迅速統合多項感官資訊，以便達成訊息理解及相互溝通的資訊處理目標。近年來自不同心理學分支的研究者們逐漸對涉及多重感官的知覺及認知歷程產生研究興趣。事實上，此種基於多種跨感官刺激輸入的資訊處理活動，與 1.

(15) 視覺、語言、記憶及注意力的協同運作休戚相關，逐漸成為一項探索人類認知活動的新興研究議題，吸引了來自心理語言學（psycholinguistics）和視覺科學（vision science）等心理學次領域研究者的關注(Anderson, Chiu, Huette, & Spivey, 2011; De Groot, Huettig, & Olivers, 2015; Huettig, Mishra, & Olivers, 2011; Huettig, Olivers, & Hartsuiker, 2011; Knoeferle & Crocker, 2006; Salverda & Altmann, 2011)。那麼，究竟跨感官視聽資訊理解背後的「語言-視覺互動」（language-vision interaction）是如何發生的呢？從口語理解的角度出發，目前學界大致持有兩種看法。第一類為「階層取徑」（hierarchical approach）模型，主張語言在視聽理解歷程扮演最主要角色，視覺只是將語言內容具體化的輔助性對象。這類模型. 政治大語音），隨後與這項語言表徵知識有關的視覺表徵知識（如形狀）才會被處理。立假設不同表徵知識之間具有階層性，理解者首先會比對語言相關表徵知識（如. 第二類則為「互動取徑」（interactive approach）模型，主張來自語言和視覺的. ‧ 國. 學. 各種表徵資訊都會被理解者的認知系統進行處理，再根據當下情況、有彈性地將每一時間點可得的表徵資訊用於解決當前理解模型的不確定性。換言之，互. ‧. Nat. sit. 束制得到一項符合當下情境的最佳解答。. y. 動取徑處理模型認為各類表徵知識會一併被處理，接著根據各項目之間的條件. er. io. 本研究將以心理語言學在口語理解議題的研究成果作為基礎，首先簡介該. al. 領域研究採用的實驗典範，接著彙整影響理解歷程的視聽覺因素，最後對迄今. n. v i n Ch 發展出的幾項口語理解模型進行統合。透過這些文獻檢閱，我們將對視聽理解 engchi U 歷程現象所涉及的語言–視覺互動進行討論。例如，過去研究大多採用簡化的視覺陳列資訊來研究視聽資訊理解歷程，不僅低估或侷限了視覺資訊在視聽理解過程扮演的角色，也與發生在真實生活的視聽理解歷程有所落差。為了填補過去相關研究的知識缺口，本論文嘗試從視覺認知在「場景觀賞」（scene viewing）的豐碩研究成果出發，檢驗複雜場景所提供的視覺表徵知識是否及如何影響視聽資訊的理解歷程。在研究方法上，本論文採用「視覺情境典範」（visual world paradigm， VWP）進行四項系列性實驗，透過這些實驗結果討論聽覺口語、視覺場景、作業目標和視覺預覽等變因，如何改變跨感官視聽理解歷程的表徵激發與資訊整合活動。近數十年以來，視覺情境典範逐漸成為心理語言學領域用來研究人如 2.

(16) 何進行口語理解的重要實驗方式之一。這項實驗典範首見於 Cooper (1974)的研究，他要求參與者一邊聆聽短篇故事（如發生在非洲大陸的狩獵故事），一邊觀看螢幕上呈現的視覺陳列，其中包含數項與短篇故事內容相關的物體項目。在聆聽故事的期間，他同步記錄理解者在螢幕視覺陳列的眼動凝視軌跡。實驗結果顯示，聽者會自發性地凝視在口語指涉的視覺物體區域，例如當參與者聽到’lion’的口語詞彙，視線軌跡會快速集中在相應的獅子物體區域。Cooper 主張這項實驗典範提供了一種透過理解者的眼動模式同時探討視覺、語言和認知機制互動的嶄新研究方式。人在聆聽口語的同時發生在視覺陳列的視線軌跡被認為即時地反映了內在的語言處理歷程，故研究者可透過觀測聽覺口語引發的「語言中介眼動」（language-mediated eye movements）來推論口語理解過程。. 政治大凝視事件為基礎的凝視行為反應指標外，也選擇透過「成長曲線分析」（growth 立為了觀察視聽資訊理解期間視覺注意力運作的動態發展過程，除了呈現以. ‧ 國. 學. curve analysis, GCA）來檢驗各實驗操弄變項隨時間對視覺空間各項物體凝視比例造成的效果。這項統計方式除避免視覺情境典範眼動凝視資料違反傳統變異. ‧. 數分析的多項基本假設外，最大的優勢在於能透過多個獨立的時間項目參數反映視聽理解期間凝視曲線的動態發展趨勢，有利於檢測視聽理解期間快速變動. y. Nat. sit. 的心智表徵激發活動歷程。. er. io. 在研究貢獻方面，本研究預期能填補視聽理解過程背後「語言-視覺互動」. al. n. v i n Ch 領域的研究成果，增益關於人類心智運作的理論知識。其次，本研究修正過去 engchi U 運作機制的知識缺口，並藉由整合心理語言學和視覺科學等不同心理學研究次. 視覺情境典範普遍忽略視覺場景刺激對視聽理解歷程影響的缺失，除了在更複雜的情境中測試口語對視覺物體指涉作用的強韌性，亦能檢驗視覺情境典範在探討理解期間認知系統如何互動的研究工具適用性。最後，由於視聽理解歷程廣泛發生於日常生活的各種溝通情境，本研究亦期許在未來將這些知識架構及理論模型用於探索人類理解及溝通活動的各種實用面向，例如媒介訊息處理歷程與效果、視聽教材設計和人際溝通等相關議題，進一步將心理學的理論知識落實在各種涉及視聽理解歷程的生活情境中。. 3.

(17) 文獻探討第一節視聽理解歷程的語言和視覺變因在人類與外在世界互動的過程中，很多時候必須整合來自多重感官的不同刺激輸入，以便形成完整的事件知覺經驗。視聽整合即為其中一項最為常見的跨感官資訊處理活動之ㄧ。例如，人們會自發地將環境中的吠叫聲與小狗相連結，並迅速形成「犬吠」的事件經驗。過去有關視聽整合的研究結果顯示，無論是低階層的時間／空間結構，抑或是高階層的語義標籤，皆對人類的視聽整合事件經驗構成顯著影響。過去探討跨感官視聽整合經驗的研究大多透過視、. 治政大如何在更為自然的資訊處理情境中發生。例如，在人類溝通行為中，視聽整合立往往涉及聽覺口語陳述和視覺物體兩類物理刺激訊號。本論文試圖從視聽理解聽覺刺激訊號的單一配對來檢視人類的知覺經驗，甚少有研究者關注視聽整合. ‧ 國. 學. 歷程切入，探討在有關人類意義產製與交換的溝通情境中，來自聽覺的語言如何與來自視覺的物體要素共同形成完整的事件知覺經驗。. ‧. 一、語言變因. sit. y. Nat. io. er. 在視聽理解歷程之中，來自心理語言學領域的研究者大多側重於探討語言如何被處理，以達成回應心理語言學理論問題的研究目標。以「口語詞彙辨. n. al. Ch. i n U. v. 識」（spoken word recognition）來說，研究者或從「詞彙」（word）的局部層次. engchi. 著手，瞭解人如何將逐步開展的物理音訊刺激轉換成指涉世界實體的一項語言詞彙。對「語言分歧解困」（language disambiguation）議題感興趣的研究者，則從「語句」（sentence）的整體層次進行觀察，檢驗視聽資訊的理解者如何透過句法（syntax）、脈絡偏向（contextual bias）及世界知識（world knowledge）等語言結構因素預測即將提及的語言指涉對象。在進行口語詞彙辨識的過程中，人會透過激發各種儲存在大腦長期記憶中語言或非語言範疇的表徵，並應用表徵之間的關聯認出該詞彙。究竟哪些表徵會在辨識詞彙的過程中被激發呢？第一，由於口語輸入本身是來自聽覺感官的聲波刺激，語音表徵素來被心理語言學者認為是成功辨識口語詞彙的必要元素。Allopenna, Magnuson, and Tanenhaus (1998)檢視不同時間點出現的語音特徵 4.

(18) 相似性對口語詞彙辨識的時序性影響。在聽到一項口語詞彙刺激訊號（例如：’beaker’）的早期階段，名稱具有相似起音的視覺物體（例如：’beetle’）被凝視比例與目標物體相仿；隨著口語詞彙刺激訊號逐步開展，名稱具有相似起音的視覺物體凝視優勢逐漸消失，視覺指向轉而凝視名稱具有相似尾音的視覺物體（’speaker’）。這樣的結果彰顯語言處理系統會根據語音輸入訊號的動態發展，持續更新與之相符的語音表徵，透過所謂的「持續比對模式」（continuous mapping models）辨識出口語目標詞彙。第二，由於語義是與意義產生最直接相關的表徵形式，故而語義表徵也會在詞彙辨識歷程中扮演重要角色。語義表徵與語音表徵最大的差異在於，前者的認知運作主要源於由上而下機制，而後者則透過由下而上機制就刺激輸入進. 政治大富的樣貌。例如自由女神令人自動聯想起美國，而風車令人想起荷蘭，語義表立行比對分析。語義表徵依其內涵意義可分為多種面向，使語義表徵具有非常豐. ‧ 國. 學. 徵項目之間會因其經常一起出現的「關聯」（association）程度，影響配對項目在內心經語義促發產生的激活作用，進而改變其吸引視覺指向注意力的可能性. ‧. (Moores, Laiti, & Chelazzi, 2003)。另一方面，物體在功能和類別等向度的「相關」（relatedness）程度，也被過去研究證實能改變語義表徵激發程度，並提升. y. Nat. sit. 相關項目被注意的程度。Huettig and Altmann (2005)發現口語詞彙和視覺物體在. er. io. 類別上的相似程度會影響語言中介眼動的比例，在聽到「鋼琴」口語詞彙刺激. al. n. v i n Ch 叭」會引起次高的凝視比例，和口語輸入分屬不同類別的物體（例如「山羊」 engchi U 輸入期間，目標物體「鋼琴」的凝視比例最高，同屬樂器類別的視覺物體「喇. 及「鐵鎚」）被凝視比例最低。. 第三，儘管視覺表徵在直覺上與口語處理活動較無關，但實證資料顯示口語詞彙辨識歷程也會連帶激發物體的視覺表徵知識(Dahan & Tanenhaus, 2005; Huettig & Altmann, 2011; Huettig & McQueen, 2007)。Dahan and Tanenhaus (2005) 發現形狀向度的視覺表徵會影響口語詞彙辨識歷程。當人聽到聽覺語句中的「蛇」（snake）一詞時，儘管落在指涉物體「蛇」的凝視比例最高，但人注視在形狀相似競爭項目「繩子」的比例仍高於其他無關的「沙發」或「雨傘」項目，顯示物體項目與口語資訊在形狀方面的相似程度也會影響語言中介眼動行為。另一方面，Huettig and Altmann (2011)發現色彩向度的視覺表徵也會在口語詞彙辨識的過程中一併獲得激發，使具有相似色彩表徵的物體項目獲得更高的 5.

(19) 注意程度。在這項研究中，研究者提供黑白形式的物體陳列供參與者觀看，發現當參與者聽到口語詞彙「菠菜」時，在「青蛙」物體的凝視比例高於「蛋糕」、「手套」和「箭頭」等色彩無關物體。此一結果顯示，人類腦中既存有關這項概念的「典型色彩」知識表徵，在口語辨識的過程中會被一併激發，並且促進視覺指向反應在該相似物體的投注程度。過去研究證實，在口語詞彙辨識的歷程中，許多不同類型的表徵知識都會被激發並影響視覺指向行為，但不同表徵類型知識獲得激發的先後順序及相對程度卻會隨視、聽覺刺激的呈現情境產生截然不同的結果。在 Huettig and McQueen (2007)的實驗中，請參與者一邊理解聽覺語句（例如：“Eventually she looked at the beaker...”），一邊觀看包含四項物體的視覺陳列：與口語詞彙指涉. 政治大物體及另一項完全無關干擾物體（umbrella）。實驗一結果發現，當視覺陳列於立物體’beaker’在語音（’beaver’）、語義（’fork’）或形狀（’bobbin’）相似的競爭. ‧ 國. 學. 聽覺語句起始出現在螢幕上時，目標詞語音播放期間的凝視比例依序集中在語音、形狀和語義，顯示有關語音訊號的三種表徵類型會在不同時間點被激發，. ‧. 且語音表徵是三者中最早被提取的一種。實驗二的視覺陳列延後到口語句子中目標詞彙語音訊號出現前 200 毫秒才呈現在螢幕，此時在口語詞彙期間觀察到. y. Nat. sit. 的凝視行為出現不同的結果：形狀相似物體最早被凝視，語義相似物體次之，. er. io. 語音相似物體與特性無關物體無顯著差異，顯示在此種視覺呈現條件下口語刺. al. n. v i n Ch 刷文字，其餘設定與實驗一、二相同。實驗結果顯示，僅語音相似表徵物體項 engchi U 激訊號的語音表徵不再被激發。實驗三和實驗四將視覺陳列從視覺物體換成印. 目的凝視比例較高，形狀和語義相似項目與特性無關物體皆無顯著差異，意味著視覺陳列的刺激類型會改變不同表徵類型在口語詞彙辨識歷程的重要程度。在另外一項研究中，Chen and Mirman (2015)發現，視覺陳列的預覽時間和詞彙辨識歷程中語義表徵的激發程度成正相關；不同的語義表徵激發程度會進一步調節有關語音表徵的「語音鄰項效果」（phonological neighborhood size effect），語義表徵低度激發（圖片預覽 0 毫秒）和語義表徵高度激發（圖片預覽 1,000 毫秒）的語音鄰項效果較弱，而語義表徵中度激發（圖片預覽 500 毫秒）的語音鄰項效果最強。總結來說，以上研究結果具有三項重要意涵：不同表徵類型的激發活動不僅受到視覺陳列的呈現時間（長預覽時間對短預覽時間）影響，也與視覺陳列刺激媒材的形式（視覺物體或印刷文字）密切相關；不同表徵類 6.

(20) 別的激發活動可能互相影響，從而改變特定表徵類型的激發程度。除了掌握每一項口語詞彙的意義之外，過去研究也發現理解者有能力透過前文預測後語，以提升理解作業的運作效率(Altmann & Kamide, 1999; Altmann & Mirković, 2009; Arai & Keller, 2013; Crocker, Knoeferle, & Mayberry, 2010; Kamide, Altmann, & Haywood, 2003; Kukona, Fang, Aicher, Chen, & Magnuson, 2011)。針對口語處理歷程中發生的「主動預測」功能，Altmann and Kamide (1999)透過「主動句式」（即：Subject–Verb–Object 句型）中動詞對於接續受詞的「選擇限制」來進行檢驗。在這項實驗中，研究者請參與者觀看一項包含男孩、蛋糕、玩具等物體的準真實場景，同時聆聽並理解語句內容（例如：’The boy will eat the cake.’或’The boy will move the cake.’）。結果發現，聽到動詞’eat’. 政治大集中到視覺陳列中唯一可供食用的「蛋糕」物體所在位置，而聽到動詞’move’ 立. 語音訊號後，參與者可產生後續將提到一項可食用物體的預期，其視線會快速. 後視線則平均分散在多項可被移動的場景物體區域，因此在聽到最終的口語詞. ‧ 國. 學. 彙’cake’之前，「蛋糕」和「玩具」等視覺物體被凝視的比例並無顯著差異。 Kamide et al. (2003)的後續研究更發現，語言系統對受詞的預期不只來自於動詞. ‧. 對其語義屬性的提示，也來自執行動作者（主詞）的身分角色（thematic. sit. y. Nat. role）。在實驗一中，Kamide 與其同事請參與者觀看包括男人（Man）、女孩. er. io. （Girl）、摩托車（Motorbike）、旋轉木馬（Carousel）、啤酒（Beer）、甜點. al. （Sweets）的準真實場景，並提供四種不同「主詞−動詞」及「受詞」組合的聽. n. v i n 覺語句：(a) ‘The man will rideC thehmotorbike’; (b) ‘The girl will ride the carousel’; engchi U. (c) ‘The man will taste the beer’; (d) ‘The girl will taste the sweets’。結果顯示，理解者對於受詞的預期受到動作者身分和動詞屬性的共同作用：在句末目標詞語音出現前，聽到’The man will ride’在摩托車物體的凝視比例最高，’The girl will ride’和’The man will taste’次之，’The girl will taste’最低；句末目標詞語音出現後，各實驗條件的凝視比例趨勢仍一直維持穩定不變。綜合以上研究結果，理解者會整合已知的語言和視覺場景資訊，主動預測並提前凝視在尚未揭曉的候選對象，無需等到口語詞彙的聽覺訊號真正發生後，才將眼線轉移到相應的視覺物體所在位置。. 二、視覺變因 7.

(21) 如同前一小節所述，過去跨感官理解歷程研究來自於心理語言學領域研究者對語言或口語處理議題的科學研究旨趣，因此多數研究者將來自語言系統的聽覺口語視為研究主體，而視覺陳列則為反映語言處理歷程的客體，扮演具象化語言描述，並提供其指涉對象的實體基礎。然而，從「語言－視覺互動」的角度來思考跨感官理解現象，視覺和語言系統理應各有其重要貢獻。近年來，有愈來愈多研究者開始對視覺資訊在跨感官視聽理解歷程扮演的角色產生研究興趣，唯這類研究在數量上仍遠不及前述以聽覺口語為主的文獻。此一小節將彙整這類有關視覺資訊如何影響視聽理解歷程的文獻，作為本論文發展研究假設及實驗操弄的重要基礎。受到視覺注意力研究傳統的啟發，一些研究嘗試從「視覺複雜度」（visual. 政治大 Huettig, 2015; Sorensen &立 Bailey, 2007)。與視覺搜尋作業的「矩陣尺寸」（array complexity）探討視覺陳列包含的物體個數對視聽理解歷程的影響(Hintz &. ‧ 國. 學. size）相似，假設當視覺陳列的物體個數增加時，辨識及搜尋一項特定物體的時間會增加，因而延長人類認知系統整合口語和其視覺指涉對象的所需時間。由. ‧. 於過去心理語言學實驗的視覺陳列僅包含少量的物體項目，理解期間迅速發生的視聽事件整合有可能只是此種簡單視覺環境的特例，不必然發生在多項物體. y. Nat. sit. 組成的真實視覺環境。Sorensen and Bailey (2007)操弄物體陣列的項目個數（2 ×. er. io. 2、3 × 3、4 × 4）檢驗視覺複雜度對視聽事件整合效率的影響，並以語言中介眼. al. v i n Ch 和 4 × 4 物體陣列）觀察到的語言中介眼動行為比簡單物體陣列（2 × 2 物體陣 engchi U n. 動行為作為反映視聽事件整合的測量指標。結果發現較複雜的物體陣列（3 × 3. 列）更晚發生，表示前者的視聽事件整合速率較慢。Hintz and Huettig (2015)進一步檢驗視覺複雜度對詞彙–物體配對連結機制的影響。他們要求參與者聆聽語句並在語音結束後判斷某一詞彙是否被提及，過程中觀看特定類型的視覺陳列（包含完全無關物體、語義相似物體、形狀相似物體和語音相似物體四個項目）：加入四個人物（實驗一）、無添加其他物體（實驗二）、加入四個無意義的幾何圖形（實驗三）。實驗結果發現，當視覺陳列的整體複雜度增加時，一方面會提高視覺物體在語義和形狀表徵的激發程度，另一方面也會抑制視覺物體在語音表徵的激發程度。綜合以上研究結果，視覺陳列因物體個數增加造成的視覺複雜度除了延滯視聽整合的發生時間之外，也會改變人類認知系統在連結口語和視覺刺激輸入時所產生的各類表徵激發活動相對程度。 8.

(22) 除了物體個數造成的視覺複雜度之外，視覺陳列個別物體的「視覺凸顯」（visual saliency）也可能改變跨感官理解歷程的視覺注意力運作。過去視覺認知文獻對視覺凸顯的定義為：根據多種空間中的低階層視覺資訊的一項綜合性測量結果，常見的低階層視覺資訊類型包括色彩、密度和方向(Itti & Koch, 2000)。視覺凸顯並不承載意義，單純透過物體在物理特徵的「對比」（contrast）或「突出」（prominence）特性，以由下而上的運作方式攫取注意力，提高該項目在工作記憶的激發程度，使高視覺凸顯項目在視覺認知及語言理解或產出期間被注意、使用或提及的可能性增加(Cavicchio, Melcher, & Poesio, 2014; Clarke, Coco, & Keller, 2013; Coco & Keller, 2015; Coco, Malcolm, & Keller, 2014; Theeuwes, 1992; Vogels, Krahmer, & Maes, 2013)。以口語理解過程為例，. 政治大眼動行為的影響。結果發現，高視覺凸顯物體（對比低視覺凸顯物體）會在目立. Coco and Keller (2015)採用視覺情境典範來檢驗物體的視覺凸顯特性對語言中介. ‧ 國. 學. 標詞彙語音訊號尚未出現前就吸引到較高的凝視比例，然此種優勢在目標詞彙語音訊號出現後即迅速消失。該結果表示，理解者在尚未獲得與視覺情境相關. ‧. 的口語提示時，物體低階層的物理特性會主導視覺注意力運作；一旦與理解作業相關的口語詞彙發生，工作記憶中各種表徵知識的激發程度隨即產生變化，. Nat. al. er. io. 第二節場景一致性的脈絡因素. sit. y. 隨即由口語主導視覺注意力運作。. n. v i n Ch 根據前列文獻探討結果，過去從語言—視覺互動探討跨感官視聽理解歷程 engchi U. 的研究絕大多數從語言處理的角度檢驗口語特徵對視聽理解歷程的影響，僅有少量研究嘗試從視覺處理切入檢驗視覺表徵在視聽理解歷程扮演的角色。過往研究證據顯示，跨感官視聽理解期間視聽覺表徵激發活動不僅會改變理解者在視覺情境的凝視行為模式，凝視行為在不同物體項目的動態改變亦具有高度的時間鎖定性（time-locked）。這些實徵資料固然有助於瞭解視聽理解過程涉及的視聽覺表徵激發活動，但以語言因素為主的問題探討策略卻忽略或至少侷限了研究者對視覺輸入刺激及視覺處理如何影響視聽理解歷程的視角。事實上，人們在真實世界所遭遇的視聽理解活動往往發生在真實世界的視覺情境，這些視覺情境遠比傳統心理學使用的物體陣列刺激來得更複雜。在許 9.

(23) 多溝通情境中，口語指涉物體常伴隨著具有特定主題的背景出現，也鮮少如同傳統心理學實驗常見的視覺物體陳列，例如物體項目總是以等距或隨機方式出現在固定位置（螢幕四個角落）。因此，理解者在進行跨感官視聽理解的過程中，認知系統往往不僅止於處理個別物體項目的表徵資訊，物體所在的情境脈絡及大腦中預存的先前知識也可能被一併激發，同時影響視聽理解期間的表徵激發活動和相應的凝視行為反應。事實上，視覺情境在「物體–背景」層次的脈絡因素在過去數十年間已廣泛受到視覺認知研究傳統的重視，這類研究採用「場景」（scene）作為視覺刺激材料模擬真實視覺世界情境，並發現脈絡因素對視覺場景的認知處理歷程產生顯著影響。然而，現今學術社群對視覺脈絡因素如何影響跨感官視聽理解歷程的探討仍相對有限。為了填補這項知識缺口，. 政治大以此作為基礎探討場景脈絡因素如何改變視聽理解期間表徵激發活動及凝視行立. 本論文將在此一小節檢閱場景觀賞主題在「物體–背景」脈絡因素的相關文獻，. ‧ 國. 學. 為反應。接著，透過一系列實驗有系統地操弄視覺場景因素，以驗證場景脈絡對視聽理解歷程的影響。. ‧. 一、場景定義與構成要素. y. Nat. sit. 場景比物體陣列更接近真實生活的視覺世界情境，那麼究竟什麼是場景. er. io. 呢？在概念上，場景指的是在特定據點所得的真實世界環境景觀，由背景和多. al. v i n Ch coherent）的方式組成，使場景在整體上具有可命名（nameable）的特性 engchi U n. 項獨立物體以空間上合法（spatially licensed）且語義上連貫（semantically. (Henderson, 2011; Henderson & Ferreira, 2004; Henderson & Hollingworth,. 1999a)。背景通常是不可移動、相對大範圍的結構，例如海灣、沙漠、街道和城堡，而物體則是具有自體行動能力或可被移動、相對小範圍的實體，例如海鷗、汽車和消防栓。除了組成要素在階層上的分野外，物體和背景也必須以合乎規律性（regularities）的方式構成場景。這套規律性與人透過直接或間接經驗獲得的世界知識密切相關，並可細分為兩種層次：一為物理限制，意指各要素的出現方式必須服膺普世性的物理定律（universal law of physics），諸如地心引力、時間及空間等因素皆屬此類。例如，消防栓受限於地心引力不可能漂浮在半空中，兩個物體不可能重疊出現並佔據同一視覺空間位置。二為語義限制（semantically constraints），指的是物體在視覺環境中的識別（identity）與功能 10.

(24) （function），例如街景中的消防栓滿可能出現在人行道的某一角落，但不大可能出現在郵筒上方，其大小也不可能超過摩天大樓(Biederman, Mezzanotte, & Rabinowitz, 1982)。場景與物體陣列的最大差異在於，前者除了提供個別意義的物體之外，亦多出背景及一項整體的連貫性意涵。就單一感官的場景觀賞作業而言，視覺場景的背景是否影響個別物體的處理？這樣的研究問題在過去吸引了視覺認知學者們的目光，致力於發展多元的實驗典範，輔以各種反應心智及認知運作歷程的量測技術，瞭解人如何有效率地處理複雜的視覺場景。例如，人可以從零瑯滿目的冷凍食品櫃位中輕鬆找到特定品牌的牛乳，但卻不容易從堆滿雜物的垃圾堆中尋獲該物品，顯示物體所在的視覺脈絡對人類視覺處理有顯著影響。. 二、場景的視覺處理. 立. 政治大. ‧ 國. 學. 在觀看具有物體和背景要素的視覺場景時，人可以在短時間內掌握粗略的整體意義(Castelhano & Henderson, 2008; Oliva, 2005; Oliva & Schyns, 2000;. ‧. Potter, 1972; Thorpe, Fize, & Marlot, 1996)。場景的整體意義又被稱為「主旨」（gist），Oliva (2005)將其定義為：視覺系統在匆匆一瞥中，提取到關於場景描. y. Nat. sit. 述的一項總括性空間表徵。場景的整體主旨來自早期的視知覺歷程，包含各種. er. io. 層級的視覺表徵資訊激發活動，從低階層的色斑（color blobs）和輪廓. al. v i n Ch 主旨有助於幫助觀看者在極短時間內建立概略性的場景類型資訊，被認為是一 engchi U n. （contour），中階層的形狀和質地（texture），到高階層的語義表徵皆屬此列。. 項高度自動化的程序(Joubert, Rousselet, Fize, & Fabre-Thorpe, 2007; Li,. VanRullen, Koch, & Perona, 2002; Potter & Levy, 1969; Subramaniam, Biederman, & Madigan, 2000)。例如，Joubert et al. (2007)發現，即使每項場景的呈現時間僅 26 毫秒，參與者在場景類型判斷作業（人工環境或天然環境）仍有高達 96%的正確率，表示人可在短於一個凝視點的時間內提取到場景主旨資訊。Li et al. (2002)採用「雙重作業」（dual task paradigm）進行場景分類實驗，發現參與者能在極短暫的暴露時間（刺激呈現 27 毫秒）成功區辨出現在周邊視野的場景類型（動物或交通工具），表示場景主旨的建立幾乎不需要注意力的集中投入。主旨除了有助於建立場景類型的知識外，過去研究也發現主旨有助於觀看者形成有關個別物體的預測，並具有兩項主要功能。第一，主旨的意義表徵有 11.

(25) 助於形成語義關聯知識，對出現在該場景類型的物體產生相關預期(Bar, 2004; Bar et al., 2006; Friedman, 1979; Gordon, 2004; Palmer, 1975)。第二，主旨的空間表徵有助形成物理結構知識，用以提示候選物體的所在位置，並據此快速引導注意力和眼球凝視前往該區域進行物體細節處理(Chun & Jiang, 1998; Neider & Zelinsky, 2006; Torralba, Oliva, Castelhano, & Henderson, 2006; Võ & Henderson, 2010; Wolfe, Võ, Evans, & Greene, 2011)。例如，Torralba 及其同事(2006)提出的「脈絡導引模型」（Contextual Guidance Model），即主張場景觀看的凝視位置是兩項平行迴路（parallel pathway）共同影響的結果：一為來自場景低階層物理表徵、以畫素為基礎（pixel-based）的視覺凸顯（saliency），視覺凸顯愈高的空間位置愈能吸引凝. 政治大機率。以「廚房」場景為例（圖 1），該模型模擬低階物理表徵和高階搜尋目標立視。二為來自場景高階層語義脈絡表徵、特定搜尋物體在現下場景的空間分布. ‧ 國. 學. 如何共同作用，並改變該視覺場景最凸顯的空間位置。根據低階物理表徵的模型運算結果，圖片上方和下方各有高凸顯區域。根據高階意義表徵的模型運算. ‧. 結果，搜尋目標「馬克杯」較可能出現在畫面下方的水平區域，故凝視位置集中在畫面下方的高凸顯區域。然而，當搜尋目標為「畫作」，場景高階層意義表. Nat. sit. n. al. er. io. 顯區域。. y. 徵顯示畫面上方的水平區域是最可能的區塊，因此凝視集中在畫面上方的高凸. Ch. 圖 2-1. engchi. i n U. v. 脈絡導引模型說明圖例. 資料來源：Torralba, Oliva, Castelhano & Henderson (2006) Figure 11。. 12.

(26) 三、場景一致性效果究竟背景與物體之間的「共現」（co-occurrence）情況對物體處理產生何種影響呢？過去文獻最常報告的一種關係為「場景一致性」（scene consistency），例如，一頭乳牛搭配農場背景符合多數人的生活經驗，可視為一種高場景一致性的組合；但一頭乳牛出現在客廳則違反多數人的預期，可視為一種低場景一致性的組合。過去多項研究證據顯示，高場景一致性能促進個別物體的辨識效率(Biederman et al., 1982; Boyce, Pollatsek, & Rayner, 1989; Davenport & Potter, 2004; Friedman, 1979; Spotorno, Tatler, & Faure, 2013)。例如，Biederman et al. (1982)透過「物體偵測典範」（object detection paradigm）來檢驗場景一致性因素. 治政大中的消防栓）或語義關聯（例如：廚房裡的消防栓）出現不一致情況，均導致立較長的反應時間及較低的正確率，顯示人對這類脈絡違常物體的辨識較困難。對物體辨識的影響。結果顯示，無論物體與背景在物理限制（例如：漂浮在空. ‧ 國. 學. 此外，這項實驗提供 150 毫秒的場景觀看時間，可知觀看者能在單一凝視期間取得場景一致性資訊並影響物體辨識成效。Davenport and Potter (2004)僅提供參. ‧. 與者 80 毫秒的觀看時間，即觀察到發生在物體辨識作業和背景辨識作業的場景. sit. y. Nat. 一致性效果。他們的研究結果進一步表明，構成場景的物體和背景兩項主要成. io. er. 分在進行個別辨識時具有連帶關係（mutual relationship）。. 儘管上述多項行為實驗指出場景一致性因素會影響物體辨識成效，然至今. n. al. Ch. i n U. v. 關於場景一致性效果發生在場景觀賞歷程的哪個階段仍未有定論。過去文獻指. engchi. 出物體細節的感知需要一定程度的聚焦注意力(Henderson & Hollingworth, 1999b, 2003; Rensink, 2000; Rensink, O'Regan, & Clark, 1997; Simons & Levin, 1997)，因此這類研究大多透過記錄觀看期間參與者的眼動模式來觀測發生在特定物體的視覺注意力運作。有一類研究證據顯示，無論請觀看者進行視覺搜尋或場景記憶的視覺作業，場景不一致物體可在場景觀看的首個凝視期間吸引內隱性注意力，並伴隨更短的眼跳發動延滯時間、更長的首次凝視時間與整體凝視時間，暗示場景一致性因素不僅可以改變觀看者對個別物體的整體注意程度，也能在場景觀賞早期階段透過周邊視野處理完成語義脈絡資訊的提取，使場景不一致物體比場景一致物體更早被凝視(Bonitz & Gordon, 2008; Loftus & Mackworth, 1978; Underwood & Foulsham, 2006; Underwood, Humphreys, & Cross, 2007; 13.

(27) Underwood, Templeman, Lamming, & Foulsham, 2008)。相對於前述研究，其他研究主張場景一致性須至場景觀賞的晚期階段才會介入影響物體凝視行為反應(De Graef, Christiaens, & d'Ydewalle, 1990; Henderson, Weeks Jr, & Hollingworth, 1999; Võ & Henderson, 2009, 2011)。例如， De Graef et al. (1990)發現場景不一致物體必須在多個凝視點發生後，才能於晚期場景觀賞階段觀察到更多的物體凝視次數。Võ and Henderson (2011)的研究也呈現類似結果。他們發現必須到第八或第九次凝視行為發生之後，才能觀察到場景不一致物體在吸引注意力方面的優勢。這類研究揭示場景一致性因素能改變觀賞期間的物體凝視行為反應，但場景不一致物體的凝視優勢必須等到數個凝視行為發生之後才顯現出來。因此，這類研究主張觀看者必須到場景觀賞的. 政治大致性表徵資訊，並且進一步影響後續的物體凝視行為反應，在場景不一致物體立. 相對晚期，才能透過中央視野區域的聚焦注意力取得物體相對於背景的場景一. ‧ 國. 學. 區域出現更多的凝視次數或更長的凝視時間。. 第三節跨感官視聽理解模型回顧. ‧. 透過視覺情境典範實徵資料發展出的理論模型主要關注口語、視覺及注意. y. Nat. sit. 力三者的互動。為了模擬跨感官視聽理解歷程涉及的各項表徵激發活動及其互. n. al. er. io. 動影響，最終導致眼動凝視行為在視覺空間的變化，學者們檢驗來自視覺和語. i n U. v. 言輸入的多項變數，並根據不同理論傳統的核心假設，發展出兩大類別的跨感. Ch. engchi. 官視聽理解模型。第一類為階層取徑（hierarchical approach），包括 Crocker et al. (2010)的「協同相互作用說法」（coordinated interplay account, CIA）和 Kukona and Tabor (2011)的「神經衝動處理模型」（impulse processing model）。階層觀點假設各項變數必須依循特定順序，滿足各種階層性表徵的比對程序，才能對理解歷程產生影響。具體來說，目前已知口語輸入的語音、語義、句法和視覺陳列的物體預設用途會對理解歷程產生影響，然這兩項模型都假設必須在符合語音表徵層級配對的前提下，才能往後進行接續非語言相關表徵層級的漸次比對。因此，這類模型認為語音的重要性優於其他變因，跨感官視聽理解期間的視覺表徵激發活動必須建立在語音表徵的配對基礎之上才能發生。相反的，以 Huettig, Olivers, et al. (2011)的「工作記憶模型」（working 14.

(28) memory model）、M. C. MacDonald, Pearlmutter, and Seidenberg (1994)的「束制滿足模型」（constraint-satisfaction model）以及 Ferreira, Foucart, and Engelhardt (2013)的「適應性觀點」（the adaptive view）為代表的互動取徑（interactive approach），則主張各種表徵資訊在理解過程中一併先被處理，再視當下處理狀況或作業情境、有彈性地將每一時點可得的表徵資訊用於解決當前理解模型未定的歧義部分。因此，這類模型並未預設不同的感官輸入及層級變數之間有特定的階層排序，來自視聽感官的各項表徵資訊都會被理解者的認知系統先行處理，而各項可得表徵資訊於不同屬性層級的發生條件會相互束制，經總體評估分析後得出符合該特定時間點下的一項最佳解答。本研究將以這些模型為基礎發展研究假設，為了進一步瞭解個別模型建構. 政治大動兩種取徑作為分類基準，簡要介紹五個主要模型的基本假設和運作方式。立. 出的視聽表徵互動機制及其對凝視行為反應的預測結果，以下將根據階層及互. ‧ 國. 學. 一、階層取徑模型. ‧. （一）協同相互作用說法. Crocker et al. (2010)根據「連結模式」（connectionist model）發展出一項. y. Nat. sit. 「協同相互作用說法」，主張「逐步積累的語言詮釋會主動引導視覺環境的注意. al. er. io. 力分布，從而提升那些被注意的場景資訊於理解期間的突顯程度」。這項說法認. v. n. 為來自聽覺感官的口語輸入是主導整個理解過程的核心，而視覺感官的場景刺. Ch. engchi. 激則是將語言內容具體化的輔助角色。. 15. i n U.

(29) 立. 圖 2-2. 政治大. 資料來源：Crocker, Knoeferle & Mayberry (2010) Figure 1。. 學. ‧ 國. 跨感官視聽理解模型之一：協同相互作用說法. 一個循序漸進的迴圈，包含以下三項處理程序：. ‧. 根據協同相互說法的模型運作流程（圖 2-2），理解過程的視聽資訊整合是. Nat. sit. y. （1）句子詮釋（sentence interpretation）階段：專指視覺情境典範的聽覺口. er. io. 語刺激輸入，適用於各種特定的語言處理相關因素，但主要透過三項基礎原則. al. 運作。第一項「積累性」（incremental）原則，指的是第 N 個詞的詮釋或預期架. n. v i n Ch 構在第 1 至 N-1 個詞彙的基礎之上。以具有不同詞性的多義詞「制服」為例， engchi U 當理解者聆聽部分語句：「混亂之中警察鳴槍制服…」，根據現行文句脈絡可知. 第 N 個詞「制服」應解讀為動詞屬性的「用力量使人屈服」詞彙意義，而非名詞屬性的「規定式樣的服裝」詞彙意義。第二項為「預測性」（predictive）原則，指的是理解者會根據當下語言屬性及自身經驗獲得的世界知識，對後續語言輸入進行主動性預測。比如 Kamide et al. (2003)請理解者觀看一項包含男人、女孩、摩托車和旋轉木馬物體的視覺陳列，同時聆聽部分語句：”The man will ride…”或”The girl will ride…”。結果發現，聽到前者時理解者的視線會集中在摩托車，後者則會集中在旋轉木馬，顯示行為者的屬性會使理解者對動作的施行對象產生不同預期。第三項原則為「整合性」（integrative），意指理解者在理解過程中對第一階段語言詮釋（詞彙、句法和語義）及第三階段場景詮釋（例如 16.

(30) 視覺情境、物體的預期使用方式）反饋（feedback）的各種表徵屬性進行綜合評估，以挑選出最符合當下情境的指涉對象。（2）語句中介注意力（utterance-mediated attention）階段：透過句子詮釋階段的處理結果，將視覺注意力連結到口語詞彙直接指涉或透過預期間接暗示的視覺物體位置。此時，視覺注意力的功能是具體化（grounding）來自視聽兩端的物體及事件資訊，以滿足情境理解的目的。（3）場景整合（scene integration）階段：語句中介注意力會主導人對場景的視覺探索活動，唯有與口語行動或理解作業目標相關的視覺屬性才會獲得注意，進而反饋影響下一回合的句子詮釋階段。Chambers, Tanenhaus, and Magnuson (2004)發現，只在口語指涉物體（例如雞蛋）的預設用途（液體或固. 政治大執行的動作（潑）有關時，視覺物體為某一狀態（液體）可執行這項動作，而立. 體）與聽覺感官的口語輸入文句（’Pour the egg in the bowl over the flour.’）要求. ‧ 國. 學. 另一狀態（固體）則否，因而增加理解者覺察該項視覺物體表徵的敏銳程度。（二）神經衝動處理模型. ‧. Kukona and Tabor (2011)基於人類神經「動態系統」（dynamic system）提出的「神經衝動處理模型」，包含三項假設：（1）神經系統的動態運作包含在初始. y. Nat. sit. 狀態下小規模的神經活動隨機變異，又稱為「噪音」（noise）；（2）神經系統地. n. al. er. io. 景（landscape）的形狀來自比對視聽刺激輸入在不同屬性（比如從語音往上到. v. 概念）所導致的一系列神經衝動結果；（3）神經系統的狀態可對應至行動。. 圖 2-3. Ch. engchi. i n U. 跨感官視聽理解模型之二：神經衝動處理模型. 資料來源：Kukona & Tabor (2011) Figure 1。 17.

(31) 如圖 2-3 所示，神經動態系統的運作地景有三個維度，x 軸和 y 軸構成的平面座標系對應至視覺陳列刺激的空間位置，z 軸則為神經衝動的激發強度。此時語言輸入訊號的累積性詮釋（incremental interpretation）為引發神經衝動的來源，而激發強度最高者可引起神經動態系統的改變，並且引發前往該視覺物體所在空間位置的凝視行為反應。在不同語言表徵處理層次造成的神經衝動反應差異，包括口語辨識、句法、語義和語用詮釋等處理層次，都被過去研究證實會引發視覺空間的語言中介眼動行為反應。神經衝動處理模型假設不同表徵屬性之間具有階層性關係，例如模型預設的初始層級是語音屬性，接著向上才是語義及概念屬性，因此必須在視覺物體符合聽覺輸入語音屬性時，才能往後續層級繼續進行比對。一旦視覺陳列情境. 政治大謂的「鞍點」（saddle point）立。此時由於兩項視覺物體引發相等程度的神經衝動. 出現兩項符合當下部分口語輸入語音屬性的視覺物體時，地景模型就會出現所. ‧ 國. 學. 強度，視覺空間的兩項候選物體會處於競爭狀態，獲得同樣程度的凝視行為反應。以 Tanenhaus, Spivey-Knowlton, Eberhard, and Sedivy (1995)實驗採用的「花. ‧. 園路徑句型」（”Put the apple on the towel in the box.”）為例，當語音訊號只播放到”Put the apple…”，此時視覺陳列的其中兩項物體（蘋果、毛巾上的蘋果）皆. y. Nat. sit. 為可能的口語指涉對象，兩者獲得同等程度的物體凝視行為反應。必須等到後. er. io. 續語音輸入更新詮釋之後，才能改變神經活動的地景模式，使視覺空間一項特. n. al. v. 定的口語指涉對象從原先僵持不下的地景模式中脫穎而出，導致凝視行為反應. i n C U 高度集中在正確的物體項目區域（毛巾上的蘋果） hengchi 。二、互動取徑模型（一）工作記憶模型. Huettig, Olivers, et al. (2011)的「工作記憶模型」源於認知心理學家 Alan Baddeley (2000)提出的「工作記憶」概念，統合心理語言學使用視覺情境典範得出的語言歷程研究成果，以及視覺注意力透過「視覺搜尋典範」的實徵證據，改良既有的工作記憶模式來解釋跨感官理解過程涉及的「語言-視覺互動」運作機制。. 18.

(32) 圖 2-4. 跨感官視聽理解模型之三：工作記憶模型. 資料來源：Huettig, Olivers & Hartsuiker (2011) Figure 2。. 政治大存的語言詞彙及視覺物體知識，以及兩者在各種表徵的關聯程度，這些知識成立如圖 2-4 所示，這項模型假設跨感官視聽理解的知識基礎來自長期記憶儲. ‧ 國. 學. 為人在視聽理解過程中可自由運用的既存資料庫。其次，視聽資訊整合體現了一種「即時記憶結構」（on-line memory structure）的形成與更新，將人置身於. ‧. 情境所經驗、可被提取之各種表徵知識及所在空間位置的連結進行整合，並將這些表徵彙整登錄為「物件檔案」（object file）(Kahneman, Treisman, & Gibbs,. Nat. sit. y. 1992)。然而，由於各種表徵資訊開始處理及完成提取的所需時間並不相同，彼. er. io. 此之間宛如在不同跑道競速的賽馬，形成所謂互動取徑的「層疊激發」（cascade. al. v i n Ch 通常比聽覺口語輸入更早呈現，視覺表徵的提取時間通常先於口語表徵，因此 engchi U n. activation）現象。因此，當人在進行視覺情境典範實驗時，由於視覺陳列刺激. 工作記憶模型預測視覺陳列的表徵激發活動會開啟一連串的整合歷程。首先，. 視覺陳列物體（如檯燈、喇叭、盆栽）的形狀表徵會與其空間位置資訊一同寫入視覺空間形式（visuospatial type）的工作記憶「視覺空間暫存裝置」（visuospatial sketchpad）次系統。這些表徵會在數百毫秒內激發與物體相關的語義、概念和語音表徵，透過「結合」（binding）程序成為暫存在工作記憶空間的視覺物體檔案。在視覺陳列的預覽階段結束後，來自聽覺感官的口語輸入刺激開始播放。此時口語輸入（’John is a musician who plays the trumpet well. ’中的 plays）開始被「語音迴路」（phonological loop）次系統處理，這些暫存的語音編碼可激發長期記憶與之相關的詞彙及語義表徵，亦可透過句法表徵預測後續受詞（可 play 的對象，如鋼琴、鼓、喇叭等樂器）。這些已激發的語音和視 19.

(33) 覺表徵在系統中相互比對，並連結至空間中最符合的視覺物體，該物體的空間位置可供注意力系統發動眼跳計畫之用，並導致物體凝視行為反應的變化。（二）束制滿足模型 M. C. MacDonald et al. (1994)的「束制滿足模型」的運作方式源於「交互激發模型」（interactive activation model, IAM）(Elman & McClelland, 1983; McClelland & Rumelhart, 1981)，主張對應至不同表徵層級的多個單位會隨著時間在處理過程中被激發。束制滿足模型有三項特色：第一，處理過程同時包含系統中其他表徵類別的擴散式激發。例如，當看或聽一個詞彙時，字形或語音表徵會連帶擴及語義、概念及句法等其他表徵單位的活化反應。隸屬於某表徵單位內的候選項目，其激發強度來自其他單位的共同作用，且激發項目須滿足. 政治大. 當前來自其他表徵單位的限制條件。第二，候選項目的選擇是「贏者全拿」. 立. （winner-take-all）形式，其餘激發強度較低的項目會引發抑制作用。第三，處. ‧ 國. 學. 理過程中須對每一種表徵單位進行「窮盡式分析」（analytically exhaustive），系統不得跳過某些表徵單位的分析程序，故而各種表徵單位資訊對於整體的解析. ‧. 結果是同樣重要的。. n. er. io. sit. y. Nat. al. 圖 2-5. Ch. engchi. i n U. v. 跨感官視聽理解模型之四：束制滿足模型. 資料來源：MacDonald, Pearlmutter, and Seidenberg (1994) Figure 2。. 圖 2-5 以 examined 的詞彙解析為例說明該模型運作方式。在這項模型中，一個詞彙從屬於多項表徵特性層級，層級間為雙向的激發連結，可幫助活化與輸入刺激相符的詞彙；層級內為抑制連結，施行競爭機制以篩選出最符合輸入刺激的項目，並維持其活化反應。透過這兩種途徑，由多個表徵單位組成的交 20.