實驗材料 - 以測驗和眼動型態建構交互作用效果的圖文閱讀理解模式

一、閱讀材料與測驗作業的預試 本研究包含三種實驗材料，分別是交互作用效果文本、測驗作業以及先備知

識測驗。其中，交互作用效果有兩個版本，包含純文字，以及文字與統計圖。文

字部分採用統計學交互作用文本，內容選自統計學科普書籍（David & William, 1991/2012），也參考統計學和實驗設計相關的教科書（林清山，2012；Elmes, et al.

2009）以及研究一結果編寫完成。又，文本中並未直接出現「變項」和「單純主要效果」的用詞，使其更貼近日常生活的讀物。文本內容共有四段，首先是說明交互作用效果的定義，其次是實驗設計的範例，接著則是交互作用效果顯著後會有的情形，最後則是單純主要效果的描述，詳見附錄五。

正式實驗前進行預試，包含紙本團測與電腦化施測。交互作用效果文本的內容共分為四段（詳見附錄五），是為純文版。第一段旨在說明交互作用的定義，

使讀者了解何為交互作用。第二段則是實驗範例和設計，指出兩個自變項和變項水準，以及依變項。第三段闡釋經統計考驗後，發現實驗結果發現交互作用，並說明交互作用的現象不只一種。第四段以實驗結果說明交互作用下的單純主要效果。圖文組則加入交互作用效果的統計圖，圖形為對稱交叉的型態，是為圖文版

（詳見附錄六）。

依據研究一社會大眾與領域專家的訪談結果，本研究將測驗作業分為基本的和進階的概念，並將其作為題目評量的標的。題旨包含：「分辨自變項與依變項」、

「知道交互作用成立需兩個以上的自變項」、「釐清自變項的水準概念（自變項的效果之間並非獨立、一個自變項的效果會隨著另一個自變項的水準而改變、非單一影響因素就可以解釋結果或下定論）」、「瞭解統計考驗的必要性（非隨機）」、

「掌握交互作用的情形有很多種」，以及「能將統計意義在文字和圖形之間轉化」。

測驗作業題型包含是非題 3 題，選擇題 19 題，計分方式為答對得一分，答錯得 0 分。測驗作業共計 22 題，內容摘要如表 1 所示，詳見附錄七。

先備知識測驗題旨在瞭解受試者對於統計資料與圖的基本知識，從長條圖判讀統計資料、釐清自變項與依變項，以及為圖表下標題，採用填充與短答的題型，

共四個題目。在先備知識測驗下方也同時蒐集受試者的基本資料，包含姓名、畢業/就讀學校與勾選所修過的統計課程（詳見附錄七）。

在進行預試前，商請一位認知心理學教授和四位心理計量博士生審查實驗材料，包括交互作用效果文本內容、測驗作業，與先備知識測驗。紙本預試以純文版為材料，以網路方式分別招募心理計量與非心理計量的大專生和一般社會大眾為研究對象，共計 301 位，進行團體施測。年齡範圍在 20 歲~35 歲之間，平均年齡為 26.7 歲。電腦化預試，則使用純文與圖文並置兩種版本為實驗材料，研究對象同樣由網路招募，人數總計 10 位。年齡範圍在 24 歲~32 歲之間，平均年齡為 28.4 歲。將受試者隨機分派到純文組與圖文並置組。他們必須在電腦上閱讀實驗文本與進行測驗作業。

二、預試結果與實驗材料修改

紙本預試的團體施測結果，在總分為 22 分的情形下，平均數為 14.84 分，標準差為 2.68。本測驗採用試題反應理論（item response theory, IRT）的單向度 Rasch 模式來討論本測驗試題的難度、未加權暨加權的均方誤，以及鑑別度。難度值越高代表題目越難，越低則反之，整合難度值範圍在-2.28~2.10 之間。未加權暨加權的均方誤則指出試題的適配度，當試題適配度不在 0.8~1.2 之間時，則為不適配試題，本研究將結果列出於下表 2。

內容代表性不予刪題。另外，接在表 2 之後的圖 5，用來呈現試題難度、題目和受試者能力的分布圖。

試題難度題號

圖 5 交互作用文本測驗題之難度與試題分布圖

由圖 5 可知整體試題難度分布的情形，圖的左邊為試題的難度，右邊則為試題的編號，中間 X 符號為受試者能力的分布。該圖指出 1、4、5、6、8、11、12、

13、17、19 偏簡單，其餘試題大致平均分布在中等難度、中偏難的區間。另一方面，電腦化預試旨在確認本研究眼動程式的可執行性、指導語的可理解性，以及整個實驗程序所需的時間等，詳見「實驗程序」之說明。

先備知識測驗題的計分方式採用專家共識評量，評定者則由研究者本人與一位心理計量專長的碩士生來擔任，之後計算兩人評分結果的 Kappa 一致性係數。

兩人再針對評分不一致的試卷進行討論，直到兩位評分員的評分結果達到一致性。

301 位參與者在滿分為 6 分的先備知識測驗中，成績分布在 4 至 6 分之間，顯示所有受試者具備基本讀圖和統計學概念。第一次評分結果顯示，下標題的 Kappa 係數的範圍是.67 至.68，整體評分相同的比率為.81 至.87。第二次針對不同評分結果的試卷內容進行討論，直至兩位評分者的評分結果能完全相同。

依據前述紙本預試的分析結果，讀者整體平均答對率約為 68%，測驗作業試題的難度與適配度都在估計範圍內，因而不刪題；先備知識測驗結果於兩位評分者討論後，達評分者一致性，亦維持原題本內容。承上所述，讀者於讀畢交互作用效果文本後，其理解測驗的正確率近七成，且試題皆能適切地反映出他們的理解情形。又，閱讀材料內容依據研究一結果進行修改，並於預試前業已經過專家審查整體實驗材料。是故，本研究的交互作用效果文本內容，適合提供予一般大眾閱讀，預試後並無修改文本內容。

實驗程序

實驗採個別施測，主要分成文本閱讀、測驗作業，和先備知識題。首先受試者進行九點眼動校正。通過後，閱讀指導語以及練習題。瞭解程序之後，開始閱讀正式實驗文本。受試者將隨機地分派到圖文組和純文組，閱讀不同表徵方式的

文本，每種情境各有一個文本，閱讀歷程中未讓受試者作筆記。

兩組受試者在讀完文本後，需要接著回答閱讀理解測驗，皆為是非題，此時原文本不再出現於電腦螢幕上，受試者做每題測驗題之前，均會再進行一次單點校正。受試者從螢幕看題，並直接按鍵盤上的O、X鍵進行作答，不限時但程式會記錄反應時間。實驗過程中會在測驗的空間題之前休息兩分鐘，以避免受試者因疲累而影響實驗結果。整個眼動實驗結束後，需填寫統計的先備知識測驗。

考驗結果顯示，題 1、7、8、9、12 以及 18 呈現顯著差異。圖文組表現較佳的為題 1、7、8、9 和 18，對照於試題難度分布圖，題 7、9、18 約為中等難度，

題 1 和 8 則較為簡單。其中，題 7、8、9 隸屬相同的題旨，即「分辨自變項與依變項」，題 1 則屬「交互作用成立需要兩個以上的自變項」題旨，四題皆為基本變項概念相關。而題 18 則是需要能夠將統計意義在文字和圖形之間轉化，該題與題 16 皆是用來表示單純主要效果的結果，惟在 x 軸和圖說的變項名稱與圖形交點方 向不同。其中，題 16 的 x 軸和圖說之變項名稱與圖文組文本內的統計圖相同。另

一方面，純文組表現較佳的題 12，其題旨則是「瞭解自變項的水準與效果」。

二、眼動指標

研究二的受試者共有 66 位，分別是圖文組 34 位和純文組 32 位。但兩組各刪除三位受試者。圖文組三位被刪除的受試者中，其中一位的原始資料在段落 1 中 34 個 IA 裡，有 24 個無凝視點，其原因可能為儀器未收到資料或受試者為閱讀這些 IA。另外兩位統計圖的凝視時間各僅有 699 毫秒和 302 毫秒，答對率低於.5。

但因為表示他們幾乎未讀圖，因而未能說明統計圖對他們閱讀理解的影響。純文組三位被刪除的受試者中，其中一位在段落 1 中有 25 個 IA 沒有凝視點，其理由同於前述的可能因素。另外兩位，則是文本的凝視時間約僅 9 秒，且答對率亦低於.5，顯示他們可能只是概覽文本內容。為確保實驗結果的準確性，因而不採用前述受試者之眼動資料。

研究二的 IA 劃分方式，在文字部分採用詞為單位，是以中研院 CKIP 中文斷詞系統的結果為依據，再請一名專長為科學文本的科學教育博士生，協助確定其中數學和實驗設計專有名詞的劃分，因此每段落皆由數個 IA 所組成。交互作用統計圖的 IA 則參考 Carpenter 和 Shah（1998, 2001）的劃分方式，將圖示劃分為圖名、

x 軸、y 軸、圖說和圖示等五個部分。

研究二採用的眼動指標，包含總凝視時間、段落凝視時間、段落凝視時間比例、看圖時間比例、分段看圖佔總凝視時間比例，以及分段看圖時間比例。依照

眼動分析的慣例（柯華葳、陳明蕾、廖家寧，2005；Rayner, 1998），分析前刪除 100 毫秒以下和 1000 毫秒以上的凝視點，並且人工校正飄移的凝視點。以下說明眼動指標的計算方式：1. 總凝視時間為所有 IA 內的凝視點的總凝視時間。2. 段落凝視時間及其比例，都有含圖和不含圖兩種計算方式，含圖即段落內每個 IA 凝視時間加總，再加上從該段落出發去讀圖的時間。不含圖即該段落總凝視時間扣掉在該段落內圖的凝視時間。3. 分段看圖占總凝視時間比例和分段看圖時間比例，

則是分別以總凝視時間與各段凝視時間為分母，各段看圖時間為分子來計算。另外，因為文本中每個段落間的面積和訊息量不同，所以每個段落的畫素（pixel，

後以 pixel 稱之）將被視為計算面積的單位，以凝視時間除之，再進行段落間凝視時間的考驗。

在文檔中以測驗和眼動型態建構交互作用效果的圖文閱讀理解模式 (頁 49-74)