• 沒有找到結果。

布魯姆認知分類適用之互動式多媒體題型研究

N/A
N/A
Protected

Academic year: 2021

Share "布魯姆認知分類適用之互動式多媒體題型研究"

Copied!
138
0
0

加載中.... (立即查看全文)

全文

(1)國立臺中教育大學教育測驗統計研究所 教學碩士學位論文. 指導教授:孔崇旭 博士. 布魯姆認知分類適用之互動式多媒體題型研究. 研究生:吳芝瑩. 中華民國 九十八 年 八 月.

(2) 謝. 辭. 感謝指導教授 孔崇旭老師辛苦的指導,老師不但以耐心循循善誘,在研究 上給予我們充分的指引,也在學習上教導我們進行研究時該有的積極態度,讓我 在研究生的生涯中,得到更多的成長與進步。在此致上十二萬分的謝意。 此外,感謝台中教育大學所有指導過我的師長,讓我在研究過程中得到許多 啟示;另外,還有洪茂盛老師、蔡明志老師以及鄭富森老師,在百忙之中撥冗指 導學生的論文口試,悉心的給予許多寶貴的建議,使論文的內容更加豐富。 另外,感謝大學同學以及學校的同事們,在編製測驗及施測過程中,給予我 許多協助,讓我可以順利完成測驗;還有暑測班上的好友,大家互相打氣、彼此 鼓勵,終於順利的完成學業。 最後,感謝家人在我讀研究所的這幾年當中,對我的支持與包容,有你們的 陪伴,我才能無後顧之憂盡全力學習,感謝您們! 吳芝瑩謹誌 2009 年 8 月.

(3) 中文摘要 教學歷程包括教學目標、起點行為、教學活動和教學評量,每一個部份均與 評量密切相關。進行測驗時,不同的測驗內容應有其適合的題型,但是目前針對 互動式多媒體題型的研究卻為少數。因此,本研究旨在根據布魯姆認知分類 (Bloom's Taxonomy),選定記憶、了解、應用、分析四個認知歷程向度作為測驗 目標,以國小五年級社會領域中─「台灣的自然環境」為測驗內容,利用本實驗 室開發的互動式多媒體測驗系統(ITIS),選定配合題、排序題、連連看三種題型 進行測驗,探討不同認知類型所適用的題型。本研究對象為北、中、南三區的國 小五年級學童共435名,以相依樣本單因子變異數分析進行資料分析,得知受試 者在三種題型上的得分達顯著性的差異,顯示每一種認知歷程向度皆有其最適用 的題型。研究結果如下: 一、 不同能力受試者 (一) 教師針對能力較佳的受試者挑選試題的類型時,配合題或是連連看對受試者 來說表現都相當。 (二) 教師針對能力中等的受試者挑選試題的類型時,配合題最適合受試者的能力 表現。 (三) 教師針對能力較差的受試者挑選試題的類型時,配合題最適合受試者的能力 表現。 二、 不同測驗內容 (一) 記憶類型知識以連連看進行測驗最合適。 (二) 了解類型知識以配合題進行測驗最合適。 (三) 應用類型知識以配合題進行測驗最合適。 (四) 分析類型知識以配合題與連連看進行測驗最合適。 三、 受試者能力與測驗內容結合. I.

(4) (一)高分組與低分組在記憶類型知識皆適用於連連看。 (二)高分組在了解類型知識適用於配合題與連連看,低分組適用於配合題。 (三)高分組與低分組在應用類型知識皆適用於配合題。 (四)高分組在分析類型知識適用於配合題、連連看與排序題,低分組適用於配合 題與連連看。 根據本研究之結果與建議,可做為教學者對於編製互動式多媒體測驗之參 考。 關鍵字:互動式多媒體題型、布魯姆認知分類、認知歷程向度. II.

(5) Abstract The general model of instruction includes four steps: instructional objective, entry behavior, instructional activities, and instructional assessment, each of the four steps relates to assessments. When conducting assessments, appropriate item types should be applied to different tests. Different tests should be the appropriate item types, However, so far, there is only a small number of studies which are about interactive multimedia test item type. The study is based on Bloom's Taxonomy. The theory basically selects four levels of cognitive process to be test objectives, namely remembering, understanding, applying and analyzing. The content of the test is natural environment of Taiwan, and the instrument is “Interactive Test Item System” (ITIS). We select three item types including match item, solitaire item and link item, which are used to test and to analyze which is the appropriate item type for different level of the cognitive process. The participants are 435 students from the 5th grade in Taipei, Taichung and Kaohsiung. All the data are analyzed with repeated one-way ANOVA method. There is a significant difference between the scores which students obtained for the different item types. In this study, we found some important implications: 1. For students with different ability (1) Students with better ability can be tested with match item or link items. (2) Students with moderate ability can be tested with match items. (3) Students with low ability can be tested with match items. 2. For different test content (1)Remembering ability can be tested by link items. (2)Understanding ability can be tested by match items. (3) Applying ability can be tested by match items.. III.

(6) (4) Analyzing ability can be tested by match items and link items. 3. Students’ ability combine with the test content (1)Students with high ability and low ability are suitable for using link items to test their remembering ability. (2) Students with high ability are suitable for using match items and link items to test their understanding ability. While those students who have low ability are suitable for using match items to test the understanding ability. (3) Students with high ability and low ability are both suitable for using match items to test their applying ability. (4) Students with high ability are suitable for using match items, link items and solitaire items to test their analyzing ability, while students with low ability are suitable for using match items to test their analyzing ability. The conclusion of this study can be applied to design interactive multimedia test. Keywords:interactive multimedia item types, Bloom's Taxonomy, cognitive process. IV.

(7) 目錄 第一章 緒論…………………………………………………………1 第一節 研究動機 ………………………………………………… 1 第二節 研究目的……………………………………………………4 第三節 待答問題……………………………………………………4 第四節 名詞釋義……………………………………………………5. 第二章 文獻探討………………………………………………… 7 第一節 古典測驗理論………………………………………………7 第二節 互動式多媒體測驗…………………………………………16 第三節 互動式多媒體測驗相關研究比較……………………………27 第四節 心理學相關理論……………………………………………36 第五節 布魯姆認知分類……………………………………………42. 第三章 研究方法………………………………………………… 53 第一節 研究架構 ………………………………………………… 53 第二節 研究對象 ………………………………………………… 55 第三節 研究工具 ………………………………………………… 55 第四節 資料處理方法 …………………………………………… 69. 第四章 研究結果與討論………………………………………… 71. V.

(8) 第一節 全體受試者在不同題型的成績表現 ………………………… 71 第二節 不同能力受試者在不同題型的成績表現. ……………………75. 第三節 互動式多媒體測驗題型與布魯姆認知分類的關係…………… 81 第四節 研究結果分析與討論 …………………………………… 103. 第五章 結論與建議………………………………………………105 第一節 結論………………………………………………………105 第二節 建議 …………………………………………………… 106. 參考文獻………………………………………………………… 109 壹、 中文部份 ……………………………………………………… 109 貳、 英文部分 ……………………………………………………… 113. 附錄一 紙筆測驗預試試題………………………………………118 附錄二 紙筆測驗正式試題………………………………………120 附錄三 互動式多媒體測驗試題…………………………………122. VI.

(9) 表目錄 表 2-3-1 國外互動式多媒體測驗相關研究. ………………………………30. 表 2-3-2 國內互動式多媒體測驗相關研究. ………………………………32. 表 2-5-1 1956 年版認知領域教育目標分類. ………………………………43. 表 2-5-2 2001 年版布魯姆認知領域教育目標分類表. ………………………49. 表 3-3-1 紙筆測驗預試試題雙向細目表. ……………………………… 56. 表 3-3-2 紙筆測驗預試試題難度與鑑別度. ………………………………57. 表 3-3-3 紙筆測驗正式試題雙向細目表. ……………………………… 58. 表 3-3-4 互動式多媒體測驗題目作答方式表. ……………………………59. 表 3-3-5 互動式多媒體測驗雙向細目表. ……………………………… 63. 表 3-3-6 互動式多媒體測驗專家審核表. ……………………………… 64. 表 4-1-1 全體受試者在不同題型分數表現的描述性統計量. ………………71. 表 4-1-2 全體受試者在不同題型分數表現之變異數分析摘要表 表 4-1-3 全體受試者在不同題型分數表現之事後比較摘要表 表 4-2-1 高分組受試者不同題型分數表現的描述性統計量. ………… 72. ……………72. ………………75. 表 4-2-2 高分組受試者不同題型分數表現之變異數分析摘要表. ………… 75. 表 4-2-3 高分組受試者在不同題型分數表現之事後比較摘要表. ………… 76. 表 4-2-4 中分組受試者不同題型分數表現的描述性統計量. VII. ………………77.

(10) 表 4-2-5 中分組受試者不同題型分數表現之變異數分析摘要表. ………… 77. 表 4-2-6 中分組受試者在不同題型分數表現之事後比較摘要表. ………… 77. 表 4-2-7 低分組受試者不同題型分數表現的描述性統計量. ………………78. 表 4-2-8 低分組受試者不同題型分數表現之變異數分析摘要表. ………… 78. 表 4-2-9 低分組受試者在不同題型分數表現之事後比較摘要表. ………… 79. 表 4-3-1 全體受試者在記憶類型不同題型分數表現的描述性統計量. ………81. 表 4-3-2 全體受試者在記憶類型不同題型分數表現之變異數分析摘要表. …82. 表 4-3-3 全體受試者在記憶類型不同題型分數表現之事後比較摘要表. ……82. 表 4-3-4 全體受試者在了解類型不同題型分數表現的描述性統計量. …… 83. 表 4-3-5 全體受試者在了解類型不同題型分數表現之變異數分析摘要表. …83. 表 4-3-6 全體受試者在了解類型不同題型分數表現之事後比較摘要表. ……84. 表 4-3-7 全體受試者在應用類型不同題型分數表現的描述性統計量. …… 85. 表 4-3-8 全體受試者在應用類型不同題型分數表現之變異數分析摘要表. …85. 表 4-3-9 全體受試者在應用類型不同題型分數表現之事後比較摘要表. ……85. 表 4-3-10 全體受試者在分析類型不同題型分數表現的描述性統計量. ……86. 表 4-3-11 全體受試者在分析類型不同題型分數表現之變異數分析摘要表 表 4-3-12 全體受試者在分析類型不同題型分數表現之事後比較摘要表 表 4-3-13 全體受試者在布魯姆認知分類適用之題型. VIII. …86. ……87. ………………………88.

(11) 表 4-3-14 高分組受試者在記憶類型不同題型分數表現的描述性統計量. ……89. 表 4-3-15 高分組在記憶類型不同題型分數表現之變異數分析摘要表. ……89. 表 4-3-16 高分組在記憶類型不同題型分數表現之事後比較摘要表. ………89. 表 4-3-17 高分組受試者在了解類型不同題型分數表現的描述性統計量. ……90. 表 4-3-18 高分組在了解類型不同題型分數表現之變異數分析摘要表. ……90. 表 4-3-19 高分組在了解類型不同題型分數表現之事後比較摘要表. ………91. 表 4-3-20 高分組受試者在應用類型不同題型分數表現的描述性統計量. ……91. 表 4-3-21 高分組在應用類型不同題型分數表現之變異數分析摘要表. ……92. 表 4-3-22 高分組在應用類型不同題型分數表現之事後比較摘要表. ………92. 表 4-3-23 高分組受試者在分析類型不同題型分數表現的描述性統計量. ……93. 表 4-3-24 高分組在分析類型不同題型分數表現之變異數分析摘要表. ……93. 表 4-3-25 高分組在分析類型不同題型分數表現之事後比較摘要表 表 4-3-26 高分組受試者在布魯姆認知分類適用之題型. ………93. ……………………94. 表 4-3-27 低分組受試者在記憶類型不同題型分數表現的描述性統計量. ……94. 表 4-3-28 低分組在記憶類型不同題型分數表現之變異數分析摘要表. ……95. 表 4-3-29 低分組在記憶類型不同題型分數表現之事後比較摘要表. ………95. 表 4-3-30 低分組受試者在了解類型不同題型分數表現的描述性統計量. ……96. 表 4-3-31 低分組在了解類型不同題型分數表現之變異數分析摘要表. ……96. IX.

(12) 表 4-3-32 低分組在了解類型不同題型分數表現之事後比較摘要表. ………96. 表 4-3-33 低分組受試者在應用類型不同題型分數表現的描述性統計量. ……97. 表 4-3-34 低分組在應用類型不同題型分數表現之變異數分析摘要表. ……97. 表 4-3-35 低分組在應用類型不同題型分數表現之事後比較摘要表. ………98. 表 4-3-36 低分組受試者在分析類型不同題型分數表現的描述性統計量. ……98. 表 4-3-37 低分組在分析類型不同題型分數表現之變異數分析摘要表. ……99. 表 4-3-38 低分組在分析類型不同題型分數表現之事後比較摘要表 表 4-3-39 低分組受試者在布魯姆認知分類適用之題型. ………99. …………………100. 表 4-3-40 不同受試者適用題型分析表一. ………………………………101. 表 4-3-41 不同受試者適用題型分析表二. ………………………………102. X.

(13) 圖目錄 圖 2-5-1 1956 年版認知領域教育目標. …………………………………43. 圖 2-5-2 新舊版本布魯姆認知分類改變情形 圖 3-1-1 研究架構圖. ……………………………52. …………………………………………………54. 圖 3-3-1 互動式多媒體測驗系統系統架構. ………………………………59. 圖 3-3-2 互動式多媒體測驗系統試題編輯器 圖 3-3-3 試題作答範例─配合題. ……………………………60. ………………………………………61. 圖 3-3-4 試題作答範例─排序題 ……………………………………… 62 圖 3-3-5 配合試題內容修改試題前後範例圖. ……………………………66. 圖 3-3-6 配合認知分類修改試題前後範例圖. ……………………………67. 圖 3-3-7 配合操作方式修改試題前後範例圖. ……………………………68. 圖 4-1-1 全體受試者在配合題的作答長條圖分佈. ………………………73. 圖 4-1-2 全體受試者在排序題的作答長條圖分布. ………………………73. 圖 4-1-3 全體受試者在連連看的作答長條圖分布. ………………………74. 圖 4-2-1 不同能力受試者在不同題型平均得分比較圖. ……………………80. 圖 4-3-1 全體受試者在布魯姆認知分類三種題型平均得分長條圖. ……… 88. 圖 4-3-2 不同能力受試者在記憶類型三種題型得分比較圖. ………………100. 圖 4-3-3 不同能力受試者在了解類型三種題型得分比較圖. ………………100. XI.

(14) 圖 4-3-4 不同能力受試者在應用類型三種題型得分比較圖. ………………101. 圖 4-3-5 不同能力受試者在分析類型三種題型得分比較圖. ………………101. XII.

(15) 第一章 緒論 第一節 研究動機 教育學家 Glaser(1962)提出的教學歷程包括:教學目標、起點行為、教學活 動和教學評量,每一個階段都與評量密切相關。在教學前實施安置性評量 (placement assessment),可以了解學生的起點行為;在教學過程中實施形成性評 量(formative assessment)可以了解學生學習的狀況以及教師是否達成教學目標;實 施診斷性評量(diagnostic assessment)可以針對學生進行補救教學;在教學結束後 進行總結性評量(summative assessment),則可以了解學生的學習成效是否已達精 熟程度,更可以作為評鑑教學效果的參考。由此可知,教學與評量彼此相輔相成, 缺一不可。 以往學校是傳遞知識的主要場所,老師是教授知識的主要來源,學生只能透 過學校與老師面對面的方式進行學習,而評量方式則是使用紙筆測驗,但是在資 訊快速發展的時代,傳遞知識的工具也日新月異,隨著資訊科技的發展與應用, 資訊融入教學已經是必備的條件,教育部於九十學年度推動九年一貫課程時所提 出的資訊教育內涵:將資訊教育融入七大學習領域,並與十大基本能力配合,在 課程綱要中明確指出資訊基本學習內涵為國民教育階段學生必備的基本資訊素 養,也是學生學習各領域知識所需之工具(教育部,1998),越來越多的學生擁有 自己的電腦設備,像:PDA、筆記型電腦、個人桌上型電腦等,甚至上課時可以 利用這些數位設備來從事學習活動,並且減少許多冗長而乏味的工作,例如:收 發作業、計算考試成績等,而讓學生有更多的時間來學習,老師也可以有更多時 間監督學生的學習狀況並且讓學生多進行合作學習(Feng, Chang, Lai, & Chan, 2005 ),由此可知 E-learning 已成為學習的新潮流。 不過,目前學校教育的評量方式仍以紙筆測驗為主,可是傳統的紙筆測驗以 紙張呈現試題,可說是浪費資源,測驗完畢後又必須以人力進行閱卷,不但耗費. 1.

(16) 時間長,在批改考卷過程中也容易出錯,十分不方便(黃朝恭,1999;徐憶嘉, 2004),另外,French 與 Godwin(1996)指出傳統紙筆測驗的選擇題,是測驗學生 書面上再認的能力,無法測驗到較高層次的認知能力,而且選擇題通常只是運用 在測驗非真實情境而且刺激性低的文字教材而已。許多學者已經覺得文字選擇題 無法配合教學上的需要。Harmes(1999)也曾提到目前標準化測驗和性向測驗還是 以傳統的文字選擇題為主,它的優勢在於文字選擇題只有一個正確答案,在管理 和評分上較為簡單且有效率,但是這一類型的題目往往被認為無法測驗出學生較 高層次的知識能力。目前雖然已有部分評量方式改變為電腦化測驗,但學者認為 目前的線上測驗題庫大致集中於單純的文字模式(陳淑鈴,2004),仔細研究後發 現,這類的測驗題型依舊是「文字選擇題」 、 「文字是非題」的形式(Cheng & Bischof, 2007; Cheng, Shen, & Basu, 2008)。在諸多研究中,多媒體試題施行的狀況並不普 遍。 因此,既然目前學習情境已日趨多媒體環境,倘若評量時能以電腦互動式多 媒體的方式呈現試題,測驗能自動計分及分析結果,在資料輸入的同時立即評 分,克服紙筆測驗評分時速度慢以及選題、人工計分的問題(王寶墉,1995),增 進測驗的效率,也更能使命題者明確傳達試題的旨意,讓受試者能更明瞭題目的 意思做較適切的反應(翁全志,2003;李玉珍,2005)。Harmes(1999)認為:使用 多媒體試題可以減少因閱讀技巧對評量結果的影響,也能提高測驗的效度和一致 性,不但在題幹(item stem)和選項(response options)中都可加入多媒體,也可根據 受試者的回答過程部分給分。Cheng et al. (2008)認為:將試題中的圖片與作答的 互 動 方 式 相 結 合 , 可 以 改 進 試 題 的 表 面 效 度 (appearance validity) 和 互 動 性 (interaction),讓受試者在測驗的過程中更有興趣,也能幫助他們更容易了解題 意。蔡振昆(2001)、郭寂莉(2004)都在研究中指出:多媒體試題能將試題表現在一 個較為真實的情境,呈現的刺激具有多樣性與動態性,可以提供試題與受試者之 間的溝通作用,符合「多元評量」(multiple assessment)及「實作評量」(performace. 2.

(17) assessment)的精神。王宇涵(2005)則提到:透過互動的方式,使用者可以從操作 的過程中得到回饋,並根據不同的操作方法而得到不同的結果。因此,互動式多 媒體的應用,可以讓試題內容遊戲化,更加生動活潑且有趣,達到寓教於樂的效 果(吳正宇,2005)。 測驗為教師提供一種教學回饋,並有助於學生的自我了解,編製良好的測驗 可以提高學生的學習動機(陳英豪、吳裕益,2003),社會領域是一門整合日常生 活經驗於學習中的學科,尤其地理方面的概念常涉及到時空變遷及圖表技能的訓 練,若評量受限於平面紙張,關於動態的時空變遷或是圖表技能訓練的試題必無 法完整呈現(吳正宇,2005),但是目前互動式多媒體測驗仍不普遍,將多媒體運 用在地理科的測驗更是極為少數(Chen & Hsu, 2005),因此,研究者針對社會領域 進行互動式多媒體測驗的相關研究。 研究者在 2007 年時進行國小五年級學生社會領域的互動式多媒體測驗,並 在測驗後填寫問卷,以了解受試者對於互動式多媒體測驗系統(ITIS)的看法與建 議,多數受試者對於進行互動式多媒體測驗持支持態度,尤其對於作答方式,如: 試題介面是否容易操作、是否透過多媒體描述更清楚題意、題型是否較容易作答 等,反應皆是非常同意,四等第量表平均分數高達 3.45。此外,研究中也發現對 於低成就的學生,在互動式多媒體測驗的得分優於傳統紙筆測驗,讓受試者可以 更了解題意,不會受限於文字能力影響作答,對於學習低成就的學生有所幫助(孔 崇旭、吳芝瑩、馮士丞,2007)。另外在 2008 年研究者又針對本系統與學生資訊 素養進行研究,得知影響學生測驗得分的關鍵在於測驗的內容,資訊素養並不會 影響其測驗得分(孔崇旭、吳芝瑩,2008)。 由上述研究可以知道,運用互動式多媒體測驗進行社會領域的測驗可以得到 較佳的成績,若欲將互動式多媒體測驗推廣至學校教育中,勢必提供更多編製試 題的參考依據。編製測驗時必須根據測驗目標以及教材內容來決定試題,尤其不 同的知識類型,不一定適合用同一種題型進行測驗,而每一種題型也不一定能適. 3.

(18) 用於所有的知識類型。所以,適當的題型可以提高測驗內容的優異性(Parshall & Harmes, 2007)。因此,研究者希望了解互動式多媒體測驗的各種題型如何搭配布 魯姆認知分類進行出題,探討不同的教育目標適用於何種題型,才能得到受試者 真實的能力,並讓受試者在測驗過程中得到較佳的成績,以提供教師日後編製互 動式多媒體試題時選擇題型的參考,達到測驗最好的效果。. 第二節 研究目的 基於上述研究動機,本研究的目的在於了解學生在不同題型的成績表現,以 及不同題型和布魯姆認知領域教育目標之間的關係,以提供教師在編製互動式多 媒體試題的時候,能根據測驗目標與教材內容選擇最適當的題型,減少因不恰當 的題型造成的測驗誤差,準確的測驗出學生真正的能力。具體而言,本研究的目 的如下: 一、研究受試者在互動式多媒體測驗不同題型的成績表現。 二、研究不同能力的受試者在互動式多媒體測驗不同題型的成績表現。 三、研究互動式多媒體測驗題型與布魯姆認知領域教育目標之間的關係。. 第三節 待答問題 一、研究受試者在互動式多媒體測驗不同題型的成績表現為何? (一)全體受試者在三種題型的得分是否達顯著差異? 二、研究不同能力的受試者在互動式多媒體測驗不同題型的成績表現為何? (一)高分組受試者在三種題型的得分是否達顯著差異? (二)中分組受試者在三種題型的得分是否達顯著差異? (三)低分組受試者在三種題型的得分是否達顯著差異?. 4.

(19) 三、研究布魯姆認知分類與互動式多媒體題型之間的關係為何? (一)全體受試者在不同認知分類知識的三種題型得分是否達顯著差異? (二)高分組受試者在不同認知分類知識的三種題型得分是否達顯著差異? (三)低分組受試者在不同認知分類知識的三種題型得分是否達顯著差異?. 第四節 名詞釋義 一、互動式多媒體測驗 多媒體就是結合文字(text)、圖像(graphic)、聲音(voice)、音樂(music)、動畫 (animation)、影像(video)元件而成的綜合體。 Kristof 與 Satran(1995)對互動性下了一個定義:The things people do on computers have always been interactive.。也就是當人與電腦之間產生了行為就是一 種互動性。蔡淑如(1999) 就理論層面而言,「互動性」概念主要建構在「媒體」 與「使用者」兩個主要面向上。從「媒體」角度來看,強調媒體必須提供使用者 更多的選擇權、從「使用者」角度來看,則強調了使用者必須具有自主控制能力, 即時參與修改增加媒介的形式與內容。 M.T. Ciaffaroni, Sailing Across – Zanichelli (2009)針對互動式多媒體下了一個 定義,「互動式多媒體是指結合至少兩種媒體形式,可能為文字、圖片、聲音、 影像或動畫等,而且使用者能有效的輸入或控制多媒體元件進行操作。應用的範 圍包括教育、娛樂、新聞出版和商業。」所以,多媒體在應用上最關鍵的就是─ 互動性,容許最終使用者來操控何時發佈及發佈哪些元件時,就是互動式多媒體 (interactive multimedia)(Vaughan, 2004)。 本研究中所指的互動式多媒體測驗是使用本實驗室開發的 Interactive Test Item System ─ IT IS 編製測驗,使用者在測驗過程中,在多媒體元件上進行點選、 拖拉、連線、碰撞、排序等動作,以完成測驗。. 5.

(20) 二、台灣的自然環境 本研究中所編製的測驗範圍為「台灣的自然環境」,包含的內容細分為十個 基本概念:台灣的相對位置、絕對位置、海岸、河川、離島、地形種類、地形形 成、地形分布、地形特色、氣候。其相對應的能力指標包括:1-3-1 了解不同生 活環境差異之處,並能尊重及欣賞其間的不同特色、1-3-3 了解人們對地方與環 境的認識與感受有所不同的原因、1-3-4 利用地圖、數據、座標和其他資訊,來 描述和解釋地表事象及其空間組織、1-3-9 分析個人特質、文化背景、社會制度 以及自然環境等因素對生活空間設計和環境類型的影響。. 6.

(21) 第二章 文獻探討 本章節一共分為五個部份:第一部分是探討古典測驗理論,第二部份是介紹 互動式多媒體測驗的內涵,第三個部份整理近年來國內外互動式多媒體測驗的相 關研究,第四個部份是深入探討與互動式多媒體測驗相關的心理學理論,最後, 第五個部份則針對布魯姆認知領域教育目標在測驗上的應用加以介紹。透過相關 文獻的探討,提供本研究進行分析時的理論依據。. 第一節 古典測驗理論 古典測驗理論(classical test theory,簡稱 CTT)是最早發展的測驗理論,至今 仍是最實用的測驗理論。古典測驗理論的主要目的是估計某個測驗「實得分數的 信度」(reliability of the observed score),也就是估計「實得分數」(observed score) 與「真實分數」(true score)之間的關聯性強度,以真實分數為理論架構,因此又 被稱為「真實分數理論」(true score theory)或「古典信度理論」(classical reliability theory)。. 壹、基本假設 古典測驗理論建立在真實分數的模式上,也就是當受試者接受一份測驗後, 他在該測驗的得分稱為「實得分數」,但是有許多因素會影響受試者在測驗上的 表現,即使內容範圍相同但只要試題樣本不同、時間不同、施測地點不同等條件 下,都有可能有不同的測驗結果,造成不同測驗的結果就稱為「誤差」。因此, 在可能的施測情境下,將同一位受試者進行多次同樣的測驗而得的實得分數加以 平均,這些實得分數的平均數即代表受試者能力的不偏估計值,也就是「真實分 數」。 真實分數模式用來表示任何可以觀察到、測量到的實得分數。因此,實得分. 7.

(22) 數是由兩個部份所構成的數學函式關係: 1.. 真實分數(true score,以 T 代表):真實分數是觀察不到,但卻是研究者真正 要測量的潛在特質。. 2.. 誤差分數(error score,以 E 代表):誤差分數也是觀察不到,但卻是研究者想 極力避免或降低的部份。 真實分數是固定不變的,不受測量的次數影響,代表受試者真正的能力. (ability),但是實際上每一次的測量所得的實得分數都會和真實分數有差距,這段 差距就是誤差分數,因此,以數學公式來表示這三者之間的關係可以表示為: χ=T+E. (公式 2-1). χ 代表實得分數,T 代表真實分數,E 代表誤差分數。 真實分數模式的成立,必須滿足一些基本假設,可以歸納成下列七項:(余民 寧,2002) 1.. χ=T+E (實得分數等於真實分數與誤差分數之和). 2.. E(χ)=T (實得分數的期望值等於真實分數). 3.. ρte=0. (真實分數與誤差分數之間呈零相關). 4.. ρe1e2=0. (不同測驗的誤差分數間呈零相關). 5.. ρe1t2=0. (不同測驗的誤差分數與真實分數間呈零相關). 6.. 假設有兩個測驗,其實得分數分別為 χ 和 χ’,並且滿足上述 1 到 5 的假設, 且對每一群體考生而言,亦滿足 t=t’和 σ2e=σ2e’等條件,則這兩個測驗便稱 作「複本測驗」(parallel tests). 7.. 假設有兩個測驗,其實得分數分別為 χ 和 χ’,並且滿足上述 1 到 5 的假設, 且對每一群體考生而言,亦滿足 t1=t2+c12,其中 c12 為一常數,則這兩個測 驗稱作「本質上 τ 相等測驗」(essentially τ-equivalent tests) 根據以上七個基本假設可對古典測驗理論做出下列的詮釋:(余民寧,2002). 1.. 假設具有潛在特質存在。. 8.

(23) 2.. 多次測量的推論結果。. 3.. 單獨一次的測量必含誤差。. 4.. 假設潛在特質與誤差之間是獨立的。. 5.. 嚴格假設複本測驗,唯有滿足複本測驗之嚴格假設的兩個測量結果間才可以 直接進行比較大小和解釋優劣。. 貳、測驗分析 古典測驗理論中,也探討了其他測驗相關議題,包括測驗的信度(reliability)、 效度(validity)、測驗編製等。信度和效度是測驗的兩大特徵,一份優良的測驗要 包括高度的信度和效度,另外,還需要針對試題做客觀的評鑑,因此,試題的品 質可以透過難度(difficulty)和鑑別度(discrimination)等量化的分析來呈現。以下, 就針對測驗的信度、效度,試題的難度和鑑別度進行討論與研究。 一、信度(reliability) 信度(reliability)是指測驗的穩定性與一致性的統計指標,通常信度係數越 高,表示不同時間內多次測量結果的一致性越高,測驗分數的變異情形不嚴重, 若信度係數越低,則表示一致性越低,也就是測驗結果的變異情形較嚴重。 根據古典測驗理論的說法,信度被定義為「真實分數的變異數占實得分數的 總變異數之百分比值」,可以用下列公式來表示: S χ2 S χ2. =. S t2 S e2 + S χ2 S χ2. (公式 2-2). S 2χ 為實得分數的變異數,S t2 為真實分數的變異數,S e2 為誤差分數的變異數。 當測驗分數中誤差的比率降低時,真實分數的比率就會提高,信度係數值就 會提高,當測驗完全沒有信度時,表示測驗分數都是誤差分數,而當測驗具有完 全信度時,測驗分數全部都是真實分數,也就是真實能力。但是這兩種極端的情 形通常是不會出現的,在一般的施測情形下,信度係數值介於 0 到 1 之間,通常. 9.

(24) 一份好的測驗,應該具有.80 以上的信度係數值(Carmines & Zeller, 1979;余民寧, 2002;陳英豪、吳裕益,2003)。常用的估計信度方法有下列幾項: (一)重測信度(test-retest reliability coefficient) 以同一個測驗,在不同時間對同一群體實施兩次測驗,此兩次測驗分數的 相關係數就是重測信度。主要目的是估計測驗分數是否穩定,所以又稱為「穩 定係數」。 兩次測驗間隔的時間也會影響受試者的表現,因此,間隔時間的長短,必 須視測驗的性質和目的而定,避免造成測驗誤差。一般而言,兩次測驗時間間 隔太短,重測信度越高,若時間間隔太長,重測信度就會越低。 (二)複本信度(parallel forms test) 複本測驗是指兩份試題在題數、形式、內容、難度、鑑別度都一致,用來 測驗相同的潛在能力或特質,但是試題不同的測驗。以複本測驗來測量同一群 受試者,再求受試者在兩份測驗得分的相關係數,就是複本信度。主要目的是 估計兩份測驗的等值性。 造成複本信度誤差的來源,通常是試題抽樣所產生的,若兩份測驗試題抽 樣代表性越高,所測量到的相同能力或特質也越高,複本信度係數就會越高。 複本信度可分為兩種:一種是在同一時間內連續實施兩次測驗,這種信度 就是「等值係數」;另外一種是間隔一段時間後在實施測驗,也就是在不同的 時間實施兩份等值的測驗,這種信度係數就是「穩定和等值係數」 。 (三)內部一致性(internal consistency) 重測信度和複本信度都必須施測兩次,但是使用內部一致性的信度估計 法,則只需測驗一次,最常使用的估計方法有下列三種: 1. 折半法(split-half method) 折半法是先按照正常的程序實施測驗,然後將全部試題區分成相等的兩 半,再求出這兩半測驗結果的相關係數,就稱為折半信數係數。可以用隨機. 10.

(25) 的方式或是按題目的單雙數分成兩半,但最常被使用的是將試題依據難度大 小順序排列時,採用奇偶對半方法將可使兩半測驗的試題在難度上維持相 等,經積差相關法的計算,即可求得學生在兩半測驗分數間的相關係數(余 民寧,2002)。由於折半法只用了一半的測驗而已,所以會低估原來的信度, 因此,可以使用斯布校正公式(Spearman-Brown formula),計算出原本的信 度。公式表示如下: rxx’=. g ⋅ rh 1 + ( g − 1)rh. (公式 2-3). rxx’為完整測驗的估計信度,rh 為折半信度,g 為題目增長或縮短的倍數。 2. 庫李法(Kuder-Richardson method,簡稱 K-R 法) 庫李法是由 Kuder 和 Richardson 兩位學者在 1937 年所創的,根據受試 者對所有試題的作答,分析試題間的一致性,以確定每一道試題都能測量到 相同的特質或能力。庫李法的內部一致性高低,受到兩項因素的影響,一個 是內容取樣;另一個是所取樣的行為領域的異質性,所取樣的行為領域同質 性越高,則題目間的一致性也越高。因此,庫李法有下列三項基本假設:第 一個試題的計分必須是二元計分;第二個試題不受作答速度的影響;第三個 試題都是同質的。若滿足這三項假設,所估計出來的信度將會和折半信度相 當接近(余民寧,2002)。 最常使用的庫李法有庫李 20 號(KR20)和庫李 21 號(KR21),公式表示如 下: n. KR20. n = (1n −1. ∑pq i =1. 1 1. S x2. ). (公式 2-4). KR20 是測驗的信度,n 是測驗的題數,p1 是答對每一題人數的百分比值,q1 n. 是答錯每一題人數的百分比值(q1=1- p1), ∑ p1 q1 是個別試題的變異數總 i =1. 和, S x2 是測驗總分的變異數。. 11.

(26) KR21=. X (n − X ) n (1) n −1 nS x2. (公式 2-5). KR21 是測驗的信度,n 是測驗的題數, X 是測驗分數的平均數, S x2 是測驗 總分的變異數。 當所有的試題難度接近 0.5 時,以 KR20 或 KR21 所估計的信度係數值會 相等,但是,當試題難度差異很大時,則 KR21 所估計出的信度係數會比 KR20 所估計的信度係數小。此外,庫李法不能用來計算多元計分的試題,此時, 就必須使用 Cronbach 在 1951 年所發明的 α 係數。 3. α 係數(coefficient alpha) 有許多測驗並不是對錯二元計分,像問卷所使用的量表,常有五點計 分、四點計分等,這就無法使用庫李法進行信度分析,因此,Cronbach 在 1951 年時發展出 α 係數來估計多元計分測驗的內部一致性。α 係數的公式也 是由 KR20 發展而來的,所以當測驗試題呈現同質性時,α 係數和 KR20 所估 計的信度係數會和折半信度相當接近,但如果試題呈現異質性時,則會低於 折半信度,因此,α 係數和 KR20 係數是所有信度係數估計值的下限。α 係數 公式表示如下: n. α=. ∑S. 2 i. n (1- i =1 2 ) n −1 Sx. (公式 2-5). α 是信度係數,n 是題數, S i2 是每一道試題得分的變異數, S x2 是測驗總分的 變異數。 二、效度(validity) 效度(validity)是指一個測驗能夠準確的測量到它所要測量的能力或潛在特質 的程度。所以信度是效度的必要條件但非充分條件,一個測驗要有效度之前,必 須先有信度。郭生玉(1990)說明效度和信度的關係:效度需要測驗分數的一致性 和準確性,信度僅需要測驗分數的一致性。. 12.

(27) 根據 1985 年美國教育研究學會(American Education Research)、美國心理學會 (American Psychological Association)和國立教育測量委員會(National council on Measurement in Education)所組成的聯席委員會出版關於測驗編製與使用方面的 規範準則─「教育與心理測驗標準」 ,其中針對測驗使用目的的不同,規定在推論 和解釋分數時,應報告三種不同測驗效度(余民寧,2002)。可分為:內容效度、 效標關聯效度、建構效度。 (一)內容效度(content validity) 內容效度是指一個測驗能否測量到具有代表性的教材內容和所預期的行 為改變(陳英豪、吳裕益,2003),所以「教材內容」與「教學目標」 ,是內容 效度的兩個要素。因此,要具有良好的內容效度,可以製作「雙向細目表」, 確定試題的內容具有代表性或是請專家鑑定。內容效度最適用於成就測驗的 效度考驗(陳英豪、吳裕益,2003),因為成就測驗的目的在於測量學生是否 充分學習到教材的內容,若有良好的內容效度,就能準確測驗出學生學習的 效果。 (二)效標關聯效度(criterion-related validity) 如果我們要以測驗的分數來預測未來的行為表現,或是估計目前在其他 測驗上的表現,那就要用到「效標關聯效度」(陳英豪,吳裕益,2003),所 以效標關聯效度就是測驗分數和外在效標(external criterion)之間的關聯性。效 標關聯效度可以分為下列兩種: 1. 同時效度(concurrent validity) 測驗分數和效標分數大約再同一時間取得,就叫做同時效度,其目的在 利用測驗分數估計個人在外在效標方面的目前實際表現情況。 2. 預測效度(predictive validity) 先取得測驗分數後,過一段時間再取得效標分數,就稱為預測效度,其 目的在利用測驗分數預測個人在外在效標的未來表現。兩種資料間的相關係. 13.

(28) 數,就是該測驗的預測效度。 (三)建構效度(construct validity) 內容效度能幫助我們決定測驗分數能否代表某種學習結果的成就,而效 標關聯效度則可以用來了解測驗分數能否有效預測或估計某種行為表現,所 謂建構效度就是指「測驗能夠測量到理論上的建構或特質的程度」(陳英豪、 吳裕益,2003)。「建構」是指心裡學或社會學上的理論構想或特質,通常是 觀察不到也無法直接測量的,通常建構效度的建立過程即是一種教育研究的 過程,它要求研究者必須先提出理論構想、形成假設、蒐集資料去驗證、反 覆修正及檢討建構過程,直到理論獲得令人滿意的驗證結果為止(余民寧, 2002)。 三、難度(difficulty) 一份好的測驗,必須有高品質的試題,所以運用統計方法來分析試題的難度 和鑑別度,可以確保試題的品質。 試題的難度通常以答對百分比來計算,也就是全體受試者中,答對此道試題 的人數佔總人數的百分比,就是試題的難度。公式表示如下: P=. R N. (公式 2-6). P 代表試題難度,N 代表全體受試者人數,R 是答對試題人數。 另外一種求難度的方法是求高分組答對百分比和低分組答對百分比的平均 數來表示難度。將所有受試者的成績按照高低順序排列出來,選取前 27%為高分 組,後 27%為低分組,各自計算答對百分比,這種方法可以知道高分組答對的人 數較多或是低分組答對的人數較多,所以較受到研究者的喜愛,也較常被使用。 公式表示如下: P=. PH + PL 2. (公式 2-7). P 代表試題難度,PH 代表高分組答對百分比,PL 代表低分組答對百分比。. 14.

(29) 由上述計算方式可以知道,難度的定義為答對百分比,因此,難度值(P值) 越大,代表試題越簡單,越多學生答對該道題目。難度值介於0到1之間,越接近 1代表題目越簡單,越接近0則代表題目越難。Martuza(1977)認為在常模參照測驗 中,試題難度以0.3-0.7較佳,但平均難度應接近0.5;Chase(1978)指出四個選項的 選 擇 題 難 度 應 在 0.4-0.8 之 間 , 是 非 題 難 度 則 應 在 0.55-0.85 之 間 較 適 當 ; Anastasi(1982)指出當難度指標越接近0.5 時區別力越高。另外,國內學者余民寧 (2002)提出整份測驗的平均難度以接近0.5作為共同的挑選原則,陳英豪與吳裕益 (2003)認為良好的是非題難度在0.75左右,填充題在0.5左右。 除了以答對百分比計算試題難度之外,還可以將試題難度轉換成為具有相同 單位的等距量尺,美國教育測驗服務社(Educational Testing Service,簡稱 ETS)將 難度轉換成標準差 4,平均數 13 的標準分數量表,△值介於 1 到 25 之間,數字 越大試題越困難。公式如下: △=13+4X. (公式2-8). 四、鑑別度(discrimination) 分析試題的鑑別度主要是在了解試題區分學生能力高低的功能如何。試題的 鑑別度可以分為「內部一致性分析法」,和「題目效度分析」或稱為「外在效度 分析」 。 (一)內部一致性分析法(internal consistency) 內部一致性分析法是探討個別試題得分和測驗總得分之間的一致性。我 們希望每一道試題高能力的學生答對的人數比低能力的學生多,若能準確的 區分出學生能力的高低,即代表這道試題具有鑑別度,因此,以下列的公式 來計算: D=PH-PL. (公式 2-9). D 代表試題的鑑別度,PH 代表高分組答對百分比,PL 代表低分組答對百分比。 試題的鑑別度介於1到-1之間,若全部學生都答對或全部都答錯,鑑別度. 15.

(30) 為0;若高分組學生全部答對,低分組學生全部答錯,鑑別度為1;若高分組 學生全部答錯,低分組學生全部答對,鑑別度為-1。因此,一道好的試題, 高分組答對的人數要多於低分組答對的人數。根據Noll, Scannell, 與 Craig在 1976年提出鑑別度最低標準應該要0.25以上,低於0.25應視為鑑別度不佳或品 質不良的試題(余民寧,2002)。國內學者郭生玉(1990)、余民寧(2002)引用美 國學者Ebel在1979年提出的鑑別度標準:0.4以上非常優良,0.30-0.39優良, 0.20-0.29尚可,0.19以下試題為劣,需要大幅度修改或刪除。 (二)外在效度分析(external validity) 外在效度是分析學生在試題上的反應與在效標上的表現之間的關係。將 學生在每道試題上的作答反應,和效標上的作答反應分析其相關情形,作為 試題的鑑別度。常用的有下列三種方法: 1. 點二系列相關(point-biserial correlation):適用於試題為二分變項,效標為 連續變項的情況,點二系列相關系數值越高,代表試題與測驗總分的作用 越一致,鑑別度越高。 2. 二系列相關(biserial correlation):適用於受試者在試題上的反應是常態分 配,但是由人為方式將其分為答對與答錯兩種情況。 3. φ 相關(phi coefficient):適用於題目與效標都是二分變項的情況。. 第二節 互動式多媒體測驗 測驗發展的過程中,由傳統的紙筆測驗,電腦化測驗、線上測驗、適性化測 驗,進而發展互動式多媒體測驗,是測驗與評量史上的一大突破。Harmes(1999) 的研究中提到:在電腦測驗的領域中,設計「創新試題」是新興的研究,這些試 題最大的特色就是利用紙筆測驗無法使用的多媒體元件,創造出更好的測驗題 型。所以隨著多媒體的發展,電腦不再侷限於文字的方式呈現題目,新的資訊科. 16.

(31) 技可提供包括圖片、聲音、影像、動畫相結合的方式呈現於受試者的眼前,能將 試題表現在一個較為真實的情境,呈現的刺激具有多樣性與動態性(蔡振昆, 2001)。Chen 與 Hsu(2005)在研究中指出:電腦可以使測驗更具互動性也更有趣, 多媒體則可以讓測驗更接近學生的學習環境和真實生活。Cheng et al. (2008)也在 研究中指出:使用多媒體的創新題型可以改進試題的表面效度和互動性,幫助學 生在測驗的時候更容易了解題意。 由此可知,互動式多媒體試題是一種創新的題型,也是在測驗領域中新興的 議題,以下就針對互動式多媒體測驗的創新題型進行更深入的介紹。. 壹、互動式多媒體測驗理論基礎 互動式多媒體的定義是指結合至少兩種媒體形式,可能為文字、圖片、聲音、 影像或動畫等,而且使用者能有效的輸入或控制多媒體元件進行操作。對於「互 動」我們可以解釋為當受試者對電腦進行某種行動時,電腦能給予回應,例如: 當受試者以滑鼠點選或拖曳圖片時,可以看到畫面中的圖片產生變化或移動,這 就是人與電腦產生的「互動」 。 使用電腦進行測驗最大的優點在於試題中能夠使用多媒體。使用多媒體可以 降低閱讀技巧的依賴,也能提高測驗結果的信度和效度(Parshall, Davey, & Pashley, 2000)。因此,以下對試題中使用多媒體的部份進行深入的分析: 一、圖片(graphics) 圖片是電腦化測驗中最常被使用的非文字媒體。雖然紙筆測驗中也能使用圖 片,但是卻沒有可以和圖片進行互動的設備。所以互動式多媒體測驗中,只要運 用圖片就可以要求受試者旋轉圖片、改變圖片的大小規格、用滑鼠點選圖片,或 是拖曳圖片進行作答。圖片是測驗中最為廣泛運用的,其優點包括( Parshall et al., 2000; Parshall & Harmes, 2007 ): (一)容易配合測驗內容。. 17.

(32) (二)圖片的規格與形式最容易整合在測驗系統中:圖片的檔案比較小,所以大部 分的測驗軟體都能在試題中結合圖片並儲存圖片的檔案,讓受試者方便下載 試題並進行作答。 二、聲音(audio) 「聲音」是聽力測驗必備的媒體,傳統的紙筆測驗在測驗聽力時,通常都是 使用錄音帶透過廣播設施同時播放試題給所有受試者聆聽,這樣的方式不論是監 考官或是受試者都覺得十分不方便,外在的因素容易讓受試者無法聽清楚題目的 內容,影響作答。所以在互動式多媒體測驗中使用「聲音」媒體的優點有( Parshall et al., 2000; Parshall & Harmes, 2007 ): (一)聲音可由電腦直接控制,受試者只需帶著頭戴式耳機,就可以聽到聲音。 (二)提供更多的資訊給受試者,彌補受試者閱讀能力上的不足。 (三)提高測驗的效度: 1. 聲音的品質較為清晰。 2. 受試者可以自行決定何時進行作答。 3. 受試者可自行調整音量。 由於聽覺和視覺是屬於不同的認知能力,有研究指出聽覺有助於短期記憶, 多種的傳遞訊息方式若能同時使用,將更容易也更有效的傳遞知識。不過,Parshall 與 Balizet(2001)的研究中指出:聲音媒體對於聽力障礙的人士不適用,聲音檔案 的類型和儲存的規格和測驗傳輸的安全性,都必須加以注意。 三、影音(video) 傳統測驗中雖然也有使用影音設備,但通常是許多人觀看同一個電視螢幕或 投影設備,所在的位置會影響看到影像的清晰度,同一間教室中,不同角度看到 的影像品質不一樣,甚至連聽到的聲音品質也不同。所以,在互動式多媒體測驗 中使用影音媒體當作試題,優點包括(Parshall et al., 2000; Parshall & Harmes, 2007):. 18.

(33) (一)提高測驗信度、效度: 1. 影音品質較佳。 2. 作答不會有時間上的誤差。 3. 受試者較能控制回答的時間。 (二)提供受試者作答時較多的刺激與幫助。 (三)呈現真實情境,能完整的表現事件的過程。 由於科技進步,數位攝影設備以及影片編輯軟體越來越好,使得影音媒體的 運用更為廣泛。但是使用影音媒體時必須注意下列幾個事項: (一)影音檔案的類型是否可以在不同測驗軟體上播放。 (二)資料庫空間大小是否足夠儲存所使用的影音媒體。 (三)測驗傳輸速度是否正常。 (四)使用影音媒體較昂貴,花費較多。 四、動畫(animation) 紙筆測驗中只能使用靜態的媒體,而互動式多媒體測驗卻能使用動畫增加評 量的動態性。雖然和其他媒體比起來,動畫通常使用在年紀較小的受試者所進行 的測驗上,或是測驗後的回饋。但是動畫仍有下列優點(Parshall et al., 2000; Parshall & Harmes, 2007): (一)所需的記憶體比影音媒體少。 (二)製作動畫的花費比較少。 (三)動畫的內容較為單純,受試者作答時能聚焦於試題要傳達的內容。 Parshall 與 Harmes (2007)在研究中指出,編製高品質的互動式多媒體測驗 時,在使用多媒體上必需注意下列幾點,也是本研究在進行編製測驗時嚴加遵守 的: (一)測驗系統必須支持各種媒體的檔案類型。 (二)多媒體檔案的大小在儲存或傳輸的過程中,可以改變其大小,但不能影響其. 19.

(34) 品質。 (三)當所使用的多媒體具有版權者,必須符合網路資訊安全,不可隨意盜用。 (四)必須針對受試的對象選擇適當的多媒體類型 除了使用多媒體之外,「互動式的操作方式」也是互動式多媒體測驗與一般 測驗不同的地方,根據學者們的研究,提出互動式的操作方式有下列優點: (一)提高受試者對測驗的興趣(吳正宇,2005;Cheng et al., 2008) (二)根據受試者的回答過程部分給分(Harmes, 1999)。 (三)使用者從操作的過程中得到回饋(王宇涵,2005)。 因此,若能將多媒體與互動式題型緊密結合,將能發揮互動式多媒體測驗的 最大功能,提升互動式多媒體測驗的信度與效度。. 貳、發展高品質互動式多媒體測驗準則 這幾年來測驗的發展與資訊科技相互連結,使試題不再侷限於文字,還可以 使用鍵盤、滑鼠、麥克風等設備進行作答,使測驗越來越接近受試者生活的真實 情境。此外,自動判題、計分、儲存分數更是讓測驗管理者更加便利。但是在發 展測驗的同時,更應該注重試題的品質,傳統紙筆測驗的題型,像選擇題、是非 題等,是經過測驗專家多年來的研究與改進而形成的,在使用上有許多準則可以 參考,因此,在互動式多媒體測驗中,同樣需要時間、努力與研究來證明測驗的 穩定度和效度。 Harmes(1999)、Swyger與Contreras(2001)都曾在研究中指出:使用電腦進行測 驗時,受試者對於試題介面的操作方式不熟悉、受試者本身面對電腦時的緊張程 度,以及使用電腦的頻率,都有可能影響測驗的結果。所以受試者的資訊能力不 足以及操作介面太過複雜,都可能導致測驗的誤差。因此,發展高品質的互動式 多媒體測驗必須有完整的步驟及規則,以確保測驗的信度和效度。 Nielsen (1993)在發展新式測驗的介面時提到需要注意兩個重點:. 20.

(35) 一、 使用者的特徵:使用者特徵的定義包含人口統計中的變項,如:性別、種 族、教育程度等;使用電腦的經驗、態度和表現;以及測驗的環境。 二、 任務表現的分析:在研究中,一旦了解各項受試者的背景資料,才能確定 測驗的目標和測驗的需求,對於所蒐集到的測驗資料才能準確的進行分 析,達到測驗的目的。 Parshall 與 Harmes (2008)為了提高測驗的品質和實用性,提出六個發展高品 質測驗的步驟: 一、分析測驗計畫的概念需求(analyze the exam program’s construct needs) 第一個步驟是仔細考慮測驗的具體目標和需求。初步的分析可以找出測驗具 體的內容或認知理論基礎來發展高品質的測驗。 二、選擇特定的創新題型(select specific innovations) 第二個步驟必須考慮所選擇的題型和相關理論之間的配合度。發展高品質題 型需考慮七個部份:評量的結構、作答的方式、多媒體的運用、互動性、複雜性、 精確度、計分方法(Parshall & Harmes, 2007)。 創新的題型必須配合測驗理論基礎,適合度越高測驗的品質越好。此外,也 要考慮測驗的成本,所以每發展出一個新的題型,都要根據其相關理論的配合度 和花費的成本進行分析,以決定是否選擇此題型。 三 、 設 計 試 題 初 步 雛 型 讓 發 展 小 組 評 鑑 (design initial prototypes for internal discussion) 第三個步驟是根據選擇的題型設計一到兩個試題提供評鑑小組審核。先簡單 的畫出題型架構,不需要設計出所有的功能,目的只是創造出一個範本來討論與 評估。此外,發展小組成員必須向專家確認題型是否符合評量的目標與需求,注 意題型的可用性、傳輸方式、評分方式,根據分析的結果再進行修正。 四、重複修正題型設計(iteratively refine the item type designs) 第四個步驟主要是修正題型。包括三個步驟:第一個是內容發展小組,負責. 21.

(36) 的工作是發展編製試題的材料,這些新的編製材料必須包含高品質題型的規準, 並且請專家針對發展後的試題樣本進行內容的審核。第二個小組負責測試題型的 可用性,包括軟體和操作介面對受試者是否容易使用,避免造成測驗的誤差,因 為對受試者來說,這些互動式多媒體的試題通常比傳統試題來的複雜,所以可用 性是非常重要的。最後一個小組負責評估每一個題型可能出現的問題:題庫、測 驗的發展、多媒體的發展、作答說明的發展、測驗的實施、多媒體和測驗的傳輸、 施測的時間、計分方法和分數的呈現。 根據測試題型的可用性和最後評估的結果,將會針對每一道試題提出修正。 修正後再進行第二循環的審核,不斷重複這三個步驟,直到所有題型都達到令人 滿意的品質為止。 五、實施創新題型的預試(conduct a pilot test of the innovative item types) 第五個步驟是預試,預試的目的是測試測驗系統是否正常以及每一道試題是 否可用。某些測驗在預試時會出現許多待改進的地方,這時就必須進行修正,甚 至重複第四個步驟。所以通過第五個步驟的成果,已是經過驗證後可使用的測驗。 六、提出最後的成果(produce final materials) 最後把所有的試題完整的編入測驗當中,即完成一份高品質的測驗。 由上述學者的研究,可以了解使用互動式多媒體測驗,必須考慮受試者的資 訊背景、測驗介面的設計以及題型的發展,尤其掌握六個編製高品質測驗的步 驟,將可使測驗誤差降到最低,因此,本研究也使用此六個步驟發展測驗,以編 製出符合教學內容、測驗目標並符合受試者資訊背景的測驗。測驗發展步驟包 括:1.決定測驗目標;2.選擇測驗所使用的題型:配合題、排序題、連連看;3. 由相關領域專家進行題型審核,並配合試題內容修改題型樣板;4.修正題型樣板 並進行試題內容審查及修改;5.進行預試,由受試者作答反應進行試題修正;6. 編製正式測驗,並選定北、中、南三區學生施測。. 22.

(37) 参、編製高品質互動式多媒體試題 在編製高品質的互動式多媒體試題方面,Parshall et al. (2000)提出五種試題的 分類分法:1.試題的形式;2.作答的回應方法;3.多媒體的運用;4.互動的程度; 5.分數的計算。Parshall 與 Harmes(2007)再將五種方法擴充成為七種,這七個部 份除了考慮個別的元件,更要注意彼此間的整合。以下是詳細的介紹: 一、評量的結構(assessment structure) 評量的結構包含:獨立試題、情境任務試題、模擬情境試題三種:(Parshall & Harmes, 2007) (一)獨立試題 目前大部分的測驗都是使用獨立試題,獨立試題和傳統試題一樣都包含 「選擇反應題型」和「建構反應題型」,但是不同的地方包括:1.題型多樣 化:「拖曳題」、「組合題」、「多選題」、「排序題」等。2.增加作答的 選項以降低受試者的猜測度。3.擴充測驗的內容,以提高認知層次。 選擇反應題型包括直接以滑鼠在段落或圖片上點選正確的答案,拖曳文 字或圖片等,Parshall et al. (2000)在研究中指出:「排序題」是由受試者將一 連串的答案,按照順序重新排列才算完成作答,多選題和排序題都是屬於作 答方式較為複雜的題型。建構反應題型包含填充、簡答和申論題。最簡單的 建構反應題型可能要求受試者輸入數字或是簡短的語詞,較為複雜的內容則 可能要求受試者紀錄、收集資料作為答案。 (二)情境任務試題 情境任務是指試題接近真實情境,受試者必須解決情境中出現的問題, 經過一連串的解決步驟,才算完成整道試題的作答。例如:要求受試者寄發 電子郵件,受試者必須了解每一個操作的步驟才能完成作答;或是要求受試 者使用電腦的製圖工具,在規定的標準內做出正確答案。因此,單純的試題. 23.

(38) 內容,應使用獨立試題進行測驗,較為複雜的測驗內容,或是跨領域的內容, 就需要使用情境任務試題(Parshall & Harmes, 2007)。 根據以上介紹,可以了解情境任務試題的優點有(Parshall & Harmes, 2007): 1.蒐集到更多受試者作答時的相關資料。 2.了解受試者是否懂得實際操作。 3.作為診斷評量的依據。 (三)模擬情境試題 最複雜的題型就是模擬情境的試題,透過科技創造出模擬情境,讓受試 者進行實作評量。受試者必須把自己當成真正處於現實情境中,才能得到好 的測驗成績。 不論是情境任務或是模擬情境的試題,在測驗的編製上都比獨立試題複 雜,受試者必須以更多的時間進行測驗。此外,編製這類型的試題增加許多 花費,不同的測驗要有不同的操作工具,一般的測驗並無法提供較為特殊的 測驗工具,所以目前模擬情境的試題並不普及。 越複雜的評量必須花費越多的時間和金錢和人力,包括編寫試題對出題 者來說是大挑戰,而且如果試題的操作方式太過困難,反而會讓受試者的得 分受到操作方式的影響,就不是測驗到受試者的真實能力。因此,選擇適當 的評量結構是發展高品質試題的必要條件。 二、複雜性(complexity) 在互動式多媒體測驗中,「複雜性」的定義是:受試者作答時使用的各項元 件,可分為「題目敘述」和「操作功能」,像螢幕上所顯示的文字、圖片、控制 按鈕以及媒體播放器等。試題中包含一個單獨的功能元件(如:媒體播放器),會 提高一點試題的複雜性,若加入多樣的功能元件,將會大大的提高試題的複雜 性。此外,試題的內容和認知程度也會提高試題的複雜性(Parshall & Harmes,. 24.

(39) 2007)。由此可知,在設計高品質試題時必須注意造成試題複雜性高低的因素。 三、精確度(fidelity) 「精確度」的定義為:評量中所呈現每個物件、情境、試題等真實性的程度。 越接近真實情境的試題,精確度越高。 Parshall 與 Harmes(2007)將精確度分為下列三個程度: (一)精確低最低:以文字或是選擇題來呈現試題,讓受試者從四個選項中選擇一 個解決或操作的方法,這主要是用來評量受試者「知識」方面的能力。 (二)精確度稍高:以電腦進行測驗,需要軟體的配合以及電腦和輸入設備,如: 滑鼠或是鍵盤。 (三)精確度最高:測驗中將真實情境完全複製到評量過程,也就是實作評量,主 要用來評量受試者「應用」的能力。 試題精確度的高低應該視評量的目的而定,測驗的編製者應該以測驗目標以 及評分標準作為選擇適當精確度的依據。 四、互動性(interactivity) 「互動性」的定義是:當受試者輸入答案後,試題所出現的反應。互動的程 度通常與試題結構有關,獨立試題的互動程度是較低的,例如:「選擇題」的作 答只要點選一個答案,「拖曳題」需要移動多個圖片,「作圖題」則使用不同步 驟完成作圖,互動的程度越來越高。受試者可以利用和電腦的互動,幫助他們進 行作答,如果互動的方式能和測驗的內容互相整合,這樣的互動方式才是適當的。 五、多媒體的運用(media inclusion) 互動式多媒體試題中使用多媒體是一大重點,最常被使用的有圖片、聲音、 影音和動畫,這些媒體種類可以單獨使用,也可以合併使用,若能適當的使用多 媒體,將能提高測驗的效度。可由「互動式多媒體測驗理論基礎」詳細了解此四 種媒體類型的特色與應用。 六、作答的方式(response cction). 25.

(40) Parshall et al. (2000)第一次提出作答方式的解釋為「受試者在作答時的身體反 應」,但是在西元2007年修正後所下的定義則包括「輸入設備的形式」以及「受 試者作答時的身體動作」。在電腦化測驗中最常使用的輸入設備就是鍵盤和滑 鼠,其他特殊的輸入方式有:觸碰螢幕、光筆、操縱桿或是軌跡球等。應針對不 同的受試者以及不同的測驗目的,決定使用的輸入設備,例如:年紀較小的受試 者,可以使用直接觸碰螢幕的方式,以減少操作上的錯誤發生。第二項定義是因 應模擬情境試題而產生的,以受試者作答時的身體反應進行評量。 不論何種作答方式,都應該使用符合受試者能力的方式進行測驗,所以我們 希望所使用的操作方式是有意義而且是有助於受試者作答的。 七、計分方式(scoring methods) 「計分方式」的定義為:將受試者的作答結果轉換成量化的分數。一般常見 的試題使用的是「二元計分」,但目前也有測驗使用「部分給分」。電腦化測驗 的優勢是可以自動評分,當受試者作答完畢後,可以立即判斷答案的對錯,得知 整份測驗的成績,以及所有受試者的成績表現。不過由於電腦科技的發展,測驗 的複雜性越來越高,計分方式也會影響測驗的設計和發展,越複雜的評分系統, 就有可能出現越多的漏洞或錯誤。因此,計分方式也是設計高品質試題的一大重 點。Parshall 與 Harmes(2007)針對計分方式提出必須考慮的幾項要點:1.如何定 義正確答案。2.答案是單一一個或是多個。3.多個答案應該包含哪些有效的元件。 根據以上七種分類方法,研究者整理出十項編製高品質互動式多媒體試題時 的注意事項,以供發展高品質試題參考: 1. 測驗內容、試題認知程度和操作介面必須符合教學內容和測驗目標。 2. 測驗的題數必須足夠,因為當測驗的試題減少時,會降低測驗的廣度,想測驗 的概念也跟著減少,所以測驗的信度、效度都會降低。 3. 操作的介面、操作方式、多媒體類型,必須符合受試者的能力。 4. 操作的方式對受試者必須是有意義且能幫助其作答。. 26.

(41) 5. 測驗設定的情境必須真正符合測驗的需求。 6. 測驗情境對測驗中的每一道試題都必須適用。 7. 測驗系統必須支持各種媒體的檔案類型。 8. 多媒體檔案的大小在儲存或傳輸的過程中,不能影響品質。 9. 當所使用的多媒體具有版權,不可隨意盜用。 10. 根據測驗內容,決定定義正確答案的方法,使用正確計分方式。 根據測驗的目標與教學的內容,找出適用的多媒體形式,以及符合受試者程 度的作答方式,讓受試者在符合測驗目標與自我能力的情境下作答,並使用和題 型配合度最高的計分方式,以得到正確的成績,避免因編製試題時的人為因素, 降低測驗的信度和效度。. 第三節 互動式多媒體測驗相關研究比較 近年來,資訊科技快速發展,電腦已經不只是遊戲的工具,更被帶入學習的 環境中,尤其電腦設備的普及、資訊軟體的開發、多媒體的運用,使資訊融入教 學成為學校教育的主流,開始出現許多相關研究,在研究中發現資訊融入教學可 以提高學生的學習興趣及效果,這些研究結果也引起大家的注意,於是學者們也 提出使用電腦及多媒體進行測驗,一樣可以讓受試者對測驗更有信心,減少測驗 的誤差,提升測驗的成效(Gonzalez, Cranitch, & Jo, 2000; Parshall et al., 2000; Tuovinen, 2000; Volery & Lord, 2000; Rabinowitz & Brandt, 2001; Ivers & Barron, 2002; Zenisky & Sireci, 2002; ORhun, 2003; Yau & Joy, 2004; Cheng & Basu, 2006)。 近年來互動式多媒體測驗的研究以測驗系統的開發為多數,主要可分為: 「系 統測試」 、 「新題型研發」 、 「理論探討」及「題型應用」 ,詳見如表 2-3-1、表 2-3-2, 以下先介紹幾個相關研究: 一、系統測試:. 27.

(42) Maneekhao, Jaturapitakkul, Todd, 與 Tepsuriwong(2006)所開發的測驗系 統,以 Macro Media Flash MX 進行試題的編製,受試者可以直接在螢幕上點 選(click)答案進行作答,也有拖曳的題型(drag-and-drop),在系統試用後,確 定使用互動式多媒體測驗可以提高測驗的可信度。 二、新題型研發: (一)Cheng 與 Basu(2006) 在 ”Improving Multimedia Innovative Item Types forComputer Based Testing”研究中提出一個創新的互動式多媒體測驗系統 ─Perceptually Motivated Item Types(PMIT)。主要有下列三種題型: 1.. 化學題:受試者可以從週期表中選出所需的元素,並將元素結合組成分 子。元素和元素之間可以使用連結按鈕以及取消連結的按鈕。. 2.. 拖曳試題:受試者可以將文字或圖片拖曳到正確的位置。. 3.. 百分比題型:受試者依照題目的要求在圓餅圖上定義出百分比的大小。 研究中指出: PMIT主要的目的是希望使用者可以不用改變編輯系統的. 介面,就可以使用多種不同的題型,並設計多樣化的試題,不但可以測驗出 受試者的「解決問題能力」,還可以讓受試者可以利用視覺上的提示進行分 析問題和解決問題,測量空間概念的知識時,還可使用3D圖形,測驗出其「感 知能力」。 (二)國內的相關研究有王子華在 2008 年的時候,發展出遊戲化網路形成性評量 系統(GAM-WATA),在測驗過程中,受試者可以使用提示功能,包括「刪 去法」和「Call-in」,刪去法可以將四個選項的答案刪掉一個錯誤的答案, 而 Call-in 則提供其他受試者對每個選項選擇的比率,配合遊戲理論,讓受 試者對測驗更有興趣,也能降低受試者測驗時的緊張感。 三、理論探討: 探討如何編製更高品質的互動式多媒體試題,使互動式多媒體測驗能被 廣 泛 的 運 用 在 更 多 的 評 量 上 , 如 : Parshall et al. (2000) 、 Parshall 與. 28.

參考文獻

相關文件

- strengthening students’ ability to integrate and apply knowledge and skills (including skills related to hands-on experiences) within and across the KLAs of Science, Technology

 For students of other class levels, arrangements of reading out the papers / using screen readers / asking for pronunciations of words are only applicable

The prominent language skills and items required for studying the major subjects as identified through analysis of the relevant textbooks are listed below. They are not exhaustive

A study on the spatial orientation ability for sixth grader students of elementary school― using three-dimensional views (Unpublished master’s thesis). National

By correcting for the speed of individual test takers, it is possible to reveal systematic differences between the items in a test, which were modeled by item discrimination and

That is also why “seven items are required while seven diseases are removed in bathing; bath offerings, moreover, are with seven types of blessings” is claimed in the Sutra

● tracking students' progress in the use of thinking routines and in the development of their writing ability using a variety.. of formative assessment tools

Tailor-making Assessment items based on texts suitable for your students may help bridge them with the tasks that they meet with. in the public