• 沒有找到結果。

無限多點計分模擬研究

N/A
N/A
Protected

Academic year: 2021

Share "無限多點計分模擬研究"

Copied!
92
0
0

加載中.... (立即查看全文)

全文

(1)

國立臺中教育大學教育測驗統計研究所碩士論文

指導教授:陳桂霞 博士

無限多點計分模擬研究

研究生:李明勳 撰

(2)

致謝

就讀碩士班這三年的時間和大家相處得很愉快,做實驗、投稿和寫論文的這 些日子對當時的我而言是未曾經歷的,也為我的生活帶來不小的衝擊與壓力,當 中一起努力過來的同學們陪伴我成長,傑元、浩瑋、基哲、采熹、學錚和緯誠總 是給予我正面的力量,很高興我能在這裡遇到你們。 在學習期間除了要感謝所有授課老師對我們的教導外,最讓我感謝的莫過於 指導教陳桂霞和姚旭展學長,在研究和論文上都細心的指導我,還要感謝我的口 試委員蔡顯麞老師和許超雲老師,在論文上給予寶貴的意見和建議,真的很感謝 你們。 最後,我要感謝的是我的家人,在我讀研究所的這段期間,由於你們給予支 持,我才能專心的完成學業。 李明勳 中華民國一○三年七月

(3)

I

摘要

本研究目的在於讓新開發的無限多點計分方式和傳統的二元計分、多元計分 進行比較,傳統的二元計分是一種二選一的作答方式,應用方便且明確,本研究 在多元計分裡以 4 點多元計分、5 點多元計分和 6 點多元計分這三種在多元計分 裡較為常用的為主,而新開發的無限多點計分量表是種有「拉條」功能的計分方 式。使用蒙地卡羅模擬法模擬出三類不同相關程度的資料組,每一類相關程度的 資料組再分成三種不同樣本數大小的資料,由各種計分估計受試者真實能力值的 精確度,並且求出均方誤差。 研究結果如下: 一、樣本數不同時,各種方法所得到的均方誤差值其彼此差異也不同。 二、題數量不同時,不會讓計分方式之間的比較結果改變。 三、交互驗證法所用的 K 值不同並不會影響到計分方式之間的比較結果。 四、在不同相關程度的資料理,比起二元計分方式和多元計分方式,無限多點計 分方式得到更接近受試者真實能力的數值。 關鍵字:二元計分、多元計分、無限多點計分、蒙地卡羅模擬、交互驗證法

(4)

II

Simulation study of unlimited multiple scoring

Abstract:

The purpose of this research is to compare binary structure and multiple scoring with unlimited multiple scoring. Traditional binary structure is a answer mode of second election, application convenient and clear. In this research, 4-points multiple scoring 、 5-points multiple scoring and 6-points multiple scoring which more commonly used in the multivariate, and the newly developed unlimited multiple scoring was planted with the "brace" feature scoring. Use the Monte Carlo simulation to simulate the data sets of three different related levels, each relevance type of data set is subdivided into three different sizes of data samples, various of scoring estimation subjects ability true ability, and calculated Mean Square Error values.

The results are as follows:

1. When the number of different samples, various methods obtain mean square error values are different from each other the difference.

2.When the number of different questions,can't change the comparison result between scoring.

3. When the number of different K-value in cross-validation method, and will not affect the result of the comparison between the scoring.

4. In data of different of correlation levels, compared to binary structure and multiple scoring, unlimited multiple scoring ability to get closer to the true value of subjects.

Keywords: binary structure, multiple scoring, unlimited multiple scoring, Monte Carlo simulation method, cross validation method

(5)

III

目錄

摘要 ... I Abstract: ... II 目錄 ... III 表目錄 ... VI 圖目錄 ... VII 第一章 緒論 ... 1 第一節 研究背景與動機 ... 1 第二節 研究目的 ... 2 第二章 文獻探討 ... 5 第一節 評量量表 ... 5 第二節蒙地卡羅模擬法 ... 8 第三節 模糊測度 ... 9 第四節 Choquet 積分迴歸模式 ... 13 第五節 脊迴歸模式 ... 15 第六節交互驗證法 ... 16 第三章 模擬研究 ... 19 第一節 模擬流程 ... 19 第二節 研究工具 ... 31 第三節 資料分析 ... 31 第四章 研究結果與討論 ... 33 第一節 研究結果 ... 33 第二節 討論 ... 52 第五章 結論與後續研究 ... 55 第一節 研究結論 ... 55

(6)

IV 第二節 後續相關研究和建議 ... 56 參考文獻 ... 58 中文部分 ... 58 英文部分 ... 61 附錄一 低相關 10 題樣本數 ... 63 附錄二 中相關 10 題樣本數 ... 64 附錄三 高相關 10 題樣本數 ... 65 附錄四 低相關 20 題樣本數 ... 66 附錄五 中相關 20 題樣本數 ... 67 附錄六 高相關 20 題樣本數 ... 68 附錄七 低相關 30 題樣本數 ... 69 附錄八 中相關 30 題樣本數 ... 70 附錄九 高相關 30 題樣本數 ... 71 附錄十 低相關 10 題(K=5) ... 72 附錄十一 中相關 10 題(K=5) ... 73 附錄十二 高相關 10 題(K=5) ... 74 附錄十三 低相關 20 題(K=5) ... 75 附錄十四 中相關 20 題(K=5) ... 76 附錄十五 高相關 20 題(K=5) ... 77 附錄十六 低相關 30 題(K=5) ... 78

(7)

V 附錄十七 中相關 30 題(K=5) ... 79 附錄十八 高相關 30 題(K=5) ... 80 附錄十九 成對樣本 T 檢定 30 題(K=10) ... 81 附錄二十 成對樣本 T 檢定 20 題(K=10) ... 82 附錄二十一 成對樣本 T 檢定 10 題(K=10) ... 83

(8)

VI

表目錄

表 2-1 李克特式量表...6 表 2-2 模糊語意量表...7

(9)

VII

圖目錄

圖 2-1 K-Fold 交互驗法... 17 圖 3-1 模擬流程圖... 19 圖 3-2 模擬樣本數...23 圖 3-3 模擬原始資料...24 圖 3-4 原始資料標準化...25 圖 3-5 無限多點計分作答結果...26 圖 3-6 二元計分作答結果...27 圖 3-7 4 點多元計分作答結果... 28 圖 3-8 5 點多元計分作答結果...29 圖 3-9 6 點多元計分作答結果...30 圖 4-1 低相關 10 題...34 圖 4-2 中相關 10 題...35 圖 4-3 高相關 10 題...36 圖 4-4 低相關 20 題...37 圖 4-5 中相關 20 題...38 圖 4-6 高相關 20 題...39 圖 4-7 低相關 30 題...40 圖 4-8 中相關 30 題...41 圖 4-9 高相關 30 題...42 圖 4-10 低相關 10 題...43 圖 4-11 中相關 10 題...44 圖 4-12 高相關 10 題...45 圖 4-13 低相關 20 題...46 圖 4-14 中相關 20 題...47 圖 4-15 高相關 20 題...48 圖 4-16 低相關 30 題...49 圖 4-17 中相關 30 題...50 圖 4-18 高相關 30 題...51

(10)

1

第一章 緒論

本研究旨在利用模擬方式探討各計分方式,在做問卷、測驗或是調查時,李 克特式量表廣泛的應用在各個領域,跟二元計分的二選一相比之下,李克特式量 表在訊息收集上雖然較多,但用此仍不足以完整表達受試者的感受,因此本研究 以模擬的方式進行無限多點計分並與上述兩種傳統計分的作答結果進行比較分 析。 本章分為研究背景與動機和研究目的兩節進行敘述。

第一節 研究背景與動機

進行測驗時,從早期開始都是以紙筆方式進行,而問卷方面還有郵寄、電話 訪問等方式,在電腦和網際網路發達的現代,直接在電腦上作答可記錄作答過程 和節省人力,在應用上較具靈活性。 近年來網路的技術進步之快,在網路上收集資訊的方式逐漸普及,不能只限 於傳統的紙筆上,線上作答方式藉由記錄作答的過程以及作答時間,對於判斷受 試者在猜題的部分也比較容易分辨,而異常的樣本或是無效樣本也可用此判斷 (王立翔,2013),在沒有時間和空間的限制下,大樣本的施測和特定研究的進行 也不再困難(Birnbaum, 2004)。 一般在學校裡為理解學生的學習狀況,最常用且有效的方法就是進行測驗, 了解學生「會多少」外,更想知道學生「不會什麼」 (劉湘川、簡茂發與林原宏, 1993),這樣可以讓學生自行改進錯誤概念(陳世銘,2004)。在學校測驗或是心 理問卷,作答方式不外乎有二選一的是非題、四選一或多選一的選擇題、選答題

(11)

2 等類型,若依據試題所作答的結果為非此即彼的二選一的作答方式(王朝正, 2002),試題測驗屬於二元計分模式,為二選一或是多選一的作答方式,雖然應 用方便但並不排除在作答過程中有猜題的可能性。 傳統的問卷在量表的選擇上大多使用李克特氏量表,在量化方面,普遍以 四、五或六點做為選項,可說明受試者態度之強弱或針對該量表欲測目的之程度 (梁文敏、葉懿諄,2010)。每個人對於這些沒意見、滿意、優劣等語意的認知會 因為各人喜好、教育水平、生長背景和環境的差異而有所不同,縱使選擇相同選 項的受試者們其感受程度也未必相同 (楊明慧,2002)。 做研究時都所收集的樣本數量至少要足以支持其理論能行,但要收集到一定 量的樣本數要使用大量人力與物力才能得到,在時間上也有所限制,依照研究的 性質或規模不同,受試者的年齡層、性別或職業也有所不同,不論是測驗或是心 理問卷,在整裡回收的試卷時都要先將掉無效的刪除,和實證研究不同,模擬研 究不需收集樣本,其結果都是使用模擬出的樣本得來的,所以不需考慮樣本數, 且實證研究常受到抽樣差異或施測過程的影響,使得無效樣本增加,導致結果不 如預期,也因此模擬被廣泛的應用在各個領域。 綜合上述幾點,本研究團隊設計出拉條試作答,是一種可用於心裡量表和測 驗上的作答方式,操作容易的作答方式,提供受試者在做作答時能有接近無限項 的選擇,在理論上為無限多點,但考量到電腦設備且一般受試者可能對定的數字 有所偏好,導致受試者只用到十點或二十點,因此,本研究以分為一百等分的無 限多點計分量表為例,希望藉此獲得比傳統量表更準確的訊息。

第二節 研究目的

依據上述動機,本研究以模擬的方式進行,模擬資料的部分選擇蒙地卡羅模 擬法( Monte Carlo simulation method),經過標準化後,模擬的資料成為二元計

(12)

3

分(binary Scoring)、多元計分(multiple Scoring)和無限多點計分(unlimited multiple Scoring)的作答結果,在不同樣本數、題數多寡、交互驗證法取值以及不同相關 程 度 資 料 等 各 種 情 境 下 比 較 各 種 作 答 結 果 在 λ 測 度 (λ-measure) 、 P 測 度 (P-measure)、L 測度(L-measure)、伸展型 L 測度(extensional L-measure)等四種測 度以及脊迴歸(ridge regression)和複迴歸(multiple linear regression)等兩種回歸下 分析出來的均方誤差 MSE (Mean Square Error, 縮寫為 MSE)值。

以下將本研究目的條列如下:

一、比較三種計分方式在不同樣本數量下的 MSE 值。 二、比較三種計分方式在不同題數數量下的 MSE 值。 三、在交互驗證法所用的 K 值不同對 MSE 值的差異。

(13)
(14)

5

第二章 文獻探討

本研究藉由蒙地卡羅模擬方法模擬的資料經由模糊測度和迴歸求出的 MSE 值,本章分為六節,分別對傳統評量量表、蒙地卡羅模擬法、模糊測度、Choquet 積分迴歸模式、脊迴歸模式和交互驗證法進行文獻探討。

第一節 評量量表

受試者在某個問卷的感受、喜好或某件事的看法、態度等,對於這種因人而 異、無特定答案的的心理行為,一直受到專家的注意(顏乾明,2002),以下就李 克特氏量表、模糊量表和上一章提到的無限多點計分進行說明。

壹、李克特氏量表

李克特認為人對於一件事的態度應該是在某個範圍內變動,在 1932 年時提 出一套多點量表,在兩個極端點間分出數個選項,而每個選項皆對應一個語意且 為有順序性的,受試者可從中選擇一個做為回答,但這樣的設計並不符合受試者 真實的態度(鄭勝元,1998)。 常見的李克特氏量尺介於 3 點到 11 點之間,5 點被認為是最可靠的,對於語 意沒有足夠判斷能力或是無法將各語意區分的受試者而言,7 點的李克特式量表 會喪失信度。而同為奇數點的 5 點李克特氏量表對於能明確判斷能的受試者會有 選擇過少、限制受試者欲表達的感受(Berdie , 1986),其計分為有次序性、點與點 之間等距。在選擇量表時,奇數點量表多了一個中立選項,例如 5 點、7 點量表, 學者在點數上都有各自的看法,有的認為在受試者對於試題的感受不大或隨意作 答的情況會有選擇沒意見的頃向,也有認為 4 點量表會有強迫表態的情形,由於 存在受試者不了解或不在乎的問題,中立選項仍值得保留(王俊明,1999)。李克

(15)

6 特式量表在作答方面,讓受試者在問卷勾選或是填入數值(1、2、3、... )等(吳柏 林、楊文山,1997),詳見表 2-1,即可幫助了解 4 點到 7 點量表在各語意變項所 對應的數值。 表 2-1 李克特式量表 語意 量尺 點數 非 常 滿 意 滿 意 稍微 滿 意 沒 有 意 見 稍 微 不 滿 意 不 滿 意 非 常 不 滿 意 4 點量表 4 3 2 1 5 點量表 5 4 3 2 1 6 點量表 6 5 4 3 2 1 7 點量表 7 6 5 4 3 2 1

貳、模糊量表

現今的量表調查中最普遍使用的除了李克特式量表外就是語意差別量表(林 原宏、楊慧玲,2002),但其所能表達的訊息仍有限,且兩者在區間的等距假設 都被過分應用,導致無法判斷語意之間的差異和表達的不確定性(徐村和、朱國 明、詹惠君,1999)。許多研究者使用 Zadeh(1965)提出的模糊理論(fuzzy theory) 裡的模糊數、模糊集合等代替傳統量表,表 2-2 為百分比量表,在作答方面設計 成百分比、區間值等不同的作答方式,在時間上,收集樣本比李克特式量表要費 時,但藉此可得到更多、更明確的受試者資訊,且問卷信度不會受到樣本數與題 目數的影響(王舜傑,2002)。

(16)

7 表 2-2 模糊語意量表 非常滿意 滿意 沒意見 不滿意 非常不滿意 第一題 60% 40% 第二題 30% 70% 第三題 50% 50%

参、無限多點計分

在設計時,無論問卷或是量表,受試者在作答時會因作答方式的不同而影響 到作答,作答方式的好壞又會反應在後續的分析,進而影響結果(余民寧、李仁 豪,2006),無限多點計分是以拉條式作答量表(brace score scale)為實際的作答方 式,但人在實際上是不可能使用到無限項,其次,作答的介面設計除了會影響到 題目呈現的狀況,也會導致受試者的選擇情形,因此拉條式作答以 0 到 100 呈現, 將其分成奇數點的 101 項連續性選項,供受試者使用,這種作答方式的改進最直 接的影響,就是降低了施測的時間(洪浩瑋、王立翔、姚旭展與陳桂霞,2012), 拉條式計分在施測方面是線上的作答方式。根據試題設計或施測上的需求可再將 拉條式作答的選項做調整,考慮人們在實際使用的情形,因此所用的無限多點計 分以其分為一百個區間為主。 測驗方面,傳統選擇題最常見的為 4 個選項,但受試者在作答時都會有一個 選項是受試者選錯率最高的陷阱答案(涂貫育,2013),選該題的正確答案和其他 選項中錯誤率最高的選項作為拉條式做答的兩端,當受試者作答時,所做的拉條 結果代表受試者在該題的信心程度。心理問卷方面,廢卷率比傳統模糊語意量表

(17)

8 要來的低、作答反應的信度較高(洪浩瑋,2014)、操作方面,比起李克特氏量表, 拉條式作答量表較能節省時間(王立翔,2013)。

第二節蒙地卡羅模擬法

模擬早期多用於解決物理和工程方面的問題,模擬可能發生的情境或大規模 的實驗,蔣旭政(1999)指出模擬是種盡可能複製或呈現情境的一種系統,例如: 在醫學物理的應用、核子反應等,不必花費人力收集樣本、操作上容易。 蒙地卡羅方法又稱統計模擬法,由 Metropolis 和 Ulam 在 1949 年所提出, Metropolis 和 Ulam 利用隨機機率理論處理一些較為複雜的數學問題,這是以機率 和統計為理論的模擬方法(Chetty, I.J. et al., 2007),也是基於大數法則的實證方 法,使用亂數產生器所產生的亂數值會均勻且隨機分佈在區間裡。是一種以反覆 的評估做為決定性的方法,此方法常用在較複雜的評估、非線性或是有兩種以上 不確定的参數值, 其法則亦可以估算投資組合的各種風險因子,早期由於電腦 設備的緣故,使用相當耗時,而隨著科技快速的發展,現在的運算上不再像以前 那麼費時。 選擇亂數產生器時,每種產生器的亂數值都會有一個循環長度,若產生的亂 數值數量超過所選的循環長度,亂數產生器就會產生重複的亂數值,因此,在模 擬前要先選擇循環長度夠長的亂數產生器,才會達到亂數效果。在應用上, (Zaidi, 1999)使用亂數產生器模擬光子、電子、中子和介質作用的情形,(Dong, Y. L., Gu, Y. J. & Yang, K., 2003)研究發電廠的設備維護。不論在預測或是評估, 蒙地卡羅法的運用十分廣泛。

(18)

9

第三節 模糊測度

常見的 Lebesgue 測度和機率測度,屬於可加性測度的特例,滿足可加性的測 度則必定滿足單調性,相反的,滿足單調性不一定滿足可加性,放寬限制,以單 調性取代可加性之測度即為單調性測度,此時可加性之測度即為單調性測度的特 例,單調性測度又稱為非可加性測度或模糊測度,這概念首先被 Dempster(1967) 提出,而完備發展由 Shafer(1976)提出。

壹、模糊測度定義和分類

一、模糊測度定義 若(X,2x )為可測空間,:2X →[0,1]在滿足下列條件,則稱為(X,2x)上的模 糊測度: (

)=0, (x)=1 (正規性) (2-1) ∀A, B∈2X AB⇒  (A)≤  (B) (單調性) (2-2) 二、模糊測度之分類 為(X,2x )上的模糊測度: (1)若∀A, B∈2X

,A∩B=

 (A∪B)=(A)+(B)時,則稱為(X,2x)上之可加性測 度(additive measure)。

(2)若∀A, B∈2X,A∩B=

(A∪B)>(A)+(B)時,則稱為(X,2x)上之超可加 性測度(superadditive measure)。

(3)若∀A, B∈2X

,A∩B=

 (A∪B)<(A)+(B)時,則稱為(X,2x)上之次可加 性測度(subadditive measure)。

(4)若為(X,2x

(19)

10

可加性測度,則稱混合模糊測度(mixture fuzzy measure)。

三、模糊密度 若為(X,2x )上的模糊測度,且集合函數 s:X →[0,1],滿足 s(x)= ({x}),x∈X 時則稱 s(x)為之模糊密度。

貳、

λ 測度

由日本學者管野道夫(Sugeno, 1974)提出,是最早的模糊測度,稱為 λ 測度, 又稱 Sugeno 之 λ 測度,令 λ∈(-1,∞),X={x1,x2,....,xn},∣X∣=n≧3,若(X,2x) 為 可測空間,且λ:2X →[0,1] 滿足下列條件時,則稱λ為 Sugeno 之 λ 測度,並稱 λ 值為關聯係數: (1)  (

)=0,  (x)=1 (2-3) (2) A, B∈2X , A∩B=

, A∪B≠X

⇒λ(A∪B)= λ(A)+λ(B)+ λλ(A)+λ(B) (2-4) (3) [1+λλ({xi})]= λ+1> 0 (2-5) 若∣X∣=n=1 時不需考慮,若 n=2,X={x1,x2 },x1≠x2,藉由模糊測度定義中的 正規性得知 λ ({x1}∪{ x2}) =λ (X)= 1,不需考慮相異基本事件之間的交互作 用,因此也不必考慮 λ 測度問題。劉湘川(2006a) 指出:λ 測度並不存在非可加 性測度和混合模糊測度的解,而可加性測度只有唯一解。 λ 測度的模糊測度分類則是依照關聯係數 λ 值,分類如下:

(1)若 λ=0,A, B∈2X ,A∩B=

⇒λ (A∪B)= (A)+  (B),則稱λ為可加

性測度。

(2) 若 λ>0,A, B∈2X ,A∩B=

⇒λ (A∪B)> (A)+  (B),則稱λ為超

1 n

i

(20)

11 可加性測度。

(3) 若 λ∈ (-1,0),A, B∈2X ,A∩B=

⇒λ (A∪B) <  (A)+  (B) ,則稱

λ為次可加性測度。

参、P 測度

可能性測度(Possibility measure)由 Zadeh(1978)提出,是種簡單計算的模糊 測度,又稱 P 測度,定義如下:

令 X={x1,x2,....,xn},n≧3,若(X,2x) 為可測空間,且p:2X →[0,1] 滿足下列

條件時,則稱p為可能性測度:

(1) p (

)=0, p (x)=1。 (2-6) (2) A, B∈2X, A∩B=

, A∪B≠X ⇒

p(A∪B)= maxx A [p(A), p (B)]。 (2-7) 需要注意的是,P 測度是只有唯一解可供選擇,為單調模糊測度,只可能為 次可加性測度,不可能為可加性測度、超可加性測度或是混合模糊測度。

肆、L 測度

劉湘川(2007)提出具靈敏度、完備一致性、存在非可加性測度,且有無限多 選擇的多值模糊測度,稱為 L 測度,符合實際選擇所需,定義如下: 令 X={x1,x2,....,xn},n≧3,若(X,2x) 為可測空間,且L:2X →[0,1] 滿足下列 條件時,則稱 L為 L 測度: (1) L (

)=0, L (x)=1, L∈ [0,∞)。 (2-8) (2) ∀AX, n-∣A∣+(∣A∣-1)L﹥0 ⇒L(A)= max x A [s(x)]+

 

 

 

 

( 1) 1 max 1 x A x A x X A L s x s x X A A L s x             

(2-9) 其中 s(x)=L({x})

(21)

12 當 L =0 時,L 測度即為 P 測度。 在 L ∈ [0,∞)時,L 測度無限多組解。 若 L 為異於 0 之任意正值時,均為非可加性測度,但不包含可加性測度。

伍、伸展型 L 測度

伸展型 L 測度由劉湘川(2009)提出,L 測度的 L 值只考慮 0 到∞而已,伸展 型 L 測度的判定係數 L∈ [-1,∞),滿足: (1) L ()=0, L (x)=1, s(x)=L({x}), ∀x ∈X。 (2-10) (2) L∈ [-1,∞), AX ⇒ L (A)=

 

 

 

 

 

 

 

1 max 1,0 ( 1) 1 0, 1 x A x A x A x A x A x X L s x L s x if L A L s x s x s x if L X A A L s x                       

(2-11) L 測度的 L 值判斷如下: (1) 在 L∈ [0,∞)的情況下,伸展型 L 測度和 L 測度一樣是具有無限多的模糊 測度,但不包含可加性測度。 (2) 若 L=-1,則為 P 測度 (3) -1≦L < 0,則為次可加性測度 (4) 0 < L <∞,則為超可加性測度 (5) 再用  L (A)更換

 

x A s x

進公式(2-27)裡,很明顯的,將得到一個基於 L 測度上的伸展型 L 測度,這新的模糊測度包含 λ 測度,因此,在任何給定的 模糊測度下,我們都可以得到一個新的伸展型 L 測度。

(22)

13

第四節 Choquet 積分迴歸模式

模糊積分是一種以模糊測度為基礎的綜合評估方法,經常被應用於決策問 題,不需假設評估項目間互相獨立,能有效整合有相關性存在的項目。

壹、Choquet 積分之性質與定義

只要正規單調測度或模糊測度事前選定,便可進而求取模糊積分值,常用的 模糊積分有 Choquet 積分及 Sugano 積分兩種,Choquet 積分是最早由 Choquet (1953)提出,Sugano(1974)不僅提出嚴謹模糊測度定義,同時亦提出其專有 之模糊積分;稱為 Sugano 積分,劉湘川(2006b)指出 Sugano 積分不同於 Choquet 積分,Sugano 積分不能視為傳統可加性測度之推廣,故本文只考慮 Choquet 積 分,以下為其簡介。 一、Choquet 積分之定義 令集合函數:2X →[0,1]為可測空間(X,2x)上之模糊測度,ƒ:X→[0,1]為 X上 之可測函數,若ƒ(x1) ≤ƒ(x2) ≤ ... ≤ƒ(xn),Ai

x xi, i1,...,xn

i

=1,2, ... , n,Choquet 積 分如下: C(ƒ)

f d

 

1

 

1

 

 

1

 

2 n i i i i f xA f x f xA    

(2-12) 稱 C (ƒ)

f d 為可測函數ƒ 相關於模糊測度之 Choquet 積分值,求取 Choquet 積分值之過程稱為 Choquet 積分。 二、Choquet 積分之基本性質 ƒ(x1) ≤ƒ(x2) ≤ ... ≤ƒ(xn),Aj

x xi, i1,...,xn

(2-13)

(23)

14 (Ai)=ƒ({

x x

i

,

i1

,...,

x

n})= ({ }) n k k i u x

i

=1,2, ... , n (2-14) ⇒ C(ƒ)=

 

1

 

1

 

  

1 1

2 , ,..., n i i i i i n i f xA f x f xx x x    

=

   

1 n i i i f xx     

(2-15) 若模糊測度為正規可加時,Choquet 積分值即為 ƒ(x1),ƒ(x2) ,... ,ƒ(xn)以( x1) ,  (x2) ,... ,  (xn)為加權平均,即表示 Choquet 積分為常用可加性積分之推廣。

貳、Choquet 積分迴歸模式之定義

劉湘川(2006)提出基於模糊測度之 Choquet 積分迴歸模式,針對不同的模糊 測度可得到基於該測度之 Choquet 積分迴歸模式,以下為定義 (1) 令集合函數:2X →[0,1]為可測空間(X,2x)上之模糊測度 (2) ƒi:X→[0,1]為X上受式 j 之一可測函數,滿足ƒi(x1) ≤ƒi (x2) ≤ ... ≤ƒi (xn), Aj={x xj, j1,...,xn},j=1,2,...,n (3)令 yj ,i=1,2,...,N 為受式 i 之應變數 y 之得分 (4)

f di   1

 

1

   

1

 

2 n i j i j j j f xA f x f x A    

為可測函數ƒi關於模糊測度 之 Choquet 積分

 

2

,

~

0,

i C i i i

y

 

 

f dg

e

e

N

i

1, 2,...,

N

(2-16)

為可測函數之 Choquet 積分迴歸模式(Choquet integral regression model),稱為 Choquet 積分迴歸模式,估計式如下:

yˆi  

 

ˆ ˆ

f di

, i 1, 2,...,N (2-17)

(24)

15

ˆ

/

yf ff

S

S

(2-18) 1 1 1 ˆ 1 ˆ N N i i i i y f d N N

  



(2-19) 1 1 1 1 1 1 N N N i i i k i i k hy y y f d f d N N S N                         

(2-20) 2 1 1 1 1 N N i k i k hh f d f d N S N

            

(2-21)

第五節 脊迴歸模式

迴歸分析為應用廣泛的分析工具之一,觀念上以簡單的線性方程式表達出自 變數與應變數間的結構關係,其目的在於了解兩個或兩個以上變數之間是否有相 關、相關方向和強度。假設樣本點共有 N 個,P 個自變數和一個應變數均標準化, 可用以下矩陣型式來表式: Y=Xβ+ε (2-22) 其中 Y=[Y1,Y2,...,Yn]T (2-23) X= 11 1P NP NP X X X X           (2-24) β=[β1,β2,...,βp]T (2-25) ε=[ε1,ε2,...,εn]T, ε~ N(0, 2) (2-26)

(25)

16 Hoerl 和 Kennard 在 1970 年提出脊迴歸分析,在迴歸係數 β 的估算過程中以 損失少量的準確度(accuracy),進而提高估計精確度(precision)的一種偏量估計 式,主要是為了解決自變數間呈現共線性的情況,估計式得到的脊迴歸参數量β(R) 雖然具有偏誤性,但在存在共線性時,脊迴歸估計量求得的總變異比最小平方估 計量ˆ之變異小,表示脊迴歸較精確。 脊迴歸的構想是對標準化後的解釋變異矩陣 X,在 X TX 矩陣的對角線元素加 一個正數 k 值,希望藉著適當的 k 值選擇來穩定 β 的估計量,以降低對係數估計 的影響。其β(R)值表示如下: β(R) = ( X TX +k I)-1X TX β ^= Zˆ (2-27) Z = ( X TX +k I)-1X T X (2-28) β(R):脊迴歸參數估計量, ˆ:迴歸參數估計量,由公式(2-27)和公式(2-28) 可知脊迴歸参數估計量與線性迴歸参數估計量的關係為一線性轉換。脊迴歸的模 式利用矩陣表現如下: β(R) = Zˆ (2-29) Y=Xβ(R)+ ε=X Zˆ+ ε (2-30)

第六節交互驗證法

在資料探勘(data mining)裡,交互驗證(Cross-Valid 簡稱 CV)是一個常用的有 效方法,主要在驗證假設的模型適不適當,資料樣本分成測試集和訓練集兩組, 前者是用來測試後者所建立的模型,訓練集資料用以估計參數並建立模型,驗證 的結果可作為選擇最佳模型的指標。若資料為類別資料,以準確度為準則,找最 高準確度的分類模型,若為連續資料,則以 MSE 為準則,找最小 MSE 的預測模 型(Kohavi , 1995)。

(26)

17

壹、K 次交互驗證法(K-fold CV)

方法如圖 2-1 所示,先把資料集合分為 K 個子集合,樣本資料終會取其中一 個為測試集和剩下的 K-1 個訓練集,子集合分的越多則 K 值越大,誤差也就跟 著下降,重複進行 K 次後,再計算 K 次的平均誤差,驗證的結果可以當作選擇 最佳模型的指標,其缺點為訓練過程必須運算 K 次,只要 K 個子集合當中的樣 本數相同,使用者可依照需求自行決定樣本的數量。 假設樣本數 100,若 K=5,每個子集合有 20 個樣本並計算 5 次,若 K=10, 每個子集合有 10 個樣本並計算 10 次,且 K=10 的誤差小於 K=5。 圖 2-1 K-FOLD 交互驗證法

貳、留一驗證(Leave-One-Out Cross-Valid,LOO CV)

(27)

18 LOO CV是只留一個資料當作測試集,其餘N −1個樣本皆為訓練集。此方法 省略了挑選分群個數的問題,每次都以N −1個數進行模型的訓練集,和 K-FOLD 交叉驗證是一樣的,其中K為樣本個數,LOO CV計算的誤差將大幅下降。但是 相對的此方法運算過程較為繁複,花的時間也較長。 假設樣本數100,由一個資料當作測試集,將樣本分為100個子集合,每個子 集合有1個樣本並計算100次,等同K-FOLD交叉驗證裡的K=100。 在樣本數少的情況下LOO CV是有效率的演算法,若樣本總數相當多時,在實 作上會有困難。

(28)

19

第三章 模擬研究

本研究根據研究動機、目的探討三種計分方式在相同數量的題數、相同的資 料之下所求得的 MSE 值並比較。以下分別就模擬流程、研究工具與資料分析方法 等三節分別說明

第一節 模擬流程

模擬流程如圖 3-1,隨機變數的模擬方法如上一章節所述,是利用蒙地卡羅 模擬方式生成不同相關程度的資料,先把產生出來的變數經過標準化為二元計 分、多元計分和無限多點計分方式之下的作答結果,再估算各計分方式的誤差並 討論。 圖 3-1 模擬流程圖

(29)

20

壹、產生隨機變數

在本次研究中,參考 MacLaren & Marsaglia (1965)和劉湘川(1993)產生多元常 態分佈變量,藉此產生不同相關的樣本進行模擬,如下: 一、群體迴歸模型 群體迴歸模型的相關性如下: X= 11 12 21 22         , 11= 11 12 1 21 22 2 1 2 P P p p pp                        ,  12

 

12 = 1 2 y y py                  , 22

yy (3-1) 群體迴歸模型為    

2

|

1

 2 21 111

 1  1

, ~

 

0,

Y

E X

X

 

e

  

X

e e

N

I

(3-2) 這裡   2 0,   1 0,X 2 YX 1  X

X X1, 2,...,XP

或是 Y E y X X

|

1, 2,...,XP

e 21 111

X X1, 2,...,XP

e e N, ~

 

0,I        樣本大小為 m 的簡單線性迴歸模型

Y

ˆ

m1

X

m p

ˆ

p1 (3-3) 這裡

1

1 2 ˆ , , ,..., P X X X Y X X X X      

1, 2,...,

m m Y  y y yR 二、產生標準均勻分佈的隨機變量

線性同餘產生(linear congruential generator)、綜合產生(composite generator) 和 洗牌隨機產生(shuffling random generators)三者被認為是產生標準均勻分佈的 隨機變量的方法,同餘法是由 Lehmer(1951)提出,在本文中,線性同餘產生使用

(30)

21 方式如下

1 +c mod m l l UaU (3-4) 這裡 amultiplier23 (乘數) cincrement 0 (增量)

m

modulus

10 +1

8

U

0

seed

47594118

也就是說

U

0

47594118

Ul1 23Ul (mod 10 +1)8 (3-5) 隨機變數總量為5.8x106,只要模擬出來的變數量不要超過就不會出現重複的數 字。 三、產生單變量標準常態隨機變量 從一個標準均勻的反轉分配函數得到一個標準常態,但這個分配函數沒有封 閉形式的公式

 

1 2 exp 2 2 z Z t F z P Z z dt         

(3-6) 從中衍生出兩個獨立均勻變數,讓U V, 獨立服從U (0,1),便可得一對獨立常態變 數 U X = [-2 log(1- V )] 1/2 Cos2U (3-7) V Y = [-2 log(1- V )] 1/2 Sin2U (3-8) 四、生成獨立的p維多元標準常態分佈隨機變量 讓 1/ 2 [ 2log(1 )] 2 U ZX   V CosU ~N

 

0,1 (3-9)

(31)

22 且Z iidi ~N

 

0,1 , i1, 2,...,m (3-10) Z

Z Z1, 2,...,Zp

 ~Np

0,IP

這裡E Z

 

0, V Z

 

IP 五、產生相關p維多元常態分佈隨機變量 讓Z

Z Z1, 2,...,Zp

~Np

0,IP

  ,y是p 維隨機變量的方差-協方差矩陣, 如此一來可得到 ' 1/ 2 1/ 2 ' ( 1/ 2)( 1/ 2 ') y P P P P P P          (3-11) 這裡的P為矩陣y的特徵向量矩陣,為y的特徵對角矩陣 讓A P 1/ 2 和YAZ, ' y AA   (3-12) 由E Y( )E AZ( )AE Z( )A00 (3-13) ' ' ( ) ( ) ( ) y V YV AZAV Z AAA   (3-14) 得到 ' ~ (0, ) (0, y) YAZ N AAN  (3-15) 若給定y,那麼 1/ 2 YAZ P Z (3-16) 隨機向量Y 遵循所需的多元常態分配的均值向量0和變異數-共變異數矩陣y。 使用蒙地卡羅法生產 3 種相關的資料,相關係數以 0.3 和 0.7 區分成三種不 同相關程度的資料,若相關係數低於 0.3 時為低相關,中相關的係數是介於 0.3 和 0.7 之間,相關係數大於 0.7 則為高相關,三種相關程度各有 50 組,每組共 800 人,且相關係數都不同,31 個變數為 30 題受試者在題目上的作答反應以及

(32)

23 真實能力。模擬所產生的隨機變數最多可達到 5.8x106個,使用的總樣本數只要 不超出隨機變數的話就不會有重複出現的情形了,圖 3-2 是代表模擬所需要的樣 本數,由圖可知本次研究所用到樣本數量為 3.72 x106個,因此能確定所有樣本都 是獨立的。

低相關(<0.3)

50組

100人

隨機變數 中相關(0.3~0.7) 31個變數

50組

200人

高相關(>0.7)

50組

500人

圖 3-2 模擬樣本數

貳、變數值標準化

本次模擬研究模並沒有使用任何題目,全部以模擬資料標準化的數值為作答 結果,圖 3-3 為 Microsoft Excel 檔截圖,是隨機變數高相關裡 50 組原始分數的其 中一組,行有 31 項變數值,為 30 題受試者作答反應以及真實能力,列由 2 到 801 共 802 項, 2 到 101 代表樣本數 100 人、102 到 301 代表樣本數 200 人,302 到 801 代表樣本數 500 人,由於檔案過多因此只呈現一部分。

(33)

24 . . . 圖 3-3 模擬原始資料 將原始分數經過公式表準化之後,題目和真實能力皆為 0 到 1 之間的值,其 標準化公式為: Y =(X-min)÷(max-min) (3-17) 其中 Y 表示原始分數標準化的結果,min 代表每一題的最低分數,max 代表

(34)

25 每一題的最高分數,而 X 代表的是模擬的原始分數。 圖 3-4 為原始資料標準化的 Excel 檔截圖,將原始分數經過表準化之後如下 圖所示,30 題題目和真實能力值皆成為 0 到 1 之間、四捨五入到小數點第 4 位的 值。 . . . 圖 3-4 原始資料標準化

(35)

26 圖 3-5 為無限多點計分方式的 Excel 檔截圖,將圖 3-4 的 30 題四捨五入到小 數點第 2 位的值作為無限多點計分的作答結果,真實能力則不變。 . . . 圖 3-5 無限多點計分作答結果

(36)

27 圖 3-6 為二元計分方式的 Excel 檔截圖,將圖 3-4 的 30 題以 0.5 將其區分為 0 和 1,以此作為二元計分方式的作答結果。 . . . 圖 3-6 二元計分作答結果

(37)

28 圖 3-7 為 4 點多元計分的 Excel 檔截圖,將圖 3-4 的 30 題以 0.166、0.5 和 0.833 將其區分為 0、0.33、0.66 和 1,以此作為 4 點多元計分方式的作答結果。 . . . 圖 3-7 4 點多元計分作答結果

(38)

29 圖 3-8 為 5 點多元計分的 Excel 檔截圖,將圖 3-4 的 30 題以 0.125、0.375、 0.625 和 0.875 將其區分為 0、0.25、0.5、0.75 和 1,以此作為 5 點多元計分方式 的作答結果。 . . . 圖 3-8 5 點多元計分作答結果

(39)

30 圖 3-9 為 6 點多元計分的 Excel 檔截圖,將圖 3-4 的 30 題以 0.1、0.3、0. 5、0.7 和 0. 9 將其區分為 0、0.2、0.4、0.6、0.8 和 1,以此作為 6 點多元計分方式的作 答結果。 . . . 圖 3-9 6 點多元計分

(40)

31

第二節 研究工具

本研究用 MATLAB 軟體和 Excel 做為研究工具,MATLAB 是 Matrix Laboratory (矩陣實驗室)的縮寫,該程式簡單易學且數值計算的處理能力強,有矩陣為基 礎的數值計算,本研究在產生模擬受試者作答結果和分析上的部份需要用許多複 雜的數學運算,因此選擇主要用於數值運算的 MATLAB 程式為模擬研究工具。

Excel 為 Microsoft Office 其中之一套件,除一般的計算工作外,可以做一些 資料分析、統整及篩選,具有資料庫管理的功能,讓使用者可以將工作表當成資 料庫,由 MATLAB 模擬出的資料存為 Excel 檔,變數值在經過標準化為各種作答 結果之後,再由 MATLAB 計算出 MSE 值。

第三節 資料分析

本次模擬經由不同的相關程度、樣本數、題目數和交互驗證 K 值,用各種分 析方法進行二元計分、多元計分和無限多點計分的 MSE 值比較,分析方法分為模 糊測度和迴歸共,模糊測度有伸展型 L 測度、L 測度、P 測度和 λ 測度,迴歸為 復迴歸和脊迴歸,比較以上述六種分析方法估計的 MSE 值。 四個改變項目為: 一、相關程度:低相關、中相關和高相關。 二、樣本數:100、200 和 500 各 50 組。 三、題目數:10 題、20 題和 30 題。 四、交互驗證法之 K 值:5 和 10。 如圖 3-10 所示,做模擬時要考慮各種情境,受試者作答時失去耐心而隨意填

(41)

32 答、猜題或作答時間限制之類的情況會影響受試者,導致作答結果和欲測受試者 項目之間的相關係數,因此不論相關係數高或低都要考慮。做研究時需要一定量 的樣本,且樣本數多寡會影響統計估計的準確度,例如在做有關學校的學術研究 時,取 2 到 3 個班級人數、某大學系所、某間學校所有學生、某地區所有學校等, 本研究將樣本定為 100、200 和 500 各 50 組。現今問卷或測驗的設計日益精進, 題數不像傳統問卷繁雜,且題目過多會讓受試者作答意願降低,題數考慮 10 題、 20 題和 30 題。由上一章得知交互驗證所用 K 值越大越精準,取不同 K 值時六種 分析方法估計的 MSE 值會不同,本次研究主要在計分方式的比較,若取較小的 K 值時能夠驗證,便可由此推論取較大的 K 值只有 MSE 值降低但不影響計分方式 的比較。 復迴歸 脊迴歸 二元計分 低相關 100人 10題 5則交互驗證 P測度 多元計分 中相關 200人 20題 10則交互驗證 測度 無限多點計分 高相關 500人 30題 L測度 伸展型L測度  圖 3-10 分析項目圖 每種相關程度的樣本數各有 50 組,用六種分析方法估計出來的受試者能力 值在和第 31 項變數值也就是真實能力值求出 MSE 值,MSE 的公式為 2 1

1

ˆ

(

)

N i i i

MSE

y

y

N

(3-18) 其中, y =估計的受試者能力值,i

y

ˆ

i=真實能力,N=1,2,...,K,K 值取決於交互驗 證法的 K 值。 本研究以 50 組資料的 MSE 值平均後以大小來判斷哪一種計分方式所估計的 受試者能力值能最接近真實能力。

(42)

33

第四章 研究結果與討論

本章依據前章進行比較無限多點計分方式、二元計分方式與多元計分方式之 間的 MSE 值,詳見附錄一到附錄九,這些計分方式在不同相關程度的樣本、不 同的樣本數、不同的題數和不同的 K 值之下做比較,依照模擬出來的 3 種不同相 關程度的數據,用傳統的多元計分以及新的無限多點計分平台估計出 MSE 值, 樣本數有 100、200 和 500 共 3 組,而每類樣本數各有 50 組,經過伸展型 L 測度、 L 測度、P 測度、λ 測度、脊迴歸和複迴歸等 6 種分析最後呈現出來的 6 個 MSE 都是將 50 組樣本平均過後的,各分析方法所計算出的 MSE 值如附錄所呈現,個 別在 5 次和 10 次的交互驗證所得到的結果,以下分為研究結果和討論兩節。

第一節 研究結果

本研究以 MSE 值的比較做為計分方式的比較結果,圖 4-1 到圖 4-9 的 MSE 值分別呈現於附錄一到附錄九,是以二點計分、多元計分和無限多點計分在各相 關程度、樣本數和題數的圖, 圖 4-10 到圖 4-18 為三種計分方式在各相關程度、樣 本數和題數的MSE 值狀況,由於多元計分之間較無明顯差異,因此用 4 點多元計 分做為代表,並對照附錄十到附錄十八的結果,附錄一到附錄三是由 10 題測得 的 MSE 值,附錄四到附錄六是 20 題的 MSE 值、附錄七到附錄九則是 30 題的 MSE 值。 附錄一低相關 10 題在 K=10 的 MSE 值以圖 4-1 呈現,圖 4-1(a)中二元計分的 MSE 值在所用的分析方法裡都比多元計分和無限多點計分低,圖 4-1(b)二元計分 的 MSE 值明顯較高,多元計分和無限多點計分兩者較為接近,圖 4-1(c)呈現無限

(43)

34 多點計分小於多元計分,多元計分小於二元計分,對照附錄十的圖,都呈現相似 的情況,而附錄十(a)樣本 100,同樣有二元計分 MSE 值較低的情形。 (a)樣本 100 (b)樣本 200 (c)樣本 500 圖 4-1 低相關 10 題 :二元計分 :多元計分 :無限多點計分 a :伸展型 L 測度 b :L 測度 c :P 測度 d :λ 測度 e :脊迴歸 f :複迴歸

(44)

35 附錄二中相關 10 題在 K=10 的 MSE 值以圖 4-2 呈現,圖 4-2(a)以多元計分較 好,無限多點計分只有在的λ 測度和復迴歸的 MSE 值較低,圖 4-2(b)以無限多點 計分較好,二元計分在 P 測度和 λ 測度的 MSE 值比多元計分低,圖 4-2(c)呈現無 限多點計小於多元計分,多元計分小於二元計分,對照附錄十一的圖,仍有相似 的結果。 (a)樣本 100 (b)樣本 200 (c)樣本 500 圖 5-2 中相關 10 題 :二元計分 :多元計分 :無限多點計分 a :伸展型 L 測度 b :L 測度 c :P 測度 d :λ 測度 e :脊迴歸 f :複迴歸

(45)

36

附錄三中相關 10 題在 K=10 的 MSE 值以圖 4-3 呈現,圖 4-3(a)裡的 MSE 值 除 P 測度和 λ 測度外差異不大,圖 4-3(b)的二元計分和多元計分兩者 MSE 值兩者 較為接近,圖 4-3(e)呈現無限多點計分小於多元計分,多元計分小於二元計分, 對照附錄十二的圖,仍有相似的結果,而附錄十二(e)樣本 500 裡的多元計分和無 限多點計分的 MSE 值幾乎相同。 (a)樣本 100 (b)樣本 200 (c)樣本 500 圖 4-3 高相關 10 題 :二元計分 :多元計分 :無限多點計分 a :伸展型 L 測度 b :L 測度 c :P 測度 d :λ 測度 e :脊迴歸 f :複迴歸

(46)

37 附錄四低相關 20 題在 K=10 的 MSE 值以圖 4-4 呈現,圖 4-4(a)的多元計分和 無限多點計分兩者相似,以二元計分較好,多元計分最差,圖 4-4(b)二元季分明 顯較差,元計分和無限多點計分兩者皆近,以無限多點計分較好,圖 4-4(c)呈現 無限多點計分小於多元計分,多元計分小於二元計分,對照附錄十三的圖,除 MSE 值較大外,和圖 4-4(a)、圖 4-4(b)和圖 4-4(c)的圖形相似。 (a)樣本 100 (b)樣本 200 (c)樣本 500 圖 4-4 低相關 20 題 :二元計分 :多元計分 :無限多點計分 a :伸展型 L 測度 b :L 測度 c :P 測度 d :λ 測度 e :脊迴歸 f :複迴歸

(47)

38 附錄五中相關 20 題在 K=10 的 MSE 值以圖 4-5 呈現,圖 4-5(a)除二元計分在 P 測度的 MSE 值最小外,以無限多點計分最好,圖 4-5(b)三種計分方式的 MSE 值差異不大,無限多點計分小於多元計分,多元計分小於二元計分,圖 4-5(c)結 果和圖 4-5(b)一樣,但三者差異較明顯,對照附錄十四的圖,三種計分方式圖型 相似,在 MSE 值的差異較小。 (a)樣本 100 (b)樣本 200 (c)樣本 500 圖 4-5 中相關 20 題 :二元計分 :多元計分 :無限多點計分 a :伸展型 L 測度 b :L 測度 c :P 測度 d :λ 測度 e :脊迴歸 f :複迴歸

(48)

39 附錄六高相關 20 題在 K=10 的 MSE 值以圖 4-6 呈現,圖 4-6(a)除二元計分在 P 測度的 MSE 值較大外,難以看出三種計分方式的差異,無限多點計分的 MSE 值稍微較低,圖 4-6(b)在 P 測度上的差異較大,以無限多點計分較好,圖 4-6(c) 的差異較大,無限多點計分的 MSE 值小於多元計分,多元計分的 MSE 值小於二元 計分,對照附錄十五的圖,仍有相似的結果。 (a)樣本 100 (b)樣本 200 (c)樣本 500 圖 4-6 高相關 20 題 :二元計分 :多元計分 :無限多點計分 a :伸展型 L 測度 b :L 測度 c :P 測度 d :λ 測度 e :脊迴歸 f :複迴歸

(49)

40 附錄七低相關 30 題在 K=10 的 MSE 值以圖 4-7 呈現,圖 4-7(a)三種計分方式 的 MSE 值差異不大,以二元計分較好,圖 4-7(b)以二元計分較差,除多元計分在 復迴歸的 MSE 值最小外,無限多點計分較好,圖 4-7(c)無限多點計分的 MSE 值 小於多元計分,多元計分的 MSE 值小於二元計分,無限多點計分和多元計分在 P 測度的差異較明顯,對照附錄十六的圖仍有相似的結果,在附錄十六(a)的 MSE 值差異較不明顯。 (a)樣本 100 (b)樣本 200 (c)樣本 500 圖 4-7 低相關 30 題 :二元計分 :多元計分 :無限多點計分 a :伸展型 L 測度 b :L 測度 c :P 測度 d :λ 測度 e :脊迴歸 f :複迴歸

(50)

41 附錄八中相關 30 題在 K=10 的 MSE 值以圖 4-8 呈現,圖 4-8(a)除二元計分在 P 測度上的 MSE 值較大外,三種計分方式的 MSE 值彼此都接近,以無限多點計 分較好,圖 4-8(b)無限多點計分在 P 測度和復迴歸的 MSE 值明顯比另外兩者低, 此外三者的 MSE 值較為接近,圖 4-8(c)無限多點計分在復迴歸的 MSE 值明顯比 另外兩者低,二元計分和多元計分在 λ 測度上的 MSE 值幾乎相同,對照附錄十 七的圖,附錄十七(a)在 P 測度上以無限多點計分的 MSE 值最大。 (a)樣本 100 (b)樣本 200 (c)樣本 500 圖 4-8 中相關 30 題 :二元計分 :多元計分 :無限多點計分 a :伸展型 L 測度 b :L 測度 c :P 測度 d :λ 測度 e :脊迴歸 f :複迴歸

(51)

42 附錄九高相關 30 題中 K=10 的 MSE 值以圖 4-9 呈現,圖 4-9(a)除復迴歸外, 結果和圖 4-9(b)一樣以無限多點計分較好,三種計分方式的 MSE 值彼此都很接 近,圖 4-9(c)無限多點計分在伸展型 L 測度、L 測度和 P 測度上的 MSE 值明顯較 低,對照附錄十八的圖,附錄十八(e)在伸展型 L 測度和 P 測度上的 MSE 值的差 異較不明顯。 (a)樣本 100 (b)樣本 200 (c)樣本 500 圖 4-9 高相關 30 題 :二元計分 :多元計分 :無限多點計分 a :伸展型 L 測度 b :L 測度 c :P 測度 d :λ 測度 e :脊迴歸 f :複迴歸

(52)

43 附錄一低相關 10 題中 K=10 的 MSE 值以圖 4-10 呈現,各別從樣本數和分析 方法來看,三種樣本在六個 MSE 值由左到右都呈遞增,樣本 100 的斜率大於樣 本 200,樣本 200 的斜率大於樣本 500,圖 4-10(b)和圖 4-10(c)裡樣本 100 在 P 測 度到 λ 測度的部分呈現遞減,λ 測度到復迴歸又回到遞增,而圖 4-1(e)的二元計 分也出現同樣的情況,對照附錄十的圖,附錄十(f)在 P 測度到 λ 測度的部分呈現 遞減的情形較明顯。 (a)二元計分 (b) 5 點多元計分 (c)無限多點計分 圖 4-10 低相關 10 題 :樣本 100 :樣本 200 :樣本 500 a :伸展型 L 測度 b :L 測度 c :P 測度 d :λ 測度 e :脊迴歸 f :複迴歸

(53)

44 附錄二中相關 10 題在 K=10 的 MSE 值以圖 4-11 呈現,各別從樣本數和分析 方法來看,三種樣本在六個 MSE 值由左到右都呈遞增,樣本 100 的斜率大於樣 本 200,樣本 200 的斜率大於樣本 500,圖 4-11(d)的樣本 200、樣本 500 和圖 4-11(e) 的樣本 500 在 P 測度到 λ 測度的部分呈現遞減,對照附錄十一的圖,附錄十一(b) 的樣本 100、附錄十一(f)的樣本 100 和樣本 200 出現相同的情形。 (a)二元計分 (b)5 點多元計分 (c)無限多點計分 圖 4-11 中相關 10 題 :樣本 100 :樣本 200 :樣本 500 a :伸展型 L 測度 b :L 測度 c :P 測度 d :λ 測度 e :脊迴歸 f :複迴歸

(54)

45 附錄三高相關 10 題在 K=10 的 MSE 值以圖 4-12 呈現,各別從樣本數和分析 方法來看,三種樣本在六個 MSE 值由左到右都呈遞增,樣本 100 的斜率大於樣 本 200,樣本 200 的斜率大於樣本 500,圖 4-12(c)的樣本 200 在 P 測度到 λ 測度 的部分呈現遞減,對照附錄十二的圖,三種計分方式的三種樣本都呈現遞增的情 況。 (a)二元計分 (b)5 點多元計分 (c)無限多點計分 圖 4-12 高相關 10 題 :樣本 100 :樣本 200 :樣本 500 a :伸展型 L 測度 b :L 測度 c :P 測度 d :λ 測度 e :脊迴歸 f :複迴歸

(55)

46 附錄四低相關 20 題在 K=10 的 MSE 值以圖 4-13 呈現,各別從樣本數和分析 方法來看,三種樣本在六個 MSE 值由左到右都呈遞增,樣本 100 的斜率大於樣 本 200,樣本 200 的斜率大於樣本 500,對照附錄十三的圖,其兩者結果也都相 同。 (a)二元計分 (b)5 點多元計分 (c)無限多點計分 圖 4-13 低相關 20 題 :樣本 100 :樣本 200 :樣本 500 a :伸展型 L 測度 b :L 測度 c :P 測度 d :λ 測度 e :脊迴歸 f :複迴歸

(56)

47 附錄五中相關 20 題在 K=10 的 MSE 值以圖 4-14 呈現,各別從樣本數和分析 方法來看,三種樣本在六個 MSE 值由左到右都呈遞增,樣本 100 的斜率大於樣 本 200,樣本 200 的斜率大於樣本 500,對照附錄十四的圖,其結果不變。 (a)二元計分 (b)5 點多元計分 (c)無限多點計分 圖 4-14 中相關 20 題 :樣本 100 :樣本 200 :樣本 500 a :伸展型 L 測度 b :L 測度 c :P 測度 d :λ 測度 e :脊迴歸 f :複迴歸

(57)

48 附錄六高相關 20 題在 K=10 的 MSE 值以圖 4-15 呈現,各別從樣本數和分析 方法來看,三種樣本在六個 MSE 值由左到右都呈遞增,樣本 100 的斜率大於樣 本 200,樣本 200 的斜率大於樣本 500,圖 4-15(a)的樣本 200 在 P 測度到 λ 測度 的部分呈現遞減,對照附錄十五的圖,附錄十五(b)的樣本 200 在 P 測度到 λ 測度 的部分也呈現相同的情形。 (a)二元計分 (b)5 點多元計分 (c)無限多點計分 圖 4-15 高相關 20 題 :樣本 100 :樣本 200 :樣本 500 a :伸展型 L 測度 b :L 測度 c :P 測度 d :λ 測度 e :脊迴歸 f :複迴歸

(58)

49 附錄七低相關 30 題在 K=10 的 MSE 值以圖 4-16 呈現,各別從樣本數和分析 方法來看,三種樣本在六個 MSE 值由左到右都呈遞增,樣本 100 的斜率大於樣 本 200,樣本 200 的斜率大於樣本 500,對照附錄十六的圖,沒有 P 測度到 λ 測 度的部分呈現遞減的情況。 (a)二元計分 (b)5 點多元計分 (c)無限多點計分 圖 4-16 低相關 30 題 :樣本 100 :樣本 200 :樣本 500 a :伸展型 L 測度 b :L 測度 c :P 測度 d :λ 測度 e :脊迴歸 f :複迴歸

(59)

50 附錄八中相關 30 題在 K=10 的 MSE 值以圖 4-17 呈現,各別從樣本數和分析 方法來看,三種樣本在六個 MSE 值由左到右都呈遞增,樣本 100 的斜率大於樣 本 200,樣本 200 的斜率大於樣本 500,對照附錄十七的圖,沒有 P 測度到 λ 測 度的部分呈現遞減的情況,附錄十七(f)的樣本 100 在伸展型 L 測度到 L 測度的部 分呈現遞減,L 測度到 P 測度又回到遞增。 (a)二元計分 (b)5 點多元計分 (c)無限多點計分 圖 4-17 中相關 30 題 :樣本 100 :樣本 200 :樣本 500 a :伸展型 L 測度 b :L 測度 c :P 測度 d :λ 測度 e :脊迴歸 f :複迴歸

(60)

51 附錄九高相關 30 題在 K=10 的 MSE 值以圖 4-18 呈現,各別從樣本數和分析 方法來看,三種樣本在六個 MSE 值由左到右都呈遞增,樣本 100 的斜率大於樣 本 200,樣本 200 的斜率大於樣本 500,對照附錄十八的圖,其結果並無改變。 (a)二元計分 (b)5 點多元計分 (c)無限多點計分 圖 4-18 高相關 30 題 :樣本 100 :樣本 200 :樣本 500 a :伸展型 L 測度 b :L 測度 c :P 測度 d :λ 測度 e :脊迴歸 f :複迴歸

(61)

52

第二節 討論

從附錄一到附錄九顯示的結果大多是測度的 MSE 值較小,而迴歸的 MSE 值 較大,交互驗證法所用的 10 次交互驗證其 MSE 值小於 5 次交互驗證的 MSE 值, 本節將圖 5-10 到圖 5-18 以各計分方法、樣本數、分析方法和相關程度的比較結 果加以說明: 一、計分方式比較結果 本次研究用到計分方式依序為二元計分、4 點多元計分、5 點多元計分、6 點 多元計分以及本研究所提的的無限多點計分,並以各種分析方法所算出的 MSE 值大小來判斷其優劣。在上列表格中的 MSE 值裡,依照大小為二元計分的 MSE 值最大、多元計分其次,無限多點計分的 MSE 值較小。 二、不同樣本數比較結果 綜合圖 5-10 到圖 5-18 來看,從伸展型 L 測度到複迴歸的 6 個 MSE 值呈現遞 增曲線,當樣本數為 100 時,模糊測度和迴歸在精準度上很容易看出差異,反而 樣本數越大時其曲線呈現越接近水平,表示不論分析方法的精準度優劣如何,在 樣本數多的情況下這 6 種分析方法所得到的結果較無差異。由此可知,在做相關 的研究時,收集到的樣本較多的話,比起選擇簡單的方法,精準度較高的分析方 法必須花上數倍的時間才能達到同等的結果。 三、各分析方法比較結果 本次所用分析方法依序有伸展型 L 測度、L 測度、P 測度、λ 測度、脊迴歸 和複迴歸,分析方法中的模糊測度 MSE 值都小於複迴歸,在模糊測度裡,以近 幾年才出現的 L 測度和伸展型 L 測度較佳。 本次交互驗證法選用 5 次和 10 次,在兩種交互驗證法裡的模糊測度 MSE 值

(62)

53 都小於複迴歸,模糊測度都是以伸展型 L 測度和 L 測度較佳,至於 P 測度和 λ, 從 5-1 到圖 5-18 來看,兩者並不像伸展型 L 測度到 L 測度以及脊迴歸到複迴歸呈 現遞增的情形。10 次交互驗證法所求得的 MSE 值相對 5 次要來的小,這也符合 交互驗證法裡所選 K 值越大其誤差較小的性質。 四、各相關程度比較結果 在產生隨機變數時,相關係數以 0.3 和 0.7 區分為低相關、中相關和高相關 三種相關程度,低於 0.3 時為低相關,中相關介於 0.3 和 0.7 之間,大於 0.7 為 高相關。由附錄一到附錄九得知,在計分方法、樣本數和分析方法之間的比較結 果除低相關樣本數 100 外,比較結果並不因為相關程度不同而改變,而在高相關 的 MSE 值相對於其他相關程度較低。 五、以統計方法看其顯著性 附錄十九、二十和二十一為分別為樣本數 500 在 K=10 的 10 題、20 題和 30 題時各種計分方式的 MSE 值以 95%信賴區間的成對樣本 T 檢定進行分析,從這 三個附錄所示,二元計分和三種多元計分之間大多呈顯著,說明兩種計分方式之 間是有差異的,而無限多點計分和二元計分 4 點多元計分、5 點多元計分以及 6 點多元計分其 P 值大多小於 0.05,可獲得無限多點計分確實比傳統計分要來的精 準。

(63)
(64)

55

第五章 結論與後續研究

本次研究以模擬進行比較無限多點計分、二元計分與多元計分之間的計分方 式,這些計分方式在不同的相關程度的樣本、不同的樣本數和各分析方法的比 較,以下將分為兩小節,第一節為研究結論,第二節建議則針對系統設計與未來 研究進行說明。

第一節 研究結論

本次研究由蒙地卡羅模擬出來的資料進行二元計分方式、多元計分方式和無 限多點計分方式的作答結果比較,以 10 題、20 題和 30 題所算出的 MSE 值做為 依據,以此判別三種計分方式在 5 次和 10 次交互驗證法下的精確度,並以最大 樣本數 500 的 MSE 值進行成對樣本 T 檢定,獲得以下的結論,以供後續的研究參 考。 一、樣本數不同時,分析方法彼此的 MSE 值差異有所不同,但並不會因為樣本 數不同而影響到計分方式之間的比較結果,都以無限多點計分最好,和各種 計分方式有顯著的差異。 二、題數量不同時,各種計分方式所得到的 MSE 值會有所差異,但並不會因為 題數量不同而影響到計分方式之間的比較結果,仍以無限多點計分最好,和 各種計分方式仍有顯著的差異。 三、交互驗證法所用的 K 值不同時,各種計分方式所得到的 MSE 值會有所差異, 但並不會因為使用的 K 值不同而影響到計分方式之間的比較結果,K 值取 10 的 MSE 值小於 K 值取 5。 四、資料的相關程度不同時,計分方式之間的比較結果是相近的,以無限多點計

(65)

56 分的 MSE 值較小,和各種計分方式之間有顯著的差異。 綜合上述四點,在這三類不同相關程度的資料理,不論樣本數大小、題數量 多寡、或是 K 值不同,相對於二元計分方式和多元計分方式,無限多點計分方式 得到更接近受試者真實能力的數值。

第二節 後續相關研究和建議

本次模擬研究比較計分方式的作答結果,主要是和多元計分比較,更多樣本 或是取其他 K 值等後續可在研究,在測驗方面,目前無限多點計分應用在二元計 分的部分,只有在於了解受試者在作答上的猜測程度。在 IRT(Item response theory) 裡,二元計分的試題必須考慮難度、鑑別度、猜測度等。若無限多點計分今後往 IRT 發展,必須考慮選項由單選題都改成拉條式時,受試者所花費的作答時間, 由於正式考試時間是有限的,因為題目過多時會導致受試者有漫長且持久的心理 壓力進而影響到整個作答過程,如果受試者思考時間過久或是對題目不夠熟悉的 話可能會來不及作答,當因為題目過多時導致受試者有漫長且持久的心理壓力進 而影響到整個作答過程,選擇題在改成拉條式作答後花費的作答時間會比傳統選 擇題要長,因此在試題方面必須考慮題數,其次,將選擇題在改成拉條式作答後, 各選項的分數以及權重的部分還要再定義。 若量表所用的點越多表示越精準的話,4 點多元計分的 MSE 值會大於 5 點多 元計分的 MSE 值,而 5 點多元計分的 MSE 值又會大於 6 點多元計分的 MSE 值, 但這三種多元計分不論在不同相關程度、樣本數上的差異並不顯著,樣本數少的 情況下也出現少數二元計分的 MSE 值小於多元計分的 MSE 值的情形。雖然無限 多點計分的 MSE 值均比傳統計分小,但從檢定的結果未必顯著,後續研究在樣本

(66)

57 數建議從 1000 開始,在選擇分析方法上,由本研究得知,當樣本數越大時,所 用的方法其 MSE 值差異越小,建議使用較常見的迴歸和一至二種精準度較高的 L 測度或是精準度更高的模糊測度,前者得到的 MSE 值方便判別計分方式的好壞, 且在用電腦跑分析時,在測度上所花費的時間要比迴歸來的多,樣本數越大則需 要更多時間,而模糊測度估計的 MSE 值較為精準,以此做檢定看其顯著性,希望 藉此在多元計分有顯著差異。這次模擬是考慮在常態的情況,對於偏態的部分後 續可再研究,變數方面可依照實際情形改變,以這次模擬的結果來看,無限多點 計分較接近真實能力,未來在實證研究可再驗證。

(67)

58

參考文獻

中文部分

王立翔(2013)。以「直覺拉條」工具應用於心理量表之探討 。國立臺中教育大 學教育測驗統計研究所碩士論文,未出版,臺中市。 王俊明(1999)。問卷與量表的編製及分析方法。 體育測驗與評價,139-158。 台 北市: 中華民國體育學會。 王朝正(2002)。模糊語意問卷及信效度之相關研究。國立臺中教育大學教育測 驗統計研究所碩士論文,未出版,臺中市。 王舜傑(2002)。無參數李克特氏模糊理論計分模式之研究。國立臺中教育大學教 育測驗統計研究所碩士論文,未出版,臺中市。 何榮桂(1997)。從「測驗電腦化與電腦化測驗」再看網路化測驗。測驗與輔導, 144,2972-2974。 余民寧、李仁豪(2006)。調查方式與問卷長短對回收率與調查內容影響之研究。 當代教育研究季刊。14(3),127-168。 吳柏林、楊文山(1997)。模糊統計在社會調查分析的應用。中央研究院中山人文 社會科學研究所專書,41,289-316。 林原宏、楊慧玲(2002)。模糊語意量表與傳統量表計分之模擬比較分析。第四屆 華人心理學家學術研討會暨第六屆華人心理與行為科際學術研討會發表之 論文,臺北市中央研究院。 洪浩瑋、姚傑元、姚旭展、陳桂霞(2012)。拉條式計分模糊語意量表平台之研發。 「2012 臺灣數位學習發展研討會」發表之論文,臺南市成功大學。 洪浩瑋(2014)。拉條式與百分比式模糊語意量表之探究。國立臺中教育大學教育 測驗統計研究所碩士論文,未出版,臺中市。

數據

表 2-1  李克特式量表.....................................................................................................6  表  2-2  模糊語意量表....................................................................................................7

參考文獻

相關文件

Following the supply by the school of a copy of personal data in compliance with a data access request, the requestor is entitled to ask for correction of the personal data

• A cell array is a data type with indexed data containers called cells, and each cell can contain any type of data. • Cell arrays commonly contain either lists of text

“Big data is high-volume, high-velocity and high-variety information assets that demand cost-effective, innovative forms of information processing for enhanced?. insight and

For the data sets used in this thesis we find that F-score performs well when the number of features is large, and for small data the two methods using the gradient of the

Microphone and 600 ohm line conduits shall be mechanically and electrically connected to receptacle boxes and electrically grounded to the audio system ground point.. Lines in

Lecture 16: Three Learning Principles Occam’s Razor?. Sampling Bias Data Snooping Power

The remaining positions contain //the rest of the original array elements //the rest of the original array elements.

Schools implementing small class teaching may have different sizes of grouping and different numbers of groups subject to the learning objectives and students’ needs.. The number