• 沒有找到結果。

本研究使用「台灣後期中等教育長期追蹤資料庫」之「103 學年度高二及專 二學生調查」資料,在刪除無效資料之後,依據研究動機與目的,參考相關文獻 後,進行統計分析並探討不同學習表現之學生的特性。本節旨在說明本研究之分 析方法及原理。

一、 探索性分析(Exploratory Data Analysis)

探索性分析是從收集到之樣本資料中取得描述樣本或變數基本特性,如次數 分配、所佔比例、平均數、標準差等。

本研究主要透過探索性分析,初步了解「人口統計變項」、「行為學習投入變 項」、「情緒學習投入變項」、「認知學習投入變項」下,各變數之資料特性。

二、 卡方獨立性檢定(Chi-Square Test for Independence)

卡方獨立性檢定是用來檢定兩類別變數間是否獨立的統計方法,首先,在做 卡方獨立性檢定時,我們假設欲檢定之兩變數具相關性。若檢定結果是接受虛無 假設,表示兩變數不具相關性,即兩變數之間是獨立的;相反地,若檢定結果是 拒絕虛無假設,表示兩變數間具相關性。其中,在交叉表中,若有超過20%的格 子期望個數為小於5 者,本研究將留下其變數項目。

為進一步了解高二學生的人口統計變項、行為學習投入變項、情緒學習投入 變項以及認知學習投入變項與不同學習表現的關聯,本研究考量透過卡方獨立性 檢定之應用,進行上述變項與不同學習表現之關係驗證。其中,不同學習表現之 學生群體分為「高度學習表現之學生」、「中度學習表現之學生」、「低度學習表現

𝐻":不同類組對於不同學習表現有顯著差異。

這些特徵分類參與者,希望分類後參與者在效標的組間差異要大,以良好地區分 參與者,此時,如果可使用愈多的特徵,分組的正確性應該愈高。在此同時,使 用多個解釋變項協助分類時,我們碰到的難題是分類過細的問題,像是如果使用 六個二分變項區分組別,則可能產生2' = 64個組。雖然分組細可以提高其正確 性,但損失了便利性,讓分類程序不實用。

決策樹以另一種方式處理多變項分類問題,決策樹每次先找到最可以區分目 前資料變項,用以切割資料,接著在每份子資料中,遞迴地尋找最可以區分當前 子資料的變項,每個子資料切割所用的變項未必相同,因此,避免產生產生過多 組 別 的 問 題 。 由 於 遞 迴 地 切 割 資 料 , 決 策 樹 也 被 稱 為 遞 迴 切 割(recursive partitioning)。再者,決策樹由完整群體開始往下尋找最能區辨的變項,逐步切割 分類,最終會形成樹狀圖形,因此,也被稱為分類樹(classification tree)。

若資料不完整或含有雜訊時,其所建構的決策樹可能會產生過度配適之情形,

則所建構之樹狀結構就會過於複雜。通常導致過度配適的原因有二,一為樣本本 身的屬性太多,即過多的解釋變數,決策樹易選擇到和目標不相關的屬性;二為 偏移(Bias),不同的演算法在尋找測試屬性時,都有自己的偏好,因此,在篩選 時會依其演算法之偏好屬性進行建構決策樹,而非真正和目標相關的屬性。所以,

在建構決策樹之後需要進行修剪樹狀結構,而常用的修剪方法有以下兩種:

1.預先修剪(Prepruning)

預先修剪是以提早停止決策樹生長的方式達到修剪目標,直到樹停止生長時,

末端節點即為樹的樹葉,樹葉的標籤為該節點訓練集中佔有最大比例的類別。而 停止決策樹生長的時機是在決策樹建構前,先建立一個臨界值,當分之節點滿足 該臨界值設定時,就停止該分支繼續生長。

實際上,有多數學者認為預先修剪所設定的臨界值過於主觀,使得目前以事 後修剪較受歡迎;而在之後決策樹演算法中我們即採用事後修剪的方式。目前被 廣泛使用的決策樹演算法包括:CHAID(Chi-Square Automatic Interaction Detector)、

ID3(Iterative Dichotomiser 3)、C4.5、C5.0、CART(Classification and Regression Tree) 等幾種。茲將各演算法做比較,如表3-1。

Tree Binary Tree Non-Binary Tree

第肆章 研究分析

相關文件