分析方法

本研究使用「台灣後期中等教育長期追蹤資料庫」之「103 學年度高二及專二學生調查」資料，在刪除無效資料之後，依據研究動機與目的，參考相關文獻後，進行統計分析並探討不同學習表現之學生的特性。本節旨在說明本研究之分析方法及原理。

一、探索性分析(Exploratory Data Analysis)

探索性分析是從收集到之樣本資料中取得描述樣本或變數基本特性，如次數分配、所佔比例、平均數、標準差等。

本研究主要透過探索性分析，初步了解「人口統計變項」、「行為學習投入變項」、「情緒學習投入變項」、「認知學習投入變項」下，各變數之資料特性。

二、卡方獨立性檢定(Chi-Square Test for Independence)

卡方獨立性檢定是用來檢定兩類別變數間是否獨立的統計方法，首先，在做卡方獨立性檢定時，我們假設欲檢定之兩變數具相關性。若檢定結果是接受虛無假設，表示兩變數不具相關性，即兩變數之間是獨立的；相反地，若檢定結果是拒絕虛無假設，表示兩變數間具相關性。其中，在交叉表中，若有超過20%的格子期望個數為小於5 者，本研究將留下其變數項目。

為進一步了解高二學生的人口統計變項、行為學習投入變項、情緒學習投入變項以及認知學習投入變項與不同學習表現的關聯，本研究考量透過卡方獨立性檢定之應用，進行上述變項與不同學習表現之關係驗證。其中，不同學習表現之學生群體分為「高度學習表現之學生」、「中度學習表現之學生」、「低度學習表現

𝐻_"：不同類組對於不同學習表現有顯著差異。

這些特徵分類參與者，希望分類後參與者在效標的組間差異要大，以良好地區分參與者，此時，如果可使用愈多的特徵，分組的正確性應該愈高。在此同時，使用多個解釋變項協助分類時，我們碰到的難題是分類過細的問題，像是如果使用六個二分變項區分組別，則可能產生2^' = 64個組。雖然分組細可以提高其正確性，但損失了便利性，讓分類程序不實用。

決策樹以另一種方式處理多變項分類問題，決策樹每次先找到最可以區分目前資料變項，用以切割資料，接著在每份子資料中，遞迴地尋找最可以區分當前子資料的變項，每個子資料切割所用的變項未必相同，因此，避免產生產生過多組別的問題。由於遞迴地切割資料，決策樹也被稱為遞迴切割(recursive partitioning)。再者，決策樹由完整群體開始往下尋找最能區辨的變項，逐步切割分類，最終會形成樹狀圖形，因此，也被稱為分類樹(classification tree)。

若資料不完整或含有雜訊時，其所建構的決策樹可能會產生過度配適之情形，

則所建構之樹狀結構就會過於複雜。通常導致過度配適的原因有二，一為樣本本身的屬性太多，即過多的解釋變數，決策樹易選擇到和目標不相關的屬性；二為偏移(Bias)，不同的演算法在尋找測試屬性時，都有自己的偏好，因此，在篩選時會依其演算法之偏好屬性進行建構決策樹，而非真正和目標相關的屬性。所以，

在建構決策樹之後需要進行修剪樹狀結構，而常用的修剪方法有以下兩種：

1.預先修剪(Prepruning)

預先修剪是以提早停止決策樹生長的方式達到修剪目標，直到樹停止生長時，

末端節點即為樹的樹葉，樹葉的標籤為該節點訓練集中佔有最大比例的類別。而停止決策樹生長的時機是在決策樹建構前，先建立一個臨界值，當分之節點滿足該臨界值設定時，就停止該分支繼續生長。

實際上，有多數學者認為預先修剪所設定的臨界值過於主觀，使得目前以事後修剪較受歡迎；而在之後決策樹演算法中我們即採用事後修剪的方式。目前被廣泛使用的決策樹演算法包括：CHAID(Chi-Square Automatic Interaction Detector)、

ID3(Iterative Dichotomiser 3)、C4.5、C5.0、CART(Classification and Regression Tree) 等幾種。茲將各演算法做比較，如表3-1。

Tree Binary Tree Non-Binary Tree

第肆章研究分析

在文檔中影響高中學生學習表現之研究 - 政大學術集成 (頁 23-27)

第肆章 研究分析

第肆章研究分析