第三章 研究設計與實施
第五節 資料處理與分析
壹、資料探勘
資料探勘(data mining)就是從資料中發掘知識的過程,由龐大的 資料中找出隱含、未知卻有用或有效的規則及資訊(林傑斌、劉明德、
陳湘,2002;梁定澎,2004)。若能由資料中找出顯著且有用的決策模 式或決策法則,進而正確地預測未來行為,將可以創造出許多新的知 識(戴建耘、盧治均、廖秋惠,2007)。
資料探勘的技術已被廣泛應用在企業體系、電子商務、網路學習 等領域。探勘的資料類型,有絕大部分的資料都是因人而產生的;例 如個人基本資料、消費紀錄、學習紀錄,員工薪資,商品銷售量等,
雖然每個人下一步的動作都是無法預料的,但仍可以經由一些跡象或 是經驗,來建立出每個人大致的行為軌跡,這就是資料探勘最重要的 應用之一。Behrouz、Kashy、Kortemeyer 與 Punch (2003)從學生數位 學習系統中的學習歷程資料,使用資料探勘的技術預測出學生的學習 成就,Myller、Suhonen 與 Sutinen (2002)則藉由分析學生學習歷程來 改善課程設計的方式。由此可知,資料探勘為針對大量的資料進行處 理,以發掘、萃取出存在資料中有用及有意義的知識,做為支援決策 使用。資料探勘的技術類型分為以下七種(林傑斌等,2002)︰
一、總結規則採掘(summarization)
IC3數位學習國際標準系統從指定資料中採掘出平均/極小值 /極大值、總和、百分比等等,採掘結果運用交叉表,特徵規則,
統計曲線圖來表示。
二、關聯規則採掘(association rule)
從指定資料當中採掘出滿足一定條件的依賴性關係,其中支 持度以及信賴度為分析者自行指定的門檻值,通過此門檻值則屬 於具關聯性的關係。
三、分類規則採掘(classification)
為已知的特徵及分類結果找到其合理的敘述或模型,並對未 知的新資料進行分類。
四、群集規則採掘(clustering)
IC3數位學習國際標準系統又稱無監督式的分類,客觀的將具 有相同特徵的處理對象 歸為一類,與分類規則採掘的差別在於 分類是將資訊訓練出模組後進行分類,而群集則是直接對資料進 行分類,資料是靠本身的相似性群集在一起,而該群集的意義也 要靠事後的詮釋才能得知。
五、預測分析(prediction)
當分類工作偏向插入漏掉的資料,預測資料分類或發展的趨 勢時,此時的工作即為預測分析。
六、趨勢分析(trend)
趨勢分析又成為時間序列分析,是經由長時間的資料發展變 化中發現規律與趨勢的方法。
七、偏差分析(deviation)
偏差分析又稱比較分析(comparative analysis),它將找出一系 列判別式的規則,以區隔分析者設定的兩個不同類別。
本研究的資料探勘架構如以下所示:
二、以IC3 練習與教學系統和IC3學習歷程管理系統進行數位 學習/評量與取得學習歷程資料,並透過學習負荷之量化 計量機制將其學習歷程資料轉換成學習負荷,再將學習負 荷量值依照學習歷程先後次序,轉換成學習負荷曲線,儲 存於動態學習負荷曲線資料庫;將動態學習負荷曲線資料 庫的學習負荷曲線依照學習者分類群組模式分群組,並將 群組內的學習負荷曲線回歸分析出該群組的特徵學習負 荷曲線模態,如圖3.13所示。
圖3.13 學習負荷、學習負荷曲線與學習負荷曲線模態資料探勘架構圖
學習負荷曲線模態
學習負荷曲線模態
學習負荷曲線模態 學習負荷
學習負荷
學習負荷
學習負荷曲 線
學習負荷曲 線
學習負荷曲 線 學習者分類群
組
A 群組
B 群組
C 群組
三、整體的資料探勘架構與資料處理關聯如圖3.14所示。
四、資料探勘流程
(一)資料『前置處理』階段
1. 對“學習者背景資料”與 IC3 學習歷程管理系統 資料庫中的“學習者學習歷程紀錄”進行資料『前 置處理』。
2. 整合多重來源資料,將學習者背景資料與學習者 學習歷程紀錄作關聯聯結,整合於一資料倉儲:
學習者歷程檔案庫,並對倉儲庫中的資料進行
『消除資料不一致』與『消除資料重複性』處理。
3. 對學習者歷程檔案庫資料進行『資料清理』,確 認資料的正確性與完整性,並辨識資料的不同狀 況,進行適當的『遺缺填補法』與『雜訊去除法』
處理。
(二)資料『探勘』階段
1. 資料『維度精簡』:對於“學習者歷程檔案庫”中 各類答題狀況單元歸類,並賦予各別代表的學習 負荷量。本研究在學習歷程的學習負荷量化之計 分機制,如表 3.7 所示。
2. 資料『維度組合』︰以答題歷程組合型態分類,
分析、歸類出各種答題狀況單元下的可能組合,
並對於各分類編碼,賦予各別代表的學習組合負
荷量。本研究之學習組合負荷量計分機制,如前
(2)『群集分析』分類法:將上述以『決策樹』分 類的四個學習風格分類中,分類自我效能與學習 效率成為兩個群集,對此兩個群集進行『群集分 析』。本研究之群集分類如下圖所示:
圖 3.16 自我效能與學習負荷的群集分類
(3)整合以上以『決策樹』與『群集分析』分類法,
將“學習者學習負荷檔案庫”的資料與類別屬性 建立起分類之“學習者學習負荷曲線資料庫”,如 圖 3.17 所示:
高自我效能
中自我效能
低自我效能
高學習效率
中學習效率
低學習效率
自我效能群集 學習效率群集
圖 3.17 資料探勘分析架構圖—學習負荷曲線
表 3.12 學習者學習負荷曲線數據資料(範例)
題次 1 2 3 4 5 6 7 8 9 10
組合狀態 A C F C A G E F C F
學習負荷 -2 0 2 0 -2 6 7 2 0 2
負荷量累加 -2 -2+0 -2+2 0+0 0+(-2) -2+6 4+7 11+2 13+0 13+2 學習歷程負
荷 -2 -2 0 0 -2 4 11 13 13 15
圖 3.18 學習者的學習負荷曲線圖(範例)
2.將各別“學習者學習負荷曲線資料庫”中個別學 習者學習負荷曲線,編寫數值分析程式對個別群 組中的學習負荷曲線進行分析,建立︰
(1)特定群組屬性下的特徵學習負荷曲線模態,如 圖 3.19 所示,並以繪圖程式繪出特徵學習負 荷曲線模態,如圖 3.20 所示。
題項
學習歷程負荷量值
-2
2 1 2
圖 3.19 資料探勘分析架構圖—特徵學習負荷曲線模態
圖 3.20 特徵學習負荷曲線模態
圖 3.21 學習負荷區間變化率趨勢特性與相對應之臨界值 學習單元題項
學習歷程負荷量值
特徵學習負荷曲線模態
學習單元題項
學習歷程負荷量值
上升區間 上升區間
下降區間
反曲點斜率值 (臨界值)
上升區間 最大斜率值 (臨界值) 上升區間
最大斜率值 (臨界值)
下降區間 最大斜率值 (臨界值)
貳、資料處理
一、初階資料庫處理
本研究運用資料探勘技術連結與處理數個資料庫,將原始資 料之矛盾值、遺漏值與錯誤值先行處理,獲得有意義的整合或轉 換資料,產生的個別資料庫與資料庫內部處理內容,如下所述:
(一)個人基本資料資料庫
資料庫內容資料包含性別、學院別、 系所別、年級、
學號,以學號為每位樣本的身分編碼,連結出每位樣本的相 關基本資料。
(二)學習風格量表紀錄資料庫
資料庫內容資料包含學號、Kolb 學習風格量表的各題 答題分數。以學號作為個別樣本與其相依之學習風格資料的 連結,編寫程式與資料庫資料處理指令,以進行自動資料連 結、計算、與判讀處理:
1.連結個別構面相關題項分數,計算出個別構面的量測 總分數。
2.依照 Kolb 學習風格量表的規則,計算出 X 軸與 Y 軸 上兩兩構面間的總分差值,得出座標值。
3.依照 Kolb 學習風格量表對於 X-Y 座標系上各個象限 的歸類規則,將其各象限編碼並定義座標值與象限關
聯規則,再以程式判讀座標值所代表的歸屬象限,其 四個象限個別代表 Kolb 學習風格量表中的四種不同 學習風格類屬。
4.編寫程式進行上述資料的輸出報表,以學號為其學習 風格相關資料的關聯連結依據,輸出每位樣本之學習 風格類屬。
5.編寫程式進行輸出資料的檢核,將未能有效歸屬象限 的資料標示出來,例如座落於座標軸線上或零點的座 標值,並從樣本中剔除〈無效樣本〉。
(三)自我效能量表紀錄資料庫
資料庫內容資料包含學號、自我效能量表的各題答題 分數。以學號作為個別樣本與其相依之自我效能資料的連 結,編寫程式以進行自動資料計算處理:
1.編寫程式進行原始資料的檢核,標示出極端資料,例 如分數為零或超過單題計量最大值之分數,並將此筆 資料視為無效樣本,從樣本中剔除。
2.加總自我效能量表中各答題分數,計算出總分數,其 為自我效能分數。
(四)學習歷程紀錄資料庫
資料庫內容資料包含學號、學習單元的學習歷程記 錄。學習單元的學習歷程記錄包含學習時間、學習路徑、
評量歷程與結果。
二、進階暨高階資料庫處理
依照樣本的特定身分編碼的關聯規則,透過清理、連結、分 類、群集等資料探勘技術探勘上述多個不同來源的初階資料庫資 料,產生以下數個進階暨高階的資料庫,進而分析出資料中的隱 含意義,分別敘述如下:
(一)學習歷程紀錄資料庫之進階資料處理
以學號作為個別樣本與其相依之學習歷程紀錄資料 的連結,編寫程式與資料庫資料處理指令,以進行自動資 料連結、計算、與判讀處理,分別產生學習負荷資料庫、
學習成就資料庫等兩個進階資料庫,說明如下:
1.學習負荷資料庫:編寫程式,自動連結樣本的學號 與其學習歷程記錄資料中的學習路徑資料,將其學 習路徑資料進行維度精簡與維度組合,轉換為不同 狀態組合的分類,並建立各學習路徑分類與本研究 提出的即時動態學習負荷計量機制之間的計量換 算,將學習路徑資料轉換成為學習負荷計量,成為 學習負荷資料庫。
2.學習成就資料庫:編寫程式,自動連結樣本的學號 與其學習歷程記錄資料中的評量歷程與結果資料,
2.學習成就資料庫:編寫程式,自動連結樣本的學號 與其學習歷程記錄資料中的評量歷程與結果資料,