• 沒有找到結果。

第一章 緒論

1.3 章節架構

料探勘相關基礎知識的教育專家,使其更容易找出休退學的學生族群,進而在學 生休退學事件發生前,施行相關輔導措施和教學策略。以期減少學生人數流失,

減少對教育機構產生的衝擊。

1.3 章節架構

本論文其餘章節內容介紹如下:

在第 2 章,我們將介紹與本研究有關的背景資知識與相關研究。在 2.1 節我們 首先回顧過去其資料探勘應用關於教育領域方面的研究,採用過哪些方法。2.2 節 則介紹關於關聯式規則及其代表性的探勘方法,如 Apriori 和 FP-Growth 這些方 法。為了讓系統不在建構模型的過程中,不慎過濾掉重要但支持度卻不高的規則 條件,我們也引用了多重支持度關聯規則探勘的技術[26],這將在 2.2.1 節中介紹。

在 2.2.2 節,我們將介紹結合階層關係的廣義關聯規則探勘。

在第 3 章,我們會先說明高等教育中,學生休退學預測的問題,並對我們所 建構的預測系統的架構及主要的功能,作概略性的說明。

第 4 章,我們將詳 細說明我們提出的具 多重支 持度之廣義關 聯分類法 (GACMS)。首先在 4.1 節 我們將介紹 GACMS 的基本構想及大概的流程;在 4.1.1 節介紹我們如何用 CMAR 方法來產分類規則,4.1.2. 是講述多重支持度資料探勘 在 GACMS 中的運用。另外我們還要介紹樹狀階層結構如何節省運算時間和提高 規則的支持度,這也會在 4.1.3.中詳述。

在第 5 章,我們將本論文所提的 GACMS 方法應用於學生的休退學預測,驗 證是否可以在此一問題得到較佳的關聯式分類規則。在 5.1 節 中先描述本實驗的 設備及資料來源。接著在 5.2 節中,說明實驗的結果及我們的分析。在 5.2.1 節 中,我們將比較有無使用多重支持度資料探勘,以及有無使用預先定義樹狀結構 對結果所造成的影響。在 5.2.2 節 中會探討有無使用階層式樹狀結構的執行速度。

14

在第 6 章,我們將對本篇研究做一總結,並探討此一主題未來可能研究和發 展的方向。

15

第二章

背景知識與相關研究

2.1 學生休退學預測

有關學生的學習成效的預測,一直是教育界關注的問題,這其中又以學生是 否中途輟學、休學、成績不及格或甚而退學最引起廣泛的研究[22]。近幾年來隨著 資料探勘技術的快速發展與日趨廣泛的應用,有愈來愈多的學者提出各種不同的 方法預測學生的學習成效[16]。這些研究大致上可以從下列幾點觀點加以分析整 理:

(1) 研究目的 : 可分為分析原因、結果預測兩種。

(2) 研究對象 : 分為大學生、大專生、遠距教學學生和中小學生。

(3) 採用方法 : 有的用機率的方法,有的用統計分析的方法來解決。

上述的整理比較彙整表在表 2。由這些比較可以發現目前的這些研究皆未討論 關聯分類法,也未考慮資訊集之中存在的階層資訊。更未考慮各分類條件出現的 機率差異極大的現象。

16 Kotsiantis,2005[10] ✔

Lykourentzou,2009[15] ✔ 大專生 ✔ ✔ ✔

17

2.2 關聯規則探勘

關聯規則是在大量資料當中,找出其彼此間有用關係的重要資訊。其最早是 由 Agrawal[1]提出。一般關聯式分類規則的表示如下

A  B

其中 A, B 代表交易資料中的兩個項目集合。例如,每週曠課 10 節以上,則期中考 會有三科以上不及格,可以寫成下式

每週曠課 10 節  期中考有三科以上不及格 [支持度=10% 信賴度=80%]

這規則顯示 每週曠課 10 節 和期中考有三科以上不及格 之間有很強的關聯,因 為這些學生不在乎上課也不在乎成績。此一資訊可以提供給教育機構的決策者,

訂定相關規定或輔導措施來矯正這些學生。

支持度(support,簡稱 sup)和信賴度(confidence,記成 conf)是關聯規則的兩大重 要指標,也代表了這規則的強度。支持度泛指規則在這些資料出現的機率,也就 是它所涵蓋的範圍所佔的比例,其定義為

sup(A  B) = P(A, B) = sup(A∪B)

其中 P(A, B)表示 A 及 B 在資料集中一起出現的機率,而 sup(A∪B) 表示 A∪B 這個項目級的支持度。信賴度則是泛指準確率,其定義如下

conf(A  B) = sup(A∪B) / sup(A) = P(A, B) / P(A)

在前述例子中也就是當我們猜測 ”每週曠課 10 節以上,期中考會有三科以上 不及格”的準確率可達八成。每一條規則的支持度和信賴度都需分別高於使用者制 定的最小支持度(minimum support, 記為 ms)和最小信賴度(minimum confidence, 記為 mc)這兩個門檻值,這樣保留下來的關聯規則的強度才夠。

一般由交易資料中,探勘關聯規則的方法皆遵行一個二階段的架構:

18

(1) 先由交易資料中生成頻繁項目集,即所有支持度超過最小支持度 ms 的項 目集。

(2) 再由這些頻繁項目集組合成關聯規則,計算其信賴度後,留下超過最小信 賴度 mc 的規則即為所求。

上述二個步驟,以第一階段最耗費時間,故幾乎所有的關聯規則探勘方法的 設計皆只談論如何生成頻繁項目集。接下來我們將會介紹兩個最具代表性的演算 法, Apriori 及 FP-Growth,另外再介紹與我們方法有關的具多重支持度的關聯 規則探勘,以及廣義關聯規則探勘。

2.2.1 Apriori 演算法

Apriori 是所有探勘規則方法中最具影響的演算法,是由 Agrawal 和 Srikant [2] 提出的方法, Apriori 方法的主要基礎是,當一項目集 A 不是頻繁項目集 B 時,

則所有包含 A 的宇集 B(A⊂B)都不是頻繁項目集。如圖 2.1 所示,當{a}不是頻繁項 目集時,則包含 a 的所有宇集合(Superset)都不是 頻繁項目集,故可減少大量的計 算。

19

圖 2.1 Apriori 原理示意圖

Apriori 演算法在生成頻繁項目集的作法是屬於廣度搜尋(level wise search)的 作法 ,如圖 2.2 所示,首先由交易資料中,簡單統計含一個元素的項目集出現的 次數,再找出那些不小於最小支持度的項目集,即為 1 維頻繁項目集,給為 L1接下來由 1 維頻繁項目集 L1中的成員,兩兩配對而成長度為 2 的候選集(Candidate itemsets)C2。再到交易資料中掃描並統計其出現次數,再一次留下那些支持度達到 支持度門檻的項目集,即為 2 維頻繁項目集 L2。重複此過程直到無法再產生任何 的頻繁項目集。詳細的步驟如演算法 2.1 所示。

演算法 2.1 Apriori 演算法 步驟:

1. 設 k =1;

2. 產生長度 1 的頻繁項目集 L1;

3. (Repeat) 重複步驟 4~7 直到沒有頻繁項目集再被識別出來 4. 從長度 k 的頻繁項目集 Lk,生成長度 k +1 的候選項目集 Ck+1;

a 的宇集皆非 頻繁項目集

Null

a b c

ab ac ad

abcd

d

bc bd cd

abc abd acd bcd

若 a 為非頻繁項

20 Database DB 最小支持度 = 2

21

Aprori 演算法的主要缺點在於需產生候選項目集,並多次掃描資料庫,針對 Apriori 演算法的性能瓶頸問題, Han 等人於 2000 年[7]時提出了基於 FP-tree 生成 頻繁項集的 FP-growth 演算法。其方法的主要想法是直接將交易資料壓縮成 FP-tree,再透過這顆樹生成關聯規則。FP-Growth 只對資料庫進行 2 次掃描,而且 其不須產生侯選項目集。FP-growth 第一次做資料庫掃描時,得到 1 維的頻繁資料 集(Frequent itemset)。第二次掃描資料庫時利用 1 維的頻繁資料集篩選出頻繁資料 項,再製成 FP-tree。如圖 2.3 顯示經過 FP-tree 的範例,其中標頭表記錄 1 維的頻 繁項目集,並依項目的出現頻率,由高而低排序。

接下來第二階段,FP-growth 再由 FP-tree 中,由出現次數最低的項目開始,

先產生所有包含此項目的頻繁項目集,將此項目從 FP-tree 中移除,再進行下一個 項目。依此過程持續進行,直到處理完所有的頻繁項目為止。

22

圖 2.3 FP-tree 範例

2.2.3 具有多重支持度的關聯規則探勘

具多重支持度的關聯規則探勘(Association rule mining with multiple minimum supports),最早是由 Liu[13]提出,並提出建構於 Apriori 演算法上的多重最小支

交易

23

持度關聯規則演算法。例如,大型購物中心的交易資料中,有些像是購買珠寶首 飾手錶這些交易,雖然支持度較低,但卻是利潤很高的重要資訊。如果要找出這 些交易資訊,而把支持度門檻降低,會造成讓過多不重要的交易資訊也被涵蓋進 來。但若支持度門檻過高,又很可能找不出這些涵蓋高利潤商品的規則。所以需 要訂定不同的支持度,讓真正有用的交易資訊可以被保留。其多支持度定義如下:

給定一組由項目 I ={a1, a2, a3, ..., an}組成的交易資料集 D,首先要定義最小信 賴度 mc,以及每個項目的最小支持度,令為 ms(a1), ms(a2), ..., ms(an)。則一個項 目集 B = {b1, b2, …, bm}, bi ∈ I, 1 ≤ i ≤m 的最小支持度為

sup(B) ≥ ms(bi)

根據上述定義,ㄧ個由 A∪B 組成的關聯規則 A  B,必須符合以下兩個條 件,才是強度夠的規則。

1. sup(A  B) ≥ ms(ai) 2. conf(A  B) ≥ mc

2.2.4 廣義關聯規則探勘

在真實世界中,大多數的項目之間都存在有所謂的分類關係(taxonomy)或階層 關係(hierarchy)。例如圖 2.4 的住址,即可根據行政區域的劃分,得到類似分類樹 或階層樹。若是能將此種資訊納入探勘的交易資料中,則可找出更佳的關聯規則。

例如.

南部地區學生 缺席次數較少

但如果僅看資料的地址項目,因只有居住的縣市及鄉鎮區等項目,範圍較窄,

所以在相同支持度的門檻限制下,有可能較難發現類似的居住地區與缺席狀況的

24

關聯規則。此種將項目的階層分類資訊納入關聯規則的概念就稱為廣義關聯規則 (Generalized association rule)[23]

簡而言之,所謂的廣義關聯規則探勘,是給定一組交易資料集 D 和項目的分 類樹 T,然後找出所有的關聯規則,且其支持度和信賴度也分別高於使用者設定的 門檻,其規則同樣可表示如下:

A  B

其中 A, B 代表項目集,其成員不僅是由分類樹的葉節點構成,也會由其更高階層 的項目組成。此外,任何右項目集 A 的成員如 a1, a2, …, ai 的祖先,不可以出現 在 B 中。否則會出現如 a  ancestor(a),這樣的信賴度一定會是 100%,並無任 何意義。

最早提出此概念的是 Srikant 和 Agrawal [23],但在同時間, Han 和 Fu [6]

也提出類似的概念,稱之為多階層關聯規則,其差異在於構成同一規則的項目必 須都位於階層樹的同一階層,故又視為是廣義關聯規則的特例。此外,還有學者 提出多支持度的廣義關聯規則探勘,如 Lui 和 Chung[14]。

25 1998 年[12]提出。他們提出的 CBA(Classification Base on Association)演算法,主 要由規則產生器(CBA_Rule Generator, 簡稱 CBA_RG)和分類器(CBA_Classifier Builder)兩個部分構成。規則產生器主要是以 Apriori 演算法為基礎,進行修改主 要不同的是,採用 Apriori 產生頻繁項目集,CBA_RG 還加入了類別標籤這個屬性

25 1998 年[12]提出。他們提出的 CBA(Classification Base on Association)演算法,主 要由規則產生器(CBA_Rule Generator, 簡稱 CBA_RG)和分類器(CBA_Classifier Builder)兩個部分構成。規則產生器主要是以 Apriori 演算法為基礎,進行修改主 要不同的是,採用 Apriori 產生頻繁項目集,CBA_RG 還加入了類別標籤這個屬性

相關文件