第二章 文獻探討
第四節 教育資料探勘之關聯規則分析
由於本研究係探討學校與圖書館等管理資料之間的關聯,其領域屬於教育資料的 研究。而本研究也具備了教育資料研究中常具備的多維度、混合資料形態、分析目標 明確等特性,因此分析方法上將從教育資料探勘的角度切入。本節就本研究欲採用之 資料分析方法教育資料探勘之關聯規則分析進行介紹。首先將說明教育資料探勘的範 疇,接著說明關聯規則分析的基礎,以及其延伸的多維度、數值式與限制性的各種應 用,再介紹關聯規則分析的實作工具,最後探討關聯規則分析與分類之間的差異。
一、教育資料探勘
教育資料探勘(educational data mining,簡稱 EDM)係由 Romero 與 Ventura 在 2007 年首先提及之新興研究領域。Scheuer 與 McLaren (2012)將教育資料探勘定義為發 展、研究與應用電腦化的方法,用來偵測大量教育資料中的模式,特別是指資料量多 到難以分析的情況。教育資料探勘關注來自教育場域上之資料與問題,兼具理論(例 如探索學習理論的假設)與實務(例如改善學習工具)之特性。教育資料探勘的應用 範圍相當廣泛,除學生個人在學習系統中的資料(例如瀏覽行為、問題回答以及練習 操作順序)之外,亦常應用於學生合作學習(例如文字聊天室)、學校管理資料(例 如學校、學區、教師)以及人口統計資料(例如性別、年齡、學級)。而本研究欲探 討之高職學校圖書館及其周圍設施之關聯,也是教育資料探勘之中的一種應用。
教育資料探勘使用的方法來自於上層領域資料探勘(Data Mining),而該領域亦是電 腦科學與人工智慧(Computer Science and Artificial Intelligence)的子領域。資料探勘時常 被用於分析信用卡盜刷偵測、分析基因定序、或是客戶的購買行為。教育資料探勘的 研究步驟與其他資料探勘的流程類似,根據 Scheuer 與 McLaren (2012)的歸納,進行教 育資料探勘的步驟為資料蒐集 (data acquisition)、資料前處理 (data preprocessing) 或資 料清理 (data cleaning)、資料探勘 (data mining) 以及驗證結果 (validation of results)。跟 一般商業使用的資料探勘有所不同的是,教育資料探勘所面對的資料往往具備高維度、
需要配合相關理論與假設來進行分析的特性,因此本研究選擇的教育資料探勘中發展
28
成熟的分析技術:關聯規則分析及其後續進階研究的發展,以此分析高職學校圖書館 取之教育資料研究變項之間的關聯。
二、關聯規則分析
關聯規則分析是由 Agrawal、Imielinski 與 Swami (1993)所提出的一項資料探勘領 域中的分析技術,其目的是在資料集中發掘重複出現的頻繁樣式(frequent patterns)。這 些樣式可能是許多項目(item)的集合、子順序(subsequence)或子結構(substructure)。舉例 來說,在交易資料集中時常可以看到一些項目會一起出現,例如:顧客常會一起購買 牛奶與麵包。有時亦可能會發掘出令人意想不到的樣式,像是顧客會同時購買啤酒與 尿布。在教育資料探勘中,關聯規則分析時常用來找尋學生常常答錯題目的模式。舉 例來說,答錯 A 題目跟 B 題目的學生,通常 C 題目也會答錯 (Scheuer & McLaren, 2012)。
透過關聯規則分析所找出的頻繁樣式,對描述資料間的關聯(associations)、相互關 係(correlations)扮演著重要的角色。同時關聯規則分析也有助於資料分類、分群與其他 方法的探勘處理過程,因此關聯規則分析一直是資料探勘領域中的熱門議題(Han, Kamber, & Pei, 2011)。
關聯規則分析始於零售業欲分析顧客購買商品的大量交易記錄上,企業希望藉由 分析交易記錄中令人感興趣的相互關係來輔助各種商業決策,像是型錄設計、交叉行 銷、市場區隔與客戶消費行為分析。其中關聯規則分析最經典的應用即是購物籃分析 (market basket analysis)。這是藉由發掘顧客在購物籃所採購的不同商品(在關聯規則分 析中稱之為「項目」)來分析顧客的購買習慣,並可以對於那些被顧客經常一起購買的 項目發展行銷策略,如圖 2-1 所示。例如:如果顧客在超市購買牛奶,企業可以推測他 會有多少機率一起購買麵包,以此選擇適當的行銷手法或調整商品空間的規劃來提高 商品的銷售量。
29
圖 2-1 購物籃分析示意圖
改編自Han, J., Kamber, M., & Pei, J. (2011). Data mining: Concepts and techniques. San Francisco: Morgan Kaufmann Publishers Inc.
在做法上,關聯規則分析通常假設店內所有商品為宇集合(universe),而每一項商 品為布林變項(Boolean variable),此表示顧客是否購買該商品。則每一個顧客的購物籃 都可以用這些布林變數的布林向量值來表示。這些布林向量值可以分析購買的樣式,
而多個商品的布林向量值就能反應出那些商品也是經常被一起購買,進而組成關聯規 則(association rules),或簡稱為規則(rules)。關聯規則的形式如式 1 所示:
𝐿𝐿𝐿 ⇒ 𝑅𝐿𝐿 [支持度, 信賴度, 增益度, 影響度, 肯定度]
式 1 舉例來說,如果顧客購買電腦,那他可能同時購買防毒軟體的樣式,可以用式 2 的關聯規則來表示:
電腦⇒防毒軟體
[支持度=11.1%, 信賴度=92%, 增益度=1.28, 影響度=0.02, 肯定度=3.34]
式 2
30
關聯規則是以因果規則(IF-ELSE)的形式呈現,以「⇒」(箭頭)前後區隔了兩種 規則集:前提規則集跟結果規則集。位於箭頭左邊的項目表示前提規則集,又稱為左 半部規則(left-hand-side,簡稱 LHS);位於箭頭右邊的項目表示結果規則集,又稱為 右半部規則(right-hand-side,簡稱 RHS)。必須注意的是,前提規則集跟結果規則集 皆可包含一個以上的項目,這點跟傳統的規則判斷上有些微不同。
規則後面的支持度、信賴度、增益度、影響度與肯定度為衡量該規則是否令人感 興趣的指標,它們反映出該規則的有效、確定的關聯程度與左右兩邊規則集彼此相關 的程度 (Cano, Luna, & Ventura, 2013)。前兩者為關聯規則常見的指標,也是本研究用 來判斷關聯規則重要程度的的依據,其意義如下:
(1) 支持度(Support,簡稱 sup):衡量了前提規則集 LHS 和結果規則集 RHS 一起出 現的機率。支持度 11.1%代表在所有交易中有 11.1%是為電腦與防毒軟體同時購 買的交易。支持度的計算方式如式 3 所示:
𝐿𝑆𝑆𝑆𝑆𝑆𝑆(𝐿𝐿𝐿 ⇒ 𝑅𝐿𝐿) = 𝑃(𝐿𝐿𝐿 ∧ 𝑅𝐿𝐿)
式 3 (2) 信賴度(Confidence,簡稱 conf):測量了前提規則集 LHS 發生時,結果規則集
RHS 也出現的條件機率。信賴度 92%是指有 92%的交易案例會在購買電腦的同 時也一併購買防毒軟體,另外 8%則是表示這些交易購買電腦但並非購買防毒軟 體。信賴度的計算方式如式 4 所示:
𝐶𝑆𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐶(𝐿𝐿𝐿 ⇒ 𝑅𝐿𝐿) =
𝑃(𝐿𝐿𝐿 ∧ 𝑅𝐿𝐿) 𝑃(𝐿𝐿𝐿)
式 4 後三者為進一步彌補支持度與信賴度架構下的不足而提出的相互關係指標,其意 義如下:
31
(3) 增益度(Lift):此指標是由 Silverstein、Brin 與 Motwani (1998)所提出,其目的是 比較信賴度與結果規則集 RHS 單獨發生時的大小。增益值 1.28 即是考慮到信賴 度為 0.92 (信賴度的 92%),而結果規則 RHS 出現機率為 0.72 時,0.92 除以 0.72 得到的數值,表示此規則的信賴度比起結果規則集 RHS 單純的機率更高。
增益度的計算方式如式 5 所示:
𝐿𝐶𝐶𝑆 (𝐿𝐿𝐿 ⇒ 𝑅𝐿𝐿) = 𝑃(𝐿𝐿𝐿 ∧ 𝑅𝐿𝐿) 𝑃(𝐿𝐿𝐿) × 𝑃(𝑅𝐿𝐿)
式 5 (4) 影響度(Leverage,簡稱 lev):此指標是由 Piatetsky-Shapiro (1991)所提出,亦名
為 Piatetsky-Shapiro 指標。其目的是比較前提規則集 LHS 跟結果規則集 RHS 兩 者同時出現的機率對兩者各別出現機率相乘的增加程度。影響度 0.02 表示購買 電腦與防毒軟體的機率,跟單獨購買電腦的機率與單獨購買防毒軟體的機率相 乘結果相比,增加了 2%的機率。影響度的計算方式如式 6 所示:
𝐿𝐶𝐿𝐶𝑆𝑟𝑟𝐶 (𝐿𝐿𝐿 ⇒ 𝑅𝐿𝐿) = 𝑃(𝐿𝐿𝐿 ∧ 𝑅𝐿𝐿) − [ 𝑃(𝐿𝐿𝐿) × 𝑃(𝑅𝐿𝐿) ]
式 6 (5) 肯定度(Conviction,簡稱 conv):此指標由 Brin 等人(1997)所提出,用來表示前
提規則集 LHS 與結果規則集 RHS 兩者相關的程度。如果肯定度為 1,表示兩者 並不相關。肯定度 3.34 表示此規則比起完全前提規則集 LHS 與結果規則集 RHS 在完全隨機組合的情況下出現機率更提高了 334%。肯定度的計算方式如式 7 示:
𝐶𝑆𝐶𝐿𝐶𝐶𝑆𝐶𝑆𝐶 (𝐿𝐿𝐿 ⇒ 𝑅𝐿𝐿) = 𝑃(𝐿𝐿𝐿) × [ 1 − 𝑃(𝑅𝐿𝐿) ] 𝑃(𝐿𝐿𝐿) − 𝑃(𝐿𝐿𝐿 ∧ 𝑅𝐿𝐿)
式 7
32
為分析大量的宇項目,關聯規則分析最後所找到的關聯規則往往會多到讓人無從 解讀,此時就可以應用上述的五種指標來篩選出令人感興趣的重要結果。一般來說,
最常見的做法是設定關聯規則必須大於最小支持度 (minimum support threshold,縮寫為 minSup) 跟最小信賴度 (minimum confidence threshold,縮寫為 minConf),以此過濾掉 不常出現在資料集中的罕見樣式。剩餘的頻繁規則通常稱之為有效規則(strong rules)。
接著再將有效規則以增益度、影響度和肯定度三種指標由大到小排序,這樣就能找出 增加機率高、比起隨機情況發生機率更高的有效規則。舉例來說,尿布與啤酒的關聯 規則雖然令人感興趣,但實際上未達有效規則的門檻,因此並不為企業採用 (Kohavi, 2000)。
然而,傳統用於商業交易記錄的關聯規則分析僅是處理一種維度資料,像是商品 購買記錄;而資料類型也只能處理類別變項,也就是有無購買某種商品;更重要的是,
傳統關聯規則分析所找出的大量關聯規則僅是以評估指標來排序,最後即使能找出關 聯性較高的關聯規則,也往往另人難以解釋或應用。因此,為了處理教育資料探勘當 中時常面臨的多維度不同資料、數值類型的連續變項、以及搭配研究假設而聚焦的限 制性分析,本研究將進一步探討更為進階的多維度、數值式與限制性關聯規則分析方 法。
三、多維度關聯規則分析
在 介 紹 多 維 度 關 聯 規 則 分 析 之 前 , 必 須 先 說 明 單 維 度 關 聯 規 則 分 析 (single-dimensional or intra(single-dimensional association rule)。最常見的關聯規則分析應用:購物籃分 析,它僅分析顧客的一種資料:「購買」,因此稱之為單維度的關聯規則分析。
然而,在實際應用上,顧客的購買行為也可能會跟其他不同的資料產生關聯,例 如購買數量、價格或購買地點;甚至是跟顧客自身的人口統計資料有所關聯,像是顧 客的年齡、職業、信用平等、收入與地址。相較於購物籃分析的單維度關聯規則分析,
若關聯規則包含二個維度以上的敘述,就稱為多維度關聯規則分析 (multi-dimensional association rules) 。
33
教育資料探勘的領域時常需要以多維度的角度進行關聯規則分析,例如研究中時 常探討學生在線上學習平臺中的上線時間與 A、B、C 三份作業是否完成對期末成績評 等的關聯規則,藉以瞭解這三個維度研究變項之間的關係。舉例來說,教育資料探勘 欲找出的關聯規則可能會如式 8 所示:
上線時間(30 分鐘以下) ∧ 完成作業(𝐴) ⇒ 期末評等(𝐵)
式 8 上線時間、完成作業與期末評等三個變項也可以用資料方塊 (data cube) 的形式來
式 8 上線時間、完成作業與期末評等三個變項也可以用資料方塊 (data cube) 的形式來