第三章 研究方法
第七節 資料分析
一、關聯規則分析演算法的選擇
在經過前一節的資料前處理後,本研究即可取得「員生人數分群」、「招生狀況 分群」、「圖書館平均服務員生人數分群」、「每人館藏擁有量分群」、「館藏成長 量分群」、「平均圖書借閱量分群」以及 12 種圖書館周圍設施類別編號等總共 18 種 變項。前六個分群變項的值域有「高」與「低」二種類別,後 12 種設施類別編號有
「有」、「無」兩種類別。如此一來,總共會有 24 種規則 (item) 可供關聯規則分析。
本研究接著從教育資料探勘 (educational data mining) 的角度應用關聯規則分析 (association rules analysis) 技術來找尋各變項之間的關聯。舉例來說,本研究欲探討
「員生人數較高」的學校,其圖書館周圍設施中最常出現的模式為何。以關聯規則分
67
析的術語來看,興趣項目即是分析結果中的結果規則 (right-hand-side,簡稱 RHS) , 而本研究想得知其他研究變項的可能模式即為分析結果中伴隨出現的前提規則 (left-hand-side,簡稱 LHS)。
然而,關聯規則分析中常見的商業購物籃分析 (market-basket analysis) 所使用的技 術,例如 Apriori 演算法,主要是透過信賴度 (confidence) 跟增益度 (lift) 來決定前提規 則跟結果規則的位置。若本研究欲探知的興趣項目原本出現頻率就不多,使用 Apriori 演算法就很難在關聯規則分析結果中找出該興趣項目同時出現的規則或模式。
因此,本研究並不選擇 Apriori 演算法,而是使用基於 Friedman 與 Fisher (1999)理 論並實作在資料探勘軟體 Weka 中的 HotSpot 演算法。該演算法可以由使用者指定欲出 現在分析結果結果規則的興趣項目,並以此找出興趣項目對應的最常出現的對應前提 規則,也就是本研究欲找尋的模式。在 HotSpot 演算法中,欲分析的興趣項目又稱為目 標項目(target item)。
HotSpot 演算法的分析結果係以樹狀結構的方式呈現,而目標項目作為跟節點,其 底下每一項樹狀節點都是跟目標變項最常出現的相關項目,並以符合此規則的信賴度 (confidence)由大到小排序。本研究將 HotSpot 演算法中對樹狀節點(node)的最大分支度 (max branching factor)設到最大,以此分析出幾近全部研究變項的關聯規則。圖 3-5 是 HotSpot 分析結果的示意圖。若設定興趣項目為「平均圖書借閱量分群=高」,可以看 到跟興趣項目最相關的項目是「館藏成長量分群 = 高」(信賴度為 67.57%)、「每人 館藏擁有量分群 = 高」(信賴度為 62%)跟「員生人數分群 = 低」(信賴度為 58.02%)。與圖書館周圍設施相關的規則排名在第四位:「f05 教職員行政區 = y」
(信賴度為 52.56%)。由此可知,由 HotSpot 演算法所分析得到的結果不僅容易理解,
更具有相當高的可解釋力(explainability)。
68
平均圖書借閱量分群=高 (48.84% [63/129]) 館藏成長量分群 = 高 (67.57% [25/37]) 每人館藏擁有量分群 = 高 (62% [31/50]) 員生人數分群 = 低 (58.02% [47/81]) f05 教職員行政區 = 有 (52.56% [41/78])
圖書館平均服務員生人數分群 = 負擔輕 (52.05% [38/73]) f03 動態活動區 = 有 (51.95% [40/77])
f08 景觀休憩區 = 有 (51.22% [42/82]) f02 專科教室 = 有 (50.93% [55/108]) f09 通道區 = 有 (50.86% [59/116]) f01 普科教室 = 有 (50% [52/104]) 招生狀況分群 = 正常 (49.55% [55/111])
圖 3-5 Weka 中 HotSpot 原始關聯規則分析結果示意圖
跟 常 見的 關聯 規 則 分析 演 算 法 一樣 , HotSpot 演 算法 也必 須設定 最 小支 持 度 (minimun support,簡稱 minSup)參數,以此限制分析結果出現在所有資料中的最低比 例,本研究將 minSup 設定為 0.01,以讓關聯規則分析盡可能找出所有研究變項的關聯 規則。
另一方面,本研究參考 Poitras 等人 (2016)的做法,以採用關聯規則分析中限制單 一條件的弱規則來進行分析,在 HotSpot 中則是將參數 maxRuleLegnth 設為 1,這時候 就只會找出一層的單一條件關聯規則。以圖 3-5 的例子來說,對於平均圖書借閱量為高 的結果規則來說,圖書館周圍鄰近「教職員」與「校園生活區」各別為兩個獨立的前 提規則。在詮釋時需以「或」來連結兩個關聯規則,例如圖書館周圍鄰近「教職員行 政區」或「動態活動區」可能會讓平均圖書借閱量較高,而不能用「且」來連結兩個 前提規則。本研究採用的弱規則分析能讓結果的探討更具彈性,有利於探索性研究的 進行。
69
關聯規則分析 HotSpot 演算法可以產生易於理解與解釋的分析結果,適合用於本研 究這種探索研究變項之間可能存在的未知模式。此外,跟其他推論統計分析技術相比,
本研究採用的關聯規則分析可用於不同類型、多維度的資料,而且不受母體常態性或 理論模型假設的限制,用途更具靈活彈性與穩健(robust)。
二、使用 HotSpot 演算法進行分析
以下說明本研究如何使用關聯規則分析中的 HotSpot 演算法來找出高職學校中圖書 館周圍設施與學校規模、圖書館資源配置程度和圖書館使用量之間的關聯。
在進行關聯規則分析之前,本研究將會先以敘述統計分析高職學校數量、圖書館 周圍設施的類別編碼、以及各研究變項分群之後的結果,藉此展現整體樣本的資料分 佈。
經過資料前處理之後,本研究再使用關聯規則分析,將本研究欲探究的興趣項目 作為結果規則 RHS,圖書館周圍建築類型等研究變項作為前提規則 LHS,找出關聯規 則程度較高的關聯規則,也就是最常前提規則伴隨結果規則出現的關聯規則。首先是 將學校規模之員生人數分群和招生人數分群中的「高」跟「低」分群設為 HotSpot 演算 法的目標變項,分析可能造成其結果的圖書館周圍設施。然後再將圖書館資源配置中 的圖書館平均服務員生人數分群、每人館藏擁有量分群中的「高」跟「低」分群設為 HotSpot 演算法的目標變項,分析可能造成其結果的圖書館周圍設施及學校規模。最後 則是將圖書館使用量之平均圖書借閱量分群中的「高」跟「低」分群設為 HotSpot 演算 法的目標變項,分析可能造成其結果的圖書館周圍設施、學校規模及圖書館資源配置。
表 3-7 為使用 HotSpot 關聯分析來分析圖書館使用量中平均圖書借閱量分群的結果 示意表。第一欄為平均圖書借閱量中的「高」分群與「低」分群,接著對應到造成此 結果的可能前提規則中的單一條件弱規則(weak rule),以及後面四項關聯規則的評估指 標。舉例來說,圖書館周圍有「教職員行政區」的學校有 78 所,其同時符合平均圖書 借閱量為「高」分群的學校有 41 所,出現機率機率、亦即信賴度為 53%,增益度為
70
1.08、影響度為 0.02、肯定度為 1.05。本表會依照信賴度、增益度、影響度、肯定度由 高到低排序,越前面的關聯規則程度越強,而解釋關聯規則時主要是根據涵蓋率與信
71
果關聯僅為數據分析上可能的結果,並不能是完全符合真實世界的情境。解釋此研究 結果時必須格外謹慎。
三、推論統計之皮爾森積差相關分析與卡方獨立性檢定
在使用關聯規則分析之 HotSpot 演算法找出相關規則後,本研究將會再適時使用推 論統計分析來找尋研究變項之間是否有明顯的關聯。若研究變項兩者為類別變項與連 續變項的組合,例如是否鄰近「景觀休憩區」與圖書館職員人數,本研究將使用獨立 樣本 t 鑑定來進行分析,計算檢定統計量 t 值及其顯著程度 p 值;若研究變項兩者為數 值類型的連續變項,例如員生人數與圖書館職員人數,則是使用皮爾森積差相關分析,
計算皮爾森相關係數及其顯著程度 p 值;若研究變項為類別類型的資料,例如每人館 藏擁有量分群與平均圖書借閱量分群,則是使用卡方獨立性檢定,計算卡方檢定統計 量及其顯著程度 p 值。