第三章 研究方法
第六節 資料前處理
本研究在資料分析的方法上採取了教育資料探勘之關聯規則分析技術,為此需要 先將前面蒐集的資料進行前處理,轉換成可供關聯規則分析的類別資料。本研究會使 用的資料包含連續尺度資料類型的學校規模、圖書館資源配置與圖書館使用量,以及 具有多值類別變項資料類型的圖書館周圍設施,以下個別說明如何將這些資料轉換為 可進行後續分析的類別資料。
一、關聯規則分析資料前處理技術之選擇
本研究大部分的研究資料皆為連續尺度的數值類型資料,像是國立玉井高級工商 職業學校的員生人數共 998 人,998 即為一連續尺度的數值類型。為了配合本研究欲採 用的關聯規則分析技術,輸入資料本身必須轉換為類別的資料形態,像是「高」與
「低」。為了因應處理連續尺度資料類型的情況,本研究將應用數量化關聯規則分析 (quantitative association rules) 的作法,為連續尺度資料類型進行資料前處理。
大多針對連續類型資料進行關聯規則分析的研究都是採用離散化 (discretization) 作 法來將連續類型資料對應到不同的類別類型。而離散化作法又可分成等寬式裝箱法 (equal-width binning) 、 等 深 式 裝 箱 法 (equal-frequency binning) 跟 分 群 式 裝 箱 法 (clustering-based binning) 三種 (Han et al., 2011)。等寬式裝箱法係指依固定間距定義資 料級距,而每一級距即為資料的類別,再一一將連續資料歸屬於對應的類別中。舉例 來說,若欲將員生人數離散化為三群,而員生人數最少為 1000 人,最多為 4000 人,
則依照 1000 至 1999、2000 至 2999、3000 至 4000 分成三個類別,再逐一將每一筆連 續資料對應到所屬的類別。提出數值式關聯規則分析 Lent 等人(1997) 的研究即是採用 等寬式裝箱法來將連續資料離散化。
另一方面,等深式裝箱法也是以多個級距來作為類別,但是等深裝箱法注重的是 每個類別的筆數儘可能相同,因此在離散化資料時不採用相同的級距,而是將資料由 小到大排序後,依序將固定數量的資料放入對應類別中。舉例來說,若要以員生人數
63
將 30 所學校離散化為三群,則等深式裝箱法則是儘可能讓每一群都分到平均 10 所學 校。作法是先將每所學校依照員生人數排序,再由少至多將每 10 所學校放到對應的群 中。不過實際處理的過程中,數量可能會因為有學校擁有相同員生人數而導致各群數 量不一致。等深式裝箱法可以讓各個類別都擁有差不多的數量,這會讓關聯規則分析 中每一種類別出現在分析結果中的機率較為平均。
然而,等深式與等寬式裝箱法都難以反映資料本身的分佈狀況,而這兩種方法在 離散化後切割多維度資料時也會產生巨大的資料方塊 (data cube)。舉例來說,若將兩個 維度的資料各分成三群,最後就會有三乘三共九種類別。這些過多的類別資料將會導 致關聯分析結果找到的模式過於繁瑣,造成解釋上的困難。
因此,本研究參考 Langhnoja, Barot & Mehta (2013) 的建議,採用的是分群式裝箱 法。在關聯規則分析之前,先以群集分析 (clustering analysis) 將單維度或多維度的資料 對應到指定數量的群數,藉以大幅縮減資料的複雜程度。本研究使用群集分析中的 k 中心點分群法 (k-medoids clustering) 來為連續尺度類型資料進行分群。相較與群集分析 中較為常見的 k 中心點分群法 (k-means clustering),k 中心點分群法的分群結果較為強 健 (robust),不易過度受到極端值的影響而導致產生各組數量差異過大的分群結果(Han et al., 2011),因而有利於後續進行關聯規則分析時,能夠得到較為具有說服力的結果,
不會因為某一群數量過少而使得關聯規則意義不大。
為了讓分群後的資料易於解釋,本研究參考 Srikant 與 Agrawal (1996) 的做法,把 連續尺度資料類型的研究變項分為「高」與「低」二群,亦即將 k 中心點分群法的分 群數量 k 設定為 2。計算資料之間相似度的方法為歐基里德距離 (Euclidean distance,
常被誤稱為尤拉距離)。比起其他研究中選用的分群數量為三群,本研究選擇將分群 設為「高」與「低」二群,不僅是因為「高」和「低」的概念化標籤較容易解釋,而 且在關聯規則分析中,二群的前提規則 LHS 並不會重複。若設為三個分群來進行關聯 規則分析,則可能會有二個分群都出現相同的前提規則 LHS,造成解釋上的困難。
64
為避免多維度資料中全距較大的資料維度左右分群結果,本研究先採正規化處理 將資料轉換成 0 至 1 之間的比例,再以正規化後的資料輸入 k 中心點分群法進行分群。
k 中心點分群法在分群過程中會將距離相近的資料歸為同一群,最後本研究再依據各分 群的群集中心(centroid,又稱質心)的位置,將分群命名為「高」與「低」,以此作 為後續關聯規則分析的類別資料。
二、學校規模、圖書館資源配置與圖書館使用量之分群處理
前一小節所敘述的群集分析方法主要用於本研究中學校規模、圖書館資源配置與 圖書館使用量等研究構面中各種由連續尺度資料類型構成的研究變項。大部分研究變 項皆是單一維度,而部分涉及圖書館館藏的研究變項甚至是由書籍、視聽資料與期刊 報紙等三種維度的資料所組成。
透過上述的 k 中心點分群法,本研究將把各個連續尺度資料類型研究變項進行分 群。單一維度的研究變項,如「員生人數」、「招生狀況」、「圖書館平均服務員生 人數」與「平均圖書借閱量」,則可直接透過 k 中心點分群後,以群集中心將分群命 名為「高」與「低」二群。而包含書籍、視聽資料與期刊報紙三個維度的「每人館藏 擁有量」跟「館藏成長量」也以同樣方式進行分群。但是通常書籍資料的數量較多,
全距遠大於其他兩種資料類型。若直接以原始資料計算相似度進行分群,視聽資料與 期刊報紙這兩個維度的影響將會微乎其微。因此本研究會先將三個維度進行前述的正 規化資料前處理,再以 k 中心點分群後,以群集中心將分群命名為「高」與「低」兩 群。
經過群集分析處理之後,本研究將可以得到「員生人數分群」、「招生狀況分 群」、「圖書館平均服務員生人數分群」、「每人館藏擁有量分群」、「館藏成長量 分群」與「平均圖書借閱量分群」等六個研究變項分群。表 3-5 歸納了這六個研究變項 分群的對照表。在後續關聯規則分析中,這六個研究變項分群結果皆為關聯規則中的 一個項目,以此作為關聯規則分析的依據。
65
表 3-5 研究變項之分群處理
研究構面 研究變項 分群後的研究變項
學校規模 員生人數 員生人數分群
招生狀況 招生狀況分群
圖書館資源 配置程度
圖書館平均服務員生人數 圖書館平均服務員生 人數分群
每人館藏 擁有量
每人書籍擁有量 每人館藏擁有量分群 每人視聽資料擁有量
每人期刊報紙擁有量 館藏成
長量
書籍冊數成長量 館藏成長量分群 視聽資料成長量
期刊報紙成長量
圖書館使用量 平均圖書借閱量 平均圖書借閱量分群
三、圖書館周圍設施之布林變項處理
本研究其中一個重要的研究變項是具有多值類別變項資料類型的圖書館周圍設施。
儘管此資料已經是類別資料,但因為圖書館周圍存在多個不同的設施,使得圖書館周 圍設施單一變項中可能會包含一個以上的類別編碼,不能以此直接進行關聯規則分析。
本研究參考 Agrawal 等人(1993) 的作法,將圖書館周圍設施各個類別編碼轉換為 二元的布林變項(Boolean variables),將單一的圖書館周圍設施變項轉換成 12 種設施類 別資料,以編號 f01 至 f12 來表示。若圖書館旁邊有符合某類別的設施,則該設施類別
66
則為「有」,否則為「無」。其中本研究不將「無」納入關聯規則分析中,僅看圖書 館「有」鄰近某種設施的情況。以表 3-6 中的玉井工商學校圖書館為例,該圖書館周圍 有對應「景觀休憩區」(f08)的校園景觀、對應「校園生活區」(f07)的餐廳與學生宿舍、
對應「動態活動區」(f03)的操場以及對應「普科教室」(f01)的教學大樓和學生教室,
因此對應設施類別編號「f01」、「f03」、「f07」跟「f08」的值設為「有」,其他設 施類別編號則是為「無」。在後續關聯規則分析中,每一種設施類別編號皆為關聯規 則中的一個項目,以此作為關聯規則分析的依據。
表 3-6 圖書館周圍設施二元向量表示舉例
學校
設施類別編號