• 沒有找到結果。

通過學系篩選學生會報名參加甄試之特性分析

第四章 研究結果與分析

第二節 通過學系篩選學生會報名參加甄試之特性分析

本節為甄試報名階段,從這階段開始我們將使用關聯規則來進行各階段的資料 分析,希望能從資料中找出有用的規則出來。本階段把某科系最初的195 筆資料按 照地區、學校以及分數三大類進行排列後輸入進 R 語言,並使用 arules 套件進行 Apriori 演算法來進行資料的分析,由於考慮到關聯規則會將所有的可能條件都逐一 排列出來,為了找出具有意義的規則出來,我們將對增益值做條件上的限制,只保 留下增益值≥1 的規則,因此可以認為所保留下來的規則都是有意義的規則。再接 著雖然保留下了所有有意義的規則,但是要觀察起來還是很費時,因此我們將結果 項目的部分設定成只留下會參加甄試報名的規則,其餘的可能組合將不會被顯示出 來。最後為了能看出對於學校能夠有幫助的範圍有哪些,因此我們將分別給予不同 的支持度來進行觀察和比較,將支持度依次從0.1 開始測試,接著是 0.2、0.3、0.4 到 0.5,從這幾個條件來觀察出哪些規則對於學校來說是有幫助的。首先是支持度

34

0.1、信心度 0.5 的條件,經過篩選並將多餘的規則清除掉後,最後得出的結果一共 有56 條規則,如圖 4.8。

圖4.8a 報名學生-支持度 0.1

35

圖4.8b 報名學生-支持度 0.1

36

圖4.9 報名學生-支持度 0.1 座標圖

圖4.9 為關聯規則的平行座標圖,左側為規則的原因,左上角的規則為結果項 目,圖的下方表示規則的階層,如圖所示,在支持度0.1 的情況下,原因間的組合 最多可以達到三個條件,另外從圖4.9 裡我們可以看出支持度越高的,在座標圖裡 顯示的線條也就越粗,而增益值越低,顯示的顏色也就會越紅,例如數學為後標的 規則它的支持度最高,因此線條的就越粗,反之自然為底標的規則他的支持度最低,

所以它的線條也越細,由於本研究在增益值的部分將其限制成只保留下具有意義的 規則,因此在顏色的部份我們可以忽略不去觀看。從圖4.9 裡我們可以發現到,在

37

支持度為0.1 的時候,會報名該系所甄試的可能性有左側 14 種的主要原因,而跟圖 4.8 相互觀察後我們可以得知該條件下一階項目的規則一共有 11 條、二階項目的規 則有44 條和三階項目的規則 1 條,在全部的規則裡支持度 0.1 的規則為最多的。

圖4.10 報名學生-支持度 0.2

38

圖4.11 報名學生-支持度 0.2 座標圖

接著將支持度調整為0.2、信心度保持 0.5,並按照前面的流程如圖 4.10 最後得 出共有 34 條規則。經過刪除 0.1 支持度的規則後,從圖 4.11 裡我們可以看到作為 會來報名該科系甄試的主要原因下降為12 種,規則的階層也下降為二階,將圖 4.10 和 4.11 相互觀察後我們可以看出該條件下一階項目的規則一共有 9 條、二階項目 的規則有 25 條,而 0.2 支持度的規則數目相對於其他兩個支持度的數目相對來的 多。

39

圖4.12 報名學生-支持度 0.3

圖4.13 報名學生-支持度 0.3 座標圖

40

之後再將支持度調整為0.3、信心度保持 0.5,如圖 4.12 最後共有 11 條規則。

從圖4.13 裡我們可以看出,由於支持度的提高左側的原因減少到 8 種,而根據圖中 表示,在一階項目裡我們得出一共7 條規則出來,在二階項目裡我們一共得出了 4 條規則出來,其中以數學為後標的且自然為後標的以及自然為後標的且社會為後標 的兩條規則為四條組合裡佔最高支持度的兩條規則。

圖4.14 報名學生-支持度 0.4

41

圖4.15 報名學生-支持度 0.4 座標圖

最後再將支持度設定為0.4、信心度維持 0.5,最後結果如圖 4.14 一共剩下 4 條 規則。不過由於得出的規則裡並無大於 0.5 支持度的規則,所以 0.5 支持度的條件 就沒有去測試。如圖4.15 所示,由於剩下的規則都為 0.4 以上的規則且二階以上的 規則也沒有了只留下一階的規則下來,因此在座標圖中才會只顯示出只有一條紅線 而已。而從圖中我們可以發現最終被保留下來的規則都是該階段研究出支持度最高 的幾個規則。

隨著支持度的增加,許多低支持度的規則會被排除掉,雖然找出了最有可能性

42

的規則出來,但是最為參考的對象,支持度0.4 仍嫌太少,所以決定以支持度 0.3 來 做為參考的依據。測試的結果得出,數學分數為後標的學生、地區為南部的學生、

社會分數為後標的學生以及總級分落在 31~35 分的學生這四條規則是最有可能報 名參加甄試的學生,而作為組合的規則來看,數學分數為後標的且自然成績為後標 的學生、社會成績為後標的且自然成績也為後標的學生、數學成績為後標且總及分 為31~35 的學生以及地區是南部且自然成績為後標的學生,這四個組合發生的可能 性都高達30%以上。

相關文件