• 沒有找到結果。

第五章 線上分析與資料探勘

5.1. 線上分析處理

5.1. 線上分析處理

透過資料前處理與資料倉儲建置步驟,我們巳建置了兩個資料立方體(Data cube) 包括了:「學校及學生問卷」和「學校問卷」的資料立方體,共包含了 9 個量值及 14 個分析維度,在本章線上分析(OLAP)處理階段,為了分析各學校間造成數位落差之 現況,將會產生以下議題需要探討:

z 如何去找出線上分析(OLAP)主題呢?

z 如何利用線上分析主題去分析這些具有多維度概念階層的倉儲資料呢?

z 如何在數以百計的維度層級切換組合中找出與資料探勘任務相關的組合?

z 用什麼樣的標準來評估維度層級切換結果的適當性呢?

為了解決以上問題,首先,我們提出由上往下(Top-Down) 階層式的線上分析 法,可針對線上分析(OLAP)主題進行分析並找出與主題相關的維度,做為下一階段資 料探勘工作的參考資訊。其次,在線上分析(OLAP)主題方面,我們結合「學校與學生 數位落差評估指標架構圖」,對照我們所建置的14 個維度及 9 種量值,建立了「中

29

小學數位落差 OLAP 主題分析表」。最後,在找出與資料探勘任務相關的組合及評估維 度層級切換結果的適當性方面,由於透過異常值的探查,可以找出與資料探勘任務相 關的層級組合,因此本研究根據維度層級資料變項的敘述統計(descriptive statistics)值 來評估異常的程度,並以「集中程度」與「離散程度」兩個角度來觀察維度層級切換 結果的適當性。

(1) 由上往下(Top-Down) 階層式的線上分析法

一般而言,我們可從最高概念階層往下分析,由較大的顆粒資料集往較小的 顆粒資料集分析,或者說從巨觀到微觀,可採一種「由上往下(Top-Down) 階層 式的分析」方法,分析流程如圖5.1 所示。

圖 5.1: 由上往下(Top-Down) 階層式的線上分析流程圖

根據圖5.1 所示分析流程,我們可將整體分析流程細分為,依據資料分析目標,

建立一OLAP 主題分析表、選擇目標量值及相關維度、調整分析維度、進行線上

30

分析、評估量值結果、完成線上分析目標等8 個步驟來進行如圖 5.2 所示:

由上往下(Top-Down) 階層式的線上分析法 步驟1 建立一OLAP 主題分析表。

步驟2 選擇目標量值及相關維度,並填入主題分析表中。

步驟3 依分析主題填入維度分析順序(可以參考領域專家知識)。

步驟4 依分析主題所規畫順序,選擇啟始量值及分析維度。

步驟5 調整分析維度,(Drill-down, Roll-up,Slice,Dice,Pivot) 步驟6 進行線上分析。

步驟7 評估量值結果。

步驟8 是否完成線上分析目標?

是,結束分析。

否,回步驟 5。

圖 5.2: 由上往下(Top-Down) 階層式的線上分析法

其中在步驟3,我們除了依據「領域專家知識」來決定維度分析順序外,也可以 參考資料分析者所感興趣的維度來決定維度分析的順序。

根據上述分析流程,在選擇了目標量值及維度後就可進入線上分析操作,我們可 透過各種線上分析基本操作看到不同的維度層級的量值變化,評估量值結果,挑選出 我們所需要的分析結果。

例如:當我們從問卷量值概念階層表中最高層挑選 4 個概念主題,配合 5 個維度 表,填入分析的順序後,則可組成OLAP 主題分析(表 5.1)如下:

31

表 5.1:OLAP 主題分析表 分析維度

分析主題

地理位置 學生規模 教師規模

是否為種子 學校

是否為私立 學校

學校資源 1 4 2 3

資訊技能 1 3 4 2

資訊應用 3 2 4 1

課堂資訊教學 2 1 3 4

從上面OLAP 主題分析表中,可看出有 5 個維度資料,如果僅取用(地理位置,

學生規模,教師規模)這 3 個維度進行線上分析時,可組合出 8 種不同的資料表關係,

其關係如圖5.3 所示,而且,由每一個維度又包含數個屬性階層關係,因此實際組合 關係將達到150 種。

圖 5.3: 地理位置,學生規模,教師規模維度組合圖

32 範例 10:學校資源分析

以「由上往下(Top-Down)階層式的分析」方法,透過「地理位置」、「公私立 學校」、「教師資訊政策」分析維度的切換來分析「學校資源」問卷量值。

我們首先以2004 年台灣地區中小學學校的「學校資源」量值,配合前述維度 及分析順序,首先是「地理位置」、其次是「公私立學校」、最後為「教師資訊 政策」3 個維度,組成學校資源 OLAP 主題分析(表 5.2)如下:

表 5.2:學校資源OLAP 主題分析表 分析維度

分析主題

地理位置 學生規模 教師規模 是否為種子學校 是否為私立學校 資訊教學人力不足 資訊教學設備不足 教師資訊政策 教師資訊融入教學能尚待加強 現有資訊教學設備維護不易 校長支持度不高

學校資源 1 2 3

首先是「地理位置」維度的切換分析,在下圖5.4 可看出學校資源最佳的學 校地理位置是在中區及北區。

圖 5.4: 全國學校資源最佳地區

33

我們可再就北區學校進行下探(drill-down)的分析,如下圖 5.5,可看出台北市是北 區學校中,資源最佳的學校。

圖 5.5: 北區學校中資源最佳的學校

我們可再就公私立學校、教師資訊政策維度進行下探(drill-down)的分析,如下圖 5.6

圖 5.6: 教師資訊政策佳,學校資源佳

上圖5.6,可看出大部分的學校,「教師資訊政策」維度與「學校資源」量值有

34

正相關的趨勢,也就是說,大部分的學校「教師資訊政策」愈好時則「學校資源」也 會愈好,由圖5.6 的中區、北區及南區學校的「學校資源」的 OLAP 統計圖中即可看 出,但是必須注意的一點是在大趨勢之下,隨著地理位置的不同,也會有不同的趨勢 出現,例如:在上圖5.6 中,中區「學校資源」較佳的學校是分佈於學校「教師資訊 政策為0.5」之處,與北區公立學校及南區學校分佈於學校「教師資訊政策為 1」之 處,這兩類之間是有差異的。

而且,東區公立學校,「教師資訊政策為0」的「學校資源」略優於「教師資訊 政策為1」,這樣的結果也是不同於其他地理置的「教師資訊政策」對「學校資源」

的影響。

另外,從「公私立學校」的維度來分析,也可看出「學校資源」量值隨著地理位 置的不同,也會有不同的趨勢出現,例如:中區、北區公立學校的「學校資源」優於 私立學校,但是在東區、南區卻是私立學校的「學校資源」較佳。

所以經上述的分析結果,我們可以看出「地理位置」、「公私立學校」、「教師 資訊政策」這三個維度是影響「學校資源」量值相關的維度。

由上例中我們可了解到籍由調整維度的分析階層,就可以觀察出不同的量值資訊 的趨勢,這些結果,將是下一階段資料探勘工作的重要參考資訊。我們也可以利用上 述的分析流程,對其他主題進行線上分析,這些相關分析結果將詳述於第六章的實作 部分。

35 (2) 中小學數位落差 OLAP 主題分析表

下表 5.3 為2004 年台灣地區中小學校數位落差分析維度及量值名稱表,表中分析 維度及量值是根據前述2 個事實資料表中 9 個量值及 12 個維度表所建立出來的,共 建立了2 個資料立方體(Data cube),「學校及學生問卷」和「學校問卷」的資料立方 體,其中包含了14 個分析維度及 9 個量值。

表 5.3:2004 年台灣地區中小學校數位落差分析維度及量值名稱表

維度名稱 值域 量值名稱 值域

1. 地理位置(Location) 0~3881 社經地位 0~1 2. 學生人數規模(Student scale) 0~8340 進階資訊技術 0~1 3. 教師人數規模(Teacher Scale) 0~283 資訊技能 0~1 4. 是否為私立學校(Private School) 0 .or.1 資訊使用支援 0~1 5. 是否為資訊種子學校(Seed) 0 .or.1 資訊近用 0~1 6. 資訊教育方案執行程度 0~1 資訊應用 0~1 7. 教師資訊政策執行程度 0~1 網路素養 0~1 8. 校長支持度不高狀況 0~1 課堂資訊教學 0~1 9. 教師資訊融入教學能力尚待加強 0~1 學校資源 0~1 10.資訊教學設備不足狀況 0~1

11.現有資訊教學設備維護不易狀況 0~1 12.資訊教學人力不足狀況 0~1

13.學校男女比例 0~1

14.學生與父母同住之比例 0~1

參考中小學數位落差相關資料中有關於「學校與學生數位落差評估指標架構 圖」,對照我們所建置的14 個維度及 9 種量值,可得對照表 5.4 如下:

36

37

38

39

資源設備、學生家中資訊設備、學生資訊基本技能、學生資訊進階技能、學生資訊道 德的分析意含。

維度是分析量值的角度,其中地理位置維度,分為六個層階供分析者作不同地理 範圍及組合的分析,學生人數、教師人數均分為五個層階供分析者作不同人數範圍及 組合的分析,私立學校及資訊種子學校均分為{是,否}的範圍供分析,其他還有屬於 資訊教學活動的資訊教育方案維度、獎勵教師的資訊教師政策維度,除此之外尚有關 於學校政策的維度如:校長支持度不高、教師資訊融入教學能力尚待加強、資訊教學 設備不足、現有資訊教學設備維護不易、資訊教學人力不足等。在建立OLAP 主題分 析表後,搭配應用前述的「由上往下(Top-Down)階層式的分析」,我們將可從維度 來分析量值,找出與量值相關的維度資訊,以做為下一階段資料探勘工作的參考。

(3) 維度層級切換與評估

由於在資料倉儲中的資料集合非常大,因此在進行線上分析時,將面臨兩個問題:

就是如何在數以百計的維度層級切換組合中找出與資料探勘任務相關的組合,以及用 什麼樣的標準來評估維度層級切換結果的適當性。

首先說明的是關於找出最佳維度層級切換組合的問題,因為是屬於資料立方體探 查(Exploration of data cubes)問題,而這類問題有兩種處理法[15]:

(a).假設驅動的探查 (Hypothesis-driven exploration):

資料分析師可OLAP 基本操作例如如:上捲(roll-up)、下探(drill-down)、 切片 (slice)、切丁(dice)、樞紐(pivot)或稱轉軸分析,協助資料分析者,從不同角度、

機動地進行量值資料觀查與驗證統計資料,可挑出所有最佳層級組合性。

(b). 發現驅動的探查 (Discovery-driven exploration):

這種是為資料立方體中所有異常(exception)單元值加上標識,例如:不同的背景顏 色,它有三種標識法,SelfExp:相較於同層級單元值異常的程度,InExp:在指示

40

單元值下層級某個單元有異常的程度。PathExp: 在指示單元值下層級每條下探 (drill-down)路徑異常的程度。

透過異常值的探查,可以找出與資料探勘任務相關的層級組合。但是須定訂評估

透過異常值的探查,可以找出與資料探勘任務相關的層級組合。但是須定訂評估

相關文件