結合資料倉儲與資料探勘的技術分析中小學數位落差

全文

(1)國立交通大學理學院網路學習碩士專班碩士論文. 結合資料倉儲與資料探勘的技術分析中小學數位落差 Applying Data Warehousing and Data Mining Techniques to Analyze The Digital Divide of K-12. 研究生：蕭斯聰指導教授：曾憲雄中華民國. 博士. 九十三. i. 年六月.

(2) 結合資料倉儲與資料探勘的技術分析中小學數位落差 Applying Data Warehousing and Data Mining Techniques to Analyze The Digital Divide of K-12. 研究生：蕭斯聰. Student：Hsi-Tsung Hsiao. 指導教授：曾憲雄. Advisor：Shian-Shyong Tseng. 國立交通大學理學院網路學習碩士專班碩士論文. A Thesis Submitted to Degree Program of E-Learning College of Science National Chiao Tung University in partial Fulfillment of the Requirements for the Degree of Master in Degree Program of E-Learning June 2004 Hsinchu, Taiwan, Republic of China. 中華民國九十三年六月. ii.

(3) 結合資料倉儲與資料探勘的技術分析中小學數位落差 Applying Data Warehousing and Data Mining Techniques to Analyze the Digital Divide of K-12. 研究生：蕭斯聰. 指導教授：曾憲雄博士國立交通大學. 理學院網路學習碩士專班. 摘要對於一個商業或研究機關團體在從事主題研究後，累積了大量的研究資料時，要如何有效的管理及善用這麼龐大的重要資源，成為每一位研究工作者所要面對的課題。本論文主要在提出如何應用「資料倉儲」(Data Warehousing) 及線上分析處理(On-Line Analytic Processing, OLAP)的技術，完成「應用資料倉儲技術之問卷分析」的架構與設計，並利用「資料探勘」(Data Mining)技術來對「中小學數位落差資料」進行分析與歸納的研究。研究過程可概分為三個階段(1)資料前處理階段:將蒐集到的資料進行過濾、整合、轉換等資料前處理程序後，成為可適用於資料倉儲的資料格式。(2)資料倉儲建置階段:將資料前處理程序後的資料，建立成具有多維度資料模型結構的資料方塊體（Data Cube）後，存入「中小學數位落差資料倉儲」。(3)線上分析及資料探勘階段:在多維度資料倉儲建置完成後，便可進行「線上分析」及「資料探勘」的處理，產生有意義的資訊或特徵。而且，使用「資料探勘」的技術，結合受訪者的相關背景特徵資訊來進行群集(Clustering)分析，利用分群後的群集個體差異，來建立可代表各群集的「數位學習落差形成因素」決策樹(Decision Tree)，再從決策樹歸納出有效的規則，可供學生、教師、學校作進一步的調查或研究之用，也可作為推行中小學資訊教育計畫決策的依據或相關研究工作的使用。關鍵字：數位落差(Digital Divide)、資料倉儲(Data Warehousing)、線上分析處理(On-Line Analytic Processing, OLAP)、資料探勘(Data Mining) iii.

(4) Applying Data Warehousing and Data Mining Techniques To Analyze the Digital Divide of K-12. Student: Hsi-Tsung Hsiao. Advisor: Dr. Shian-Shyong Tseng. Degree Program of E-Learning College of Science National Chiao Tung University. Abstract To conduct researches of some specific topics, we should firstly collect related resources. Therefore, how to manage and use such enormous and important resources becomes an issue to deal with. In this thesis, we will bring up the ideas of how to apply Data Warehousing and On-Line Analytic Processing techniques to carry out the framework of this research, and then make use of Data Mining techniques to analyze the data resources of The Digital Divide of K-12. There are three phases in the research process including the preprocessing phase, the data warehousing phase and the OLAP and Data Mining phase. In the preprocessing phase, the raw data will be filtered, transformed and integrated into the suitable format for the data warehouse. In the data warehousing phase, a multidimensional data cube will be built based on the preprocessed data from prior phase, and then will be stored in the Data Warehouse of The Digital Divide of K-12. In the OLAP and Data Mining phase, after the multidimensional data warehouse has been built, the OLAP and Data Mining procedure can be performed and some meaningful results may be generated. Also, some Data Mining techniques can be applied to perform cluster analyses on the background of the interviewees. Finally, the differences of the clusters can be used to build the Decision Tree that represents the factors which form The Digital Divide of K-12. The effective classification rules extracted from the Decision Tree will help students, teachers or schools for further investigation. These results may be useful for making policy decision for the development of information education in K-12 or other related researches. Keyword: Digital Divide, Data Warehousing, On-Line Analytic Processing. OLAP, Data Mining. iv.

(5) 誌謝. 本論文得以順利完成，首先要感謝的是我的指導教授，曾憲雄博士兩年以來在課堂上及課外的指導與教誨，無論在研究方法、論文撰寫，抑或是遇到瓶頸時都不厭其煩的給予指導，適切地引領我進入一個新的學習領域，使我在做學問與待人處世方面都有很大的精進。更承蒙莊祚敏教授、黃國禎教授與楊錦潭教授在口試期間不吝指正，並給予許多寶貴的意見，使得本論文更有價值與意義，同時也使我受益良多，不勝感激。此外十分感謝由曾憲雄、張維安、黃國禎教授等，所提供的中小學數位落差之相關研究資料，由於這些相關資料的協助使本論文的研究內容更加充實完整。也要感謝理學院網路學習專班多位老師的教導，還有實驗室的各位學長陳威州、林耀聰、王慶堯、林順傑、曲衍旭學長的提攜，尤其是蘇俊銘、翁瑞鋒兩位學長的指導與鼓勵，使我在課業及待人處事上，受益匪淺。此外，實驗室中的同窗，哲青、王威、培綺、家瑜、力豪、于彰、建豪、佩琪同學等人的相互勉勵，以及實驗室與專班的助理小姐們、同學及學弟妹們的諸多幫助與鼓勵，還有所任職的學校同事、長官的支持與協助，讓我兩年的碩士生涯能夠充實而愉快地度過，謝謝各位。最後，我要感謝在背後默默陪著我的家人與妻子靜星對我的支持與鼓勵，有你們的支持與關愛，使我能順利完成論文的研究與撰寫，於此表達無限的感謝，僅將此論文獻給所有關心我的家人、師長與朋友。. 蕭斯聰謹識 2004 年 7 月於新竹交通大學知識工程實驗室. v.

(6) 目錄. 摘要.............................................................................................................................. iii Abstract .........................................................................................................................iv 誌謝................................................................................................................................v 目錄...............................................................................................................................vi 圖目錄......................................................................................................................... vii 表目錄...........................................................................................................................ix 第一章緒論............................................................................................................1 1.1. 研究動機................................................................................................1 1.2. 研究方法與貢獻....................................................................................2 1.3. 論文架構................................................................................................3 第二章相關文獻探討............................................................................................4 第三章應用資料倉儲技術之問卷分析架構........................................................7 3.1. 系統架構與資料處理流程....................................................................7 3.2. 架構設計動機與探討............................................................................8 第四章資料前處理..............................................................................................11 4.1. 資料彙整與資料淨化處理..................................................................12 4.2. 資料轉換處理......................................................................................14 4.3. 階層性維度與資料倉儲之建置..........................................................23 第五章線上分析與資料探勘..............................................................................28 5.1. 線上分析處理......................................................................................28 5.2. 資料探勘分析......................................................................................42 5.2.1. 分群分析..............................................................................................43 5.2.2. 決策樹分析..........................................................................................44 5.2.3. 預測分析..............................................................................................46 第六章系統實作..................................................................................................48 6.1. 線上分析流程實作..............................................................................48 6.2. DMAS 線上資料探勘分析系統實作 .................................................72 第七章結論與未來展望......................................................................................80 參考文獻......................................................................................................................82. vi.

(7) 圖目錄圖 3.1: 應用資料倉儲技術之問卷分析架構 ....................................................7 圖 4.1: 資料前處理流程圖.......................................................................................11 圖 4.2: 問卷題目量化轉換(QINMT)演算法.............................................................15 圖 4.3: 學生人數統計圖...........................................................................................20 圖 4.4: 維度概念階層知識擷取(MDCHKA)演算法...................................................23 圖 4.5: 資料立方體之星狀綱要...............................................................................27 圖 5.1: 由上往下(Top-Down) 階層式的線上分析流程圖.....................................29 圖 5.2: 由上往下(Top-Down) 階層式的線上分析法.............................................30 圖 5.3: 地理位置，學生規模，教師規模維度組合圖...........................................31 圖 5.4: 全國學校資源最佳地區...............................................................................32 圖 5.5: 北區學校中資源最佳的學校.......................................................................33 圖 5.6: 教師資訊政策佳，學校資源佳...................................................................33 圖 5.7: 課堂資訊教學量值對應學生規模與地理分區之分析圖...........................40 圖 5.8: 兩層式資料探勘方法流程圖.......................................................................42 圖 5.9: 學校政策環境對資訊能力之決策樹...........................................................45 圖 5.10: 透過決策樹進行預測分析.........................................................................47 圖 6.1: 線上分析系統之資料立方體.......................................................................48 圖 6.2: Excel 樞紐分析畫面....................................................................................49 圖 6.3: 學生資訊學習環境相關指標統計圖...........................................................51 圖 6.4: 學校地理位置及教師資訊政策維度分析課堂資訊教學之量值統計圖...52 圖 6.5: 學校地理位置及資訊教育方案維度分析課堂資訊教學之量值統計圖...52 圖 6.6: 北區學校及資訊教育方案維度分析課堂資訊教學之量值統計圖...........53 圖 6.7: 北區學校及資訊教育方案維度分析資訊使用支援之量值統計圖...........54 圖 6.8: 北區學校及與父母同住維度分析資訊使用支援之量值統計圖...............54 圖 6.9: 學校地理位置維度分析社經地位之量值統計圖.......................................55 圖 6.10: 北區學校維度分析社經地位之量值統計圖.............................................55 圖 6.11: 加入公私立學校維度分析社經地位之量值統計圖.................................56 圖 6.12: 學生資訊近用相關指標統計圖.................................................................56 圖 6.13: 學校地理位置及教師資訊政策維度分析學校資源之量值統計圖.........57 圖 6.14: 資訊融入教學能力尚待加強維度分析學校資源之量值統計圖.............58 圖 6.15: 學校地理位置及資訊教育教育方案維度分析學校資源之量值統計圖.59 圖 6.16: 學校地理位置及資訊種子學校維度分析學校資源之量值統計圖.........60 圖 6.17: 學校地理位置及學生人數維度分析學生資訊近用之量值統計圖.........60 圖 6.18: 學校地理位置及與父母同住維度分析學生資訊近用之量值統計圖.....61 圖 6.19: 學校地理位置及公私立學校維度分析學生資訊近用之量值統計圖.....61 vii.

(8) 圖 6.20: 學生資訊應用指標統計圖.........................................................................62 圖 6.21: 現有資訊教學設備維護不易維度分析學生資訊應用之量值統計圖.....63 圖 6.22: 現有資訊教學設備不足維度分析學生資訊應用之量值統計圖.............63 圖 6.23: 學校地理位置及教師資訊政策維度分析學生資訊應用之量值統計圖.64 圖 6.24: 學生資訊素養相關指標統計圖.................................................................65 圖 6.25: 北區學校及資訊教育方案維度分析學生資訊技能之量值統計圖.........65 圖 6.26: 學校地理位置及學生人數維度分析學生進階資訊技能之量值統計圖.66 圖 6.27: 教師資訊政策維度分析學生進階資訊技能之量值統計圖.....................67 圖 6.28: 資訊融入教學能力尚待加強維度分析進階資訊技能之量值統計圖.....67 圖 6.29: 資訊融入教學能力尚待加強維度分析學生網路素養之量值統計圖.....68 圖 6.30: 加入私立學校維度分析學生網路素養之量值統計圖.............................68 圖 6.31: 加入學生人數維度分析學生網路素養之量值統計圖.............................69 圖 6.32: 中小學數位落差綜合分析之相關指標統計圖.........................................69 圖 6.33: DMAS 線上資料探勘系統 (DMAS-OLAM)....................................................72 圖 6.34: DMAS 線上資料探勘系統中分群分析畫面................................................73 圖 6.35: 各分群之資訊能力指標比較圖.................................................................74 圖 6.36: DMAS 線上資料探勘系統中決策樹分析畫面............................................76 圖 6.37: 學校資訊能力決策樹模型.........................................................................76 圖 6.38：決策樹中對分類較有影響力之欄位.........................................................77. viii.

(9) 表目錄表 4.1：資料淨化前之資料範例...............................................................................13 表 4.2：二選一型題型問卷填答範例.......................................................................16 表 4.3：程度性單選題題型問卷填答範例...............................................................17 表 4.4：非程度性單選題題型問卷填答範例...........................................................17 表 4.5：複選題題型問卷填答範例...........................................................................18 表 4.6：排序題題型問卷填答範例...........................................................................18 表 4.7：候選概念項描述表.......................................................................................24 表 4.8：第 1 層概念階層組織特徵選擇與命名.......................................................24 表 4.9：第 2 層概念階層組織特徵選擇與命名.......................................................24 表 4.10：輸出結果問卷概念階層知識.....................................................................25 表 4.11：學校及學生實事表.....................................................................................26 表 4.12：學校實事表.................................................................................................26 表 5.1：OLAP 主題分析表..........................................................................................31 表 5.2：學校資源 OLAP 主題分析表 ......................................................................32 表 5.3：2004 年台灣地區中小學校數位落差分析維度及量值名稱表..................35 表 5.4：學校_數位落差量值維度與評估指標架構圖對照表.................................36 表 5.5：學生_數位落差量值維度與評估指標架構圖對照表.................................37 表 5.6：中小學數位落差 OLAP 主題分析表.............................................................38 表 5.7：課堂資訊教學量值對應學生規模與地理分區之分析表...........................41 表 5.8：線上分析之評量參考值...............................................................................41 表 6.1：OLAP 主題量值與維度之分析順序表..........................................................50 表 6.2：各群群中心...................................................................................................74 表 6.3：決策樹規則之分類統計...............................................................................77. ix.

(10) 第一章. 緒論. 隨著資訊相關產業的發展，雖然提升了許多民眾在生活上資訊化的便利，但是卻也產生了新的問題：那就是數位落差(Digital Divide)。根據經濟合作發展組織 OECD 的定義，數位落差是指存在於個人、家戶、企業在不同社經背景或居住地理區位上，其接近使用資訊科技及運用網際網路所參與的各項活動的機會差距[7]。這種差異表現在社會面上有資訊取得不易、教育機會少、工作機會少、收入偏低等。而資訊傳播科技所帶來的好處亦並非公平散佈，但其壞處卻往往集中在弱勢群體，造成資訊富人和資訊窮人，尤其是受教育機會的不公平，以及受教育環境的差異[2]。數位落差現象存在於社會中，造成資訊、知識的吸收與技術利用的不平等，因此，政府必須對於弱勢族群提供資源與協助，以降低數位落差，為了提昇國家競爭力，全民上網、企業上網與政府 e 化服務的應用為必要的措施 [1]。另外，分析數位落差造成之原因，更是提供政府解決數位差之重要決策依據，所以本研究將針對分析的技術與方法，來進行探討。. 1.1. 研究動機世界各進國家致力於數位落差的相關研究時，資料分析方法大多是以問卷及面訪方式進行，針對人口統計變數進行抽樣統計分析[4]。然而在這些大量的資料中，例如：問卷調查資料，常隱藏著極為有用的資訊或知識，在以往的資料分析技術所用的方主要是以統計分析為主，如：敘述統計、機率論、迴歸分析、類別資料分析等皆屬之。然而傳統統計方法往往受限於問卷之設計，而且傳統統計方法是屬於假設、驗證的分析模式，並無法發現超出分析者思考範圍之資訊。另外國內外目前針對數位落差資料以資料倉儲(Data Warehousing )、線上分析處理(On-Line Analytic Processing, OLAP)與資料探勘(Data Mining)等技術來進行分析與歸納的研究尚不多。設定資料方塊體（Data Cube）仍需資訊技術人員撰寫資料庫程式規範，傳統採問卷調查的研究者很難將分析理念由程式表達，因此需要一種資料處理系統或機制，可以協助領域專家或資料分析者從專業角度直接去分析所感興趣的欄 1.

(11) 位量值。然而從問卷調查結果的形成因素來看，如何同時參考多種不同類型的背景資訊或現有的歷史資料，歸納出數位落差形成因素及規則，也是另一項重要議題。. 1.2. 研究方法與貢獻在本篇論文中，主要在提出應用資料倉儲技術之問卷分析架構之設計，其中應用了「資料倉儲」技術去彙集、轉換並整理資料，並搭配使用「資料探勘」技術去發覺出潛在而有用的型樣（Patterns）或規則（Rules）。整體分析架構可分為三個階段：. (1). 資料前處理階段：在資料前處理階段，使用了資料淨化(cleaning) 處理、資料平滑(smoothing)、聚集(aggregation)與正規化(normalization)等處理，並提出了問卷題目量化轉換 (Questionnaire Item Normalization and Measure Transformation, QINMT)演算法，來將問卷中不同的題型答案資料轉為可適用於資料立方體中的量值形式。. (2). 資料倉儲之建置階段：本研究提出了多維度概念階層知識擷取 (Multiple Dimension Concept Hierarchy Knowledge Acquisition, MDCHKA) 演算法，來擷取領域專家對問卷中的概念階層知識，其中量值概念階層知識，可以指導量值聚集(Measurement Aggregation)計算的處理,產生廣義化(Generalize)的新量值，經過這些程序後所建立的量值是一個具有較高階層概念的量值資料集合，此階段整理了資料維度與量值，並將之建置成資料倉儲中資料立方體。. (3). 線上分析與資料探勘階段：透過建立好的資料立方體，利用線上分析工具[9]，採用「由上往下(Top-Down) 階層式的分析」方法，挑選出各層級重要的資料變項，利用上捲(roll-up )或下探 (drill-down)等 OLAP 基本查詢操作，即可進行資料立方體的線上分析。資料探勘 [8]分析部分，基於資料探勘輔助系統(Data Mining Assisted System,DMAS)的核心技術基礎下[5]，本研究完成了使用兩層式資料探勘方法之 DMAS 線上資料探勘系統 OLAM(On Line Analytical Mining, OLAM)，這是結合了分群演算法 2.

(12) 分析出學校資訊能力類別，然後再使用決策樹演算法針對資訊能力類別建立決策樹，之後則可透過建立好之決策樹模型，進行預測查詢分析。透過此分析系統，分析者可以更便利的進行資料探勘分析。. 除了上述的資料倉儲問卷分析架構之設計之外，關於實作部分，我們參考由曾憲雄、張維安、黃國禎教授等，所提供的中小學數位落差之相關研究資料。進行了相關的實作與驗證，由於這些相關資料的協助使本論文的研究內容更加充實完整。. 綜合以上所述，本篇論文之主要研究貢獻如下： z. 提出一個可處理不同問卷題型量化問題之資料轉換演算法。. z. 提出多維度概念階層知識擷取方法，以利建立資料立方體(Data Cube)。. z. 結合現有線上分析處理 OLAP 工具，提出資料分析流程之架構。. z. 完成 DMAS 線上資料探勘系統 (DMAS-OLAM)分析系統，輔助分析者更容易進行資料分析。. 1.3. 論文架構本篇論文共分為七章，第一章為緒論，第二章為相關文獻探討，介紹現今問卷分析方法相關的研究。第三章則說明我們提出的應用資料倉儲技術之問卷分析架構的設計，第四章為資料前處理之步驟，以及將問卷填答資料及相關資料轉換成量值與維度資料的前處理過程與演算法，在整理了資料維度與量值後，也說明如何將之建置成資料倉儲中資料立方體。第五章則是針對中小學數位學習落差資料立方體，進行線上分析及資料探勘系統之分析方法。第六章為系統實作，介紹我們完成之分析系統並呈現相關結果與分析，最後一章為本篇論文的結論與對未來研究的建議。. 3.

(13) 第二章. 相關文獻探討. 本章節主要是對數位落差分析、資料倉儲、線上分析及資料探勘等相關文獻進行探討，將介紹與數位落差分析相關的研究，如：數位落差的定義與因應方案、問卷資料分析方法，以及資料倉儲和決策支援工具的分析與介紹。 2. 在問卷分析相關的研究中，大多是以問卷及面訪方式進行，針對統計變數進行抽樣統計分析，例如:性別、年齡、所得、種族、地區與職業等，來看各種不同族群之間的差異性[3]。但就問卷資料分析方法若再進一步研究，有以下幾種:. (1).傳統推論統計分析法: 這類的分析方法是先針對問題進行假設，經問卷及抽樣設計後進行問卷調查或面訪，根據調查結果資料進行統計分析，驗證假設是否成立。例如:在台灣地區中等學校學生數位鴻溝差距狀況初研究中[11]，從「家庭收入」以及「居住地區都市化程度」兩項因素，對「資訊科技接近使用」、「資訊內容接近使用」、「資訊素養」三方面加以分析，以了解當前台灣地區中等教育體系中「數位鴻溝」的差距狀況。該項研究首先設定了六項假設，如：家庭收入在「資訊科技接近使用」上有顯著差異、家庭收入在「資訊科技接近使用」上有顯著差異等，在問卷於線上填答完畢後，所有填答資料隨即以 SPSS 8.0 for Windows 統計套裝軟體進行統計分析。而依據研究問題和各變項的性質，採取次數分配(frequencies)、卡方檢定(chi-square test)、單因子變異數分析(one-way ANOVA)：統計方法，分別對各項假設進行考驗，瞭解是否達.05 顯著差異水準。這類問卷資料分析法，雖可驗證假設，推論結果，可是因缺乏建立問卷階層概念，不易針對不同層級範圍的問題，進行統計分析。. 4.

(14) (2).結合分析層級程序(AHP)的統計分析法：這類問卷資料分析法，主要是應用「層級分析法」(Analytic Hierarchy Process, AHP)[24]，針對問題建立整體層級架構，再邀請學者專家建立各層級問題指標的相對權重，決定問題指標的優先順序，再進行一致性檢定，確定學者專家對權重值有一致性看法。根據指標層級架構設計問卷，再將問卷調查結果，結合層級問題目標的相對權重進行運算，算出各層級的指標評估分數，再進行統計分析。國內學者曾淑芬教授於 2003 年「台閩地區九十一年數位落差調查」即是採用上述分析法，進行問卷設計及調查，對於調查結果，計算各指標之權重比例，求得各層級指標的評估分數，接著以 SPSS8.0 統計套裝軟體進行分析，內容將包含描述性統計，以及家庭社經地位與各測量構面交叉分析，然後以各指標之權重進行加權，計算出台灣地區數位落差分數[12]。這類問卷資料分析法，巳較傳統單純推論統計較為進步，雖有建立問卷階層概念，也能針對不同層級範圍的問題，進行統計分析，可是因缺乏結合外部相關背景歷史資料，易造成分析結果單調或不足。. (3).結合線上分析(OLAP)技術的統計法: 這類問卷資料分析法，主要是應用線上分析(OLAP)技術，結合網路問卷系統，具有多維度資料結構系統，可對問卷調查資料進行線上統計分析。例如:經濟合作發展組織 OECD，所開發的統計管理應用軟體(StatWorks)[6]，即是應用上述資料分析技術，具有多維度資料統計分析功能，也可結合資料倉儲進行資料整合成為決策支援工具[9]，但是未見可針對不同問卷題型的填答資料量化轉換處理功能以及資料探勘的機制。. 綜合上述分析結果，我們可以了解到現有問卷資料分析方法有下列不足之處： z. 現有問卷分析方法，缺乏結合外部相關背景歷史資料，易造成分析結果單調或不足。. z. 現有問卷分析方法，對於問卷資料本身沒有做完善的資料前處理，因此容易造成資料分析結果的誤差。 5.

(15) z. 現有問卷分析方法，對於統計欄位沒有建立概念階層(Concept Hierarchy)機制，無法提供不同階層範圍的資料，進行不同層級間的動態分析。. z. 現有 OLAP 或 Data Mining 分析缺乏整合性工具，可以讓分析者自由方便的進行分析。. 6.

(16) 第三章. 應用資料倉儲技術之問卷分析架構. 為了解決傳統問卷分析在資料維度整合、操作性與累加性等的不足，因此我們提出了一個「應用資料倉儲技術之問卷分析」架構，透過資料倉儲與資料探勘技術，整合其他歷史資料庫，來進行多維度問卷分析。 3. 3.1. 系統架構與資料處理流程應用資料倉儲技術之問卷分析架構之分析流程主要分三個階段，如圖 3.1。. 問卷資料庫. 分析者領域專家. 教育部資料庫. 資料轉換處理. 線上分析 OLAP 資料. 多維度概念階層知識擷取. 立方體 Data Cube. ：：. 數位落差資料倉儲 Warehouse. 線上資料探勘 OLAM. 相關資料庫分析者. 階段1：資料前處理. 階段2：資料倉儲之建置. 階段3：線上分析與資料探勘. 圖 3.1: 應用資料倉儲技術之問卷分析架構 (1). 資料前處理階段：在此階段我們結合了原始問卷資料庫，以及其他相關歷史統計資料庫，以達到整合更多元化、多面向的方式來進行問卷分析。由於整合了不同來源、不同型態之資料，因此在資料前處理階段，使用了資料淨化 (cleaning) 處理、資料平滑 (smoothing) 、聚集 (aggregation) 與正規化 (normalization)等處理，並提出了問卷題目量化轉換 (Questionnaire Item Normalization and Measure Transformation, QINMT)演算法，來將 7.

(17) 問卷中不同的題型答案資料轉為可適用於資料立方體中的量值形式。. (2). 資料倉儲之建置階段：在此階段提出了多維度概念階層知識擷取 (Multiple Dimension Concept Hierarchy Knowledge Acquisition, MDCHKA) 演算法，來擷取領域專家對問卷中的概念階層知識，其中量值概念階層知識，可以指導量值聚集(Measurement Aggregation)計算的處理,產生廣義化(Generalize)的新量值，經過這些程序後所建立的量值是一個具有較高階層概念的量值資料集合。此階段整理了資料維度與量值，並將之建置成資料倉儲中資料立方體。. (3). 線上分析與資料探勘階段：透過建立好的資料立方體，利用線上分析工具，即可進行資料立方體的線上分析，並可使用上捲(roll-up )或下探(drill-down)等查詢操作，進行各層級的資料變項分析。經資料立方體視覺化的操作方式觀察分析後的結果，領域專家可以從多種的數位落差資料變項組合中發現重要的分析結果，並可透過參考概念階層對資料立方體的分析維度階層做調整，以取得理想的資料分析結果。資料探勘分析部分，基於 DMAS 核心技術，完成了使用兩層式資料探勘方法之 DMAS 線上資料探勘系統 (DMAS-OLAM)，結合分群演算法分析出學校資訊能力類別，然後使用決策樹演算法針對資訊能力類別建立決策樹，之後則可透過建立好之決策樹模型，進行預測查詢分析。. 由以上三階段規劃，我們可以了解到應用資料倉儲技術之問卷分析架構，在實作上，我們也可以透過團體分工，依照成員的研究專長進行任務分配，並將研究結果匯集，進而達到整體性分析的目標。. 3.2. 架構設計動機與探討如第二章所述，傳統的研究對於問卷之分析方法，大多以假設、驗證方式來進行，因此如果假設需要更改，往往需要大費周章的處理資料，甚至重頭設計問卷，且容易因問卷答題狀況造成整體分析結果的誤差。 8.

(18) 因此在問卷分析的領域中，將會產生以下幾點議題： z. 如何將現有問卷資料，增加結合外部相關資料一起分析之彈性？. z. 如何將不同問卷題型，以及不同來源之資料庫，有系統的轉換成可以互相比對分析之欄位？. z. 如何幫助分析者，為資料欄位建立概念階層(Concept Hierarchy)，以提供階層式動態分析機制？. z. 如何發展符合問卷分析之 OLAP 或 Data Mining 整合性分析工具，可以讓分析者自由方便的進行分析？. 為了解決以上幾點議題，我們將資料倉儲問卷分析架構流程分三個階段。分別是資料前處理階段，資料倉儲之建置階段，還有線上分析與資料探勘階段。. (1) 資料前處理階段：為了整合外部的資料，以期有多元化分析結果，因此本研究主要採取資料倉儲技術[13][14]，透過資料彙整並建立多維度資料欄位來進行問卷分析。然而對於多種題型之問卷來源資料，會造成題目間分析處理之困難，為了解決這個問題，我們提出了問卷題目量化轉換 (QINMT) 演算法，針對一般問卷常見題型，例如：單選、複選、是非、重要程度排序等題型，若含有程度性之意義，則透過資料轉換之技術，將不同題型的問卷資料，進行量化與正規化處理，以提供資料欄位間分析之正確性。而其他非程度性類型之問卷項目則規劃成文字型欄位。. (2) 資料倉儲之建置階段：由於結合了許多外部資料庫，為了更系統化的提供多維度、階層式之問卷分析功能，讓分析者能以不同的單位顆粒進行分析操作，在此提出使用資料倉儲技術，將問卷與其他資料庫之資料一起整合建構成數位落差資料立方體 (Data Cube)。由於問卷資料往往有許多相關之題目對應到相同的概念，而概念間亦有階層性的關係，為了能系統化整理 9.

(19) 出題目概念間之關係，本研究則提出了多維度概念階層知識擷取 (MDCHKA) 演算法，可透過填寫表格方式，來擷取領域專家對問卷中的概念階層知識。此概念階層可以指導量值聚集 (Measurement Aggregation)計算的處理,產生廣義化(Generalize)的新量值，並能以較適當之量值階層建置資料立方體，避免原始問卷資料太瑣碎，導致分析效果不佳。. (3) 線上分析與資料探勘階段：由於一般傳統統計分析方法是以假設、驗證模式進行問卷分析，在此則提出資料探勘方法，使用發現模式進行問卷分析，結合問卷以外之資料進行更多元化之分析，並可以產生問卷設計外之不同結果。然而一般資料探勘 (Data Mining)由於缺乏整合性，對分析者來說不容易進行分析操作，基於 DMAS 核心技術，開發完成了使用兩層式資料探勘方法之 DMAS 線上資料探勘系統 (DMAS-OLAM)，結合分群演算法分析出學校資訊能力類別，然後使用決策樹演算法針對資訊能力類別建立決策樹，以提供做預測分析。在此系統中並提供使用者依其需求調整分群分析與決策樹分析時，所使用之維度和資料階層來進行線上分析。. 10.

(20) 第四章. 資料前處理. 4. 在一般交易性處理(OLTP)的資料庫中常存在不完整的(incomplete)、雜亂的(noisy) 及不一致的(inconsistent)資料現象，因此需要資料前處理的流程，提高資料倉儲中的資料品質，進而提昇資料分析及探勘結果的品質。在這個章節中將說明資料彙整、資料浄化處理、資料轉換的作法及流程，並詳述如何將問卷填答資料及相關背景資料轉換為相對的測量值和維度資料。. 問卷資料庫 Source DB. 多維度. 教育部資料庫 Source DB. 資料彙整. 資料清理. 問卷量值轉換.. 概念階層知識擷取 KA (MDCH Algo.). 資料倉儲建置. ：：. 相關資料庫 Legacy DB. 圖 4.1: 資料前處理流程圖. 整體資料前處理流程，如圖 4.1 所示，可概分為資料彙整、資料清理、問卷量值轉換等三個階段來進行，其中資料來源有問卷資料庫、教育部資料庫、相關的歷史性資料庫，在經過資料前處理流程後，即可進行多維度概念階層知識擷取階段，擷取出多維度概念階層知識之後就可進入資料倉儲的建置階段。. 11.

(21) 4.1. 資料彙整與資料淨化處理在應用資料倉儲技術時，常需將多個資料來源進行整合，存放在一個具有一致性資料型態的資料儲存體中，也就是資料倉儲中，在資料整合過程中主要有三個議題需要考慮： z. 綱要整合(Schema integration)，將不同的資料庫實體 (entity) 來源進行資料整合，所以必須調整各資料實體間的資料綱要以取得一致性的資料綱要結構。. z. 重複的(Duplication)及多餘屬性值的處理問題，透過屬性間的相關分析 (Correlation analysis)偵測出多餘的屬性予以刪減。. z. 資料值衝突的問題，來自不同的資料庫可能用不同的單位屬性存放資料值，比如：貨幣單位、重量單、稅制等，亦須加以整合[15]。. 在此以中小學數位落差問卷資料、其他相關資料如學校人口統計資料、資訊設備等不同資料格式的整合為例進行說明。我們所收集到的中小學數位落差問卷資料，可分為：高中職學生、國中學生、國小學生及學校行政人員共四類問卷填答資料，以及透過教育部統計處現有的學校相關統計資料及其他相關資料(如:領域專家提供的資料) 等，作為整合前的資料來源。本研究主要分析資料來源是參考中小學數位落差相關研究資料[2]，並透過以學校為單位來鏈結其他資料庫之資料。. 在資料彙整之後，接下來則需要做資料的淨化處理(Data cleaning)，在此階段的問卷處理過程中，有三種須淨化處理的資料狀況。在此透過刪除此資料來達到資料淨化效果。資料狀況歸納如下： (1). 不正確的資料：例如是應填答數字選項內容，卻誤填成選項內容文字內容。 (2). 空白未填答的資料：例如未完整填答完所有題問或完全未填答。 (3). 不具鑑別度的資料：填答內容太過一致的現象。例如填答內容太過一致的現象。 12.

(22) 在此對於以上三種資料處理方法，以學校問卷為例說明，如範例 1 所示。範例 1：資料淨化處理範例 Id. Acount. 表 4.1：資料淨化前之資料範例 Scode answer1 answer2 answer3. …. answer rn. 21736. C0143260101. 014324. 1. 2. 3214. …. 1. 21147. C0143260102. 014326. 1. 1. 2354. …. 4. 21148. C0143260103. 014325. 1. 1. Null. 21140. C0143260104. 014328. 1. 3. 234. 21146. C0143260105. 014327. Null. Null. Null. 21733. C0143260106. 014336. 1. 2. 設備不足. …. 1. 21731. C0143260107. 014332. 1. 2. 維修不易. …. 1. :. :. :. :. :. :. :. :. Null …. 3 Null. (1).不正確的資料：資料 Id=21731 之 answer3 應填答數字選項內容，卻誤填成錯誤格式的文字內容。 (2).空白未填答的資料：資料 Id=21146 未完整填答完所有題問或完全未填答。 (3).不具鑑別度的資料：answer1 填答內容太過一致的現象，則此欄位資料不予取用。. 13.

(23) 4.2. 資料轉換處理資料轉換處理主要的目的是將資料轉換成適合資料分析或探勘的形式，在此處理的方式有[15]： z. 平滑(smoothing):消除雜亂的資料，如：分箱法(binning)、廻歸法。. z. 彙集(Aggregation):對資料進行彙總運算，例如：總和、平均、最大值等。. z. 廣義化(Generalization):以一個較高階層概念屬性項取代多個較低層概念的屬性項集。. z. 正規化(Normalization)：將屬性資料按比例縮放，使屬性值對應至的數值區間，例如：為了後續量值的觀察與多維度線性組合的計算，必須對填答量值再進行正規化(normalize)處理，使量值的新值域落於 0 到 1 之間，我們將採極小值-極大值正規化(min-max normalization)計算式：. ν'= z. ν − min A max A − min A. 屬性建構(Attribute construction)：因應需求，增加新的屬性項。. 在此我們將應用上述資料轉換處理技術針對問卷資料進行兩類轉換:. (1). 問卷資料轉換處理方法：由於問卷中常有不同的題型如:是非題、單選題、複選題、排序題、填充題等，同時也對應對出不同的答案內容(不同屬性值資料型態)，例如：邏輯型 ( Boolean )、類別型(Symbolic)、數值型(Numeric)、文字型(text)等，為了能將不同的問卷題型將問卷答案轉換成適合多維度資料模式的量值資料或維度資料，在此我們提出了問卷題目量化轉換(QINMT)演算法，如圖 4.2 所示。. 14.

(24) 演算法 1 : 問卷題目量化轉換(QINMT)演算法輸入 : 問卷題目資料，問卷填答資料輸出 : 問卷填答之量化資料步驟 1：讀取問卷題目資料步驟 2：讀取問卷填答資料步驟 3：判別問卷題目資料(Category)題型: 步驟 3.1 : 若問卷題目資料(Category)=二選一型 (1). 填(沒有)者給 0 分，填(有)者給 1 分。步驟 3.2 : 若問卷題目資料(Category)=程度性單選題(K 個選項) (1). 首先將各選項依程度對應到一個整數 t，最高為 K，最低為 1。 (2). 使用正規化計算式，將值域映射到 0 ~ 1.0 區間。若填答的值對應到的整數為 t，則設定此題給 t/K 分。步驟 3.3 : 若問卷題目資料(Category)=非程度性單選題(K 個選項) (1). 將之化成 K 個是非題，沒有選填者給 0 分，有填者給 1 分。步驟 3.4 : 問卷題目資料(Category)=複選題(K 個選項) (1). 將之化成 K 個是非題，沒有選填者給 0 分，有填者給 1 分。沒有選填者給 0 分，有選填者給 1 分。步驟 3.5 : 問卷題目資料(Category)=排序題(K 個選項) (1). 首先將填答項依排序順序對應到一個整數 p，最前面為 K，最後面為 1。 (2). 使用正規化計算式，將值域映射到 0 ~ 1.0 區間。若填答的值對應到的位置為 p，則設定此題給 p/K 分步驟 4：所有題目都轉換結束了嗎? 是:跳到步驟 5。否:重複步驟 3 直至所有題目之資料處理完畢。步驟 5：輸出問卷填答之量化資料結果。圖 4.2: 問卷題目量化轉換(QINMT)演算法. 15.

(25) 範例 2：二選一型題型之資料轉換題目：學校網站提供教案或教材分享資料庫填答：有□ 沒有□ 配分原則：填(沒有)者給 0 分，填(有)者給 1 分，如下表。. 表 4.2：二選一型題型問卷填答範例選填項. (有/沒有). 轉換後資料. User1. 有. 1.0. User2. 沒有. 0. User3. 有. 1.0. User4. 有. 1.0. 範例 3：程度性單選題題型之資料轉換題目：學校與縣市網路教育中心的網路連線，未曾斷線的百分比，平均為何? 填答： (1)100% (4)79%~60%. (2)99%~90% (5)59%~40%. (3)89%~80% (6)39%以下. 配分原則：選(1)者給6分，選(2)者給5分，選(3)者給4分，選(4)者給3分，選(5) 者給2分，選(6)者給1分，未選者給0分，即 t ∈ {6,5,4,3,2,1,0}，K=6。值域正規化: m筆平均直接映射到0~1.0區間，每個分數除以6如下表：. 16.

(26) 表 4.3：程度性單選題題型問卷填答範例選填項. 轉換後資料. User1. (1) 100%. 1.0. User2. (2)99%~90%. 0.83. User3. (3)89%~80%. 0.66. User4. (4)79%~60%. 0.5. User5. (5)59%~40%. 0.33. User6. (6)39%以下. 0.16. 範例4：非程度性單選題題型題目：你現在跟誰住在一起？填答： (1) 父母親 (2) 只與父親 (3) 只與母親 (4) 與父母親以外的人. 配分原則：由4個選項產生4個變數項，隨選項而變化，被勾選該項可得1分如下表：表 4.4：非程度性單選題題型問卷填答範例選填項. 轉換後. 轉換後. 轉換後. 轉換後. 資料1. 資料2. 資料3. 資料4. User1. (1) 父母親. 1.0. 0.0. 0.0. 0.0. User2. (2) 只與父親. 0.0. 1.0. 0.0. 0.0. User3. (3) 只與母親. 0.0. 0.0. 1.0. 0.0. User4. (4) 與父母親以外的人. 0.0. 0.0. 0.0. 1.0. 17.

(27) 範例 5：複選題題型題目：你常在哪裡上網？填答：(1)家裡 (2)學校 (3)網咖(4)校外圖書館 (5)同學或朋友家。配分原則：由5個選項產生5個變數項，被選項可得1分如下表：表 4.5：複選題題型問卷填答範例選填項轉換後. 轉換後. 轉換後. 轉換後. 轉換後. 資料1. 資料2. 資料3. 資料4. 資料5. User1 12. 1.0. 1.0. 0.0. 0.0. 0.0. User2 123. 1.0. 1.0. 1.0. 0.0. 0.0. User3 1234. 1.0. 1.0. 1.0. 1.0. 0.0. User4 12345. 1.0. 1.0. 1.0. 1.0. 1.0. 範例 6：排序題題型題目：學校支援資訊教學應用上，常會碰到的狀況有那些，請排序？ (1)校長支持度不高. (2)教師資訊融入教學能力尚待加強. (3)資訊教學設備不足. (4)現有資訊教學設備維護不易. (5)資訊教學人力不足。由5個選項產生5個變數項，按照優先順序給予屬性值，最高5分，最低1分，即 p ∈ {5,4,3,2,1}，K=5。如下表：表 4.6：排序題題型問卷填答範例選填項. 轉換後. 轉換後. 轉換後. 轉換後. 轉換後. 資料1. 資料2. 資料3. 資料4. 資料5. User1. 12345. 1.0. 0.8. 0.6. 0.4. 0.2. User2. 51234. 0.8. 0.6. 0.4. 0.2. 1.0. User3. 34125. 0.6. 0.4. 1.0. 0.8. 0.2. User4. 23451. 0.2. 1.0. 0.8. 0.6. 0.4. 18.

(28) (2)其他資料庫欄位維度之資料轉換：. 維度資料的前處理主是透過離散化( discretization )技術先將連續性數值資料劃分為區間，再透過收集並用較高的概念替代較低層的概念就可以形成概念階層，經由概念階層的建立，便可以有效的簡化資料(data reduction)或廣義化 (generalize)資料，可使大量資料變得容易解釋，也有助於後續的資料分析與探勘工作，因此維度資料前處理流程大致可以兩個步驟完成[15]：. Step1. 離散化離散化技術主要是將連續性數值資料進行區間劃分，可是對於不連續或雜亂的資料，第一個處理步驟是先進行排序，再進行分區。分區技術主要使用等深(equal depth )分區法:每個區間以相等資料筆數進行區分，這樣劃分法，在一區間內值域範圍變化不固定，但區間資料筆數(頻率)可受到控制。. Step2. 階層化數值型的資料，可以根據資料分佈分析來自動建構概念階層，常見的數值概念階層生成法如：直方圖分析(Histogram Analysis)、分箱(binning)、基於熵值(Entropy base)的離散化等。但對於非數值型資料而言，其概念階層則有其特有的知識，需先擷取這類知識後，才能建置其概念階層，我們將於下個章節解說。以下將就數位落差研究中小學生人數及教師人數為例，進行數值性概念階層的建立，另以全國地理分區為例，進行非數值性概念階層的建立。. 範例 7：建置學生人數維度概念階層在學生人數規模維度表的概念階層的部分，我們主要是每所學校所擁有的學生人數做為學生規模維度概念階層建立的依據。因為在每所學校之間，所擁有學生人數並不一定連續，所以，首先將所有學校以學生人數做排序。接下來劃分區間，採等深(equal 19.

(29) depth)方式，也就是在排序後的學校順序數中，以等量的學校所數來劃分區間。例如: 在排序後的所有學校所數是 3212 所，劃分 2 個範圍，就是 1606 所為 1 個區間，也就是第 1 到第 1605 所學校為第 1 區，根據統計對應，這個區間中學校裡面的學生人數分佈是從 0~617 人，同理，第 2 區是第 1605 到第 3212 所，這個區間中學校裡面的學生人數分佈是從 619~8340 人，學生人數統計圖如下：. 學生人數統計 9000 8000 7000 6000 人 5000 數 4000 3000 2000 1000 0 1. 401. 801. 1201. 1601. 2001. 2401. 2801. 3201. 學校數. 圖 4.3: 學生人數統計圖. 接下來進行進一步階層化，同理可再劃分為4個範圍成為下一個層級的成員 (members)、以8個範圍成為再下一個層級，每劃分一次，就產生一個層級(level)的維度成員，直到以各校人數為一單位的屬性成員為止，本研究設計為5個階層如下:. 學生規模概念階層 : z. 1個範圍 8340. z. 2個範圍 0~617, 619~8340. z. 4個範圍 0~159, 160~617, 619~1498, 1499~8340. z. 8個範圍 0~86, 87~159, …,2029~8340. z. 各校人數 0~8340. 20.

(30) 相同的做法，也可建立教師人數概念階層如下:. 教師規模概念階層: z. 1個範圍 283. z. 2個範圍 0~35, 36~283. z. 4個範圍 0~13,14~35, 36~80, 81~283. z. 8個範圍 0~10, …113~283. z. 各校老師人數 0~283. 範例8：建置地理位置維度概念階層由於地理位置有其固有的階層性，只要按其原有的階層關係逐層規劃，即可建立地理位置維度的概念階層，由於本研究是以學校為單位的數位落差分析，所以在地理位置維度概念階層的建置的做法上，自然是以全國學校(中小學3881所)為起點:. 步驟1: 以365區碼將學校所在的區碼來廣義化 (generalize)同層區域學校屬性成員。步驟2: 以25縣市的屬性來廣義化 (generalize) 365區碼屬性成員(member)。步驟3: 以全國地理分區北, 中, 南, 東4區的屬性來廣義化25縣市同層區域屬性成員。可建立概念階層如下:. 地理位置維度概念階層: z 全國地理分區(1個範圍) z 全國地理分區(北, 中, 南, 東4區 ) z 縣市 (25個縣市) z 各縣市區域號碼 (365個區碼 ) z 各個學校(3881學校 ). 21.

(31) 相同的做法也可用以10種城鄉等級的屬性來廣義化區域學校屬性：步驟1: 以365區碼將學校所在的區碼來廣義化 (generalize)同層區域學校屬性成員步驟2: 以10種城鄉等級的屬性來廣義化 (generalize) 365區碼屬性成員(member)。可建立概念階層如下:. 地理城鄉維度概念階層： z 城鄉分類 (10種城鄉等級) z 各縣市區域號碼 (365個區碼 ) z 各個學校(3881學校 ). 22.

(32) 4.3. 階層性維度與資料倉儲之建置. (1). 階層性維度之建置在這個章節我們將詳細介紹多維度概念階層知識擷取 (Multiple Dimension Concept Hierarchy Knowledge Acquisition ) 演算法，這個演算法主要是用來擷取領域專家(數位落差資料分析學者)的量值或維度概念階層知識，其中量值概念階層知識，可以指導量值聚集(Measurement Aggregation)計算的處理,產生廣義化(Generalize)的新量值，至於維度概念階層知識，則可以指導維度階層的建置，利用維度階層知識我們就可以建立合於學理的概念階層維度。再結合前述量值資料集就可組合成合於專家學理的事實資料表，進而建置一個合乎領域專家學理的資料立方體。. 演算法2：多維度概念階層知識擷取(MDCHKA)演算法輸入：項目資料集。輸出：概念階層知識表。步驟1：載入項目資料集，成為候選概念項（Comcept Items）步驟2：列出所有候選概念項, 詢問使用者目前處理的層級別。步驟3：隨機挑出一概念項（例如A項）步驟 4：詢問使用者，勾選出與 A 項相似，可歸類為同一層的概念項。步驟 5：要求使用者，為(步驟 4)所有已選概念項定義一較高層概念名稱（例如:L2_A1）步驟 6：排除(步驟 4)、(步驟 5)已選的概念項，重複(步驟 2)~(步驟 6)，直到所有概念項均已挑選及分類完畢。步驟 7：詢問使用者是否達成目標層級數(是否再 roll-up 一層)。（1）是，挑出所有在(步驟 5)時所新增的較高層概念項，成為新候選概念項，並回步驟 2。（2）否，步驟 8。步驟 8：輸出概念階層知識表圖 4.4: 維度概念階層知識擷取(MDCHKA)演算法 23.

(33) 範例9：應用「多維度概念階層知識擷取演算法」，將5個候選概念項,建構成為3層問卷概念階層知識。步驟1:列出所有候選概念項: 表 4.7：候選概念項描述表概念概念描述代號 Q8. 父親會不會上網. Q9. 母親會不會上網. Q10. 除電腦課外，有無其它科目/領域的老師也會在課堂上使用電腦來協助上課. Q11. 除電腦課外，有無其他科目/領域的老師曾經要求使用電腦來完成作業. Q18. 老師使用電腦或網路上課時，會讓你更聽得懂老師講的內容？. 步驟 2~7:概念階層組織特徵選擇與命名（Concept Hierarchy Labeling Phase）. 表 4.8：第 1 層概念階層組織特徵選擇與命名載入. 隨機出現相似概念相似概念相似概念. 第1層. 概念項. 項1. 項2. 第1回. Q11. S10. Q8. 第2回. Q8. Q9. 項3. 較高層概念名稱命名(labeling) 課堂資訊教學資訊使用支援. 表 4.9：第 2 層概念階層組織特徵選擇與命名載入. 隨機出現. 第 2 層概念項. 相似概念. 相似概念相似概念較高層概念. 項1. 項2. 第 1 回課堂資訊教學資訊使用支援. 項3. 名稱命名(labeling) 資訊環境. 第 2 回結束. 24.

(34) 步驟8:輸出問卷概念階層知識表 4.10：輸出結果問卷概念階層知識資訊環境量值概念階層知識表廣義概念階層資訊環境課堂資訊教學. 概念項 Q10: 課堂上使用電腦來協助上課 Q11: 使用電腦來完成作業。 Q18: 使用電腦或網路上課時，會讓你更聽得懂。. 資訊使用支援. Q8: 父親會不會上網 Q9: 母親會不會上網. 有了上表 4.10 的量值概念層知識，建立資料立方體進行分析時，即可以依分析者需求，以較廣義的概念名稱代替細部瑣碎量值。. (2). 資料倉儲之建置建立了量值與維度之概念階層後，即可經以下步驟進行資料倉儲之建置 [16][17][20][21]。. z. 選定所欲觀察之測量值 (measures) 參考領域專家提供的建議相關資料，我們可定出:9 個量值項：學校資源、社經地位、進階資訊技術、資訊技能、資訊使用支援、資訊近用、資訊應用、網路素養、課堂資訊教學。. z. 選定欲觀察之維度 (dimensions) 參考上述 9 個量值項後，並考量我們預定探勘的資料維度，可定出以下 12 個維度索引鍵項:城鄉分類、地理位置、學校類別、教師人數、學生人數、私立學校、資訊種子學校、教師資訊政策、資訊教育方案、資訊教學狀況、與父母親同住、男生比例，其中資訊教學狀況維度表包含了，校長支持度不高、教師資訊融入教 25.

(35) 學能力尚待加強、資訊教學設備不足、現有資訊教學設備維護不易、資訊教學人力不足等 5 項欄位項。. z. 決定所欲觀察之事實表欄位 (fact table) 考量我們預定探勘的兩個資料立方體功能可定出以下 2 個事實表：. 表 4.11：學校及學生實事表表 4.12：學校實事表. 學校與學生事實表. 學校事實表. 城鄉分類 Key 地理位置 Key. 城鄉分類 Key. 學校類別 Key 教師人數 Key 學生人數 Key 私立學校 Key 資訊種子學校 Key 教師資訊政策 Key 資訊教育方案 Key 資訊教學狀況 Key 與父母親同住 Key 男生比例 Key. 地理位置 Key 學校類別 Key 教師人數 Key 學生人數 Key 私立學校 Key 資訊種子學校 Key 教師資訊政策 Key 資訊教育方案 Key 資訊教學狀況 Key 與父母親同住 Key 男生比例 Key. 學校資源. 學校資源. 社經地位資訊使用支援課堂資訊教學資訊應用資訊近用網路素養資訊技能進階資訊技術. 26.

(36) z. 選定所欲建立之資料模式 (例如：星狀綱要、雪花綱要、星系綱要) 在資料模式方面，採星狀綱要（Star schema）模式，每個資料立方體包含一個事實資料表及一組維度資料表[19][14]，稱為星狀綱要(star schema)如圖 4.5，而且事實表中的維度外來鍵值項只連結一個維度表，且這個維度表不做正規化處理，可以節省查詢時表格轉換(join)時間。. 圖 4.5: 資料立方體之星狀綱要. 27.

(37) 第五章. 線上分析與資料探勘. 本章主要在介紹如何利用線上分析工具，進行線上分析資料立方體的各種查詢操作，如:上捲(roll-up )或下探(drill-down)等進行資料立方體中各層級的資料變項分析，以資料立方體視覺化的操作方式觀察分析後的結果。如此，我們就可從多種的數位落差資料變項組合中發現重要的分析結果，而且也可以參考概念階層對資料立方體的分析維度階層做調整，以取得理想的資料分析結果，再依分析結果中出現的所有變項，進行資料變項特徵挑選，找出探勘的目標，進行線上分析探勘(On Line Analyze Data Mining )以查出數位學習落差的分類及成因。以下各節將針對線上分析與資料探勘的細節來加以說明。. 5. 5.1. 線上分析處理透過資料前處理與資料倉儲建置步驟，我們巳建置了兩個資料立方體(Data cube) 包括了:「學校及學生問卷」和「學校問卷」的資料立方體，共包含了 9 個量值及 14 個分析維度，在本章線上分析(OLAP)處理階段，為了分析各學校間造成數位落差之現況，將會產生以下議題需要探討：. z. 如何去找出線上分析(OLAP)主題呢?. z. 如何利用線上分析主題去分析這些具有多維度概念階層的倉儲資料呢?. z. 如何在數以百計的維度層級切換組合中找出與資料探勘任務相關的組合？. z. 用什麼樣的標準來評估維度層級切換結果的適當性呢？. 為了解決以上問題，首先，我們提出由上往下(Top-Down) 階層式的線上分析法，可針對線上分析(OLAP)主題進行分析並找出與主題相關的維度，做為下一階段資料探勘工作的參考資訊。其次，在線上分析(OLAP)主題方面，我們結合「學校與學生數位落差評估指標架構圖」，對照我們所建置的 14 個維度及 9 種量值，建立了「中 28.

(38) 小學數位落差 OLAP 主題分析表」。最後，在找出與資料探勘任務相關的組合及評估維度層級切換結果的適當性方面，由於透過異常值的探查，可以找出與資料探勘任務相關的層級組合，因此本研究根據維度層級資料變項的敘述統計(descriptive statistics)值來評估異常的程度，並以「集中程度」與「離散程度」兩個角度來觀察維度層級切換結果的適當性。. (1) 由上往下(Top-Down) 階層式的線上分析法一般而言，我們可從最高概念階層往下分析，由較大的顆粒資料集往較小的顆粒資料集分析，或者說從巨觀到微觀，可採一種「由上往下(Top-Down) 階層式的分析」方法，分析流程如圖 5.1 所示。. 圖 5.1: 由上往下(Top-Down) 階層式的線上分析流程圖. 根據圖 5.1 所示分析流程，我們可將整體分析流程細分為，依據資料分析目標，建立一 OLAP 主題分析表、選擇目標量值及相關維度、調整分析維度、進行線上 29.

(39) 分析、評估量值結果、完成線上分析目標等 8 個步驟來進行如圖 5.2 所示：. 由上往下(Top-Down) 階層式的線上分析法步驟1. 建立一 OLAP 主題分析表。. 步驟2. 選擇目標量值及相關維度，並填入主題分析表中。. 步驟3. 依分析主題填入維度分析順序(可以參考領域專家知識)。. 步驟4. 依分析主題所規畫順序，選擇啟始量值及分析維度。. 步驟5. 調整分析維度，(Drill-down, Roll-up,Slice,Dice,Pivot). 步驟6. 進行線上分析。. 步驟7. 評估量值結果。. 步驟8. 是否完成線上分析目標? 是，結束分析。否，回步驟 5。圖 5.2: 由上往下(Top-Down) 階層式的線上分析法. 其中在步驟 3，我們除了依據「領域專家知識」來決定維度分析順序外，也可以參考資料分析者所感興趣的維度來決定維度分析的順序。. 根據上述分析流程，在選擇了目標量值及維度後就可進入線上分析操作，我們可透過各種線上分析基本操作看到不同的維度層級的量值變化，評估量值結果，挑選出我們所需要的分析結果。例如:當我們從問卷量值概念階層表中最高層挑選 4 個概念主題，配合 5 個維度表，填入分析的順序後，則可組成 OLAP 主題分析(表 5.1)如下：. 30.

(40) 表 5.1：OLAP 主題分析表分析維度是否為種子. 是否為私立. 學校. 學校. 地理位置學生規模教師規模分析主題學校資源. 1. 4. 2. 3. 資訊技能. 1. 3. 4. 2. 資訊應用. 3. 2. 4. 1. 課堂資訊教學. 2. 3. 4. 1. 從上面 OLAP 主題分析表中，可看出有 5 個維度資料，如果僅取用(地理位置，學生規模，教師規模)這 3 個維度進行線上分析時，可組合出 8 種不同的資料表關係，其關係如圖 5.3 所示，而且，由每一個維度又包含數個屬性階層關係，因此實際組合關係將達到 150 種。. 圖 5.3: 地理位置，學生規模，教師規模維度組合圖. 31.

(41) 範例 10：學校資源分析以「由上往下(Top-Down)階層式的分析」方法，透過「地理位置」、「公私立學校」、「教師資訊政策」分析維度的切換來分析「學校資源」問卷量值。我們首先以 2004 年台灣地區中小學學校的「學校資源」量值，配合前述維度及分析順序，首先是「地理位置」、其次是「公私立學校」、最後為「教師資訊政策」3 個維度，組成學校資源 OLAP 主題分析(表 5.2)如下：. 1. 2. 校長支持度不高. 學校資源. 現有資訊教學設備維護不易. 分析主題. 教師資訊融入教學能尚待加強. 教師資訊政策. 資訊教學設備不足. 資訊教學人力不足. 是否為私立學校. 是否為種子學校. 教師規模. 學生規模. 地理位置. 分析維度. 表 5.2：學校資源 OLAP 主題分析表. 3. 首先是「地理位置」維度的切換分析，在下圖 5.4 可看出學校資源最佳的學校地理位置是在中區及北區。. 圖 5.4: 全國學校資源最佳地區 32.

(42) 我們可再就北區學校進行下探(drill-down)的分析，如下圖 5.5,可看出台北市是北區學校中，資源最佳的學校。. 圖 5.5: 北區學校中資源最佳的學校我們可再就公私立學校、教師資訊政策維度進行下探(drill-down)的分析，如下圖 5.6. 圖 5.6: 教師資訊政策佳，學校資源佳. 上圖 5.6，可看出大部分的學校，「教師資訊政策」維度與「學校資源」量值有 33.

(43) 正相關的趨勢，也就是說，大部分的學校「教師資訊政策」愈好時則「學校資源」也會愈好，由圖 5.6 的中區、北區及南區學校的「學校資源」的 OLAP 統計圖中即可看出，但是必須注意的一點是在大趨勢之下，隨著地理位置的不同，也會有不同的趨勢出現，例如：在上圖 5.6 中，中區「學校資源」較佳的學校是分佈於學校「教師資訊政策為 0.5」之處，與北區公立學校及南區學校分佈於學校「教師資訊政策為 1」之處，這兩類之間是有差異的。而且，東區公立學校，「教師資訊政策為 0」的「學校資源」略優於「教師資訊政策為 1」，這樣的結果也是不同於其他地理置的「教師資訊政策」對「學校資源」的影響。另外，從「公私立學校」的維度來分析，也可看出「學校資源」量值隨著地理位置的不同，也會有不同的趨勢出現，例如：中區、北區公立學校的「學校資源」優於私立學校，但是在東區、南區卻是私立學校的「學校資源」較佳。. 所以經上述的分析結果，我們可以看出「地理位置」、「公私立學校」、「教師資訊政策」這三個維度是影響「學校資源」量值相關的維度。. 由上例中我們可了解到籍由調整維度的分析階層，就可以觀察出不同的量值資訊的趨勢，這些結果，將是下一階段資料探勘工作的重要參考資訊。我們也可以利用上述的分析流程，對其他主題進行線上分析，這些相關分析結果將詳述於第六章的實作部分。. 34.

(44) (2) 中小學數位落差 OLAP 主題分析表. 下表 5.3 為 2004 年台灣地區中小學校數位落差分析維度及量值名稱表，表中分析維度及量值是根據前述 2 個事實資料表中 9 個量值及 12 個維度表所建立出來的，共建立了 2 個資料立方體(Data cube)，「學校及學生問卷」和「學校問卷」的資料立方體，其中包含了 14 個分析維度及 9 個量值。表 5.3：2004 年台灣地區中小學校數位落差分析維度及量值名稱表維度名稱. 值域. 量值名稱. 值域. 1. 地理位置(Location). 0~3881 社經地位. 0~1. 2. 學生人數規模(Student scale). 0~8340 進階資訊技術. 0~1. 3. 教師人數規模(Teacher Scale). 0~283. 資訊技能. 0~1. 4. 是否為私立學校(Private School). 0 .or.1. 資訊使用支援. 0~1. 5. 是否為資訊種子學校(Seed). 0 .or.1. 資訊近用. 0~1. 6. 資訊教育方案執行程度. 0~1. 資訊應用. 0~1. 7. 教師資訊政策執行程度. 0~1. 網路素養. 0~1. 8. 校長支持度不高狀況. 0~1. 課堂資訊教學. 0~1. 9. 教師資訊融入教學能力尚待加強. 0~1. 學校資源. 0~1. 10.資訊教學設備不足狀況. 0~1. 11.現有資訊教學設備維護不易狀況. 0~1. 12.資訊教學人力不足狀況. 0~1. 13.學校男女比例. 0~1. 14.學生與父母同住之比例. 0~1. 參考中小學數位落差相關資料中有關於「學校與學生數位落差評估指標架構圖」，對照我們所建置的 14 個維度及 9 種量值，可得對照表 5.4 如下:. 35.

(45) 表 5.4：學校_數位落差量值維度與評估指標架構圖對照表相對應之構面. 次構面. 說明量值或維度衡量學校內部資訊相關建. 資訊基礎建設. 學校資源設程度。. 資訊近用衡量學校資訊設備經費運 Information. 資訊經費. 學校資源用情形. Access 衡量學校網站與相關服務學校資源. 網路服務建設應用建設與維護程度。衡量學校教師之資訊相關資訊素養. 教師資訊素養. 教師資訊政策人力資本. Information 衡量學校內行政部門推動 Literacy. 資訊教育方案. 資訊教育方案資訊教育的相關政策衡量學校電腦與網路應用. 教學應用. 課堂資訊教學在教學的情形. 資訊教育. 衡量學校提供的網路服務網路應用. 資訊應用. 應用. 功能與應用情形. Application. 衡量學校內教師運用資訊合作學習. 科技互動與校際間的交流課堂資訊教學合作情形. 36.

(46) 表 5.5：學生_數位落差量值維度與評估指標架構圖對照表相對應之. 構面. 說明. 次構面. 量值或維度衡量學生在網路使用上網路近用. 資訊近用的廣度. 資訊近用衡量學生在網路使用上網路使用行為. 資訊應用的深度衡量學生資訊技術方面. 資訊技術能力. 進階資訊技術的應用能力與知識衡量學生其基礎的資料. 資料處理與分析能力. 資訊技能處理與分析能力的程度. 資訊素養衡量學生對網路的使用網路應用能力. 資訊應用能力之程度衡量學生對網路規範及. 網路素養. 網路素養倫理的理解程度衡量學生上課時老師運. 資訊學習環境科技融入教學. 用資訊科技融入教學的課堂資訊教學情形衡量學生在課業上應用資訊科技的程度，包括主. 課業學習. 資訊應用動學習、合作學習與創意. 資訊應用學習衡量學生應用資訊科技人際關係. 資訊應用於人際關係上的程度. 37.

(47) 整理上述對照表，可得中小學數位落差OLAP主題分析表如下所示: 表 5.6：中小學數位落差 OLAP 主題分析表分析主題. 相關量值及意含. 相關維度. 課堂資訊教學. (教師). 1.. 地理位置. 含資訊教育應用資訊使用支援. (父母). 2.. 學生人數. 3.. 教師人數. 4.. 私立學校. 5.. 資訊種子學校. 6.. 資訊教育方案. 7.. 教師資訊政策. 8.. 校長支持度不高. 9.. 教師資訊融入教學能力. 資訊學習環境. (父母). 社經地位資訊近用. 學校資源. (學校教材資源). 資訊近用. (家中設備). 資訊應用. 資訊應用 (上網的習慣及時數). 資訊素養. 資訊技能. (電腦網路技能). 進階資訊技術網路素養整體綜合分析. (進階技能) (道德). 尚待加強 10. 資訊教學設備不足 11. 現有資訊教學設備維護. 綜合上述量值. 不易 12. 資訊教學人力不足 13. 學校男女比例 14. 學生與父母同住之比例. 從「中小學數位落差OLAP主題分析表」(表5.6)中，可看出分析主題可概分為5 個。特別是資訊學習環境分析、資訊近用分析、資訊應用分析、資訊素養及整體綜合分析、表中詳列每個分析主題的相關量值及相關維度，同時我們可從相關量值欄中的資料了解到這些量值相關的內在意含，例如: 在資訊學習環境分析主題中「課堂資訊教學」量值是與教師資訊融入教學相關的量值項，「資訊應用」量值是與學生與同儕使用網路的習慣或機率相關的量值項，而「資訊使用支援」及「社經地位」量值是學生的父母提供上網的能力支援及社經地位相關的量值項，也就是說這五個主題分析含蓋了教師資訊融入教學、學生同儕使用網路的習慣、父母上網的能力支援、學校教材 38.

(48) 資源設備、學生家中資訊設備、學生資訊基本技能、學生資訊進階技能、學生資訊道德的分析意含。維度是分析量值的角度，其中地理位置維度，分為六個層階供分析者作不同地理範圍及組合的分析，學生人數、教師人數均分為五個層階供分析者作不同人數範圍及組合的分析，私立學校及資訊種子學校均分為{是,否}的範圍供分析，其他還有屬於資訊教學活動的資訊教育方案維度、獎勵教師的資訊教師政策維度，除此之外尚有關於學校政策的維度如：校長支持度不高、教師資訊融入教學能力尚待加強、資訊教學設備不足、現有資訊教學設備維護不易、資訊教學人力不足等。在建立 OLAP 主題分析表後，搭配應用前述的「由上往下(Top-Down)階層式的分析」，我們將可從維度來分析量值，找出與量值相關的維度資訊，以做為下一階段資料探勘工作的參考。. (3) 維度層級切換與評估. 由於在資料倉儲中的資料集合非常大，因此在進行線上分析時，將面臨兩個問題: 就是如何在數以百計的維度層級切換組合中找出與資料探勘任務相關的組合，以及用什麼樣的標準來評估維度層級切換結果的適當性。首先說明的是關於找出最佳維度層級切換組合的問題，因為是屬於資料立方體探查(Exploration of data cubes)問題，而這類問題有兩種處理法[15]:. (a).假設驅動的探查 (Hypothesis-driven exploration): 資料分析師可 OLAP 基本操作例如如:上捲(roll-up)、下探(drill-down)、切片 (slice)、切丁(dice)、樞紐(pivot)或稱轉軸分析，協助資料分析者，從不同角度、機動地進行量值資料觀查與驗證統計資料，可挑出所有最佳層級組合性。 (b). 發現驅動的探查 (Discovery-driven exploration): 這種是為資料立方體中所有異常(exception)單元值加上標識，例如:不同的背景顏色，它有三種標識法，SelfExp:相較於同層級單元值異常的程度，InExp:在指示 39.

(49) 單元值下層級某個單元有異常的程度。PathExp: 在指示單元值下層級每條下探 (drill-down)路徑異常的程度。. 透過異常值的探查，可以找出與資料探勘任務相關的層級組合。但是須定訂評估異常的程度的標潗。由於維度層級切換組合中所對應的量值必須與資料探勘任務相關，所以可以根據這些量值的敘述統計資料來評估維度層級切換與資料探勘任務的適切性。敘述統計(descriptive statistics)值，主要用以描述母體，一般而言會以「集中程度」與「離散程度」兩個角度來觀察。並以平均數、變異變、標準差..等來代表母體特徵[10]。. 範例 11：維度階層切換與評估當我們在進行了某一階層的線上分析時，如圖 5.7 與表 5.7，可以透過以敘述統計數據的計算如：平均數、變異變、標準差..等統計數據來代表母體特徵如表 5.8。. 圖 5.7: 課堂資訊教學量值對應學生規模與地理分區之分析圖. 40.

(50) 表 5.7：課堂資訊教學量值對應學生規模與地理分區之分析表課堂資訊教學. 全國地理分區. 學生規模 L1 學生規模 L2 Central. East. North South 總計. 0~617. 619~8340. 0000~0159. 0.87. 0.83. 0.86. 0.77. 0.82. 0160~0617. 0.71. 0.72. 0.69. 0.69. 0.70. 0619~1498. 0.62. 0.68. 0.64. 0.54. 0.60. 1499~8340. 0.58. 0.63. 0.59. 0.61. 表 5.8：線上分析之評量參考值學生規模 L2 0000~0159. 0160~0617 0619~1498 1499~8340. 平均數. 0.833705594 0.7042. 0.619038. 0.600871. 標準誤. 0.023268173 0.007242. 0.029014. 0.016737. 中間值. 0.844538462 0.7014. 0.627214. 0.59. 標準差. 0.046536347 0.014483. 0.058029. 0.02899. 變異數. 0.002165632 0.00021. 0.003367. 0.00084. 峰度. -0.142489011 -2.85117. 1.109959. 0. 偏態. -1.000253849 0.556834. -0.77708. 1.450223. 範圍. 0.103345455 0.03. 0.138276. 0.054837. 最小值. 0.7712. 0.541724. 0.578889. 最大值. 0.874545455 0.722. 0.68. 0.633725. 總和. 3.334822378 2.8168. 2.476153. 1.802614. 個數. 4. 4. 3. 0.692. 4. 表 5.8 是以 Excel 試算表軟體，針對「學生規模 L2」維度階層所計算出的敘述統計數據，可供線上分析之評量參考值，從表中所列數據可知在學生人數規模 0~0159 的「課堂資訊教學量值」平均數最高(0.833705594)，在不同地區的「課堂資訊教學量值」的分佈有點分散(標準差 0.046536347)，由偏態為-1.000253849 可知量值分佈並不完全對稱，呈左偏分配。相較之下，學生規模 0160~0617 的「課堂資訊教學量值」平均數次之(0.7042)，但卻有較集中的量值分佈(標準差 0.014483)或可觀察變異數為 0.00021。透過上述統計數值的觀察，我們可看出不同學生人數規模的層級，有不同的量值分佈型態，也代著不同的「課堂資訊教學」趨勢。 41.