• 沒有找到結果。

第四章 資料倉儲的建立

N/A
N/A
Protected

Academic year: 2021

Share "第四章 資料倉儲的建立 "

Copied!
24
0
0

加載中.... (立即查看全文)

全文

(1)

第四章 資料倉儲的建立

第一節 確定主題

本研究所要探討的主題是附中學生使用圖書館的行為模式,根據這一個題 目,在研究上可以有以下幾個主要的方向。

壹、瞭解附中學生使用圖書館的實際狀況

這個主題是以大方向來探討師大附中圖書館近年來學生使用的狀況,這 些狀況直接反映了學生使用圖書館的特性,在這個主題中,所需要的資料包 含兩個部分:

一、 時間特性

學校是一個具有週期性生活的單位,在時間的特性中包含了月份、星期 及小時,不同的時期會有不同的作息形態。

1. 月份

就月份而言,每一個學年度的開始是在九月,一月份一定都是上學 期的期末,三月是下學期的開始,六月是下學期的期末,而七、八月是 暑假,一月是寒假,上學期因為剛入學基本上就有與下學期熟悉學校的 運作狀態而有不同了,至於寒、暑假則更是與其他時期有很大的差異性。

2. 星期

通常在學校作息裡星期一至五是比較沒有什麼樣大的差異性,但是 就學生本身的心態而言,星期一通常心態是比較嚴肅的,星期五是比較 放鬆的,甚至於在星期二或三是需要繳交作業的,因此這樣的狀況或許 對學生的借閱行為會有所影響,所以星期也是時間特性之一。

3. 小時

在每一天的作息中,上、下午因為下課時間較短,所以學生只能利 用這短短的時間去找尋自己需要的圖書,而中午休息時間跟下午放學時 間,學生則有較多的時間可以去找尋自己想要的,甚至於是以走馬看花 的方式來找可能是自己喜歡的書籍。

藉由時間特性的分析,可以找出學生在各種不同的時期中,使用圖

(2)

書館的狀態,除了可以更加瞭解學生的需求之外,也可以提升圖書館的 服務功能。

二、 學生個人特性

每個人對於使用圖書館會根據自己的興趣許需求來借閱自己想要的書 籍,這樣的特性包含了性別、類組、班級狀況、年級等的因素,因此藉由這 些大方向的也可以找出不同特性的學生,其特有的借閱行為。

1. 性別

性別是學生最基本的分類,男生與女生基本上的行為就會有不同,

這可以藉由類組中男生與女生的比例就可以知道了,一類組(社會組) 女生多於男生,而二、三類組(自然組),則是男生多於女生,可見得 就大方向而言,男生的興趣比較趨向理工方面,而女生比較趨向文史方 面。

2. 類組

類組是學生一自己的興趣所做的選擇,在類組中包含了一類組為社 會組,二類組為自然組不含生物,三類組為自然組包含生物,類組中的 學生大致上興趣是相似的,以此作為特性的分類,可以看出不同興趣的 借閱行為。

3. 班級狀況

在附中的班級中,除了自然組與社會組的區分外,尚有幾個特殊班 級,包含了數理班、音樂班、美術班級語文班,這些班級學生都是一入 學就確定自己的方向,因此這些學生對於自己的需求應該是更有認知,

而且藉由這個特性的分析,也可以更加瞭解這些學生的需求。

貳、以一個學年度入學的學生為對象來探討學生三年的借閱行為

學生入學後至畢業三年的時間是一個完整的階段,藉由三年的分析,可 以看出一批學生三年的整體表現,這些表現應該可以看出高中學生的特性,

因此研究中可以由幾個方向來探討。

一、 時間特性

因為這個主題是在探討學生三年的整體表現,因此時間特性上只以年級 為區分,探討三年內的差異性,因為往往一年級還未有太大的區分,二年級

(3)

則已經經過分組,三年級又因為升學的關係或許又有不同的表現。

二、 學生個人特性

這裡的學生個人特性跟上述的一樣,包含了性別、類組及班級狀況等。

參、以一個學年度的學生為對象來探討學生一整學年的借閱行為

前面說過,學校的作息是以一個學年度為一個大的單位,很多資料也都 是以學年度來做整體計算,因此利用學年度為單位,來探討該學年度學生的 借閱行為,更可以精準的瞭解到學生的需求。研究中可以由幾個方向來探討。

一、 時間特性

在時間特性分析裡,和第壹點的敘述一樣,包含了月份、星期及小時,

探討該學年度學生的特性。

二、 學生個人特性

在學生個人特性裡也和第壹點的敘述一樣,包含了性別、類組及班級狀 況,另外加了一個居住地。

就居住地而言,附中的學生除了是大台北地區(台北縣市)來的以外,

尚包含了基隆及桃竹苗地區,另外也有少數的其他縣市學生,學生組成比例 相當的多元。在研究中想要探討,不同居住地區的學生,是否對於借閱行為 有差異性。

三、 學生學業成績表現

學業成績是學生在課業上最客觀的表現,研究中利用成績來分析借閱了 行為,瞭解學業成績與借閱行為間是否有其關聯性,而這成績包含了三個主 科(國文、英文及數學),藉由這三科的成績表現,來探討學生借閱的差異 性。

四、 教師因素

學生利用圖書館除了是為了休閒及吸取知識之外,還有一個很重要的因 素就是老師規定的作業,有些老師都會要求學生做報告,學生為了要完成報 告則必須到圖書館去借閱圖書已完成報告的書寫,基於以上的理由,研究中 想要找出是否某些老師對於學生的借閱行為是有影響的,而且是否跟某些類 別相關。

(4)

這個研究用到的教師分類一樣是以三個主科(國文、英文及數學)為主,

探討教師與學生借閱行為間的差異性。

肆、資料倉儲架構

根據以上的敘述,可以畫出本研究所需要建立的資料倉儲模型如下:

圖 4-1-1 本研究的資料倉儲模型(本研究整理)

確定好要研究的主題之後,接下來就要開始找尋進行研究所需要的資料。

(5)

第二節 資料的選取

資料的選取(Data Extraction)是進行資料探勘時很重要的一個步驟,由資 料來源中取出合適的資料,選取正確的資料,是進行資料探勘時很重要的一個步 驟,確定資料的來源,瞭解資料的形式,才能夠繼續進行資料的處理,因此針對 研究所要處理的問題,可以有以下幾個資料的來源,以作為研究中的數據。

壹、圖書館自動化系統中的借閱記錄

圖書館自動化系統是利用 Microsoft SQL(以下簡稱 SQL)作為資料庫 系統,其中有很多的資料表,而在本研究中,所需要的是歷史借閱記錄,並 根據歷史借閱記錄去連結所需要的欄位。首先先從 SQL 中的欄位找到研究 中需要的欄位,再利用 SQL 的查詢語言,將所需要的欄位轉出,並存成文 字檔,以備使用。

一、 圖書館自動化系統中歷史借閱記錄(BookOutHis)資料表的原始格式:

圖 4-2-1 圖書館自動化系統中歷史借閱記錄(BookOutHis)資料表形式

(本研究整理)

本研究選取資料表中的書籍借出交易序號(nBkOutTransID)、書籍 編號(nBookID)、讀者證號(nRnoID)及借出時間(dtOutDate)四個 欄位,其中讀者代號(nRnoID)與讀者記錄(PatronID)資料表為相同 欄位,書籍編號(nBookID)與書籍記錄(LibBookAll)資料表為相同 欄位,借出交易序號(nBookOutTransId)與籍歸還紀錄(BookIn)資 料表為相同欄位可做資料表的連結。

(6)

二、 圖書館自動化系統中讀者記錄(PatronAll)資料表的原始格式:

圖 4-2-2 圖書館自動化系統中讀者記錄(PatronAll)資料表形式(本研 究整理)

本研究選取資料表中的讀者代號(nRnoID)、讀者證號(sRnoID)

及班級(sDeptTypeID)三個欄位,其中讀者代號(nRnoID)與歷史借 閱記錄(BookOutHis)資料表為相同欄位,可做資料表的連結。

三、 圖書館自動化系統中的書籍記錄(LibBookAll)資料表

圖 4-2-3 圖書館自動化系統中的書籍記錄(LibBookAll)資料表形式(本 研究整理)

本研究選取資料表中的書籍編號(nBookID)及索書號(sClassNo)

兩個欄位,其中書籍編號(nBookID)與歷史借閱記錄(BookOutHis)

資料表為相同欄位,可做資料表的連結。

四、 圖書館自動化系統中的書籍歸還紀錄(BookIn)資料表

圖 4-2-4 圖書館自動化系統中的書籍歸還紀錄(BookIn)資料表形式(本 研究整理)

(7)

本研究選取資料表中的書籍借出交易序號(nBookOutTransId)及 是否逾期(sIsLate)兩個欄位,其中借出交易序號(nBookOutTransId)

與歷史借閱記錄(BookOutHis)資料表為相同欄位,可做資料表連結。

五、 圖書館自動化系統的資料整合

根據以上四個資料表,透過 SQL 的查詢語言整合資料表,同時確 立本研究為探討高中生之借閱行為,而所需要的借閱期間為 2000/08/01 至 2005/03/31。因此設下條件後成為研究中所需的資料表,將此資料表 存成文字檔,以為後續建立資料倉儲時使用,結果如下表:

表 4-2-1 圖書館自動化系統資料整合使用 SQL 查詢語言(本研究整理)

use libs

SELECT A01.nBookID AS 書籍編號, E01.sClassNo AS 索書號,

PatronAll.sRnoID AS 讀者證號, PatronAll.sDeptName AS 班級, A01.dtOutDate AS 借閱日期, BookIn.sIslate AS 是否逾期 FROM BookIn INNER JOIN BookOutHis A01 INNER JOIN PatronAll ON A01.nRnoID = PatronAll.nRnoID ON

BookIn.nBkOutTransID = A01.nBkOutTransID LEFT OUTER JOIN LibBookAll E01 ON A01.nBookID = E01.nBookID

WHERE A01.dtOutDate BETWEEN '2001/8/1' AND '2005/3/31' and dbo.PatronAll.sRnoID BETWEEN ' 0' and '999999'

go

表 4-2-2 圖書館自動化系統資料整合使用的 SQL 查詢語言查詢結果資料 表(本研究整理)

序號 借閱序號 書籍編號 索書號 讀者編號 班級 借閱日期 是否逾期

1 12238 115134 177 90XXX D 2001/8/1 N

2 12239 8160 855 90XXX D 2001/8/1 N

3 12240 120906 857.9 90XXX D 2001/8/1 N

4 12241 120657 857.9 90XXX D 2001/8/1 N

5 12242 120656 857.9 90XXX D 2001/8/1 N

6 12243 60807 310.9 90OOO E 2001/8/1 Y

7 12244 66073 310 90OOO E 2001/8/1 N

(8)

貳、教務處註冊組的學生學籍資料

本研究在探討學生不同的社群是否有不同的借閱行為,因此,最基本的 學籍資料,即是本研究中所可以採用的社群區分方式。

此資料表為教務處註冊組中,學生學籍資料庫裡擷取出來的文字檔,裡 面的欄位包含有學生的學號、性別、住址及組別,這是初級的社群區分方式。

這些欄位為研究者根據實際需要所轉檔出來的資料,因為該資料庫涉及許多 的學生個人隱私, 因此只能由註冊組長幫忙轉成文字檔,以利後續處理。

資料呈現如下:

表 4-2-3 教務處註冊組學生學籍資料形式(本研究整理)

學號,性別,住址,組別

"00XXX","1","241 台北縣三重市仁愛街 XXXX","1"

"00XXX","2","235 台北縣中和市民安街 XXXX","1"

"00XXX","2","204 基隆市安樂路二段 XXXX1","1"

"00XXX","2","234 台北縣永和市智光街 XXXX","1"

其中「性別」欄中 1 代表男生,2 代表女生。

參、教務處註冊組中的學生成績資料

學生的學業成績是一個學生在課業上的直接表現,因此這也做為學生特 質分析的一個重要數據。

本研究所需要的成績以學生的國文、英文及數學成績為主,因此透過教 務處學生成績輸入系統,將學生的成績轉出成文字檔,即可使用。只是成績 為學生的機密資料,因此該資料亦只能由註冊組長代為轉出成文字檔。

資料呈現如下:

表 4-2-4 教務處註冊組中的學生成績資料形式(本研究整理)

"學年度","學期","學號","班級","座號","科目代號","科目名稱",成績

"89","1","90XXX ","。。。","01","0101","國文一上 ",76

"89","1","90XXX ","。。。","01","0111","國文選讀一",76

"89","1","90XXX ","。。。","01","0201","英文一上 ",73

"89","1","90XXX ","。。。","01","0301","數學一上 ",80

"89","1","90XXX ","。。。","01","1111","基礎物理一",75

(9)

為了便於後續的資料表連結,因此,透過 EXCEL 的「排序」功能,針 對科目來排序,並選定將 92 學年度之國文、英文與數學科成績,並將欄位 設定為讀者證號、國文成績、英文成績、數學成績,儲存成一個新的資料表,

結果呈現如下:

表 4-2-5 經過 EXCEL 處理後的的學生成績資料形式(本研究整理)

讀者證號 國文成績 英文成績 數學成績

20AAA 88 86 85

20BBB 76 72 62

20CCC 77 60 66

20DDD 85 81 86

20EEE 66 64 85

20FFF 61 40 60

完成後存成文字檔,以備資料倉儲使用。

肆、教務處註冊組中的班級狀況表

師大附中高中部除了類組上的分別之外,另有幾個特殊班級,包含數理 實驗班、語文實驗班、音樂班、美術班等,這些學生對於自己的性向都有相 當程度的認知,且在各該領域上也都有特殊的表現,這些表現是否也會影響 學生的借閱行為,這是值得探討的問題。

班級狀況表為研究者根據教務處所提供之書面資料,再整理建立的,資 料呈現如下:

表 4-2-6 教務處註冊組中的班級狀況資料形式(本研究整理)

班級 班別

992 5 993 6 994 1 995 2 996 3 997 3

代號 班級狀況

1 一類組

2 二類組

3 三類組

4 數理班

5 美術班

6 音樂班

7 語文班

(10)

伍、教務處教學組中的教師配課表

老師的教學及規定的作業有時也會影響學生的借閱行為,因此各科的任 課教師,也可視為影響學生借閱行為的一個變數。只是教師配課表是教務處 裡的一個極重要的機密資料,不能隨意外流,因此各任課教師由教務處教學 組長給定一個代號,研究中就是利用這些代號來作為分析。

但是因為這些資料具有機密性,本研究只能取得九十三學年度之教師配 課記錄,因此對於教師資料與學生借閱行為間的特性探討,本研究只能針對 九十三學年度來作分析。

資料呈現如下:

表 4-2-7 教學組中的教師配課表資料形式(本研究整理)

班別 國文 英文 數學

1103 33 65 95

1104 7 69 86

1105 11 63 96

1106 33 45 85

1107 21 68 89

(11)

第三節 資料處理與轉換

由於研究中需要的主要資料如借閱記錄檔、學生基本資料檔、學生成績資料 檔等,均是由已臻至完善的資料庫中轉出的資料,因此並不需要有正規化的動 作,倒是對於資料的正確性與資料的格式,需要花時間加以處理。

經由資料庫轉出的資料,往往會因為資料轉檔的關係,或是因為人工輸入時 的錯誤輸入,而使資料格式出現異常數值或是漏失的,因此對於資料的清理就很 重要了。另外,有些數據本身並沒有太大的意義,但是經過轉換或是運算而獲得 一些更具體的概念階層(Concept Hierarchy),這樣的離散化或是分組可以讓資料 在分析時有更明確的集合,可以找出許多資料特性與概念階層間的關係。

壹、圖書館自動化系統中的借閱記錄 一、 資料清理

經由圖書館自動化系統所轉出的借閱記錄,是整個研究所需資料中靈魂 所在,因此這個資料表中資料的正確性,必須要有很高的要求。

因為之前從資料庫轉出時,就是以文字檔的方式存檔,欄位間利用逗號 分開存檔格式為 CSV 檔,因此,可以利用 MICROSOFT EXCEL 軟體(以下 簡稱 EXCEL)來做資料的清理。

1. 讀者資料的清理:

首先利用 EXCEL 排序的功能,對讀者證號來排序,因為研究中所 要採用的為 2000/8/1~2005/3/31 的所有借閱紀錄,因此排序後將讀者證 號不是這個區段的資料再一次刪除,這其中包含每年讀者資料轉入時的 測試資料。

再來對班級做排序,原則上班級資料來均無遺漏的部分,只是跟上 述的一樣,會有每年在轉入資料時所使用的測試資料,這些資料也要刪 除。

2. 索書號的清理:

處理完讀者基本資料後,皆下來要處理索書號的資料,這部分的工 作就比較辛苦,而且往往都是人為輸入的錯誤,因此修正資料時,必須

(12)

花費更多的時間。一樣是用排序的功能,若資料是正常的,那索書號會 按順序從 0 排到 999.999 錯誤或遺失的資料會出現在最下方,資料中出 現的錯誤狀況如下

A. 小數點問題:例如 850.57 會輸入成 850..57,多一個小數點,或 是小數點忘了打。

B. 出現不是數字的符號:最常見的就是「&」及「C」符號,可 利用 EXCEL 中的取代功能將這些符號取代成空值。

C. 多出一些空白字元:例如 85 0.57,在 5 跟 0 中間多了一個空白 字元,同樣的可以利用 EXCEL 中的取代功能將這些符號取代 成空值。

以上的這些錯誤通常只要人工加以修正就行了。

至於漏失的資料,為了便於處理,研究中就以「A」來表示這些漏 失的數值,之後的研究分析就把這些數據單獨處理。

3. 日期及時間的轉換

日期及時間在不同的資料庫中有不同的呈現方式,為了符合下一個 步驟資料探勘時的資料形式,因此將借閱時間的欄位,分成兩個部分,

一個是借閱日期,格式為 YYYYMMDD,另一個為借閱時間,格式為 HH:MM:SS 的資料形式,借閱日期及借閱時間的格式處理,可以利用 EXCEL 中「儲存格格式」的日期格式設定,來做進行格式的處理。

二、 資料轉換 1.索書號轉換:

圖書的索書號分類是相當細的而且數值分散,因此,為了要能有聚 類的分析,利用 EXCEL 中的函數,可以轉換出研究中所需的數據,下 表說明了轉換所使用的函數,斜體字部分為函數的給定。

(13)

表 4-3-1 利用 EXCEL 對索書號作大類與細分類轉換的公式(本研究整 理)

索書號 大類 細分類 850.57 8 50

= Int (D2/100)

=Int(D2)-L2*100

因為小數點後的分類太細微了,因此本研究忽略小數點後的數字,

只以前三碼來作分析。

2.借閱時間轉換

學校的作息是有其規律性的,各月有各月的性質,每週不同的時 間,更是差異性頗大,因此藉由月份、星期與小時的分類,可以讓時間 特性有更明確的數據。

表 4-3-2 利用 EXCEL 對借閱日期作月份與星期轉換的公式(本研究整 理)

借閱日期 月份 星期 2002/3/27 3 3

=MONTH(G2)

=(WEEKDAY(G2))-1

上表中月份所表示的 3,即為三月份,星期所表示的 3,即為星期 三。

(14)

表 4-3-3 利用 EXCEL 對借閱時間作小時轉換的公式(本研究整理)

借閱時間 小時 14:34:27 14

=HOUR(G2) 上表中小時所表示的 14,即為十四時。

貳、教務處註冊組中的學生成績資料

學生成績資料是以國、英、數三科為主,因此處理時亦將這三科分別處 理經由上一節排序處理後的資料來做,欄位中只取學號與成績,以利後續的 資料連結與處理,同時將成績作概念化的分層,十分為一個基準,因此在這 個資料欄中只有十等分,更可以藉由這樣的特性找出學生的借閱行為行為模 式是否許學業表現有相關性。相關 EXCEL 的函數處理如下表。

表 4-3-4 利用 EXCEL 對成績作等第轉換的公式(本研究整理)

成績 成績轉換 85 8 = INT (F2/10)

參、教務處註冊組中的班級狀況表

這個資料表是由研究者自行建立的,同時因為資料比數甚少,因此並不 需要做資料的清理或轉換,只要確定所輸入的班級狀況是否正確即可。

肆、教務處教學組中的教師配課表

教師配課表裡的資料,是一個班三個科目的教師代號,又因為資料筆數 不多,因此處理上也不需要多花時間處理,直接可以利用。

但因為此資料屬於教務處教學組裡極為機密文件,因此所能獲得的只有 九十三學年度的教師配課表。

經過處理後的資料,可以確定資料的形式與完整性,同時將所有處理完畢的 資料,以文字檔的方式儲存,以利後續資料倉儲建立時,節省更多的時間。

(15)

第四節 建立資料倉儲

在瞭解資料的形式之後,確定所需要資料的範圍,就可以開始選擇研究中需 要的資料欄位與格式。並根據相關的連結欄位建立起研究時所需要的資料倉儲,

不同的研究主題,會建立起不同的資料倉儲,以下就根據各種不同的研究問題,

建立該主題合適的資料倉儲。

壹、分析 89~93 學年度的全部借閱記錄

這個資料倉儲主要是以大方向來探討師大附中圖書館這幾年來的狀 況,因此在資料倉儲的建立上,以能夠找出大方向的趨勢為主。

一、 資料倉儲架構

這個研究的資料倉儲形式是以星狀綱要模式(Star Schema)為其多 維度資料模型,相關連結及示意圖如下圖:

學生基本資料表 Fact Table 借閱記錄表

班級狀況表

圖 4-4-1 89~93 學年度借閱記錄研究的資料倉儲示意圖(本研究整理)

借閱序號 讀者證號 班級

讀者的借書量 書籍的借閱量 讀者證號

性別 組別 居住地

借閱序號 書籍編號 索書號 讀者證號 班級 借閱日期 借閱時間 是否逾期 大類 月份 星期 小時 班級

班級狀況

(16)

二、 資料倉儲的建立

確定好資料倉儲的格式之後,可以將所有的文字檔資料轉入 SQL 之中,方便建立資料倉儲。

1. 資料匯入:

首先先在 SQL 資料庫中新增一個資料庫,並命名為 AllData,表示 這是 89-93 學年度的所有紀錄檔資料庫。然後將借閱記錄檔的資料以「匯 入資料」的方式匯入資料庫中。資料來源設定為「Text File」,並在檔案 名稱中指定正確的資料檔路徑。選擇使用分隔符號-使用任意字元來分 隔資料行,並確定第一列有資料行名稱。因為當初文字檔存檔時,各欄 位是以逗號分隔的,因此匯入時,也是以逗號做分隔符號。最後確定目 的地的資料庫為「AllData」,即可完成匯入。

另兩個資料學生基本資料及班級狀況也是利用相同的方式匯入至 89-93 的資料庫中即可。

2. 建立資料倉儲:

SQL 中有個 Quary Analyzer 利用這個查詢程式,可以將三個資料 表,利用相同的欄位做連結。

相關的查詢語言如下:

表 4-4-1 利用 SQL 查詢語言來擷取資料倉儲中所有資料的查詢語言(本 研究整理)

use AllData

SELECT 借閱紀錄.*, 班級狀況.班別 AS 班別, 學生基本資料.性別 AS 性別, 學生基本資料.組別 AS 組別, 學生基本資料.郵遞區號 AS 郵遞區號 FROM 借閱紀錄 INNER JOIN 班級狀況 ON 借閱紀錄.班級 = 班級狀況.班級

INNER JOIN 學生基本資料 ON 借閱紀錄.讀者證號 = 學生基本資料.

學號

Go

(17)

執行結果如下圖:

圖 4-4-2 利用 SQL 查詢語言執行後的樣式(本研究整理)

然後在查尋結果中選擇「全選」,並另存新檔為文字檔即完成 89-93 所以借閱記錄的資料倉儲建立。

三、 資料呈現

最後資料的呈現如下圖所示:

圖 4-4-3 利用 SQL 查詢語言擷取資料後的資料形式(本研究整理)

貳、以 90 學年度入學學生之三年記錄作分析

本研究是以學生的借閱記錄來探討學生借閱行為與學生特性間的關 係,因此就所能順利取得的資料裡,以 90 學年度入學之學生三年的借閱記 錄,配合其學生特性,找出相關連的資訊,此資料並配合學生的個人基本資 料、學科成績特性來作分析,瞭解學生三年內的借閱行為是否有其特殊性質。

(18)

一、 資料倉儲架構

這個研究的資料倉儲形式亦是是以星狀綱要模式(Star Schema)為 其多維度資料模型,相關連結及示意圖如下圖:

學生基本資料表 Fact Table 借閱記錄表

班級狀況表

圖 4-4-4 90 學年度入學學生之三年記錄研究的資料倉儲示意圖(本研究 整理)

二、 資料倉儲的建立

在這個步驟中,為了節省時間,同時節省資料處理的時間,研究中 直接利用上一個資料倉儲所建立起的資料表來擷取所需的資料。研究需 要的是 90 學年度入學的全部學生借閱記錄,這些學生的讀者證號介於 000001~001113,利用 EXCEL 的排序功能,對讀者證號來做「遞增」

的排序,並將讀者證號介於 1~1113 的所有資料「複製」後,另存一個 新的文字檔,檔名設為「90 學年度入學的全部借閱資料.csv」,其中 90 學年度入學所有學生的借閱紀錄共計 13085 筆。

借閱序號 讀者證號 班級

讀者的借書量 書籍的借閱量 讀者證號

性別 組別 居住地

借閱序號 書籍編號 索書號 讀者證號 班級 年級 借閱日期 借閱時間 是否逾期 大類 月份 星期 小時 班級

班級狀況

(19)

另外學生會隨著時間升一個年級,因此研究中需要再加入一個年級 欄位,以利處理成績的資料。一樣是利用 EXCEL 中「排序」的功能,

針對日期排序,將日期是在 2001/8/1~2002/7/31 範圍的設定為 1,日期 是在 2002/8/1~2003/7/31 範圍的設定為 2,日期是在 2003/8/1~

2004/7/31 範圍的設定為 3,結果如下:

圖 4-4-5 擷取 90 學年度入學學生之三年記錄並處理好年級欄位後的所 有資料形式(本研究整理)

資料選取完畢並處理好借閱記錄表的年級欄位之後,便可將這個檔 案匯入至 SQL 中。首先同樣的先建立一個新的資料庫,並命名為

「Dataof90」,並將 90 學年度入學的全部借閱資料.csv 檔案匯入,如此 即完成資料倉儲的建立。

參、以 92 學年度之全部紀錄作分析

上一個主題是以一個年級三年的借閱記錄來作研究分析,這一個主題是 以一年中,三個年級的借閱狀況來作研究分析。

這個資料資料倉儲的資料同樣的可以用第一個建立的資料庫中來擷取 資料,擷取的資料範圍為借閱日期在 2003/8/1~2004/7/31 的所有學生借閱記 錄來作分析。為了讓學生特性分組有更多元的觀察角度,研究中在學生特性 方面多加了一個成績的特性,成績是學生在學科學業上的一個客觀表現,因 此也可以視為是學生的特性之一,另外由於每學年學生的成績大致上都是不 同的,因此就以學期成績的特性分析而言,以一年為基準的借閱記錄來作分 析,才是合適的資料。

(20)

一、 資料倉儲架構

學生基本資料表 Fact Table 借閱記錄表

班級狀況表

學生成績資料表

圖 4-4-6 92 學年度之全部紀錄研究的資料倉儲示意圖(本研究整理)

二、 資料倉儲的建立 1. 資料匯入

首先先以第一個建立的資料庫「AllData」中擷取借閱日期介於 2003/8/1~2004/7/31 的資料,SQL 的查詢語言如下:

表 4-4-2 利用 SQL 查詢語言來擷取 92 學年度之全部紀錄(本研究整理)

use AllData

SELECT 借閱紀錄.*, 班級狀況.班別 AS 班別, 學生基本資料.性別 AS 性別, 學生基本資料.組別 AS 組別, 學生基本資料.郵遞區號 AS 郵遞區號 FROM 借閱紀錄 INNER JOIN 班級狀況 ON 借閱紀錄.班級 = 班級狀況.班級 INNER JOIN 學生基本資料 ON 借閱紀錄.讀者證號 = 學生基本資料.學號 WHERE (借閱紀錄.借閱日期 BETWEEN '2003/8/1' AND '2004/7/31')

Go

借閱序號 讀者證號 班級

讀者的借書量 書籍的借閱量 讀者證號

性別 組別

借閱序號 書籍編號 索書號 讀者證號 班級 年級 借閱日期 借閱時間 是否逾期 大類 月份 星期 小時 班級

班級狀況

讀者證號 國文 英文 數學

國文成績等第 英文成績等第 數學成績等第

(21)

執行完畢後,將查詢結果「全選」「另存新檔」為「92 學年借閱 記錄.csv」。

再來一樣開啟一個新的資料庫「Dataof92」,將「92 學年借閱記 錄.csv」匯入資料庫中,同時也將建立好的 92 學年學生成績資料檔匯入 即可。

2. 建立資料倉儲

利用 SQL 的查詢語言,可以將兩個資料表做連結,相關查詢語言 如下:

表 4-4-3 利用 SQ 輸出 92 學年度之全部紀錄的查詢語言(本研究整理)

Use Dataof92

SELECT [92 學年借閱記錄].*, [92 年成績檔].國文成績 AS 國文成績,

[92 年成績檔].英文成績 AS 英文成績, [92 年成績檔].數學成績 AS 數學成績, [92 年成績檔].國文成績等第 AS 國文成績等第,

[92 年成績檔].英文成績等第 AS 英文成績等第, [92 年成績檔].數學成績等第 AS 數學成績等第 FROM [92 學年借閱記錄] INNER JOIN

[92 年成績檔] ON [92 學年借閱記錄].讀者編號 = [92 年成績檔].讀者證號 Go

然後在查尋結果中選擇「全選」,並另存新檔為文字檔即完成 92 學 年度所有借閱記錄的資料倉儲建立。

三、 資料呈現

最後資料呈現如下圖所示:

圖 4-4-7 利用 SQL 查詢語言輸出 92 學年度之全部紀錄的所有資料形式

(本研究整理)

(22)

肆、以 93 學年度之全部紀錄作分析

學生的借閱行為,有時會因為授課教師的推薦或是作業的規定,而有特 殊的借閱行為,透過班級各科教師配課表,利用他來做一個特性分組,可以 探討不同授課教師,是否有不同的借閱行為。但是因為教師配課資料為學校 內的機密資料,且因為此資料保存問題以及教學組長的更替,而有遺失,因 此在本研究中只能以 93 學年度的借閱記錄來作整合。

一、 資料倉儲架構

學生基本資料表 Fact Table 借閱記錄表

班級狀況表

教師配課表

學生成績資料表 圖 4-4-8 93 學年度之全部紀錄研究的資料倉儲示意圖(本研究整理)

借閱序號 讀者證號 班級

讀者的借書量 書籍的借閱量 讀者證號

性別 組別 居住地

借閱序號 書籍編號 索書號 讀者證號 班級 年級 借閱日期 借閱時間 是否逾期 大類 月份 星期 小時 班級

班級狀況

讀者證號 國文 英文 數學

國文成績等第 英文成績等第 數學成績等第 班級

國文教師 英文教師 數學教師

(23)

二、 資料倉儲的建立 1. 資料匯入

首先先以第一個建立的資料庫「AllData」中擷取借閱日期介於 2004/8/1~2005/3/23 的資料,SQL 的查詢語言如下:

表 4-4-4 利用 SQL 查詢語言來擷取 93 學年度之全部紀錄(本研究整理)

use AllData

SELECT 借閱紀錄.*, 班級狀況.班別 AS 班別, 學生基本資料.性別 AS 性別, 學生基本資料.組別 AS 組別, 學生基本資料.郵遞區號 AS 郵遞區號 FROM 借閱紀錄 INNER JOIN 班級狀況 ON 借閱紀錄.班級 = 班級狀況.班級 INNER JOIN 學生基本資料 ON 借閱紀錄.讀者證號 = 學生基本資料.學號 WHERE (借閱紀錄.借閱日期 BETWEEN '2004/8/1' AND '2005/3/18')

Go

執行完畢後,將查詢結果「全選」「另存新檔」為「93 學年借閱 記錄.csv」。

再來一樣開啟一個新的資料庫「Dataof93」,將「93 學年借閱記 錄.csv」匯入資料庫中,同時也將建立好的「93 學年學生成績資料檔」

及「93 學年教師配課表」匯入即可。

2. 建立資料倉儲

利用 SQL 的查詢語言,可以將三個資料表做連結,相關查詢語言 如下:

(24)

表 4-4-5 利用 SQL 輸出 92 學年度之全部紀錄的查詢語言(本研究整理)

Use Dataof93

SELECT [93 學年借閱記錄].*, [93 年成績檔].國文成績 AS 國文成績,

[93 年成績檔].英文成績 AS 英文成績, [93 年成績檔].數學成績 AS 數學成績, [93 年成績檔].國文成績等第 AS 國文成績等第,

[93 年成績檔].英文成績等第 AS 英文成績等第, [93 年成績檔].數學成績等第 AS 數學成績等第, [93 學年教師配課表].國文教師 AS 國文教師, [93 學年教師配課表].英文教師 AS 英文教師, [93 學年教師配課表].數學教師 AS 數學教師 FROM [93 學年借閱記錄] INNER JOIN

[93 年成績檔] ON [93 學年借閱記錄].讀者編號 = [93 年成績檔].學號 INNER JOIN [93 學年教師配課表] ON [93 學年借閱記錄].班級 = [93 學年教師配課表].班別 Go

然後在查尋結果中選擇「全選」,並另存新檔為文字檔即完成 93 學 年度所有借閱記錄的資料倉儲建立。

三、 資料呈現

圖 4-4-9 利用 SQL 查詢語言輸出 93 學年度之全部紀錄的所有資料形式

(本研究整理)

數據

表 4-3-1 利用 EXCEL 對索書號作大類與細分類轉換的公式(本研究整 理)  索書號                                大類                              細分類  850.57                  8                   50              = Int (D2/100)           =Int(D2)-L2*100  因為小數點後的分類太細微了,因此本研究忽略小數點後的數字, 只以前三碼來作分析
表 4-3-3 利用 EXCEL 對借閱時間作小時轉換的公式(本研究整理)                借閱時間                                                        小時  14:34:27                                                            14                                            =HOUR(G2)
表 4-4-5 利用 SQL 輸出 92 學年度之全部紀錄的查詢語言(本研究整理)  Use Dataof93  SELECT    [93 學年借閱記錄].*, [93 年成績檔].國文成績 AS 國文成績,                         [93 年成績檔].英文成績 AS 英文成績, [93 年成績檔].數學成績 AS 數學成績,                         [93 年成績檔].國文成績等第 AS 國文成績等第,                         [9

參考文獻

相關文件

未具備全國教師在職進修網帳號之教師請 e-mail 報名表格請於 109 年 1 月 16 日(星期四)17 時至 [email protected] 報名,研習報名確定 錄取者,統一於 109 年 1 月 20

1.名冊各欄位如申請單位名 稱、編號、姓名、性別、國 籍或地區、出生日期、護照 號碼、申請聘僱期間、最高 學歷、每月薪資或酬勞、職

職類名稱及編號: 造園景觀 Landsscape Gardening(Nr.37) 5小時 陳春木.

序號 編號 主持人 公文主旨 公文摘要

序號 編號 主持人 公文主旨 公文摘要 發文日期 的。 3.另,因案內發生多起試驗人員未依 CRF. complete guidance

第四章 連續時間週期訊號之頻域分析-傅立葉級數 第五章 連續時間訊號之頻域分析-傅立葉轉換.. 第六章

考試科目(編號):日文閱讀與翻譯

編號 作者 篇名 出版資料..