• 沒有找到結果。

第二章 文獻探討

第二節 書目探勘技術

對書籍與讀者進行分析,找出各特性相近的讀者借閱圖書的情形,透過關聯規 則結果,可能供圖書館推薦讀者有興趣的書籍,以達到提升借閱率的目的。

過去書目探勘中所使用的探勘技術絕大多數為:關聯規則分析、分類分析、

群集分析、次序相關分析,表 2-1-1 為林湧順(2005)與陳建傑(2009)所整 理之資料探勘技術可應用於圖書館的範疇。

一、 關聯規則分析(Association Rules)

10

關聯規則分析主要被用來尋找資料庫中某些資料項目或屬性之間共同發 生的關係。最初應用於超級市場的購物籃分析,從購物籃的交易記錄中,可找 出相關產品間的關聯,並據以分析顧客購買行為及較常出現購買模式。這樣的 結果,可以產生一個行銷的策略就是將經常被一起購買的商品放近一些,以便 進一步刺激這些商品一起銷售。

關聯規則運用的原理為條件機率,例如:購買 A 商品時,有多少機率會同 時購買 B 商品。而關聯規則以信心水準(Confidence)及支援度(Support)這兩個指 標來評斷所找到的規則是否可用。

二、 分類分析(Classification)

分類分析是根據一些變數的數值做計算,再依照結果作分類,計算的結果 最後會被分類為幾個少數的離散數值,例如將一組資料分為「可能會回應」或 是「可能不會回應」兩類。因此會用一些已經分類的資料來研究它們的特徵,

然後再根據這些特徵對其他未經分類或是新的資料做預測。這些用來尋找特徵 的已分類資料可能是來自現有的歷史性資料,或是將一個完整資料庫做部份取 樣,再經由實際的運作來測試;譬如利用一個完整資料庫的部份取樣來建立一 個分類模式(Classification Model),以後再利用這個模式來對資料庫的其他資 料或是新的資料作預測。

三、 序列分析(Sequence Analysis)

序列分析是一組按時間順序發生的事件,研究者根據每一固定時間間距依 序紀錄事件結果,而時間序列數據最大特點就是當中每一筆緊接著數據的紀錄 時間間距均相同。股票市場固定時段價格變化,每月進出口貿易相關數字,每 年人口出生率數字等分別為時間序列數據例子。要分析時間序列數據,研究者 首先可以使用一些視覺檢查(Visual Inspection)工具(例如立體圖表),從時

11

間序列數據紀錄,觀察出某些現象特徵及行為,通常時間序列有四種主要的變 化:長期或趨勢變化、迴圈變化、季節性變化、非規則或隨機變化。

四、 群集分析(Clustering)

群集分析被廣泛應用於社會科學、生物科學、商業和教育等各領域。群集 分析是利用一些特性的組合來對樣本作群體的分類,也就是設定一組由多個屬 性描述其特性的物件集合,群集分析根據物件間的相似性,將這些物件分成群 集,使得每個群集內的成員具有高度的相似性,而不同群集間之物件具有高度 的不相似性。

在分群技術中,階層式群集演算法(Hierachical Clustering Algorithms)和 切割式群集演算法(Patition Clustering Algorithms)為最常見的分群技術。階層 式群集法可分為:凝聚式與分裂式兩種,兩者分別為由下往上(Bottom Up)

與由上往下(Top Down)的方式,逐步將物件分為不同群體,此分群方式可以 夠過樹狀圖看出各群間的關係,但執行速度緩慢是一主要缺點。

切割式群集演算法需要使用者先確定要切割的 K 個數目,在以群集重心

(Cluster Mean)的方式進行分群。K-means 演算法與 E-M 演算法為著名的切 割式群集演算法。

五、 迴歸分析(Regression)

迴歸分析就是一種統計分析的方法,主要在了解自變數( Independent Variable)與因變數(Dependent Variable)間之數量關係,其主要用處是尋找 兩個或兩個以上的變數之間相互變化的關係。當找到這些關係之後,就可以利 用結果進行:

12

(一) 變數間關係敘述(Description):例如說明節目製作費用與收視率之 關係。

(二) 變數間控制(Control):例如商品價格與需求量有關係,故控制價格,

就可以控制需求量。

(三) 對變數值預測(Prediction):例如若存在製作費與收視率有關係,則 可以用此來預估某節目的收視率。

相關文件