• 沒有找到結果。

第三章 研究架構與方法

第三節 網路文具申請系統推薦知識庫概念

網路文具申請系統申請資訊推薦機制之建置主要分為兩部分,第一部分為文 具申請資訊探勘機制,即利用資料探勘技術之Apriori演算法。第二部分為文具申 請資訊最佳化機制,即利用類神經網路之霍普菲爾網路兩大部分,以下分別針對 此兩大部分作說明。

(一)文具申請資訊探勘機制

文具申請資訊探勘機制主要是以Apriori演算法作為探勘申請文具對申請文 具之關聯性法則作探勘,表六表示Apriori演算法符號變數定義,其演算法之步驟 詳述如下:

網路文具 申請系統 World Wide Web

文 具 系 統 管 理 者 介 面分類/採 購/分發

表六、Apriori演算法符號變數定義表

變數 定義

D 申請文具交易資料庫。

k-itemset 擁有k個文具項目的集合。

Ck 候選文具項目集合(Candidate k-itemset),由k個文 具項目的候選文具項目集合所形成的集合,其中的 文具項目集合有可能是但不一定是大項目集合。

Lk 大項目文具集合(large k-itemset),此集合必須符合 min-support的要求。

Min-support 最小支持度。即產生大項目文具集合所需的最小限 制。

Min-confidence 使用者自定的最小信度。即產生關聯式法則的最小 限制。

(1)首先計算各單一文具出現在申請交易資料庫D的次數,即計算其支持 度,判斷其是否大於或等於最小支持度,以決定出L1(Large l-itemsets),其中 1代表一次申請文具為1項的項目集合,之後可分為兩個階段來進行:

1.合併階段(Join Step): 利用申請文具為K-1的大項目操作流程集合

(LK-1)產生候選文具項目集合(CK)。方法是將Lk-1做排列組合,例 如Lk-1若有n個,經排列組合後Ck便會有 n2

  個。

2. 修剪階段(Pruning Step): 修剪階段即刪除不可能成為大項目集合的 文具項目。因為所有大項目操作流程集合的子集合,必須一定是大項目 集合(又稱為Apriori Property)。根據這個特性,便可針對第一階段產 生的候選文具項目集合做修剪,將不符合條件的予以刪除。將所有支持 度大於最低門檻的候選文具項目集合挑選出來,就成為長度為K的大項 目文具集合(LK)。

之後的每個回合,利用上一步驟找出的大項目來產生候選項目集合

(Candidate Itemsets),對每個候選項目集合計算其支持度,而利用最小 支持度決定候選項目是否為真正的大項目集合,如此重複步驟,一直到 無法產生新的候選項目集合便停止。

接下來進行產生申請文具對申請文具關聯式法則,關聯式法則(Cij

Ckl,其中i, k 為文具類別,j, l為文具編號)成立的條件有兩個:

1. 項目集合(Itemsets) Cij 的支持度(Support Level)必須達到所設定最小 支持度,本研究設定最小支持度之計算公式如下。

Min_support= ( ) ( )

n ij

Num S

Num C ×(1-min_confidence),其中Num(Sn)為申請數,

Num(Cij)所有文具的數量。

2. 法則的的信度(Confidence Level)必須達到所設定的最小信度。

各階段申請文具之探勘程序說明 資料探勘模組其進行步驟說明如圖八:

步驟1:訂定申請文具資料探勘項目。

步驟2:整合與查核文具申請資料(Integration and Checking)。

步驟3:去除錯誤或不一致的資料(Data Cleaning)。

步驟4:計算各文具申請之使用率(Support)。

步驟5:探勘各文具申請之關聯性法則(Association Rules)。

步驟6:解釋與使用資料(Interpretation and Use)

圖八:資料探勘模組進行步驟

其關聯式法則的產生可以藉由兩個參數來決定:支持度(Support)及信 度(Confidence);支持度定義物項在資料庫中所出現的比例,而信度定義

1. 訂定文具申請資料探勘項目

2. 整合與查核文具申請資料

(Integration and Checking)

3.去除錯誤或不一致的資料

(Data Cleaning)

4. 計算各文具申請之使用率

(Support)

5. 探勘各文具申請之關聯性法則

(Association Rules)

6.解釋與使用資料

(Interpretation and use)

此關聯式法則可信的程度。一般而言,關聯式法則的支持度及信度皆必須分 別大於使用者訂定的最小限制,才能判定其為有意義的關聯式法則。

1. 探勘單一文具出現在申請交易資料庫的信度

圖九:單一文具信度探勘 2. 探勘兩項文具出現在交易資料庫的支持度

圖十:兩項文具支持度探勘

3.以迴圈探勘三、四、五項文具出現在交易資料庫的支持度,直到無法產生 新的候選項目集合便停止。

DATA BASE C1

圖十一:迴圈探勘三、四、五項文具支持度 關聯式法則知識庫的建立

由上述資料探勘模組探勘出的申請文具對申請文具關聯法則,將每個申請文 具最常對應申請文具的關聯法則儲存於關聯式法則知識庫中,作為申請資訊推薦 依據。

(二)文具申請資訊最佳化機制

文具申請資訊最佳化機制是利用霍普菲爾網路最佳化分析之特性,將資料探

勘出推薦之文具字串進行最佳化分析,將相似或重複之推薦文具去除,以減低推

薦時之資訊負載程度。本研究最佳化推薦系統是採用霍普菲爾網路(HNN)建

構而成,以下將介紹本研究如何應用霍普菲爾網路(HNN)來進行申請推薦資 訊最佳化之應用。

推薦資訊最佳化網路

採霍普菲爾網路(HNN)來進行推薦資訊最佳化之動作,此網路的架構如 圖十二,可分為三部份詳述如下:

圖十二:霍普菲爾申請者分群網路架構

霍普菲爾申請者分群網路架構 霍普菲爾的網路架構包括:

1.處理單元

用以表現網路的輸入變數,即訓練範例的輸入向量,其處理單元數目依問題 而定。輸入變數值為二極值{-1,+1},使用非線性轉換函數,如圖十三所示。

圖十三:霍普菲爾網路的非線性轉換函數 [資料來源:Hopfield J.,Tank,D.,1982]

2.網路連結

每個單元與單元間的連結加權值代表著二者間的互動關係,其公式如下所 推薦資訊輸入

最適化推薦資訊

示。從這二個公式可以看得出來,如果單元與單元間的加權值為正,代表二者間 的傾向同號,即同為正或同為負;反之如為負,代表二者間傾向異號,即為一正 一負。因此,霍普菲爾網路加權值的公式如下:

[資料來源:Hopfield J.,Tank,D.,1982]

3.學習過程 [ ][ ]

P

W j i =

Xp[ ]i Xp[ ]j ,W[i][i]=0 4.回想過程

設定網路參數

表七、霍普菲爾網路參數表 參數 說明

Wij 第i個生物神經元到第j 個神經元的 連結強度,又稱連結加權值。

p

Xi 第i個神經元的狀態函數在第p次的 值,其值為「1」、「0」、「-1」

p

Wj 第j個神經元的狀態函數在第p次的 值,其值為「1」、「0」、「-1」

p

Xi 第j個神經元的閥值,由外界輸入,起 始值為0。

讀入加權值矩陣W。

Wij

p

XipXjp)=

p

Wijp

從測試範例輸入初始狀態變數向量X。

計算新的狀態變數向量X。

net[j]=

i

W [i][j]•X[i]

X[j]=1, 如果net[j]>0 X[j]=X[j],如果net[j]=0 X[j]=-1,如果net[j]<0

重複計算新的狀態變數向量,直到收斂

5.實例說明

申請者進入文具申請系統申請A文具時,申請推薦機制將文具申請知

識庫中相關聯之文具字串挑出[A,C,D,B,E] [A,B,C,D,E] [A,

D,C,B,B]時,先將[A,C,D,B,E]與[A,B,C,D,E]計算。

得到字串[A,B,C,D,E]再與[A,D,C,B,B]計算

得到最佳化字串[A,B,C,D,E]。

6.推薦資訊最佳化

依據上述之申請推薦資訊最佳化以霍普菲爾網路之公式製作「 網 路 文 具 申 請 資 訊 推 薦 機 制 - 推 薦 資 訊 最 佳 化 模 組

(WASTE-HNN MODEL)」。

相關文件