第三章 研究架構與方法
第三節 網路文具申請系統推薦知識庫概念
網路文具申請系統申請資訊推薦機制之建置主要分為兩部分,第一部分為文 具申請資訊探勘機制,即利用資料探勘技術之Apriori演算法。第二部分為文具申 請資訊最佳化機制,即利用類神經網路之霍普菲爾網路兩大部分,以下分別針對 此兩大部分作說明。
(一)文具申請資訊探勘機制
文具申請資訊探勘機制主要是以Apriori演算法作為探勘申請文具對申請文 具之關聯性法則作探勘,表六表示Apriori演算法符號變數定義,其演算法之步驟 詳述如下:
網路文具 申請系統 World Wide Web
文 具 系 統 管 理 者 介 面分類/採 購/分發
表六、Apriori演算法符號變數定義表
變數 定義
D 申請文具交易資料庫。
k-itemset 擁有k個文具項目的集合。
Ck 候選文具項目集合(Candidate k-itemset),由k個文 具項目的候選文具項目集合所形成的集合,其中的 文具項目集合有可能是但不一定是大項目集合。
Lk 大項目文具集合(large k-itemset),此集合必須符合 min-support的要求。
Min-support 最小支持度。即產生大項目文具集合所需的最小限 制。
Min-confidence 使用者自定的最小信度。即產生關聯式法則的最小 限制。
(1)首先計算各單一文具出現在申請交易資料庫D的次數,即計算其支持 度,判斷其是否大於或等於最小支持度,以決定出L1(Large l-itemsets),其中 1代表一次申請文具為1項的項目集合,之後可分為兩個階段來進行:
1.合併階段(Join Step): 利用申請文具為K-1的大項目操作流程集合
(LK-1)產生候選文具項目集合(CK)。方法是將Lk-1做排列組合,例 如Lk-1若有n個,經排列組合後Ck便會有 n2
個。
2. 修剪階段(Pruning Step): 修剪階段即刪除不可能成為大項目集合的 文具項目。因為所有大項目操作流程集合的子集合,必須一定是大項目 集合(又稱為Apriori Property)。根據這個特性,便可針對第一階段產 生的候選文具項目集合做修剪,將不符合條件的予以刪除。將所有支持 度大於最低門檻的候選文具項目集合挑選出來,就成為長度為K的大項 目文具集合(LK)。
之後的每個回合,利用上一步驟找出的大項目來產生候選項目集合
(Candidate Itemsets),對每個候選項目集合計算其支持度,而利用最小 支持度決定候選項目是否為真正的大項目集合,如此重複步驟,一直到 無法產生新的候選項目集合便停止。
接下來進行產生申請文具對申請文具關聯式法則,關聯式法則(Cij
Ckl,其中i, k 為文具類別,j, l為文具編號)成立的條件有兩個:
1. 項目集合(Itemsets) Cij 的支持度(Support Level)必須達到所設定最小 支持度,本研究設定最小支持度之計算公式如下。
Min_support= ( ) ( )
n ij
Num S
Num C ×(1-min_confidence),其中Num(Sn)為申請數,
Num(Cij)所有文具的數量。
2. 法則的的信度(Confidence Level)必須達到所設定的最小信度。
各階段申請文具之探勘程序說明 資料探勘模組其進行步驟說明如圖八:
步驟1:訂定申請文具資料探勘項目。
步驟2:整合與查核文具申請資料(Integration and Checking)。
步驟3:去除錯誤或不一致的資料(Data Cleaning)。
步驟4:計算各文具申請之使用率(Support)。
步驟5:探勘各文具申請之關聯性法則(Association Rules)。
步驟6:解釋與使用資料(Interpretation and Use)
圖八:資料探勘模組進行步驟
其關聯式法則的產生可以藉由兩個參數來決定:支持度(Support)及信 度(Confidence);支持度定義物項在資料庫中所出現的比例,而信度定義
1. 訂定文具申請資料探勘項目
2. 整合與查核文具申請資料
(Integration and Checking)
3.去除錯誤或不一致的資料
(Data Cleaning)
4. 計算各文具申請之使用率
(Support)
5. 探勘各文具申請之關聯性法則
(Association Rules)
6.解釋與使用資料
(Interpretation and use)
此關聯式法則可信的程度。一般而言,關聯式法則的支持度及信度皆必須分 別大於使用者訂定的最小限制,才能判定其為有意義的關聯式法則。
1. 探勘單一文具出現在申請交易資料庫的信度
圖九:單一文具信度探勘 2. 探勘兩項文具出現在交易資料庫的支持度
圖十:兩項文具支持度探勘
3.以迴圈探勘三、四、五項文具出現在交易資料庫的支持度,直到無法產生 新的候選項目集合便停止。
DATA BASE C1
圖十一:迴圈探勘三、四、五項文具支持度 關聯式法則知識庫的建立
由上述資料探勘模組探勘出的申請文具對申請文具關聯法則,將每個申請文 具最常對應申請文具的關聯法則儲存於關聯式法則知識庫中,作為申請資訊推薦 依據。
(二)文具申請資訊最佳化機制
文具申請資訊最佳化機制是利用霍普菲爾網路最佳化分析之特性,將資料探
勘出推薦之文具字串進行最佳化分析,將相似或重複之推薦文具去除,以減低推
薦時之資訊負載程度。本研究最佳化推薦系統是採用霍普菲爾網路(HNN)建
構而成,以下將介紹本研究如何應用霍普菲爾網路(HNN)來進行申請推薦資 訊最佳化之應用。
推薦資訊最佳化網路
採霍普菲爾網路(HNN)來進行推薦資訊最佳化之動作,此網路的架構如 圖十二,可分為三部份詳述如下:
圖十二:霍普菲爾申請者分群網路架構
霍普菲爾申請者分群網路架構 霍普菲爾的網路架構包括:
1.處理單元
用以表現網路的輸入變數,即訓練範例的輸入向量,其處理單元數目依問題 而定。輸入變數值為二極值{-1,+1},使用非線性轉換函數,如圖十三所示。
圖十三:霍普菲爾網路的非線性轉換函數 [資料來源:Hopfield J.,Tank,D.,1982]
2.網路連結
每個單元與單元間的連結加權值代表著二者間的互動關係,其公式如下所 推薦資訊輸入
最適化推薦資訊
示。從這二個公式可以看得出來,如果單元與單元間的加權值為正,代表二者間 的傾向同號,即同為正或同為負;反之如為負,代表二者間傾向異號,即為一正 一負。因此,霍普菲爾網路加權值的公式如下:
[資料來源:Hopfield J.,Tank,D.,1982]
3.學習過程 [ ][ ]
P
W j i =
∑
Xp[ ]i •Xp[ ]j ,W[i][i]=0 4.回想過程設定網路參數
表七、霍普菲爾網路參數表 參數 說明
Wij 第i個生物神經元到第j 個神經元的 連結強度,又稱連結加權值。
p
Xi 第i個神經元的狀態函數在第p次的 值,其值為「1」、「0」、「-1」
p
Wj 第j個神經元的狀態函數在第p次的 值,其值為「1」、「0」、「-1」
p
Xi 第j個神經元的閥值,由外界輸入,起 始值為0。
讀入加權值矩陣W。
Wij=
p
∑
(Xip•Xjp)=p
∑
Wijp從測試範例輸入初始狀態變數向量X。
計算新的狀態變數向量X。
net[j]=
i
∑W [i][j]•X[i]
X[j]=1, 如果net[j]>0 X[j]=X[j],如果net[j]=0 X[j]=-1,如果net[j]<0
重複計算新的狀態變數向量,直到收斂
5.實例說明
申請者進入文具申請系統申請A文具時,申請推薦機制將文具申請知
識庫中相關聯之文具字串挑出[A,C,D,B,E] [A,B,C,D,E] [A,
D,C,B,B]時,先將[A,C,D,B,E]與[A,B,C,D,E]計算。
得到字串[A,B,C,D,E]再與[A,D,C,B,B]計算
得到最佳化字串[A,B,C,D,E]。
6.推薦資訊最佳化
依據上述之申請推薦資訊最佳化以霍普菲爾網路之公式製作「 網 路 文 具 申 請 資 訊 推 薦 機 制 - 推 薦 資 訊 最 佳 化 模 組
(WASTE-HNN MODEL)」。