t OGTzthZ mWGM09110022z Gn h EQT~ ^ ] Take Waste Application System as the Example Applying Data Mining Techniques and Hopfield Neural Network to Recommendation Application DGBNPN (t) h j

87  Download (0)

Full text

(1)

中 華 大 學 碩 士 論 文

題目:運用資料探勘技術與霍普菲爾網路於推薦 申請之應用 (文具申請系統為例)

Applying Data Mining Techniques and Hopfield Neural Network to Recommendation Application(Take Waste Application System

as the Example)

系 所 別:資訊管理學系碩士班 學號姓名:M09110022 曾馨慧 指導教授:邱登裕 博士

中華民國九十三年六月

(2)
(3)
(4)
(5)

中文摘要

近年來 World Wide Web 之發展突飛猛進,各公司企業資訊相關單位無 不以發展 Web 化網頁為首要目標。有鑒於 Web 化網頁跨網域及無遠弗界之 優點,各軟體公司或企業之 IT 部門對於其資訊或應用系統之開發均轉而改 以 Web 化之操作介面,但是就 Web 化之網頁特性而言,應是以簡單的操作 為主,應盡量避免複雜的運算或複雜的操作。否則造成系統效能的負擔,進 而影響使用者使用之意願,造成系統推廣的阻力。

本研究最主要的目的是希望藉由資料探勘與類神經網路之技術,對於資 訊過載程度高及複雜操作為主之資訊系統,提供一個友善的網頁資訊推薦方 式,並以開發「網路文具申請系統」為例,運用此二項技術對於資訊過載程 度高的系統及使用者操作介面提供一個良好的互動模式,並藉由此互動模式 之運作,可以較有效率的操作資訊系統,減少系統之資訊過載程度。

關鍵字:資料探勘、類神經網路、資訊推薦、資訊過載。

(6)

Abstract

In recent years,development of the World Wide Web made fast

progress.Information unit in enterprises take development of the Web as the main

target. Due to the advantages of Web,IT o f d e p a r t m e n t s o f v a r i o u s

s o f t w a r e c o m p a n i e s h a v e transfered their application systems to be

operated in web interface. The main goal is to achieve an interface that can be

operated with simple steps. That is,operations with complex steps should be

avoided as much as passible.

The main goal of this research is to achieve an application system that can be

operated with simple steps by exploring the technologies of data maining and neural

network.We take 「Internet Waste System」 as an example.We apply the two

technologies mentioned above to create an interface that can be used as a modle for

developing a good interactive interface to provide a good interaction pattern.By

using the interface,efficient operation of an information system may reduce

operation overload degree of the system.

Keyword:Data Mining、Neural Network、Information Overload.

(7)

(8)

誌謝

兩年研究所能夠順利完成,最要感謝的是我的指導教授邱登裕老師。感謝邱

登裕老師在兩年研究所生涯中給予指導與解惑,在我苦思煩惱時給予不同的思

考方向,豁然頓悟,思考空間更為寬廣,千言萬語也無法表達心中的謝意。

在研究所的兩年生活中,除了感謝邱登裕老師之外。另外要感謝的是班上同

學,尤其要感謝佩欣同學從旁不斷的鼓勵,在課業上相互指導、切磋與砥礪,讓

我在研究所生涯中時時刻刻都有美好的回憶。在畢業後真希望所有幸運的事都能

夠讓佩欣同學遇上,讓生活永遠順利。

最後,感謝父母及家人的支持與鼓勵,感謝父母二十多年來的栽培,讓我在

求學生涯中全心全力投入於課業中,若我將來能有所成就,將全部歸屬於你們大

家。

(9)

目錄

中文摘要………i

Abstract……….ii

誌謝………..iv

目錄………...v

圖目錄……….vii

表目錄………..ix

第一章 緒論………...1

第一節 研究背景………...1

第二節 研究動機………...3

第三節 研究目的………...4

第四節 研究流程架構………...6

第五節 論文概述………...6

第二章 文獻探討………...8

第一節 資訊推薦………...8

第二節 資料探勘……….10

第三節 類神經網路及霍普菲爾網路……….20

第三章 研究架構與方法……….28

第一節 網路文具申請系統申請資訊推薦概念……….28

第二節 網路文具申請系統建置規劃……….30

第三節 網路文具申請系統推薦知識庫概念……….31

第四節 線上(On-line)文具申請資訊推薦導入……….…41

第四章 系統設計與實例應用……….43

第一節 網路文具申請系統建制與開發……….43

第二節 網路文具申請系統資訊推薦機制建置……….44

第三節 網路文具申請系統資訊推薦機制導入……….50

(10)

第四節 實驗結果分析………53

第五章 結論與未來建議………62

第一節 研究結論………62

第二節 未來研究建議………63

參考文獻………64

附錄 A 網路文具申請系統資訊推薦分析系統功能說明………64

(11)

圖目錄

圖一、研究流程架構……….……….6

圖二、Apriori演算法過程……….….17

圖三、Apriori演算法程式碼……….….20

圖四、霍普菲爾網路的非線性轉換函數………..26

圖五、網路文具申請系統申請資訊推薦機制架構………..28

圖六、網路文具申請/推薦系統推薦導入架構……….…30

圖七、線上網路文具申請系統流程圖………..31

圖八、資料探勘模組進行步驟………..34

圖九、單一文具支持度探勘…….……….35

圖十、兩項文具支持度探勘…….……….35

圖十一、迴圈探勘三、四、五項文具支持度…….……….35

圖十二、霍普菲爾申請者分群網路架構………..36

圖十三、霍普菲爾網路的非線性轉換函數………..37

圖十四、線上申請資訊推薦導入處理程序………..37

圖十五、網路文具申請系統系統架構圖………..42

圖十六、分析資料表儲存形態………..44

圖十七、兩項申請組合之資訊推薦知識庫儲存型態………..47

圖十八、三項申請組合之資訊推薦知識庫儲存型態………..48

圖十九、四項申請組合之資訊推薦知識庫儲存型態………..48

圖二十、五項申請組合之資訊推薦知識庫儲存型態………..49

圖二十一、六項申請組合之資訊推薦知識庫儲存型態………..49

圖二十二、網路文具申請系統文具總覽主畫面………..50

圖二十三、網路文具申請系統文具申請畫面………..51

圖二十四、網路文具申請申請確認………..52

圖二十五、網路文具申請申請資訊推薦………..52

圖二十六、時間/接受與不接受推薦比率曲線圖……….61

(12)

表目錄

表一、比較傳統作業系統與資料探勘系統……….11

表二、支持度/信度公式表………14

表三、資料探勘範例資料……….16

表四、傳統數位計算機與類神經網路比較表……….21

表五、國外將類神經網路應用於管理領域的相關參考文獻整理……….24

表六、Apriori演算法符號變數定義表……….32

表七、霍普菲爾網路參數表……….39

表八、文具類別……….45

表九、文具類別細項數……….46

表十、分析資料表格式……….47

表十一、列舉各支持度5項申請項目分析其一併申請之項目………...53

表十二、推薦確認資訊回饋資料表之欄位……….58

表十三、時間/接受與不接受推薦比率………59

(13)

第一章、緒論

第一節 研究背景

近年來,隨著資訊的邁進,人類的學習、工作、甚至於娛樂對談溝通等,都 逐漸的在電腦上完成,並進一步的藉網路而打破國界之分。透過全球資訊網 (World Wide Web;WWW) 的瀏覽器(Browser),我們的觸角就可以伸展到世界的 每個角落,因此在短短時間內,World Wide Web 應用系統的使用率,便以驚人 的速度推展開來[朱國光,1998]。

一、網際網路的興盛

由於網際網路(Internet) 與World Wide Web相關技術的蓬勃發展,使得網際 網路逐漸成為現代人取得資訊的重要管道。網際網路所具備的即時性與強大散播 能力,使得不論是政府、企業、學校、社區與個人都能藉由網路取得來自世界各 地的豐富資訊。

網際網路無時無刻都有新的資訊產生,例如新聞娛樂、運動休閒、金融理財、

科技新知以及生活資訊等不同的內容,皆可藉由文字、圖片、聲音與影像等格式 在網際網路進行傳遞[Yang,C.C.,2000]。根據統計,網際網路的資料量幾乎是每 十八個月成長一倍,而網頁更是不到六個月就可以成長一倍[Yang,C.C,2000]。

除此之外,更有許多時效性的資訊隨著需要而時有更新或產生,使得網際網路

(14)

的資訊量以驚人的速度持續不斷的增加,「資訊過載」(Information Overload)程 度也越來越高。

二、網路工具的發展

網際網路所提供的豐富資源雖然能讓使用者擁有更多資訊的選擇,但此時卻 也產生資訊過載困擾[Etzioni O,1995]。為了讓使用者更加方便且有效率地在網 際網路上取得資訊,於是網路資訊取得的相關工具發展就在此時應 運 而 生 , 為 使 用 者 在 面 對 資 訊 過 載 的 困 擾 時 提 供 一 個 解 決 方 案 [Adorf, H.M.,1995]。

應用網路工具軟體來追蹤資訊的流向與變化,可以進一步協助使用者擷取

(Retrieve)、找出與管理網路上的文件。

此種智慧型網路工具除提供主動通知使用者最新相關資訊之外,也能藉由資 訊的內容與來源來瞭解使用者行為,並能將使用者需求與行為兩者間的資料予以 整合,以提供符合使用者需要的資訊推薦服務。

三、個人化服務

近年來,由於電子商務的蓬勃發展,使得網際網路不再侷限於資訊提供的功 能。對現代化企業而言,透過網際網路與電子商務的緊密結合,企業將可與各層 級的客戶進行更直接的接觸與瞭解,以提供符合客戶需求的各項服務。如此一 來,企業不但可因此提高整體經營管理上的效益,更可掌握客戶確切的需求資訊 進而開創出更多的商機。

除此之外,網際網路也提供一個與傳統媒體不同的雙向溝通環境,消費者不

(15)

但可以自由選擇所需的資訊,更可將自己的需求透過網際網路反應給企業。藉由 雙向互動取代單向傳播的接收方式,讓消費者與企業皆能成為資訊的傳播者。

為增進消費者與企業彼此間的互動,主動提供產品相關資訊乃成為企業與消 費者間溝通的起始點。然而,以往大眾化的資訊推薦方式並未針對使用者個人特 徵進行資訊傳播,雖然達到傳達消費者產品相關資訊的目的,但對於非相關喜好 的消費者來說,不但無法達到互動目標反而招致更多的反感。反觀個人化資訊推 薦則是以量身訂作方式,根據消費者不同特性與需求提供合適的資訊,讓消費者 獲得符合個人興趣偏好的資訊,藉此提昇消費者對於資訊服務的滿意度,以增加 企業與消費者之間的互動與信賴,進而提昇企業的經營競爭力。

結合World Wide Web與資訊推薦技術,已是各大軟體公司於開發網頁化資訊 應用的很重要的一部分,也是軟體未來發展很重要的一個機制。

第二節 研究動機

由於網際網路的蓬勃發展,利用網路來進行各種物品申請,一直以來都是網 路活動的重要一環,以往資訊推薦所使用之技術,多為將申請物品之屬性作關 聯,於申請物品之同時對物品之屬性作關聯,進而推薦物品。

然而資訊推薦於各種資訊系統中應用非常廣泛,若是各資訊系統於資訊推薦 之做法都是以推薦資訊之特徵推薦之方式,勢必造成資訊管理人員管理上的沉重 負擔,進而造成系統推展的阻力[賴榮裕,1995]。

近年來資料探勘之文獻相繼對於資訊推薦之應用於改良作了相當大的努

(16)

力,然而資料探勘技術對於資訊與資訊間的關聯探勘也觸發了許多思維的空間,

也相繼應用於各種應用軟體中[賴榮裕,1995]。

以資料探勘技術應用於資訊推薦上,對於整體資訊之關聯作探勘。然而對於 資訊推薦內容分析卻很少文獻及實際應用。所以若資訊推薦可以有效率的將推薦 內容整理及過濾雜訊將最佳資訊推薦給使用者,將可以將資訊過載之程度再降 低,成為更精準的資訊推薦模式。

第三節 研究目的

本研究之目的是針對Web申請系統之特性,藉以運用資料探勘技術探勘申請 物品之間之關聯性與類神經網路之最佳化分析,來對於複雜的資訊系統提供一個 有效率之申請物品資訊推薦模式,並以開發網路文具申請系統為例,導入此種資 訊推薦模式以證明其方式的可行性與接受程度,進而提供資訊過載程度高的系統 於使用操作上之助益。

本研究目的如下:

1.對於開發資訊過載程度高的系統提供一個有效率的資訊推薦模式。

2.依此資訊推薦模式分析與設計研發網路文具申請系統介面,並以實際上線 測試評估之。

3.期望研究的成果能夠對改善資訊過載程度高的系統之人機介面的使用性 有些許貢獻,並提供相關結論與建議,做為後續建置資訊過載程度高的系統 研究,有價值之參考依據。

(17)

第四節 研究流程架構

圖一:研究流程架構

第五節 論文概述

本論文計分五章來撰寫,各章內容如下

第一章 緒論

說明本研究之背景、動機和目的,並闡述所需資料之來源,並描述 本研究之流程架構。

1.研究背景、動機、目的

2.相關理論和文獻探討

3.霍普菲爾網路與 Apriori 演算法於 文具申請系統申請資訊推薦之應用

規劃

4.將資訊推薦模組導入文具申請系 統

5.蒐集回饋之資料分析此方法改進 操作介面資訊過載之成效

6.結論與建議

(18)

第二章 文獻探討

介紹相關之資料探勘及類神經網路理論,整理中外對於使用者介面 資訊推薦之相關研究和文獻,並整理本研究所用到之相關方法。

第三章 研究方法

介紹本論文之研究架構和方法,並對架構之每一部分詳細說明與解 釋。

第四章 系統設計與實例應用

對於本研究之系統進行系統分析與開發,並導入本研究所提之方 法,並蒐集與分析資料以驗證其改進成效。

第五章 結論與未來建議

對本研究做一總結和本研究之限制,以及未來可研究之方向等等。

(19)

第二章、文獻探討

第一節 資訊推薦

World Wide Web帶來的資訊爆炸使得人們必須花費相當大的工夫才能找到 所需要的資訊,資訊推薦系統建置的目的,即在於解決使用者資訊過載過重的問 題。在電子商務上,資訊推薦系統已應用於許多大型購物網站,如Amazon.com、

eBay等;藉由與網站使用者間明確(Explicit)或不明確(Implicit)的互動,資 訊推薦系統可學習出使用者可能具有的喜好,以及找出可能符合使用者需求的產 品,進而推薦使用者進行購買。[Yang,C.C,2000]。

(一)資訊推薦的方式

資訊推薦方式較常見的有三種:Top-N 的商品排列、新產品或特價商 品的E-mail通知,及使用者進行購買時對相似產品的推薦。

1 、Top-N 的商品排列:

資訊推薦系統計算出使用者對各項產品的喜好分數並加以排序後,以

Top-N 方 式 呈 現 給 使 用 者 , 其 後 可 根 據 使 用 者 的 評 價 ( Explicitrate ) [Yang,C.C.,2000],或 記 錄 使 用 者 對 所 推 薦 之 產 品 的 瀏 覽 行 為 [Etzioni O.,1995],回饋給系統進行調整,使得系統能更正確地學習出使用者的喜好。

2 、新產品或特價商品的Email通知:

當網站有新產品或特價品資訊需要發佈時,資訊推薦系統可找出適合接

(20)

收此一資訊的使用者進行推薦,可減少不必要的資源浪費,及避免無謂的廣 告信件引起使用者反感。

3 、使用者進行購買時對相似產品的推薦:

資訊推薦系統可在使用者進行購買時,根據其所選擇的產品,推論出使 用者可能具有的相關產品需求;此種推薦除了考慮使用者本身的喜好,亦將 使用者該次購買產品的項目一併作考慮;其中應用之資訊技術,最著名者為 關聯式法則(Association Rules)。

上述三種推薦方式中以Top-N的方式最為普遍,如Amazon.com的Book Matcher,許多資訊推薦技術的相關研究亦採用Top-N的方式進行研究 [Cheung,D.W.,1998]。

(二)資訊推薦系統的類型

根據Schafer(1999)等學者的研究中對資訊推薦系統的分類方式,將資 訊 推 薦 系 統 分 為 : Non-Personalized Recommendation 、 Attribute-Based Recommendation 、 Item-to-Item Correlation 及 People-to-People Correlation四種類型[Lieberman,H.,1997]:

1 、Non-Personalized Recommendation:

此種資訊推薦系統對每一個使用者皆推薦相同的資訊內容,系統並不記 錄特定使用者的喜好,亦不做使用者身份的確認。如同一般傳統的商店,其 商品陳列並不受特定顧客影響,並且其對於產品的推薦分數,以所有使用者

(21)

評價之平均值來計算。

2 、Attribute-Based Recommendation:

此種資訊推薦系統是根據產品的屬性進行資訊推薦,亦即系統會根據使 用者於查詢時對產品屬性喜好程度的設定,或系統對使用者喜好的記錄,找 出符合使用者需求的產品給予推薦。

3 、Item-to-Item Correlation:

此種資訊推薦系統會記錄每一次被同時購買的產品項目,並在大量的交 易資料中找出產品間的關聯性法則,如購買甲產品可能也會購買乙產品等 等;在使用者進行購買時, 即可根據這些法則, 對於使用者尚未選擇的項 目進行推薦。

4 、People-to-People Correlation:

此種資訊推薦系統是根據相似使用者的喜好進行資訊推薦,系統會先找 出與特定使用者相似的使用者社群,對於產品的推薦分數是依據這些相似使 用者對產品評價的平均值或加權計算,篩選出適合的產品作為推薦。

第二節 資料探勘

(一)資料探勘的定義

資料探勘是從資料庫中發 掘 未 知、潛 在 有 用,且 最 終 是 可 理 解 的 資 料 型 樣( Patterns)的 過 程 [Frawley,W.J.,1991]。認為資料探勘為資料庫中知識發 掘(Knowledge Discovery in Databases, KDD)過程的一個步驟,KDD顧名思

(22)

義就是從資料庫中找尋知識,其不但結合了資料庫、知識庫、而且也包括人工智 慧和統計學等方面相關的應用,主要的資料探勘技術包含購物籃分析(Market

Basket Analysis)、記憶基礎理解(Memory-Based Reasoning,MBR)、群集偵 測(Cluster Detection)、連結分析(Link Analysis)、決策樹和規則歸納( Decision

Tree and Rule Induction)、 類 神 經 網 路( Artificial Neural Networks)、基 因演算法(Genetic Algorithms)以及線上即時分析(OLAP)。透過知識的探勘,

從龐大的資料庫中挖掘出有意義的資訊,以幫助決策者做最有利的決策,因此 在商業上的廣泛應用更突顯出其重要性。 [楊琇媛、李維平,91年]。例如:在 資訊服務業中,所出現的一些應用,在Internet 的資料倉儲和線上的服務,可增 加許多企業的商機。資料探勘是經過移動的程序、從豐富的資料集(Data Set)中 分析特定領域的訊息,為了決策制訂的目的在新的關係(Relationships)、型樣

(Patterns)或集群(Cluster)的前面萃取出資訊和知識。

表一[Avelino Gonzalez and Douglas Dankel,1993]比較了傳統作業系統與資料 探勘系統。

(23)

表一:比較傳統作業系統與資料探勘系統

傳統作業系統 資料探勘系統

1. 利用近期但過去之資料為營 運準則。

2. 可預見與周期性的工作流程。

3. 遍及企業的資料限制。

4. 重視企業外在而非客戶。

5. 資料的紀錄系統。

6. 描述性。

1. 分析及時及歷史資料以決定 未來行動方針。

2. 依照商業與市場需要而有不 可預知的工作流程。

3. 越多資料結果越好。

4. 重視可付諸行動之事務。

5. 資料的複雜系統。

6. 創造性。

從表一可以知道,資料探勘系統複製資料容易、可以進行立即性和即時的與 歷史性的資料分析,同時可符合變動頻繁的需求進行分析。更進一步協助決策者 做出未來的行動決策;而這些是傳統作業系統無法做到的,基於和傳統作業系統 的不同特性相較之下,所以現今越來越多人採用資料探勘系統。

(二)資料探勘的應用現況

目前資料探勘的應用跨越了許多領域,例如行銷、財務、銀行、製造廠、通 訊等。近年來在許多人的通力合作下發展出許多實用的系統。這些資料探勘系統 的應用範圍非常廣泛,並有一些不錯的應用成果;例如,從通話紀錄資料中預警

(24)

盜打電話的可能、從太空船拍攝的影像資料中尋找星球上的火山和星際星體分類 等;另外應用在行銷的例子來看,例如經由紀錄客戶的消費記錄與採購路線,超 級市場可以根據資料探勘技術找出特別的資訊來設計出更吸引顧客購買的環境。

資料探勘只是知識發現過程中的一個步驟而已,而達到這個步驟前還有許多 的工作要完成。

(三)資料探勘技術

針對不同應用會有不同之資料探勘技術。目前主要技術有:路徑分析(Path Analysis)、關聯法則(Association Rule)、序列型樣(Sequential Patterns)、分類規則 (Classification Rules) 探 索 、 群 組 探 索 (Clustering) 、 時 間 序 列 (Time Series Analysis)、類神經網路(Neural Network)及歸納法(Generalization)等。其中最被廣 為討論的則是關聯法則。在關聯法則相關研究中,以往均著重效能的改善,但伴 隨應用層面擴增,以及使用者個別需求,找出能符合使用者感興趣的資訊亦非常 重要。因此,有效挖掘出使用者真正想要的關聯法則是未來的一個研究方向。

(四)關聯法則意義

關聯法則在資料探勘的技術中十分重要。它主要是找出資料庫中某些資料項 目間彼此的關聯性[Park, J.S., 1995]。關聯法則的表現是相當明確,而且易懂,

因此被大量廣泛的運用在各種不同的領域上。關聯法則不只可找出物件的因果關 係,更可做為預測之依據。以前在探討關聯法則都只針對某一問題的解決上,無 法做一全面通盤考量。若要有好的關聯效能,往往必須額外付出其他成本或是資

(25)

料的儲存空間;或是找出來的規則過多,無法符合使用者的需求。

(五)關聯法則之定義

其規則描述如下:令I={i1,i2, …,im}是所有相異項目(Items 所成的集合,

D是所有交易紀錄(Transaction)T集合,而T是在I中任意項目(Items)的子集合。

一個集合X⊆I 稱為項目集(Itemset),此項目集所包含的項目之個數稱為此項目 組的長度。若其長度為K,則稱此項目組為K-項目組(K-Itemset)。一筆資料庫中 的記錄若可支持一個項目組X,則此紀錄必包含此項目組的所有項目,X⊆T,記 為Support(X)。關聯法則其形式為X=>Y,X,Y⊆I且X 與Y的交集不為0。關聯 法則是靠支持度(Support)與信度(Confidence)兩個參數來判斷此一關聯法則是 否 具 有 意 義。支持度定義物項在資料庫中所出現的比例。信度則是定義此關聯 法則可以信賴的程度,也就是X出現的條件下,Y也跟著出現的條件機率,記為

Support(X∪Y)/Support(X)。一個有效的關聯法則,其支持度與信度必須大於等 於使用者所定之最小限制,才可說此關聯法則是有意義的。

一個相關項目組剛開始產生,由於仍未開始搜尋資料庫來計算支持度,並無 法知道此一項目組是否大於等於使用者所定之最小限制;此時的項目組僅能稱為 候選項目組(Candidate Itemset)。之後,經由搜尋資料庫計算支持度(Support),若 其滿足使用者所定之最小限制,此項目組便可稱為高頻率項目組或高頻項目組 (Frequent Itemset or Large Itemset)。關聯法則的支持度與信度表示如表二所示。

表二:支持度/信度公式表

(26)

支持度(Support) (Support)=Support(X+Y)

信度(Confidence) (Confidence)=Support(X∪Y)/Support(X)

舉例說明支持度與信度。若在一交易資料庫中,一筆交易記錄中同時購買產 品X 與產品Y,在此一資料庫中總共出現的次數,便記為Support(X∪Y)。從此 定義可以知道,支持度便是在交易中產品X與Y同時出現的次數。而信度便是在 交易資料庫中,單獨購買產品X交易記錄次數的條件下,同時購買產品X與Y的 交易記錄次數的百分比。

(六)關聯法則演算法

有關關聯法則之演算法,最廣為人知的便是Apriori 演算法。此法是在探討 關聯法則時最具代表性的演算法。其後雖然不同學者針對不同目的或不同情況下 提出各類演算法,大部分都是基於此演算法加以延伸改良。Apriori 演算法推導,

主要包含二大步驟:[Chua, B.L.,1999]

(1)搜尋出所有大項目組(即所有符合最小支持度的項目組(Itemset))。

(2)利用大項目組產生關聯法則。

在1997年以前,找尋大項目組已有許多方法。這些演算法均是先建立一組 候選項目組(Candidate Itemsets),再測試哪一組或某幾個組別是真正存在於資料 庫中。這種方法是以遞迴方式進行,換句話說,本次所找出的大項目組是下一次 搜尋的候選項目組,再度測試哪一組或某幾個組別是真正存在於資料庫中。

若以k表示項目組長度,在第k次的執行後,可以得到k長度的大項目組。然

(27)

後用這些項目組產生(k+1)長度的候選項目組,再經過驗證後,可以得到(k+1)長 度的大項目組。

在驗證過程中,本研究將候選項目組一一和資料中的交易相比對,並計算它 在資料庫中出現的次數。若是候選項目組被某一筆交易記錄中所包含(例如:候 選的BD 和某交易ABCD),就算出現一次。若出現次數超過交易總量的某個百分 比s,此候選項目組就算是一個大項目組。

相關關聯法則各演算法說明如下:

(一)Apriori 演算法

首先,在一資料庫D中,左方欄位TID代表交易序號,此欄位是唯一存在的 (Primary Key),而右方欄位表示交易中買賣成交的商品,如表三所示。[Chua, B.L.,

1999]

表三:資料探勘範例資料

TID ITEMS 100

200 300 400

ACD BCE ABCE

BE

表三資料庫中,第1筆交易代號為100的顧客同時購買了產品A、產品C與產品D 三種不同種類的商品;第2筆交易代號為200的顧客同時購買了產品B、產品C與

(28)

產品E三種不同種類的商品;第3筆交易代號為300的顧客同時購買了產品A、產 品B、產品C與產品E四種不同種類的商品;第4筆交易代號為400的顧客同時購 買了產品B與產品E二種不同種類的商品。

圖二:Apriori演算法過程

圖二說明了Apriori演算法的過程。首先搜尋整個資料庫一次,找出在表三交 易資料庫中有哪些交易的商品品項,以及各商品品項出現在此資料庫中的次數。

在表三的資料庫中,共計有{A}、{B}、{C}、{D}、{E}五種交易的商品品項,

(29)

紀錄於第1階候選項目組表格C1,中的Intemset內,其各次數分別紀錄於C1中的

Support值欄內。以此範例而言,商品品項{A}在交易資料庫中出現2次,商品{B}

出現3次,商品{C}出現3次,商品{D}出現1次,商品{E}出現3次。在此範例中,

假設最小支持度(Min Support)設定為2,在第1階候選項目組表格C1中僅有商品

D沒有達到使用者所定義的最小支持度門檻,其餘4項商品A、B、C、E及其支 持度被保留下來,形成大項目組(Large Itemset)表格L1。大項目組表格內的商品 也就是滿足使用者定義之最小支持度的商品,其支持度(Support)也就是在此資 料庫中所出現的次數。在第2 階候選項目表格C2的產生,是由上1階的大項目組 表格L1 兩兩不同產品項目組合而來。例如:產品A與B、C、E分別組合成為C2 的{AB}、{AC}、{AE},產品B 與C、E 分別組合成{BC}、{BE},C與E組合成 為{CE}。

在組合的過程中值得一提的是,例如:{AB}與{BA}的產品組合視為相同,

因此組合{BA}便不紀錄於表格C2中。經過再次搜尋整個資料庫,找出交易紀錄 中表格C2內兩項產品同時交易的次數,紀錄於第2階候選項目組表格C2中。表 格C2中{AB}的Support為1,代表在交易資料庫中,同時買產品A與產品B的紀錄 出現1次。換句話說,在交易資料庫中,僅有1人同時買了產品A與產品B。其餘 {AC}、{AE}、{BC}、{BE}、{CE}在交易資料庫中所出現的次數分別是2、1、2、

3、2。然後再與使用者定義之最小支持度做比較,滿足最小支持度門檻(在此例 設定為2)的產品項目與次數保留下來,形成第2階候選項目組表格L2。

(30)

同樣的運作過程產生C3、C3,以及L3,直到無法從L3產生下1階C4為止。

因為在交易資料庫中L3僅有一項{BCE},無法與其他產品項目組合形成第4 階候 選項目表格C4。而此時的產品項目組合{BCE}即為關聯法則的結果,以此例 而言,可將結果解釋為:顧客同時買產品B、C及E在交易資料庫中出現2次。

從此一演算法可以了解,在初始階段步驟中,必須掃瞄整個資料庫D。對於每一 商品出現的次數進行計數工作,得到表格C1(即是候選項目組),若某項商品項目 出現的次數過少,便無法符合其最小支持度,在此一步驟中刪除,得到表格L1(即 是大項目組)。在此每一Itemset 內的Item 都已經過排序,表示此階段步驟結束,

如圖二所示。

根據上述步驟中所得到的高頻項目組,去尋找真正的關聯法則;本研究將根 據支持度與信度來判斷關聯法則有沒有意義。同樣地,信度的數值也必須要大於 或等於某一使用者所定之最小限制。若是信度太低,資料值出現頻率大於使用者 所定的最小支持度限制,仍認為其是較沒有意義的關聯法則。經過上述兩大步 驟,便可在資料庫中挖掘出具有意義的關聯法則,而Apriori演算法的虛擬碼如圖 三所示。

L1={Large 1-itemsets};

for (k=2;Lk-1≠0;k++) do begin

Ck=Apriori-Gen(Lk-1);//New Candidates for all transactions t∈D do begin

(31)

Ct=SubSet(Ck,t);// Candidates contained in t for all candidates c∈Ct do

c.count ++;

end

Lk={c∈Ck∣c.count>=min Support }

end

Answer=∪kLk;

圖三:Apriori演算法程式碼

[資料來源:R.Agrawal and R.Srikant,1994]

在圖三的Apriori演算法中,首先產生第1階的大項目組L1。接著是兩層的巢 狀迴圈,產生下一階新的候選項目組,並搜尋整個資料庫,紀錄候選項目組在整 個資料庫中出現的次數,再與最小支持度做比較,滿足最小支持度門檻限制的項 目組形成新的大項目組Ln,並顯示出來。

第三節 類神經網路及霍普菲爾網路

(一)類神經網路簡介

類神經網路(Artificial Neural Network)是指模仿生物神經網路的資訊處理系 統。它是一種計算系統[葉怡成,1999],包括軟體與硬體,它使用大量簡單的相 連人工神經元來模仿生物神經網路的能力。人工神經元取得資訊,並加以非常簡 單的運算,並輸出其結果到外界環境或者其它人工神經元。

(32)

類神經網路所下的定義是「類神經網路是一種以自然特性儲存並運用經驗知 識的平行分散處理器」[Aleksander,I.,Morton,H.B.and Myers,C.E.,1990]。

類神經網路就是由許多簡單、而以高度複雜的方式互連的處理單元(Processing Unit,PU 或Processing Element,PE)所構成的網路[Nilson,McCord Marilyn and Illingworth,T.W.,1991]。介於處理單元間的訊號傳遞路徑稱為連結,一個類神 經網路是由許多個人工神經元與其連結所組成,並且可以組成各種網路模式。

人類之所以比電腦聰明,是因為人類較電腦更具有處理自然資訊的計算架 構,表四比較了傳統數位計算機與類神經網路的差異[胡玉城,1992]。

表四:傳統數位計算機與類神經網路比較表

傳統的數位式計算機 類神經網路

1.執行指令的速度極快 2.計算數值十分精確

3.依指令循序地執行(演算法或規劃式處 理)

4.擅長數值的、反覆地計算

1.處理資訊的速度十分緩慢 2.計算數值的精確度低

3.分散式的平行處理(在大量的神經元間 協同運作)

4.非數值處理(如語音、圖像的辨認等) 從表四傳統數位計算機與類神經網路的比較觀之,傳統數位計算機執行指令 速度快、計算數值十分精確、循序處理、數值與反覆的計算;但是若要進行分散 式的平行處理或是語音、圖像的辨認等,計算數值的精確度不需要太高,則採用 類神經網路的計算較佳。

(33)

類神經相關科學早在1943年便有學者在研究,之後便有其他研究者將它的運算 以電腦協助問題的解決。在1970年代類神經網路相關研究因為面臨瓶頸移植無 法突破而中斷,直到1982年Hopfield 提出霍普菲爾網路後,便又有不斷的發展,

相繼被提出與應用在各種不同領域上。

目前類神經網路模式有數十種,將類神經網路模式分成四類[葉怡成,1999]:

1.監督式學習網路(Supervised Learning Network)

從問題領域中取得訓練範例(有輸入變數值,也有輸出變數),並從中學習輸 入變數與輸出變數的內在對映規則,以應用於新的案例(只有輸入變數值,而需 推論輸出變數值的應用)。

2.非監督式學習網路(Unsupervised Learning Network)

從問題領域中取得訓練範例(只有輸入變數值),並從中學習範例的內在聚類 規則,以應用於新的案例(有輸入變數值,而需推論它與那些訓練範例屬同一聚 類的應用)。

3.聯想式學習網路(Associate Learning Network)

從問題領域中取得訓練範例(狀態變數值),並從中學習範例的內在記憶規 則,以應用於新的案例(只有不完整的狀態變數值,而需推論其完整狀態變數值 的應用)。

4.最佳化應用網路(Optimization Application Network)

類神經網路除了「學習」應用外,還有一類特殊應用-最佳化應用:對一問

(34)

題決定其設計變數值,使其在滿足設計限制下,使設計目標達最佳狀態的應用。

設計應用與排程應用屬之。此類應用的網路架構大都與聯想式學習網路的架構相 似。

類神經網路應用領域相當廣泛,包括工程、商業、科學等各方面,在資料探 勘領域方面也具有重要地位,其在市場行銷的應用也是漸漸被重視:其中主要是 客戶的消費者習慣分析以及消費喜好方面,[林建廷,2000]整理出近年來國外將 類神經網路應用於管理領域的相關參考文獻,如表五所示

(35)

表五:國外類神經網路應用於管理領域的相關參考文獻整理

作者 文獻

Goonatilake,S.&

Treleaven,P.,1995

Intelligent System for Finance and Business

Dasqupta,C.G., Dispensa,

G.S.& Ghose,S.,1994

Comparing the Predictive Performance of a Neural Network Model with Some Traditional Market Response Models.

Hruschka,H.,1993 Determining Market Response Functions by Neural Network Modeling: A Comparison to Econometic Techniques.

從表五有關類神經網路的應用範圍自1990年起更為廣泛,包括了商業及財 務的智慧型系統、行銷最佳化支援系統、經濟理論中市場反應模式應用、商業預 測模式、人事招募甄選專家系統等。有關近幾年資料探勘的技術採用類神經網路 模式的一些應用說明如後。

在下一章的研究方法中,本研究嘗試使用具有組合最佳化觀念的最佳化應用 問題解決模式-霍普菲爾網路(Hopfield Neural Network,HNN)模式,以作為最佳 化判斷之方法。

而在類神經網路的領域中,具有聯想式學習的霍普菲爾網路(Hopfield Neural Network)[葉怡成,1999]即非常適合於最佳化之應用,因此本研究將其運用在關

(36)

聯法則中找出高頻項目組的比對上。聯想式學習是從問題領域中取得訓練範例,

並 從 中 學 習 範 例 的 內 在 記 憶 規 則 , 以 應 用 於 新 的 案 例 , 其 可 分 為 自 聯 想

(Auto-Associative)與異聯想(Hetero-Associative)等二種模式。霍普菲爾網路屬於 自聯想模式,主要在解自聯想記憶問題,此問題的分析需要先提供許多訓練範 例,每個範例有一個二極值的特徵向量,嘗試學習一聯想記憶規則,使網路能記 憶這些訓練範例的特徵向量,並且只要輸入不完整或有雜訊的特徵向量,網路即 能聯想起與其最相近的訓練範例特徵向量[葉怡成,1999],藉此便能以聯想學習 的方式來最佳化推薦申請之文具。霍普菲爾網路屬於聯想式學習網路,自然適合 此方面之應用,其實際應用包括:

(1) 雜訊過濾

由具雜訊的訊號作起始,聯想其無雜訊訊號,可用於訊號處理方面的應用。

(2) 資訊擷取

將資訊由不規則之儲存架構中搜尋出必要之資訊。

(二)霍普菲爾申請者分群網路架構 霍普菲爾的網路架構包括:

1.處理單元

用以表現網路的輸入變數,即訓練範例的輸入向量,其處理單元數目依問題而 定。輸入變數值為二極值{-1,+1},使用非線性轉換函數,如圖四所示。

(37)

圖四:霍普菲爾網路的非線性轉換函數 [資料來源:Hopfield J.,Tank,D.,1982]

2.網路連結

每個單元與單元間的連結加權值代表著二者間的互動關係,其公式:

霍普菲爾網路加權值公式

從這個公式可以看得出來,如果單元與單元間的加權值為正,代表二者間的 傾向同號,即同為正或同為負;反之如為負,代表二者間傾向異號,即為一正一 負。因此,霍普菲爾網路加權值的參數如下所示。

Wij=第i個生物神經元到第j 個神經元的連結強度,又稱連結加權值。

p

Xi =第i個神經元的狀態函數在第p次的值,其值為「1」、「0」、「-1」

三種。

p

Wj =第j個神經元的狀態函數在第p次的值,其值為「1」、「0」、「-1」

(38)

三種。

θi=第j個神經元的閥值,由外界輸入,起始值為0。

再從Wii=WjiWii=0可知Wij是一對稱矩陣。

3.學習過程 [ ][ ]

P

W j i =

Xp[ ]i Xp[ ]j ,W[i][i]=0

4.回想過程

設定網路參數。

讀入加權值矩陣W。

從測試範例輸入初始狀態變數向量X。

計算新的狀態變數向量X。

net[j]=

i

W [i][j]•X[i]

X[j]=1 → 如果net[j]>0 X[j]=X[j] → 如果net[j]=0 X[j]=-1 → 如果net[j]<0

重複計算新的狀態變數向量直到收斂。

(39)

第三章 研究方法

第一節 網路文具申請系統申請資訊推薦概念

由於系統提供之文具申請項目繁多,以致於線上之申請者常需消耗大量的時 間進行文具之選擇及比較,介面繁雜以致於認知負載之狀況嚴重。基於上述研究 目的與文獻回顧探討,本研究的目的主要以文具申請申請者申請資訊推薦為基 礎,針對網路文具申請系統之申請紀錄作分析,套用一個最常用的申請組合,並 透過此申請資訊推薦機制讓文具申請之申請者操作更順暢,以提高使用效率,本 研究提出之網路文具申請系統申請資訊推薦機制架構如圖五。

文具申請系統

申請資訊推薦知 識庫

申請資訊資料庫

文具申請資訊探 勘 分 析 機 制

(Apriori 演算 法)

World Wide Web

文具申請資訊最 佳化機制(霍普 菲爾網路)

(40)

首先本研究將預先彙集的網路文具申請資訊進行資料轉換,並利用 Apriori 演算法探勘出申請文具對申請文具之關聯式法則,再以霍普菲爾網路分析出最佳 之推薦文具之組合,將推薦文具組合以陣列的型態儲存於關聯式法則知識庫中。

當有文具申請之申請者進入網路文具申請系統時,進行申請時系統自動將申請文 具之資訊存入申請資訊推薦知識庫中,當申請的行為發生時,申請資訊推薦機制 將推薦文具資訊自資訊推薦知識庫中挑出,並提供給文具申請之申請者選擇文具 之參考依據,以達到簡化申請程序及輔助申請之目的。

由於資料探勘 Apriori 演算法具有探勘資訊關聯性之特性,因此文具申請資 訊分析系統將所有文具申請之歷史資訊載入系統,利用 Apriori 演算法預先將申 請資訊之關聯以陣列之方式儲存於關聯資料庫中,由於 Apriori 演算法僅探勘申 請文具與申請文具之間關聯,並非對申請文具關聯間之合理性及最佳化作分析,

而利用霍普菲爾網路之最佳化特性將推薦資訊比對,去除相似及雜訊之推薦資 訊,並將適合該申請者之推薦文具資訊回饋給申請中之申請者,做為參考之依據。

資料探勘中的 Apriori 演算法在本研究是用來尋找申請文具與申請文具之間 的關係,而霍普菲爾網路是將推薦之文具字串陣列再作最佳化之分析,因此將這 兩個技術合併使用,可以將最適當的推薦文具載入給文具申請之申請者,作為簡 化申請程序及輔助申請之參考。

本研究提出之網路文具申請系統資訊推薦機制其建構程序可分為 1.網路文 具申請系統之建置、2.文具申請資料探勘及最佳化分析系統、3.文具申請資訊推

(41)

薦機制之建置及導入三階段,如圖六,以下將詳細說明這三個建構步驟及方法。

圖六:網路文具申請/推薦系統推薦導入架構 第二節 網路文具申請系統建置規劃

網路文具申請系統建置在本研究中屬於基礎之系統建置,主要是依照某國科 會之研究單位行政需求開發,為一個Intranet/Internet線上文具申請系統。系統提 供大量的文具申請項目讓線上申請者做選擇,再將線上申請者之申請項目及數量 經由管理者介面進行文具之分類和供應商之分類,而後再採購和分發。

本系統之開發系統分析規劃將於第四章詳述,本節僅就網路文具申請之作業 流程做說明。

其線上網路文具申請系統流程圖如圖七所示:

(1)網路文具申請系統

(2)文具申請資料探勘及最適化 分析系統

(3)文具申請資訊推薦系統

(42)

圖七:線上網路文具申請系統流程圖 第三節 網路文具申請系統推薦知識庫概念

網路文具申請系統申請資訊推薦機制之建置主要分為兩部分,第一部分為文 具申請資訊探勘機制,即利用資料探勘技術之Apriori演算法。第二部分為文具申 請資訊最佳化機制,即利用類神經網路之霍普菲爾網路兩大部分,以下分別針對 此兩大部分作說明。

(一)文具申請資訊探勘機制

文具申請資訊探勘機制主要是以Apriori演算法作為探勘申請文具對申請文 具之關聯性法則作探勘,表六表示Apriori演算法符號變數定義,其演算法之步驟 詳述如下:

網路文具 申請系統 World Wide Web

文 具 系 統 管 理 者 介 面分類/採 購/分發

(43)

表六、Apriori演算法符號變數定義表

變數 定義

D 申請文具交易資料庫。

k-itemset 擁有k個文具項目的集合。

Ck 候選文具項目集合(Candidate k-itemset),由k個文 具項目的候選文具項目集合所形成的集合,其中的 文具項目集合有可能是但不一定是大項目集合。

Lk 大項目文具集合(large k-itemset),此集合必須符合 min-support的要求。

Min-support 最小支持度。即產生大項目文具集合所需的最小限 制。

Min-confidence 使用者自定的最小信度。即產生關聯式法則的最小 限制。

(1)首先計算各單一文具出現在申請交易資料庫D的次數,即計算其支持 度,判斷其是否大於或等於最小支持度,以決定出L1(Large l-itemsets),其中 1代表一次申請文具為1項的項目集合,之後可分為兩個階段來進行:

1.合併階段(Join Step): 利用申請文具為K-1的大項目操作流程集合

(LK-1)產生候選文具項目集合(CK)。方法是將Lk-1做排列組合,例 如Lk-1若有n個,經排列組合後Ck便會有 n2

  個。

(44)

2. 修剪階段(Pruning Step): 修剪階段即刪除不可能成為大項目集合的 文具項目。因為所有大項目操作流程集合的子集合,必須一定是大項目 集合(又稱為Apriori Property)。根據這個特性,便可針對第一階段產 生的候選文具項目集合做修剪,將不符合條件的予以刪除。將所有支持 度大於最低門檻的候選文具項目集合挑選出來,就成為長度為K的大項 目文具集合(LK)。

之後的每個回合,利用上一步驟找出的大項目來產生候選項目集合

(Candidate Itemsets),對每個候選項目集合計算其支持度,而利用最小 支持度決定候選項目是否為真正的大項目集合,如此重複步驟,一直到 無法產生新的候選項目集合便停止。

接下來進行產生申請文具對申請文具關聯式法則,關聯式法則(Cij

Ckl,其中i, k 為文具類別,j, l為文具編號)成立的條件有兩個:

1. 項目集合(Itemsets) Cij 的支持度(Support Level)必須達到所設定最小 支持度,本研究設定最小支持度之計算公式如下。

Min_support= ( ) ( )

n ij

Num S

Num C ×(1-min_confidence),其中Num(Sn)為申請數,

Num(Cij)所有文具的數量。

2. 法則的的信度(Confidence Level)必須達到所設定的最小信度。

各階段申請文具之探勘程序說明 資料探勘模組其進行步驟說明如圖八:

(45)

步驟1:訂定申請文具資料探勘項目。

步驟2:整合與查核文具申請資料(Integration and Checking)。

步驟3:去除錯誤或不一致的資料(Data Cleaning)。

步驟4:計算各文具申請之使用率(Support)。

步驟5:探勘各文具申請之關聯性法則(Association Rules)。

步驟6:解釋與使用資料(Interpretation and Use)

圖八:資料探勘模組進行步驟

其關聯式法則的產生可以藉由兩個參數來決定:支持度(Support)及信 度(Confidence);支持度定義物項在資料庫中所出現的比例,而信度定義

1. 訂定文具申請資料探勘項目

2. 整合與查核文具申請資料

(Integration and Checking)

3.去除錯誤或不一致的資料

(Data Cleaning)

4. 計算各文具申請之使用率

(Support)

5. 探勘各文具申請之關聯性法則

(Association Rules)

6.解釋與使用資料

(Interpretation and use)

(46)

此關聯式法則可信的程度。一般而言,關聯式法則的支持度及信度皆必須分 別大於使用者訂定的最小限制,才能判定其為有意義的關聯式法則。

1. 探勘單一文具出現在申請交易資料庫的信度

圖九:單一文具信度探勘 2. 探勘兩項文具出現在交易資料庫的支持度

圖十:兩項文具支持度探勘

3.以迴圈探勘三、四、五項文具出現在交易資料庫的支持度,直到無法產生 新的候選項目集合便停止。

DATA BASE C1

(47)

圖十一:迴圈探勘三、四、五項文具支持度 關聯式法則知識庫的建立

由上述資料探勘模組探勘出的申請文具對申請文具關聯法則,將每個申請文 具最常對應申請文具的關聯法則儲存於關聯式法則知識庫中,作為申請資訊推薦 依據。

(二)文具申請資訊最佳化機制

文具申請資訊最佳化機制是利用霍普菲爾網路最佳化分析之特性,將資料探

勘出推薦之文具字串進行最佳化分析,將相似或重複之推薦文具去除,以減低推

薦時之資訊負載程度。本研究最佳化推薦系統是採用霍普菲爾網路(HNN)建

構而成,以下將介紹本研究如何應用霍普菲爾網路(HNN)來進行申請推薦資 訊最佳化之應用。

推薦資訊最佳化網路

採霍普菲爾網路(HNN)來進行推薦資訊最佳化之動作,此網路的架構如 圖十二,可分為三部份詳述如下:

(48)

圖十二:霍普菲爾申請者分群網路架構

霍普菲爾申請者分群網路架構 霍普菲爾的網路架構包括:

1.處理單元

用以表現網路的輸入變數,即訓練範例的輸入向量,其處理單元數目依問題 而定。輸入變數值為二極值{-1,+1},使用非線性轉換函數,如圖十三所示。

圖十三:霍普菲爾網路的非線性轉換函數 [資料來源:Hopfield J.,Tank,D.,1982]

2.網路連結

每個單元與單元間的連結加權值代表著二者間的互動關係,其公式如下所 推薦資訊輸入

最適化推薦資訊

(49)

示。從這二個公式可以看得出來,如果單元與單元間的加權值為正,代表二者間 的傾向同號,即同為正或同為負;反之如為負,代表二者間傾向異號,即為一正 一負。因此,霍普菲爾網路加權值的公式如下:

[資料來源:Hopfield J.,Tank,D.,1982]

3.學習過程 [ ][ ]

P

W j i =

Xp[ ]i Xp[ ]j ,W[i][i]=0 4.回想過程

設定網路參數

(50)

表七、霍普菲爾網路參數表 參數 說明

Wij 第i個生物神經元到第j 個神經元的 連結強度,又稱連結加權值。

p

Xi 第i個神經元的狀態函數在第p次的 值,其值為「1」、「0」、「-1」

p

Wj 第j個神經元的狀態函數在第p次的 值,其值為「1」、「0」、「-1」

p

Xi 第j個神經元的閥值,由外界輸入,起 始值為0。

讀入加權值矩陣W。

Wij

p

XipXjp)=

p

Wijp

從測試範例輸入初始狀態變數向量X。

計算新的狀態變數向量X。

net[j]=

i

W [i][j]•X[i]

X[j]=1, 如果net[j]>0 X[j]=X[j],如果net[j]=0 X[j]=-1,如果net[j]<0

(51)

重複計算新的狀態變數向量,直到收斂

(52)

5.實例說明

申請者進入文具申請系統申請A文具時,申請推薦機制將文具申請知

識庫中相關聯之文具字串挑出[A,C,D,B,E] [A,B,C,D,E] [A,

D,C,B,B]時,先將[A,C,D,B,E]與[A,B,C,D,E]計算。

得到字串[A,B,C,D,E]再與[A,D,C,B,B]計算

得到最佳化字串[A,B,C,D,E]。

6.推薦資訊最佳化

依據上述之申請推薦資訊最佳化以霍普菲爾網路之公式製作「 網 路 文 具 申 請 資 訊 推 薦 機 制 - 推 薦 資 訊 最 佳 化 模 組

(WASTE-HNN MODEL)」。

第四節 線上(On-Line)文具申請資訊推薦導入

根據網路文具申請系統申請資訊推薦操作申請資訊推薦導入前置處理程 序,本研究將所產生的申請推薦資訊儲存於關聯式法則知識庫中。圖十四說明了 線上文具申請資訊導入處理程序,其步驟敘述如下:

A C D B E

A B C D E

[ 1,-1,-1,-1,-1]

[-1,-1,-1, 1,-1]

[-1, 1,-1,-1,-1]

[-1,-1, 1,-1,-1]

[-1,-1,-1,-1, 1]

A B C D E

A D C B B

[ 1,-1,-1,-1,-1]

[-1,-1,-1, 1,-1]

[-1,-1, 1,-1,-1]

[-1, 1,-1,-1,-1]

[-1, 1,-1,-1,-1]

(53)

圖十四:線上申請資訊推薦導入處理程序

步驟1 : 當申請者在線上欲進行文具申請時,當輸入申請之第一個項目 於存入時,系統自動進入文具申請系統資訊推薦知識庫中將申請第二項 之文具申請推薦資訊挑出。

步驟2 :當申請第二項之文具資訊挑出後,當選擇申請之第二個項目於 存入時,系統自動進入文具申請系統資訊推薦知識庫中將申請第三項之 文具申請推薦資訊挑出。

步驟3 :依照步驟1、2之方式推薦直到申請之行為結束為止。

文 具 申 請 系 統 首頁,登入帳號 密碼進入系統

World Wide Web

提 出 第 一 項 文

具申請項目 網

路 文 具 申 請 資 訊 推 薦 系 統 提 出 第 二 項 文

具申請項目

提出第 n 項文具 申請項目

Input 申請項目。

Output 推薦項目。

Input 申請項目。

Input 申請項目。

Output 推薦項目。

Output 推薦項目。

………

(54)

第四章 系統設計與實例應用

為了驗證所提出機制之可行性與實用性,以網路文具申請系統申請者流程資 料進行實例應用。實例應用共分為「網路文具申請系統建置」、「網路文具申請 系統資訊推薦機制之建置」和「網路文具申請系統資訊推薦機制之導入」三部分,

並依據第三章所提出之研究方法及理論建構分析系統。詳細之步驟分別敘述如 下。

第一節 網路文具申請系統建置

網路文具申請系統的建置,主要是依照國內某研究機構之行政需求,進行 系統分析,其功能需求如下所述:

(1)Web Base之文具申請系統:

由於該研究機構之研究人員做研究之場所不局限於中心內,所以研究人員 必須於中心外單位提出申請,故必須以Internet/Intranet進行文具之申請,

故必須以Web Base之型態開發。

(2)申請之文具經由文具管理系統進行庫存提撥或重新採購之管理:

對於文具之管理,必須有一套管理之系統供管理者作管理。管理者必須將 網路上文具申請之種類及數量作彙整,提出採購。並對於廠商進貨之文具 進行歸類上架及撥出等管理。

(55)

對於文具之申請項目是由廠商提供圖檔,管理者經由管理系統輸入之介面 進行登錄新的申請項目之動作。

(4)網路文具申請系統系統架構圖如圖十五。

圖十五:網路文具申請系統系統架構圖 第二節 網路文具申請系統資訊推薦機制之建置

對於網路文具申請系統資訊推薦機制之建置分為「文具申請資訊探勘機制」

文具申請 系統

申請資訊 資料庫

World Wide Web

文具申請 管理系統

廠商 彙

總 申 請 項 目

廠 商 送 貨

分發資訊 申請資訊

(56)

及「文具申請推薦資訊最佳化機制」之建置為主,以下分述此兩系統之建置方法。

(一)文具申請資訊探勘機制

主要是以資料探勘技術Apriori演算法為網路文具申請系統資料探勘之 使用方法,將網路文具申請資料庫中之申請紀錄作分析。將網路文具申 請系統之文具型錄資料庫中之每一項文具自網路文具申請系統交易資 料庫中計算出每一種申請組合之最小支持度。並將其交易組合儲存於網 路文具申請關聯式法則知識庫中,於提出申請文具時推薦申請之依據。

文具型錄資料是以該研究中心總務處所搭配合作之文具廠商所提供共 計有七個文具類別,分別為筆類、桌面用具、檔案夾\文件套、一般文 具、包裝用品、OA設備用品、其他文具如表八及118個文具細項數如 表九,申請交易資料共計5798筆,其中本研究將單一申請者一次申請多 筆文具視為一筆交易資料。

表八、文具類別

序號 類別

1 筆類 2 桌面文具 3 檔案夾\文件套 4 一般文具 5 包裝用品

(57)

6 OA設備用品

7 其他文具

表九:文具類別細項數

序號 類別 細項數

1 筆類 21

2 桌面文具 41

3 檔案夾\文件套 31

4 一般文具 27

5 包裝用品 0

6 OA設備用品 0

7 其他文具 23

以下分述其探勘步驟及其結果

步驟一: 由於從文具申請交易資料庫擷取的資料,可能存有雜訊或格式 不 相 容 的 問 題 , 因 此 必 須 做 適 當 的 前 置 處 理 , 包 括 資 料 的 清 理

(Cleaning)、合併(Integration)、轉換(Transformation)等,將資 料整理成一適合分析的次資料集(Subset)後,再經由文具申請資訊探 勘機制Apriori演算法進行分析。

「文具申請資訊探勘機制」於分析前需將資料重新整理,除了上述前置

作業之項目外,另外必須將資料轉為分析格式,以便分析用,分析系統

(58)

基本資料轉換。

步驟二:將文具申請交易資料庫內各文具申請次數計算出,並紀錄於網 路文具申請關聯式法則知識庫ItemSupport資料表中。

共計有118筆分析紀錄。

將計算出之文具組合及支持度存於網路文具申請知識庫,資料表格式如 表十,資料儲存形態如圖十六。

表十:分析資料表格式

序號 欄位名稱 說明

1 Item_Arr 申請組合字串 2 Support 支持度

3 Confidence 信度

圖十六:分析資料表儲存形態

(59)

步驟三:將各項文具之申請組合自交易資料庫中找出,並計算其支持度

(二項組合至十項組合)。

1. 自交易資料庫中分析兩項申請組合之紀錄及支持度,共計有 1689筆申請組合。圖十七為兩項申請組合之支持度。

圖十七:兩項申請組合之資訊推薦知識庫儲存型態

2. 自交易資料庫中分析三項申請組合之紀錄及支持度,共計有783 筆申請組合。圖十八為三項申請組合之支持度。

圖十八:三項申請組合之資訊推薦知識庫儲存型態

3. 自交易資料庫中分析四項申請組合之紀錄及支持度,共計有382 筆申請組合。圖十九為四項申請組合之支持度。

(60)

圖十九:四項申請組合之資訊推薦知識庫儲存型態

4. 自交易資料庫中分析五項申請組合之紀錄及支持度,共計有32 筆申請組合。圖二十為五項申請組合之支持度。

圖二十:五項申請組合之資訊推薦知識庫儲存型態

5. 自交易資料庫中分析六項申請組合之紀錄及支持度,共計有7 筆申請組合,圖二十一為六項申請組合之支持度

(61)

圖二十一:六項申請組合之資訊推薦知識庫儲存型態

6. 自交易資料庫中分析七項申請組合之紀錄及支持度,共計有0 筆申請組合,分析動作停止,表示交易資料庫中並沒有七項以上之 申請紀錄。

(二)文具申請推薦資訊最佳化機制

申請推薦資訊最佳化機制以類神經網路技術之霍普菲爾網路為理 論之基礎,將文具申請資料探勘機制所探勘出之推薦申請資訊作相似性 及過濾雜訊之分析,將推薦資訊以最佳化之狀態儲存於推薦知識庫中,

以作為推薦之用。網路文具申請系統資訊最佳化紀錄表。

第三節 網路文具申請系統資訊推薦機制之導入

當「文具申請資訊探勘機制」及「文具申請推薦資訊最佳化機制」完成時,

即可進行即時線上導入。網路文具申請系統資訊推薦機制之導入,是將上述之兩 項分析所產生之資訊存於網路文具申請資訊推薦知識庫中,當申請者進入系統提 出一筆申請時,系統將自動進入資訊推薦知識庫中將該文具兩項之申請組合資料 挑出,經由申請資訊推薦機制進行推薦之動作,反覆申請後進行申請資訊推薦,

直到申請之行為停止。以下說明網路文具申請系統申請資訊推薦流程。

(62)

步驟一: 進入網路文具申請系統。

步驟二:點選文具總覽按鈕,進入文具型錄網頁,如圖二十二。

圖二十二:網路文具申請系統文具總覽主畫面

步驟三:點選申請項目如:自動鉛筆,申請數量為1支,如圖二十三。

圖二十三:網路文具申請系統文具申請畫面

步驟四:點選確定申請按鈕,系統將申請資訊存入交易資料庫,如圖二十四。

(63)

並自網路文具申請系統資訊推薦知識庫中將第二項文具申請之資訊找出進 行推薦之動作,如圖二十五。

圖二十四:網路文具申請申請確認

圖二十五:網路文具申請申請資訊推薦

步驟五:點選確定後系統將申請之資訊存入交易資料庫中,並將第三項申請 之推薦文具項目挑出,進行推薦之動作,反覆直到申請之行為結束。

(64)

第四節 實驗結果分析

由第三、四章之研究方法及系統建置及導入後,接下來就是系統效益之評估。

本系統效益的評估部分主要分為 1.「網路文具申請關聯式法則知識庫資料分 析」、2.「回饋機制之建立」、3.「使用效益之評估」及 4.「結果分析與討論」

四項。本研究將申請紀錄利用資料探勘技術之 Apriori 演算法探勘後,將各種文 具申請項目組合紀錄其支持度,以代號之字串陣列之方式存放於網路文具申請關 聯式法則知識庫中。「網路文具申請關聯式法則知識庫資料分析」將以代號之字 串陣列以文字之型態表達並分析其關聯。「推薦確認資訊回饋機制之建立」是針 對推薦系統實際導入後的申請行為作紀錄,對於推薦申請後使用者接受與不接受 進行紀錄,以便評估其使用者效益。「使用效益之評估」則利用紀錄網路文具申 請之申請紀錄作分析,驗證申請之行為因為申請資訊之推薦而簡化。

(一)網路文具申請關聯式法則知識庫資料分析

「網路文具申請關聯式法則知識庫資料分析」將以代號之字串陣列以文字之型態 表達並分析其關聯。本次研究文具申請之紀錄以每人一次進入本系統所申請之文 具項目作為一筆可分析之交易紀錄。本研究以該研究中心最近兩年文具申請之資 料(自92年一月至93年四月),申請交易資料共計5798筆,作為資料探勘及申 請者分群之依據。

列舉各支持度各5項申請項目,分析其一併申請之項目如表十一。

表十一:列舉各支持度各5項申請項目並分析其一併申請之項目

(65)

支持度 序號 申請項目 一併申請之項目

0.22 1 強力夾

三孔夾 840(寬 3.8cm)、名片簿(四層)、剪 刀、美工刀

、迴紋針、訂書針

2

三 孔 夾 830( 寬 2.8cm)

三孔夾 850(寬 4.8cm)、三孔夾 860(寬 5.8cm)

資料本 60 入、隔頁紙 A4、三孔夾 880(寬 7.8cm)

3

三 孔 夾 850( 寬 4.8cm)

三孔夾 880(寬 7.8cm) ,資料本 40 入 , 隔頁紙 A4 ,訂書針 ,口紅膠

4

三 孔 夾 860( 寬 5.8cm)

資料本 40 入 ,資料本 60 入 ,投影片保 存袋

,美工刀 ,螢光筆(黃)

5 L 型文件夾

吊夾 B4 ,塑膠尺 30cm,塑膠書盒,膠 水(小),長尾夾(中),長尾夾 (小)

0.23 1

三 孔 夾 840( 寬 3.8cm)

名片簿(四層)

2

三 孔 夾 850( 寬 4.8cm)

名片簿(四層)

3

三 孔 夾 860( 寬 5.8cm)

L 型文件夾 、吊夾 B4、隔頁紙 A4、剪 刀、口紅膠

4

三 孔 夾 880( 寬 7.8cm)

L 型文件夾、資料本 60 入、名片簿(四層)、

投影片保存袋、塑膠書盒

5 L 型文件夾

資料本 20 入、資料本 40 入、塑膠尺 15cm、

訂書機

Figure

Updating...

References

Related subjects :