• 沒有找到結果。

一個適用於典型電子商務網站架構之交易習慣探勘模式

N/A
N/A
Protected

Academic year: 2021

Share "一個適用於典型電子商務網站架構之交易習慣探勘模式"

Copied!
15
0
0

加載中.... (立即查看全文)

全文

(1)

莊明達、陶幼慧、劉書助,一個適用於典型電子商務網站架構之交易習慣探勘模

式,

第十屆資訊管理實務研討會,國立台中技術學院,Dec.18,2004

一個適用於典型電子商務網站架構之交易習慣探勘模式

莊明達 屏東科技大學資管系 陶幼慧 高雄大學資管系 劉書助 屏東科技大學資管系

網路習慣探勘(Web Usage Mining, WUM)是一種用來分析網路使用者瀏覽網站習性 的技術,在眾多 WUM 方法中,網路交易探勘(Web Transaction Mining, WTM)是唯一結 合網頁中交易商品與路徑的方法,WTM 的想法雖具實務性導向,然其所假設的網站結構 卻過於簡化而與喪失實用性。基於改良 WTM 的網站結構假設並擴大商品交易於 WUM 應 用範籌,本研究目的在提出一個適用於典型電子商務網站架構,專注交易並結合現有 WUM 等方法之網路交易習慣探勘(Web Transaction Usage Mining, WTUM)模式。本模式 為一三層式結構,包含一 WTUM 範疇概念圖、一運作流程機制、以及一 WTUM 分類方 法表,因此具備漸層式架構表達、分層適性的方法應用、完整的應用涵蓋性、可延展性與 可複製性等特性。本研究主要的貢獻在於提供一整合之 WTUM 參考模式,以便讓原先 WUM 或 WTM 方法採用者或研究者,可更有效率地思考 WTUM 在電子商務網站應用研 究中可能的意涵。 關鍵詞:意圖形為、習慣探勘、交易探勘、交易習慣探勘

1. 緒論

網路探勘的目地是將資料探勘技術應用在網際網路資訊的萃取上,其中的網路習慣探 勘(Web Usage Mining, WUM),是針對網站資源被使用的狀況進行採掘,主要用來分析 使用者的行為、興趣、習慣及被瀏覽網頁間的關係[6]。目前 WUM 的式法雖多,大多卻 只對網站日誌檔(log files)中消費者觀看網頁的紀錄進行關連性分析,很少關注在網站中的 商品交易活動。網路交易探勘(Web Transaction Mining, WTM) [9]正是其中之一,WTM 與 其他 WUM 方法最大的不同是在探勘資料來源:WTM 以結合購物商品與購物商品網頁作 為探勘來源,透過關聯法則的挖掘能夠提供網站管理者來判斷使用者在目前的途徑下,下 一步可能會進到哪個網頁去購買其所放置商品。

(2)

WTM[3]的假設之一為:「顧客依序在事先定義好的網站結構中瀏覽網頁,單一網頁安 排單一商品可供購買,顧客透過連結往下瀏覽。除了網站首頁外,其餘網頁皆安置商品供 顧客購買」。然而,觀察網路交易紀錄的產生過程可以發現,大多真實網站中的每個網頁 未必只放置單一的商品,例如有網頁為促銷用途,同時放置多種產品是很常見的。這些真 實網站結構與 WTM 的假設不符,導致實務上無法真正運用 WTM 在交易網站上找出使用 者習慣。除此之外,WUM 雖然能夠探勘出使用者的瀏覽行為,但是由於 WUM 的方法與 種類繁多,例如利用圖形預測[21]、關聯預測[7]或分群預測[18][19]等,網站設計者或經 營者在選擇探勘方法時,很容易會因為不了解各種方法的特性與結果,而降低了 WUM 應 用的績效。 從前文得知,目前 WUM 或 WTM,不論是網站結構假設或是繁雜探勘方法不易使用, 都會使得 WUM 探勘的應用性受到限制。基於上述的議題,本研究希望除了簡單驗證 WTM 網站架構假設的不合理,更希望從真實的典型電子商務網站的結構,探討與交易層次相關 並整合 WUM 方法的一個參考模式,以在整體觀念上提升交易相關的 WUM 探勘實用性。

2. 電子商務網站架構之探討

如果以商品在網站的陳列、購買方式與顧客的瀏覽方式,可將電子商務網站設計方式 [10]分為兩類:第一類是以麵包屑追蹤(Bread Crumb)的方式,如首頁  電腦  顯 示設備 17 吋液晶螢幕,讓購物者知道目前處在哪個商品分類目錄下,同時目錄網頁會 列出許多與此分類下有關的產品讓顧客瀏覽,點選特定項目之後,進入此商品描述網頁並 決定購買與否。第二類則是局步的麵包屑追蹤,其商品在網頁中是以特定項目作相關的產 品清單陳列。顧客可同時挑選許多具有相似性的商品進行批次購買,或者只點選其中某個 商品的超連結,進行單項商品購買。 本研究以國內外著明之購物網站[5][14]為基礎分析,其中中文網站 10 個,英文網站 10 個如表一所示。經過歸納後發現,電子商務網站架構中商品在網頁中的陳列、顧客購 買方式以第一類為居多。這種類別的特性為「不是網站結構中的每一個網頁均有讓消費者 購物的設計,許多網頁主要用來作為提供商品分類資訊、導覽之用,使用者透過連結可以 直接連結到上下層的網頁,也可隨意連結到兄弟節點網頁。」而此類的典型的電子商務網 站設計結構如圖一範例所示,共分為三層:第一層是離首頁較近的幾個個網頁,用來呈現 各種商品分類導覽。使用者進入網站後,有可能會往下或是點選其他同一層的網頁觀看。 我們可以在這一層判斷是何種類型的使用者、是否具有瀏覽、購買動機等。第二層是網站 的主體,用來分門別類的展示網站結構與其中所賣商品,使用者具有動機的觀看商品分類 時,我們可以預測出使用者將會觀看哪些商品的分類,並給其建議。第三層主要是用來提 供交易介面的商品描述網頁,每個特定產品均有其個別的網頁表示,當使用者觀看、購買 某種項目時,我們提供相關的產品建議。

(3)

表一 網站設計方式

英文網站 網站設計方式 中文網站 網站設計方式

Amazon 第一類 PChome Online 線上 購物

第一類

eBay 第二類 Yahoo! 奇摩購物 第一類 Yahoo! Shopping 第二類 美國 Yahoo! 購物頻道 第一類 MSN Eshop 第一類 payeasy.com 第一類 Barnesandnoble.com 第一類 東森購物網路商城 第二類 Dell Computer 第一類 蕃薯藤賣蕃天 第一類 DealTime 第一類 星期壹購物網 第一類 Ticketmaster 第一類 eBay 商店 第一類 Columbiahouse.com 第一類 shopping7 網路購物城 第一類 Wal-Mart Stores 第一類 衣蝶線上購物 第一類 圖一 典型電子商務網站架構 假設今天有一個顧客,他想購買數位像機,會因為超連結產生許多不同的瀏覽路徑, 數位影像 BenQ C40 NIKON BenQ DC3410 首頁 品牌專區 BENQ Nikon CP-4200 第一層 第二層 第三層

(4)

可能為(<首頁><數位影像>{第一層}|< BenQ C40>< BenQ DC3410>{第三層}|<品牌專區 >< NIKON>{第二層}|< Nikon CP-4200>{第三層}|<首頁>{第一層}),或是(<首頁><數位 影像>{第一層}|<品牌專區>< BenQ >{第二層}|< BenQ C40>< BenQ DC3410>{第三層}|< 品牌專區>< NIKON>{第二層}|< Nikon CP-4200>|<首頁>{第一層})。

基於上述典型電子商務網站的三層式結構,本研究希望以 WTM 交易資料來源為中 心,整合其他 WUM 方法,以期建構出一個完整的「網路交易習慣探勘」(Web Transaction Usage Mining, WTUM)概念模式。因此,第三節進行簡要之文獻探討。

3. 文獻探討

網路探勘中的使用者行為、網站設計結構、與探勘方法都會影響所探勘出來的結果。 本節將介紹網站結構對瀏覽行為的影響,接著討論網站架構下的使用者的瀏覽行為,並說 明網路探勘的流程與其中常見的方法。

3.1.使用者行為的探討

本節將依序介紹黏滯度、使用者習慣、興趣程度、瀏覽者目的、意圖瀏覽行為、上網 的行為、消費者意圖來探討可以分析的使用者行為。 黏滯度(Stickiness)是用來評估網站或網頁內容對使用者的吸引程度[13],而黏滯度的 定義:「Stickiness = Frequency * Duration * Total site reach」。其中我們可以看見使用者瀏覽 網站的頻率、使用者在網站所停留的時間以及總使用者到訪頻率是評估網站或網頁黏滯度 的一個重要參考。然而評估一個網頁的黏滯度遠比評估一個網站黏滯度來的更具價值,所 以本研究改以評估網頁內容對使用者的吸引程度。 網頁對使用者習慣的影響是王敏傑[2]所提出的分類方法,判定網頁對使用者是否具 有預先擷取的價值可以利用以下公式:「對使用者的價值(Value) ≡ α * 興趣 + (1-α) * 電網強度」。其中的興趣指的是使用者對該網頁的興趣,近似於使用者在該網頁停留之時 間 ; 電 網 強 度 則 是 使 用 者 對 該 網 頁 的 反 覆 觀 看 次 數 , 近 似 於 網 頁 被 擷 取 之 次 數 (Frequency);α則是一權重參數,介於 0 與 1 之間,用來表示電網與興趣對一個使用者 行為影響的比例。而透過此公式可以判定當使用者在網站看過一些網頁後 ,那些網頁對 使用者的價值。 丁一賢[4]提出使用者興趣程度資料表種種分類方式,是利用網站日誌檔經過計算後, 求出紀錄使用者興使用者興趣程度的衡量趣的資料表。敘述如下:Click 代表的是瀏覽的 路徑總數,本研究視之為點選次數。Size 所代表的是檔案瀏覽路徑的平均檔案大小,int_t 代表的是瀏覽時間的興趣程度,int_c 代表的是以點選次數為主的興趣程度,而 int_bal 則 是代表依瀏覽時間以及瀏覽次數計算出的使用者興趣程度。 表二 使用者興趣的資料表[24] Ysg.yuanta.com.tw_Interest

access Path Time Click Size int_t int_c int_bal

(5)

Cooley et al. [16]提出瀏覽者目的衡量這個概念,他們認為瀏覽者在觀看網頁時,可分 為 Navigation 與 Content purpose 兩類型:Navigation purpose 認為觀看此網頁只是為了找出 連結到他所欲觀看的網頁,這時候在網頁所停留時間通常較短;Content purpose 認為此網 頁是他想看或感興趣的網頁,瀏覽者通常會花較久的時間駐足在此網頁。

蘇育民[3]認為使用者在瀏覽網頁時,會有許多意圖瀏覽行為,像是選感興趣的文字、 另存圖片、捲軸來回等行為,這些行為是 Server 的 Log Files 所無法紀錄的,但是其中可 能潛藏有用的資訊,如果能加以收集、分析,會提升網路探勘的準確性。其中所謂的消費 意圖是消費者對其購買商品的行為意圖,意圖行為則是對其未來行為的一種主觀判斷 [23]。消費者意圖之所以重要,是因為可以作為公司預測消費者將會如何行動的依據、特 定行銷活動、留住顧客的興趣指標。 表三 消費者意圖分類[23] 消費者意圖類型 說明 購買意圖 我們以後會買什麼。例如在未來的一年內,您會不會買電 視 。 再購意圖 認為我們是否預期再購買相同的產品或品牌。例如下次買手 機時,您會購買相同的品牌嗎? 採購意圖 我們計劃到哪裡購買商品。例如您在月底是否會到百貨公司 購買衣服? 支出意圖 我們將願意付出多少錢?例如您願意花1000元購買禮品。 搜尋意圖 收尋商品的意圖。 消費意圖 致力於特定消費活動的意圖。例如花在玩具上的消費。

Booz-Allen & Hamilton 和 Nielsen//NetRagings[22]的市場研究中,將使用者上網的行 為分成 A, B, C, D, E, F, 及 G 七個等級。快速型(Quickies)者大約花費一分鐘去幾個常上的 網站去擷取想要的資訊。只要結果型(Just the Facts) 與快速型差不多,同樣在尋找特定的 資訊,只是觀看網站的時間較久,大約 9 分鐘。任務型(Single Mission)上網是為了完成一 個任務或收及一些資訊,他們約花費 10 分鐘去流覽陌生的網站,在網站上他們只注意單 一的類別。再一次型(Do It Again),停留的時間大約 14 分鐘,95%的人會去觀看至少瀏覽 過 4 次的網站。流浪型(Loitering),花費的時間約為 33 分鐘,最主要拜訪一些他所熟希的” 黏人”網站。資訊型(Information, Please),這類型的人通常花費 37 分鐘去對網站進行深度 的探索以找出其所需的資訊。衝浪型(Surfing),所花費的時間最長,較少停留在熟悉的網 站。同時所觀看的網站數目多,但是較少會去深入網站瀏覽。 在瀏覽行為方面,也有鄭安授[1]針對新聞超媒體,將超媒體使用者的瀏覽行為歸納 5 個類型:(1)目的導向的使用者,使用超媒體的目的在解決問題或尋求答案;(2)探索特 徵的使用者,使用者關注超媒體系統如何運作,從而表現在對超媒體系統環境特徵的探索 上;(3)尋求知識的使用者,這類使用者會注意超媒體系統所提供的知識,瀏覽系統內不

(6)

同主題的訊息,停留時間也較久;(4)漫不經心的使用者,這類使用者漫無目的地在超媒 體系統中瀏覽;(5)追根究底的使用者,這類使用者對超媒體系統這類使用者對超媒體系 統充滿好奇,花費最多時間瀏覽,試圖瞭解系統的全貌。 最後,根據 Li et al.[24]的定義,購物導向是對購物行為的一般傾向(propensity),可以 概念化為特定的生活型態(Life Style),或是更進一步描述為該購物行為傾向帶來的利益。 Li et al.[24] 在此採用 Korgaonkar[25] 的購物導向分類方式 ,把消費者 分成休閒導向 (Recreational)、品牌忠誠導向(Brand-Loyal)、商店忠誠導向(Store-Loyal)、價格導向(Price)、 身心導向 (Psychosocializing)、時間導向(Time)。

3.2. 網路探勘的流程與其中常見的方法

根據 Cooley[20]的觀點,網路探勘的過程可以分為三個階段:(1)Preprocessing:把 Log Files 中的紀錄轉換成有意義的 Session 或是 Episode Files;(2)Pattern Discovery:從 Session 中,利用資料探勘的各種方法,例如關聯法則、分群、序列探勘等,找出使用者 瀏覽網頁的行為樣式;(3)Pattern Analysis:拿(2)中所找出的樣式作分析,像是 OLAP(On-Line Analytical Process)等,以達成個人化網頁或網頁快取等機制。細節一一介 紹如下:

3.2.1. Preprocessing

Session Files:這裡所謂的 Session,是經過資料清除後所產生的的有序集合,裡面包 含了 Session ID、User IP、Page Reference、Time 等。有些學者直接拿 Session 來應用,例 如使用者的分群、網頁分群等。也有些學者認為把 Session 群組化之所後產生的有意義交 易紀錄(transactions),才能從探勘演算法中產出有用資訊。目前所看到的交易紀錄模式 有 Cooley et al.[16]所提出的「Reference Length Module」、「Time Window Modules」與 Chen et. al[8]提出的「Maximal Forward Reference Module」。

3.2.2. Pattern Discovery 與 Pattern Analysis

由於 Pattern Discovery 中分群方法所產生的規則與使用者樣式會在 Pattern Analysis 中 與使用者作運算,因此在此一併討論。本文接著介紹產生規則的方法,像是關聯規則 、 序列型樣、WTM、相依圖形預測瀏與規則分析的方法,像是覽行為發現使用者興趣、網頁 預測使用者行為。 關聯規則(Association Rule):挖掘關聯規則是要找出資料間的相關性,舉一例子說 明如下:床,枕頭→棉被為一關聯規則,其可信度=80%且支持度=30%。其意義為在所有 的交易中,有 30% 的交易會同時購買床,枕頭與棉被。而且在所有購買床與枕頭的交易 中有 80% 會一起購買棉被。當我們提供這樣的資訊給賣場的經營者,他便可依此資訊來 做出新的決策以增加銷售。較著名的研究有 Apriori 演算法[7]等等。

序列型樣(Sequential Patterns):挖掘序列型樣(Mining sequential patterns)的目的是要 從商品交易資料庫中,找出大部份顧客購物的循序行為,也就是頻繁序列。譬如假設對某

(7)

一家大型商場的交易資料庫做分析後,發現一個購買順序為<{原子筆,立可白}{鉛筆盒}> 60% ,這個順序所表示的意義為有百分之 60 的顧客,在同時購買完原子筆和立可白後, 接著在往後購買的商品中會有一個是鉛筆盒[7]。對於序列型樣的相關研究有 Apriori All 與 DHP( Direct Hashing and Pruning)演算法[10]。

WTM 演算法:WTM (Web Transaction Mining)也算是序列型樣的一種變形,是由 Chen and Yun [8][9][10][12]所提出的,WTM 假設如下:「在網站中,顧客依序在事先定義 好的網站結構中瀏覽網頁。單一網頁只安排單一商品可供購買,顧客透過連結往下瀏覽。 而除了網站首頁外,其餘網頁皆安置商品供顧客購買」。WTM 利用 DHP 演算法,找出最 大項的網頁交易紀錄。例如 <A B C E , B{i} ,C{i}, E{i} >,代表的意義為當使用者瀏覽路 徑為 ABCE 時,若其在 B 網頁有購買商品,下一步可能購買商品之網頁為 C 跟 E 網頁。 從瀏覽行為發現使用者興趣:Ting 與 Hung[17]利用分析瀏覽者行為產生個人紀錄檔 ( user profile ), 並 以此作 為 網 站客 制 化 的技 術 。 敘 述 如下 :「 σi = Σj[ σj(Rj)* γ i(Rj)*Aij(pij)] 」,其中σj(Rj)為個人在此網頁的瀏覽時間除以所有使用者平均在此頁的瀏覽時 間所求出使用者對此網頁的興趣程度;γi(Rj)為時間權重,概念為距離上次瀏覽時間越接 近的網頁,對瀏覽者可能較為重要,所以應給予較大的權重;Aij(pij)為關鍵字比例,分析 網頁結構找出關鍵字後,做同義字判斷、過濾,最後求出此網頁特定關鍵字佔總關鍵字的 比例。產生個人紀錄檔後,當有新的文章要被放入新聞首頁時會先與個人紀錄檔做一個比 例的計算,紀錄檔乘以新文章的關鍵字產生的興趣指數越高,會先被放入首頁作為個人化 機制。 以網頁預測使用者行為:王敏傑[2]提出了一個用以預測使用者進一步瀏覽的行為預 測。主要是基於使用者下一步瀏覽的目標,是透過超連結所聯繫而成的。所以假設我們能 比對在超連結附近或超連結所標記的文字,然後與過去使用者已經走過的網頁做一個字詞 相似度的比較,取其權重較大者代表目的網頁與過去網頁最有關係。 以相依圖形預測:Padmanabhan 與 Mogul[21]認為當一個網頁被存取後,在下一個檔 案或網頁即將開啟之前的一段時間內,如果有檔案或網頁被選取,我們就可主觀認定這些 網頁是與上一個以開啟的網頁有關聯,以此我們也能進一步去做路徑的預測式。

Nasraoui 與 Petenes [18]提出一個以 Fuzzy 作為基礎的智慧型預測系統。步驟如下:(1) 首先是資料的預先處理,將 Log Files 轉化成 User Session,內容為網站的所有網頁所構成 的二進位屬性的向量。在向量中若網頁被存取則設定值為 1,否則即為 0。(2)將這些向 量套入 Hierarchical Unsupervised Niche Clustering 演算法進行分群動作。(3)把所有的群 集進行摘要的動作(summarizing)以產生 User Profiles。(4)當瀏覽者瀏覽網頁之後,會 把這位使用者的瀏覽記錄(current user session)利用 Fuzzy 中的 Fuzzy Approximate Reasoning 進行如下邏輯推論: B=A, 。R ,其中輸入的參數 A 為使用者的瀏覽記錄;R 為邏輯運算式,輸出的結果為所推薦的 URL。

Gündüz 與 Özsu [19]提出了一個也是分群的方法,然而這個方法有許多值得一提的地 方。首先他們把 User Session 加入了時間因素,其中 Session 的表示方式為:<t,i(p

1 ti,…p m ti), (T1pti,….T m pti)>,其中 ti為 Session 的編號; p 1 ti 則是在 Session 中使用者依序所瀏覽的

(8)

網頁;T1

pti則為此網頁的標準化瀏覽時間。接下來以 FastLSA sequence alignment[26]的方

法去計算每兩個 Session 之間的相似度,然後以 Session 做為點、相似度作為邊建立一個以 Session 為基礎的圖形(graph),接著把圖形分割成子圖形作為分群。最後利用群集內的 Session 產生點選行為樹(click-stream tree)。以後只要使用者瀏覽過 3 個網頁後,利用預 測機制能從相似度最高的群集中找出最有可能被點選的網頁。

4. 網路交易習慣探勘模式

本研究提出一創新的網路交易探勘模式,讓網站決策者、探勘研究者去思考在網路習 慣探勘的許多方法下,如何結合交易資料來提升探勘的應用價值。對象主要是網站的經營 決策者與系統的開發者兩方,目標在提供雙方一個 WTUM 概念與技術層次的參考模式; 手段上該模式有著易於了解的特性,讓網站的經營決策者與系統的開發者溝通並產生共 識。網站的經營決策者透過交易習慣探勘,幫助其思考作一個商業應用的決策,而系統的 管理者則思索在這概念性的機制中,如何結合有效的探勘方法達成整體配置。 本研究將 WTUM 模式分為三個部份,分別為模式的範疇概念、流程機制、與探勘之 方法分類,目的在於提供一個順序性的概念表達。WTUM 範疇概念展示了 WTUM 模式的 特性與其中 WTM、WUM 在概念上的關聯;流程機制展示了交易探勘的運作方式,在流 程中會依據使用者瀏覽網站每層的特性,分別結合 WTM 的交易資料與 WUM 的各種探勘 方法來產生探勘結果; 探勘方法分類則是提供給開發者在探勘流程中所採用技術之參考。 本節接著介紹 WTUM 的三層式模組的細節如下。

4.1. 網路交易習慣探勘的範疇概念

WTUM 最高層次的範疇概念如圖二所示,整個範圍不超過 WUM 的基本範圍,包含 圖中所示之 WTM 演算法與其它類別的 WUM 演算法。WTUM 目前包括 WTM 與已知可 結合之部份 WUM 方法與類別,例如關聯分析中的序列探勘等。然而, WTUM 的範疇是 具彈性的,未來新發展出來的 WUM 方法或現在並未含括在 WTUM 參考模示內的方法, 只要有適當的整合介面,都可進入 WTUM 的範疇且不違反本參考模示的基本範圍。

(9)

圖二 網路交易習慣探勘範疇概念

4.2.網路交易習慣探勘之流程機制

中間層次的 WTUM 探勘流程如圖三所示,從使用者瀏覽網頁所留下的記錄開始,到 推薦商品類別或推薦特定商品結束,其中包含探勘架構與使用者行為的特性。 使用者瀏覽網頁時所留下的資訊,例如意圖行為、Log Files 中記錄之瀏覽行為、與網 站交易資料庫,理所當然成為探勘流程的資料來源。當使用者剛進入網站瀏覽幾個網頁 時,會進入探勘架構的第一層,此層目的是用購買意圖判斷出具推薦或促銷價值的使用 者,以便做進一步探勘。當使用者沿著連結往下觀看商品分類時,就進入到了探勘架構中 的第二層,此層的目的是藉由使用者交易模組去產生針對商品分類的交易資料,之後再採 取 WUM 的方法預測出使用者將對哪些種類的產品或特定有需求。當使用者對商品感興趣 而點選描述網頁時,就進入了探勘架構中的第三層,此層的目的同樣為推薦出分類商品與 特定商品,但與第二層有許多不同點:第一,此層較針對特定商品,少部分為分類商品; 第二,使用者交易模組會產生針對此層的交易資料。 WTM 方法 關聯分析 路徑分析 其他可能分析 關聯法則 序列探勘 馬可夫預測 網頁分群 其他方法.

.

其他方法.. 其他方法.. 交易網頁 交易商品 其他分析 其他方法二.. 其他方法一.. 可以結合交易資料的 WUM 方法 WTUM 範疇 WUM 其他方法 WUM 方法

(10)

圖三 網路交易習慣探勘之流程機制

4.3.網路交易習慣探勘之方法分類

可在 WTUM 探勘架構中應用的方法如表四所示。其中網站架構中的層級是依據圖一 內典型電子商務網站架構中的層級而來的,第一層與第二層、第二層與第三層、以及第一 ~三層是代表其方法具有跨層級的特性,也是圖三流程機制中 1、2 與 3 所對應到本表方法 之處。表四中採用的方法,大致歸類為資料篩選、路徑預測、使用者分類與交易商品間關 聯。 使用者 購買意圖模組 意圖行為 網站資料庫 Log Files 交易記錄 交易記錄 WUM 方法 推 薦 商 品 類 別 推 薦 商 品 項 目 WUM 方法 使用者交易模組 使用者交易模組

1

2

3

資料來源

(11)

表四 研究架構中相關的方法 網站架構中 的層級 採用的方法 適用的演算法類別 特定的演算法 資料特性 第一層 資料篩選 路徑長度 瀏覽時間、路徑 全部的歷史資料 第一層與第 二層之間 資料篩選 序列探勘 (Sequential Patterns) 瀏覽者目的衡量[16] 全部的歷史資料 網頁分群 黏滯度[13](Stickiness) 目前的資料與全 部的歷史資料 瀏覽行為發現使用者 興趣[17] 目前的資料與全 部的歷史資料 資料篩選 關鍵字萃取 網頁預測使用者行為 [2] 目前的資料與全 部的歷史資料 馬可夫預測式 相依圖形預測[21] 全部的歷史資料 Click-Stream Tree [19] 目前的資料與全 部的歷史資料 第二層 路徑預測 使用者 Session 分群 Fuzzy approximate reasoning [18] 目前的資料與全 部的歷史資料 網頁分群 網頁對使用者習慣的 影響[2] T 中的歷史資料 第二層與第 三層之間 資料篩選 關鍵字萃取 意圖瀏覽行為 [3] 客戶端資料 資料篩選 序列探勘 (Sequential Patterns) 使用者興趣程度的衡 量[4] 目前的資料與全 部的歷史資料 消費者意圖分類[23] 全部的歷史資料 使用者分類 使用者 Session 分群 購物導向[24] 全部的歷史資料 第三層 交易商品間 關聯 關聯法則 (Association Rule) Apriori [7] 全部的歷史資料 使用者上網的行為[22] 全部的歷史資料 第一、二、三 層 使用者分類 使用者 Session 分群 超媒體使用者的瀏覽 行為[1] 全部的歷史資料

5. 模式限制、特性與範例

本研究所提之 WTUM 參考模式,有其限制,亦有其特性,本節將一一說明並舉案例 說明其可能之參考應用方式。

5.1 限制

(12)

WTUM 模式乃依據典型的電子商務交易網站架構所推演出的,未必適合所有的電子 商務網站結構。架構中相關方法的分類,實務上也會因為目的不同而分到不同的階層,例 如表四中的「網頁預測使用者行為」,也可放到第三層。

5.2 特性

WTUM 有漸層表達架構、分層適性的方法應用、應用涵蓋性、可延展性,可擴充性等 特性,說明如下: (1)漸層表達架構 本架構之範疇、機制與方法類別之漸層表達,提供了解其概念由高至低之順序, 並提供網站經營管理者與系統開發者雙方達成共識與各取所需的基礎。例如,網站 經營者與系統管理者必須就模式有所共識,才有可能進行 WTUM 於其電子商務網站 的應用;視網站經營管理者之資訊技術背景,可進一步的建立與系統開發者該機制 運作的共識;而 WTUM 方法類別則提供網站系統開發者,WUM 相關演算法選則之 應用參考。 (2)分層適性的方法應用 利用分層探勘能夠反映真實網站環境而提升應用探勘方法的靈活性與彈性。在 真實的交易環境中,網站結構與內容可能非常複雜,例如網站終端均是商品描述網 頁,其它是分類網頁或網頁互相連結等。此時瀏覽者行為、目的也會隨之有所不同, 採用分層探勘的好處是,使用者可輕易依據網站架構的特性,參照本模式採用不同 的探勘類別與方法。 (2)完整的應用涵蓋性 在典型的電子商務網站架構下,本模式提供了 WUM 各種方法應用的層級與目 的參照表及其相對之流程機制。更甚者,WTUM 模式是一整合性本質,突破了過去 各單一 WUM 方法的限制,可結合網站日誌檔、意圖行為與與交易商品,提供 WUM 方法中所有可能情境的整合應用。 (3)可延展性

WUM 現在未含括在 WTUM 方法表或未來新的方法,本模式的最高層次 WTUM 範疇圖中顯示,均可成為 WTUM 參考模式所含括之標的物。因此,本參考模式本身 是可彈性動態調整以因應所有 WUM 內可能的變化。 (4)可複製性 雖然本研究乃依據典型電子商務交易網站的架構,推導出本 WTUM 參考模式。 但在最高層次 WTUM 範疇圖的範圍下,三層是模式可輕易複製,並針對非典型電使 商務網站架構的特性,修改而成適合之參考模式。因此,本參考模式是一良好之樣 板模式,可供其它特定網站結構快速參考修改的。

5.3 案例說明

案例一,假設網站決策者想知道顧客瀏覽種類的產品,最後可能會看哪些種類的產 品。根據 WTUM 範疇概念,網站決策者可決定採用路徑分析來解決問題; 接著在 WTUM

(13)

流程機制中,發現 Log Files 中可能無實際交易記錄,所以採取意圖行為作為資料來源。 經過網站結構第一層時,利用瀏覽時間來判定有購買動機後,接著進入第二層使用者交易 模組中來以意圖行為產生交易記錄,必須參考表四找尋相關的方法。網站決策者和開發者 共同選擇網頁預測使用者行為[2]的方法來找出交易商品。第三層中先前決定採路徑分析 的 WUM 方法做探勘,亦即決定採用表四的 Click-Stream Tree[19]方法。經過上述網站經 營者與開發者如圖四的協立決策過程,其電子商務網站經實施後,便可達到探勘顧客可能 觀看的商品種類的預測。詳細的過程,見圖五。 案例二,假設今天網站決策者想要知道特定商品之間的關聯:在 WTUM 範疇中,網 站決策者可採取關聯分析;接著觀看 WTUM 流程機制,在網站架構第一層中,可以採用 瀏覽者目的衡量[16]的方式在資料庫中刪除瀏覽時間較低的同種類商品項目,接著進入第 三層的使用者交易模組中來產生交易資訊。最後並參考表四的分類方法,利用關聯法則[7] 找出購買商品之間的關聯。詳細的過程,見圖四。

6. 結論

本研究目的在提出一個適用於典型電子商務網站架構的網路交易探勘模式,透過模式 中的概念範疇、探勘流程與本研究所彙整的探勘方式,能讓網站決策者思考其適合的探勘 方式而與技術開發人員討論其細節。因本研究模式在實務上,具有可延展性、可複製性的 特色,能夠有彈性的被廣泛採用到典型的交易網站中而提升應用決策之品質與效率。本研 究後續工作,將以一實驗網站進行參考模式之決策過程描述、線上 WTUM 資料的蒐集、 WTM WUM-關聯分析 購買意圖模組 使用者交易模組 WUM 方法 瀏覽者目的衡量 關聯法則

WTUM 範疇 WTUM 流程 WTUM 架構中方法

圖五 案例二參考決策流程 WTM WUM-路徑分析 購買意圖模組 使用者交易模組 WUM 方法 瀏覽時間 網頁預測使用者行為 Click-Stream Tree 圖四 案例一參考決策流程

(14)

後端 WTUM 資料的探勘應用、以及線上即時探勘規則的應用與其績效分析,以實證本 WTUM 參考模式之可行性。

參考文獻

[1] 鄭安授,「電子報使用者瀏覽行為之描繪—以交大學生為例」,國立交通大學傳播所 碩士論文,民90年。 [2] 王敏傑,「一個針對快取以使用者行為為基礎之預先擷取機制」,國立交通大學資訊管 理研究所碩士論文,民 91 年。 [3] 蘇育民,「意圖瀏覽行為分類與線上蒐集機制之初探」,義守大學資訊工程系碩士論文, 民 92 年。 [4] 丁一賢,「運用網頁探勘為基礎的個人化技術於網路廣告之探討」,國立彰化師範大學 資訊管理學系碩士論文,民 91 年。 [5] 黃 俊 德 ,「 網 路 購 物 」, 創 市 際 市 場 研 究 顧 問 , InsightXplorer Limited, http://www.insightxplorer.com/epaper/epaper_shopping0729.html,2004。

[6] Cooley R., B. Mobasher, and J. Srivastava, “Web Mining: Information and Pattern Discovery on the World Wide Web”, in Proceedings of the 9th IEEE International

Conference on Tools with Artificial Intelligence, Newport Beach: IEEE Computer Society,

pp.558-567, 1997.

[7] Agrawal, R., T. Imielinski, and A. Swami, “Mining AssociationRules between Sets of Items in Large Databases,”In Proceedings of ACM SIGMOD, pp.207–216, May, 1993.

[8] Chen, M. S., J. S. Park and P.-S. Yu, ”EfficientDataMining forPath TraversalPatterns,”

IEEE Transaction on Knowledge and Data Engineering, 10(2), pp.209-211, April, 1998.

[9] Chen, M.S. and C.H. Yun, ”Mining Web Transaction Patternsin an ElectronicCommerce Environment,”in Proceedings of the 4th Pacific-Asia on Knowledge Discovery and Data

Mining, April 18-20, pp.216-219, 2000.

[10] Chen, M.S., J.S. Park and P.S. Yu, “An Effective Hash-Based Algorithm for Mining Association Rules”, In Proceedings of ACM SIGMOD, 24(2), pp.175-186, 1995.

[11] Ranieri, B. and P. Palmerini, “SUGGEST: A Web Usage Mining System,”in Proceedings of the International Conference on Information Technology: Coding and Computing

(ITCC.02), 8-10, ppt.282-287, April, 2002.

[12] Yun, C. H. and M. S. Chen, ”Using pattern-join and purchase-combination for mining transaction patterns in an electronic commerce environment,”The 24th Annual International

Conference on Computer Software and Applications, Taipei, Taiwan, pp.99-105, 2000.

[13] Jan, K., V. Koen, and P. Danny, “Web UsageMining onProxy Servers:A CaseStudy”,In Proceedings of Data Mining for Marketing Applications Workshop at ECML/PKDD, September 3-7, Freiburg (Germany), 2001.

(15)

http://www.clickz.com/stats/markets/retailing/article.php/1501381.

[15] Russell, M. C., Fortune 500 Revisited: Current Trends in Sitemap Design. Usability News 4.2. Available at http://psychology.wichita.edu/surl/usability_news.html, Downloaded on October, 2002.

[16] Cooley, R., B. Mobasher, and J. Srivastava, "Grouping Web page references into transactions for mining World Wide Web browsing patterns", in Proceedings of Knowledge

and Data Engineering Exchange Workshop, California, Nov 4., 1997.

[17] Liang, T.-P. and H.-J. Lai, "Discovering User Interests from Web Browsing Behavior: An Application to Internet News Services", in Proceedings of the 35th Hawaii International

Conference on System Sciences, 2002.

[18] Nasraoui, O. and C. Petenes, "An intelligent Web recommendation engine based on fuzzy approximate reasoning", The 12th IEEE International Conference on Fuzzy Systems, Volume: 2, pp.1116 –1121, May 25-28, 2003.

[19] Gündüz, Ş.and M. T. Özsu, "A Web page prediction model based on click-stream tree representation of user behavior", in Proceedings of the ninth ACM SIGKDD international

conference on Knowledge discovery and data mining, pp.535-540, 2003.

[20] Cooley, R., "The use of web structure and content to identify subjectively interesting web usage patterns", ACM Transactions on Internet Technology (TOIT), Vol. 3, No. 2, pp.93–116, May, 2003.

[21] Padmanabhan,V.and J.Mogul,“Using PredictivePerfecting to ImproveWorld WideWeb Latency”, ACM SIGCOMM Computer Comm. Rev., vol. 26, no. 3, July 1996.

[22] Booz-Allen & Hamilton and Nielsen//NetRatings,“Seven DegreesofInternetSurfing”,

By Michael Pastore, April 2, 2001,

http://www.clickz.com/stats/big_picture/traffic_patterns/print.php/731421 .

[23] Blackwell, R. D., P. W. Miniard and J. F. Engel,“Consumer Behavior,”Harcount,Inc.,

9th, Thomson Learning, 2001.

[24] Li, Hairong, C. Kuo, and M. G.Russell,“TheImpactofPerceivedChannel Utilities, Shopping Orientations,and Demographicson theConsumer’sOnlineBuying Behavior,”

Journal of Computer-Mediated Communication, 5(2), Accessed March 15, 2000.

[25] Korgaonkar, P. K.,“Shopping Orientations,Importance of Store Attributes, Demographics and StorePatronage,” Akron Business an Economic Review, 12(4), 200, pp.34-38, 1981.

[26] Cahrter, K., J. Schaeer, and D. Szafron, "Sequence alignment using fastlsa", In

Proceedings of the International Conference on Mathematics and Engineering Techniques in Medicine and Biological Sciences, Las Vegas, Nevada, pp 239-245, June, 2000.

參考文獻

相關文件

第五章 多項式.

Red, white and brown 是典型 Mark Rothko

介面最佳化之資料探勘模組是利用 Apriori 演算法探勘出操作者操作介面之 關聯式法則,而後以法則的型態儲存於介面最佳化知識庫中。當有

由於本計畫之主要目的在於依據 ITeS 傳遞模式建構 IPTV 之服務品質評估量表,並藉由決

結構方程模式 (structural equation modeling;簡稱 SEM) 在管理、教育與心理等社會 科學領域可以說是當代最盛行的統計方法典範,尤其是心理測驗領域,SEM 可以說 是主流技術,在

解決方案:取出圖表說明並開啟原始的 PDF 檔供使用者瀏覽 利用資料庫語法來可得知圖表所在的位置,因此可使用 adobe acrobat 函式庫中的

則巢式 Logit 模型可簡化為多項 Logit 模型。在分析時,巢式 Logit 模型及 多項 Logit 模型皆可以分析多方案指標之聯合選擇,唯巢式 Logit

在商學與管理學的領域中,電子化普遍應用於兩大範疇:一 是電子商務(E-Commerce),另一個為企業電子化(E-Business)。根 據資策會之 EC