• 沒有找到結果。

第二章 相關研究

2.1 推薦機制

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

第二章 相關研究

本研究的目的是在對線上分析處理 (On-Line Analytical Processing,OLAP)系統的使用者 行為進行分析,經由推薦輔助系統提升企業在於商業智慧專案的推廣。研究的過程中,

參考的觀念技術包含在 OLAP 上的使用者行為預估[9][13]與推薦技術[17][19][21]、網頁 推薦機制[12]與資料探勘[6][14]等;此外,我們也會利用社群網絡分析(Social Network Analysis,SNA)的技術[15][16],依據使用者在 OLAP 系統上操作的相似度,將一個大網 絡分割為多個同質的凝聚子群,並且識別每個人在各社群中的專家程度,並且反應至推 薦系統的加權係數中,以提昇推薦的精確度;後續我們將對這些相關研究作進一步的探 討。

2.1 推薦機制

日常生活中我們在做決定時,通常會參考外部的建議後,才做出最後的選擇;舉例來說,

在決定看哪部電影或者是買甚麼車時,我們可能會上搜尋引擎查詢別人的評價或者是參 考此領域專家的文章,而做出最適當的決定。不過當能參考的資訊過多的時候,反而不 知道哪些資訊是有效,也因此有許多技術與研究用來協助我們在巨量資料中取得所需的 資訊,而推薦機制就是其中一個經常被使用的輔助方式。一般的推薦機制主要是以資訊 過濾為基礎,利用歷史經驗來分析使用者的行為模式,進行喜好的預測來降低資料過載 的情形。在一個推薦系統中,將會依據使用者的操作習慣,協助使用者在眾多物件篩選 出候選的物件,然後推薦符合使用者需要的資訊。一般的推薦系統主要分為三種類型:

 內容式資訊過濾推薦系統 Content-Based Filtering Systems

 協同式資訊過濾推薦系統 Collaborative Filtering Systems

 混合式資訊過濾推薦系統 Hybrid approaches

不同的推薦系統著重於解決不同的推薦問題,而相關研究的探討範圍包括:資料取 得的方式、推薦系統的應用領域、推薦方法的革新等。下面將個別作說明:

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

 內容式資訊過濾(Content-based Filtering)[9][20]:系統首先會收集使用者資訊,

像是該使用者曾經瀏覽過的網頁及這些網頁的屬性(例:關鍵字或類型等),並 分析過去使用者的資訊,每個項目皆會有屬於自己的屬性標籤,而所有項目集 合起來就是一個使用者的喜好主檔。在進行推薦的時候,我們會依據各項目相 對於使用者的主檔資訊作匹配,判斷哪個項目最適合做為推薦。此過濾方式通 常運用文件自動分類的方法,並適合用在處理半結構化的文件上,且最常被使 用在有限屬性的項目上,像是書籍與電影上。

 協同式資訊過濾(collaborative Filtering)[5][7]:依據擁有共同經驗之群體的喜好,

來推薦使用者感興趣的資訊。利用合作的方式提供個人對於資訊的評分,而評 分不一定只能侷限於感興趣的部分,不感興趣資訊的部分也相當重要。此方式 在進行推薦時,首先依據使用者對於項目的評比建置使用者的主檔,然後利用 統計或者是機器學習的方式來建立各使用者所屬的群集,我們稱之為「最同好 群(Nearest Neighbors)」,最後藉由同好群集內的成員所喜好的項目作推薦,

過程中會結合權重的觀念來產生有順序的推薦項目。

 混 合 式 資 訊 過 濾 (Hybrid approaches) : 結 合 Content-based Filtering 與 collaborative Filtering 兩種方式,即本研究採行方式。

在本研究中,我們將會利用內容式資訊過濾的方式,找出相似度一致的項目做為推薦的 候選項目;此外我們在協同過濾上我們將會利用社群網絡分析的技術,對使用者進行同 質資訊需求的分群取代一般的個人背景與使用者喜好的收集,我們將會找出候選項目中 哪幾個項目,在相同子群內的使用頻率或使用人次最高做為推薦的標的。下列我們將先 介紹幾個在 OLAP 推薦上相關的研究,後續將會對社群網絡分析上的相關研究作說明。

2.1.1 OLAP 推薦機制

線上分析處理 (On-Line Analytical Processing,OLAP)是一種提供使用者存取資料倉儲的 前端應用,協助決策者快速且有效率的從巨量資料中取得決策所需的資訊。藉由資料模 型(Cube)的建置,提供決策者可以利用多維度的觀點,依據不同的主題與面向來對資料 進行分析。在資料操作上,利用維度階層上向下探勘(Drill-Down)與向上彙總(Roll-Up)

 維度(Dimension):檢視一個問題時所用的分析面向,如時間、區住地與學歷等,

通常都是描述性的項目。而維度的使用方式又分為報表維度與條件式維度。報 表維度指的是我們一般放置於報表的行列資訊,主要是用來呈現此維度各成員 的量值彙總資訊,提供的操作方式包含鑽研(Drill-Down 與 Roll-Up)與樞紐 (Pivot)等。而條件式維度,主要是用來界限報表呈現的內容,例如檢視 2009 年北美的銷售數字中的『2009 年』與『北美』,主要的操作方式是切面(Slice)。

在 Carsten Sapia(1999)的研究[9]中,作者利用內容式資訊過濾(Content-based Filtering) (Balabanovic & Shoham, 1997) 方式做使用者行為的預測,Carsten Sapia 認為 OLAP 系統 上每一個查詢都代表著一種商業問題,而在相似商業的問題處理時會有相似的模式 (Patterns)。因此他將 OLAP 上的操作(MDX 查詢語句)正規化為集合的表示式,做為此查 詢的 Query Prototype。作者將正規化後的集合,經由『維度的層級(Level)差異』與『維 度的功能(Result 或 Selection Dimension)』兩個面向,計算兩個查詢語句的相似度。最後 再以相似度的判斷結果,預測該使用者下一步操作。不過在此研究中,存在因忽略認同 度而產生『最相似的查詢等同是最適合推薦的項目』的錯誤,單純以資料本身的相似度 作為判斷,有可能此查詢本身是錯的,但只因它最相似而誤認為最適項目。因此在本研 究中會先以相似度高低找出候選的項目,然後進行認同度進行投票後,找出最適合的推 薦項目來改善此問題。

在 Chen & Hsu (2008)的研究[20]中,作者進行生手推薦機制、老手推薦機與分群推 薦機制的比較。作者認為 OLAP 系統上的使用者應該有生手與老手間之分,生手在此研

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

究中將考慮在所有的使用者的操作紀錄,計算出使用頻率最高的三個項目進行推薦。但 隨著使用者在系統操作經驗的累積,使用者在系統上的推薦需求反而是以往不曾使用過 的項目,以提升使用者對於系統功能的使用率。作者利用 K-Means 分群演算法依據使用 者行為的相似性進行分群,提升推薦分析資料的精確度。

不過此研究主要是推薦各個 Cube 使用頻率最高的前三名項目,不過實際上 OLAP 系統的操作是一個序列的操作,需要經由多個相關的項目組合才能取得一個有效的結果。

但是在同一個 Cube 上使用頻率最高的三個項目組合起來,絕大部分不會是我們問題解 決所需的資訊,因此在本研究中,我們依據使用者當下的操作內容的相似度判斷,並且 整合社群關係的推薦機制來找出最適合的推薦項目。

2.1.2 網頁推薦機制

隨著網際網路的發展與網路頻寬的普及,人們可以快速獲取所需資訊的管道日益擴增。

但伴隨著網站數目大幅度的成長,如何在巨量資源中找到有價值的資訊就變成最迫切的 議題;也因有搜尋引擎的發明,藉由關鍵字的查詢有效的縮小資料範圍。搜尋的過程中,

使用者會輸入所需資訊的關鍵字,但由於網路資源實在太多,且單一關鍵字通無法明確 描述出真的資訊需求。因此搜尋引擎查詢的過程中,通常會藉由演算法計算各頁面符合 的機率並且排序後呈現結果,避免查詢的結果發生方向偏離的情況。

使用者評分(User Rating)的方式是一種經常見的推薦方式,是以使用者的角度來 進行推薦。藉由使用者上傳對於各項目的評分後,經由公式的計算統計評分的結果。像 是雅虎拍賣網站,在每次交易後讓買家與賣家互相評分,協助後續其他人在交易時很容 易知道對方的信任評分。但是此種方式僅限於在於票選項目很少的時候,才可以讓使用 者對於全部項目進行評分,然後再依據評分結果進行推薦。但在網際網路這樣可能的候 選項目是幾千幾萬個的情況下,要讓使用者對於每個項目進行評分幾乎是不可能。因此,

就有許多論文研究各種演算法,依據使用者的歷史操作紀錄,模擬每個人對於各網頁的 喜好進行評分,最後再依據統計的結果進行推薦。

2.1.3 Page Rank 演算法

由 Google 創始人 Brin 和 Page (1998)所提出的 Page Rank[11]便是其中最為著名的一個評 分演算法,此方法將查詢結果依據實用性作為排名的一個主要因素,用以表現網頁的相 在以 Session 為導向[10]的特性(Newman, 2006);因此我們在設計 OLAP 推薦輔助機制上 亦可參考 Page Rank 演算法中的兩個特性,可以透過鏈結關係進行認同投票,將同情境 下操作人次最多的項目視為最適合推薦的標的,此外我們亦會依據每個人的老手程度,

對使用者的認同票進行加權,用以取代以往一人一票的方式。

相關文件